php-智能地抓取第一段/开始的文字
作者:互联网
我想要一个可以在其中输入URL的脚本,它将智能地抓住文章的第一段…除了从< p>中提取文本外,我不确定从哪里开始.标签.您知道有关如何进行此类操作的任何提示/教程吗?
更新
为了进一步说明,我正在网站的一部分中,用户可以在Facebook上提交链接,该链接将从网站上获取图片以及文字.我正在使用PHP并试图确定执行此操作的最佳方法.
我之所以说“智能”,是因为我想尝试在该页面上获取重要的内容,不仅是第一段,而且是最重要内容的第一段.
解决方法:
如果您要获取的页面是外国页面,或者即使是本地页面,但您事先都不知道其结构,那么我想说,实现这一目标的最佳方法是使用php DOM functions.
function get_first_paragraph($url)
{
$page = file_get_contents($url);
$doc = new DOMDocument();
$doc->loadHTML($page);
/* Gets all the paragraphs */
$p = $doc->getElementsByTagName('p');
/* extracts the first one */
$p = $p->items(0);
/* returns the paragraph's content */
return $p->textContent;
}
标签:data-mining,php,regex 来源: https://codeday.me/bug/20191105/1995768.html