编程语言
首页 > 编程语言> > php-智能地抓取第一段/开始的文字

php-智能地抓取第一段/开始的文字

作者:互联网

我想要一个可以在其中输入URL的脚本,它将智能地抓住文章的第一段…除了从< p>中提取文本外,我不确定从哪里开始.标签.您知道有关如何进行此类操作的任何提示/教程吗?

更新

为了进一步说明,我正在网站的一部分中,用户可以在Facebook上提交链接,该链接将从网站上获取图片以及文字.我正在使用PHP并试图确定执行此操作的最佳方法.

我之所以说“智能”,是因为我想尝试在该页面上获取重要的内容,不仅是第一段,而且是最重要内容的第一段.

解决方法:

如果您要获取的页面是外国页面,或者即使是本地页面,但您事先都不知道其结构,那么我想说,实现这一目标的最佳方法是使用php DOM functions.

function get_first_paragraph($url)
{
  $page = file_get_contents($url);
  $doc = new DOMDocument();
  $doc->loadHTML($page);
  /* Gets all the paragraphs */
  $p = $doc->getElementsByTagName('p');
  /* extracts the first one */
  $p = $p->items(0);
  /* returns the paragraph's content */
  return $p->textContent;
}

标签:data-mining,php,regex
来源: https://codeday.me/bug/20191105/1995768.html