其他分享
首页 > 其他分享> > 1.文本摘要和信息提取

1.文本摘要和信息提取

作者:互联网

1.文本摘要和信息提取

文本摘要和信息提取处理试图充巨大的文本语料库中提取关键的重要概念和主题,本质上是在此过程中对它们进行缩减。在深入了解概念和技术之前,应该先了解对文本概要的需求。信息过载(information overload)的概念是文本摘要需求背后的主要原因之一。

由于印刷和口头媒体占据主导,有了大量的书籍、文章、音频和视频。这一切在公元前三或四时机就开始了,当时人们查阅大量的数据,因为书籍的产生似乎没有尽头,而且这种信息的过载常常遭遇到反对。文艺复兴使其,大约在公元 1440 年 Guenberg 发明了印刷术,使书籍、文稿、文章和小册子得以大量生产。这大大增加了信息过载,为此学者控诉;额这样的信息过剩情形,它使信息变得非常难以使用、处理和管理。

在 20 世纪,计算机和技术的进步迎来了数字时代,并最终产生了互联网。互联网为社会媒体、新闻网站、电子邮件、即时通信功能开启了充满生产和消费信息的各种可能性的窗口。反过来这又导致了信息量的爆炸式增长和不需要的垃圾邮件信息、无用的状态和推文——乃至导致在网络上发布更多不重要的内容。

那么,信息裹扎就意味着存在过多的数据或信息,消费者在作出知情决策会觉得难以处理。一旦系统输入的信息量超过系统的处理能力时,便会发生过载。人类具有有限的人之处理能力,并且还以这样一种方式进行连接,因为思维常常会随时徘徊游离,是的我们不能花很长时间来阅读单个的信息或数据。因此,当获得信息后做错决定性策略时信息会减少。

到目前为止可能已经才到会在哪里用到这个概念以及为什么需要总结和提取信息。企业在作出关键和明智的决策时会蓬勃发展,通常它们拥有大量的数据和信息。但从中获得洞察力不是一件非常容易的事情,因为往往不清楚所有数据的处理方式,所以自动化是困难的。管理人员很少有时间听长篇大论,或者浏览重要事件的重要信息页面。摘要和信息提取的思想史得到大量信息文档的重要论题和主题,并将其总结为可以轻松阅读、理解和解读的简短内容,从而简化了在更短的时间内作出良好决策的过程。

需要能对文本数据执行此操作的有效和可扩展的流程和技术、而最流行的技术是 关键短语提取(keyphrase extraction)、主题建模(topic modeling)和 自动文档摘要(automated document summarization)。前两种技术技术更多的是从文档中以概念、标题和主题的形式提取关键信息,从而可以缩略文档;最后一种技术是将大文本文档总结成竖行,从而提供该文件正在试图传达的关键内容或信息,现在将简要介绍一下每一种技术所涉及的要求及其范围:

标签:语料库,摘要,信息,概念,文档,信息提取,文本
来源: https://www.cnblogs.com/dalton/p/11353971.html