其他分享
首页 > 其他分享> > Elasticsearch全文检索入门一

Elasticsearch全文检索入门一

作者:互联网

一、信息检索概述

1、信息过载

据百度百科介绍,信息过载是指社会信息超过了个人或系统所能接受、处理或有效利用的范围,并导致故障的状况。

信息过载有以下3个特点

(1)受传者对信息反映的速度远远低于信息传播的速度; (2)大众媒介中的信息量大大高于受众所能消费、承受或需要的信息量; (3)大量无关的没用的冗余的数据信息严重干扰了受众对相关有用信息的准确性的选择。

2、信息过载的原因

随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量,并推动着我们走向一个深度变革的时代。

据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB,相当于每天产生491EB的数据。那么175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。目前美国的平均网速为25Mb/秒,一个人要下载完这175ZB的数据,需要18亿年。

 

 

 这些飞速增长的数据造成了数据过载的原因,所以我们处在一个数据时代,也是一个数据过载的时代

3、大数据的特点(IBM提出)

大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

一、Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

二、Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

三、Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

四、Velocity:数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

五、Veracity:数据的准确性和可信赖度,即数据的质量。

4、信息检索定义

信息资源总量呈爆炸式增长,在信息的海洋里获取想要的信息变得更加困难。为了解决信息过载的问题,无数科学家和工程师提出了很多天才的解决方案。其中最具代表性的就是分类目录和搜索引擎

分类目录:分类目录是将网站信息系统地整理,提供一个按类别编排的网站目录,在每类中排列着属于这一类别的网站站名、网站链接、内容提要、以及子分类目录,可以在分类目录中逐级浏览寻找相关网站,分类目录中往往还提供交叉索引,从而可以方便地在相关的目录之间跳转和浏览。例如新浪,搜狐,网易等,都是将不同来源的信息以一种整齐划一的形式整理、存储并呈现给客户,用户根据信息来源,信息类型,关键字等方式筛选网站内容。

搜索引擎:搜索引擎是指自动从因特网搜集信息,经过一定整理后,提供给用户进行查询的系统。例如:百度搜索、360搜索、搜狗搜索等

5、信息检索常用术语

信息检索领域有一些常用的术语,深刻理解这些术语对入门信息检索非常有必要

6、信息检索系统

一个完整的信息检索系统的基本架构图如下所示。信息检索系统可以分为信息采集、信息整理、和用户查询3部分

 

 

信息采集:信息采集基本都是通过网络爬虫自动完成的。

整理信息:信息检索系统整理信息的过程称为索引构建。

用户查询:用户想信息检索系统发出查询请求,信息检索系统接受查询并向用户返回检索到的文档

<style></style>

标签:入门,数据,信息检索,信息,单词,全文检索,文档,Elasticsearch,词项
来源: https://www.cnblogs.com/huanmin/p/11715250.html