数据压缩作业三:非结构化数据
作者:互联网
非结构化数据
非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
非结构化数据包含了文本、图象、声音、影视、超媒体等典型信息,在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施,将会有越来越多的非结构化数据产生,据预测,非结构化数据将占据所有各种数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展,已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式,表示灵活,蕴含了丰富的信息。因此,综合看来,在大数据分析挖掘中,掌握非结构化数据处理技术是至关重要的。
由于非结构化数据文件数量过多,过大;非结构化数据归集检索调取效率低;传统架构无法按需弹性配置存储空间
处理非结构化数据
(1)Web页面信息内容提取;
(2)结构化处理(含文文本的词汇切分、词性分析、歧义处理等);
(3)语义处理(含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等)
(4)文本建模(含向量空间模型、主题模型等)
(5)隐私保护(含社交网络的连接型数据处理、位置轨迹型数据处理等)
(资料均来源于网络)
标签:结构化,作业,相关度,信息内容,数据处理,文本,数据,数据压缩 来源: https://blog.csdn.net/weixin_43503346/article/details/117520689