首页 > 其他分享> > 数据压缩作业三：非结构化数据

数据压缩作业三：非结构化数据

2021-06-03 14:34:01 作者：互联网

非结构化数据

非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
非结构化数据包含了文本、图象、声音、影视、超媒体等典型信息，在互联网上的信息内容形式中占据了很大比例。随着“互联网+”战略的实施，将会有越来越多的非结构化数据产生，据预测，非结构化数据将占据所有各种数据的70-80%以上。结构化数据分析挖掘技术经过多年的发展，已经形成了相对比较成熟的技术体系。也正是由于非结构化数据中没有限定结构形式，表示灵活，蕴含了丰富的信息。因此，综合看来，在大数据分析挖掘中，掌握非结构化数据处理技术是至关重要的。
由于非结构化数据文件数量过多，过大；非结构化数据归集检索调取效率低；传统架构无法按需弹性配置存储空间

处理非结构化数据

（1）Web页面信息内容提取；

（2）结构化处理（含文文本的词汇切分、词性分析、歧义处理等）；

（3）语义处理（含实体提取、词汇相关度、句子相关度、篇章相关度、句法分析等）

（4）文本建模（含向量空间模型、主题模型等）

（5）隐私保护（含社交网络的连接型数据处理、位置轨迹型数据处理等）

（资料均来源于网络）

标签：结构化,作业,相关度,信息内容,数据处理,文本,数据,数据压缩
来源： https://blog.csdn.net/weixin_43503346/article/details/117520689