非结构化数据是一个Oxymoron
作者:互联网
严格来说,“非结构化数据”是一个矛盾。数据必须具有易于理解的结构。通过“非结构化数据”,人们通常指的是具有非表格结构的数据。
表格数据 是表格中的数据。每行对应一个主题,每列对应一种测量。这是最容易使用的数据。
非表格数据 可能意味着除表格数据之外的任何其他数据,但在实践中它通常意味着 文本,或者它可能意味着具有 图形结构 或某种其他结构的数据。
更富有成效的讨论
我的观点不是对语言的使用进行狡辩,而是提出一个建设性的建议: 说明结构数据有什么,而不是它没有的结构。
关于“非结构化数据”的讨论通常是徒劳的,因为两个人可以使用这个术语,它有两个不同的含义,并认为它们是不一致的。也许一位高管和销售代表握手达成一项并非真正达成协议的协议。
最终,必须讨论结构数据实际上具有什么,而不是它缺乏什么结构,以及该结构可被利用的程度。尽快进行讨论可以节省很多钱。
自由文本字段
一种形式的“非结构化”数据是自由文本字段。这些字段不是没有结构的。它们通常包含散文,用特定语言编写,或者至多包含少量语言。那是一个开始。从上下文应该有一个更可利用的结构。该文本是病理报告吗?Facebook状态?法律意见?
客户端将询问如何取消标识自由文本字段。你不能。如果文本是真正 自由的,那么根据定义它可以是任何东西。但是如果有一些已知的结构,那么可能有一些实用的方法来匿名化数据,特别是如果有一些容错的错误。
例如,程序可以搜索并掩盖可能的名称。这样的程序会找到“伊丽莎白”但可能找不到“女王”。因为只有几个皇后[1],这将是一个隐私泄露。此类软件也会产生误报,例如掩盖女王伊丽莎白二世的远洋班轮的名称。[2]
笔记
[1]维基百科目前的主权君主名单中仅列出了两名女性,即英国女王伊丽莎白二世和丹麦女王玛格丽特二世。
[2]该船,也称为QE2,是伊丽莎白二世女王,而君主是女王伊丽莎白二世。
标签:结构化,表格,伊丽莎白,Oxymoron,文本,数据,结构 来源: http://blog.51cto.com/14009535/2346658