首页 > 其他分享> > (转载)文本挖掘的分词原理

(转载)文本挖掘的分词原理

2022-07-09 09:02:52 作者：互联网

前言

在做文本挖掘的时候，首先要做的预处理就是分词。

无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。

现代分词都是基于统计的分词，而统计的样本内容来自于一些标准的语料库。假如有一个句子：“小明来到荔湾区”，我们期望语料库统计后分词的结果是："小明/来到/荔湾/区"，而不是“小明/来到/荔/湾区”。那么如何做到这一点呢？

从统计的角度，我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说，如果有一个句子S,它有m种分词选项如下：

标签：...,文本,小明,语料库,句子,空格,转载,分词
来源： https://www.cnblogs.com/zjuhaohaoxuexi/p/16460116.html