其他分享
首页 > 其他分享> > (转载)英文文本挖掘预处理流程总结

(转载)英文文本挖掘预处理流程总结

作者:互联网

原地址

目录

英文文本挖掘预处理特点

英文文本的预处理方法和中文的有部分区别。首先,英文文本挖掘预处理一般可以不做分词(特殊需求除外),而中文预处理分词是必不可少的一步。第二点,大部分英文文本都是uft-8的编码,这样在大多数时候处理的时候不用考虑编码转换的问题,而中文文本处理必须要处理unicode的编码问题。这两部分我们在中文文本挖掘预处理里已经讲了。

而英文文本的预处理也有自己特殊的地方,第三点就是拼写问题,很多时候,我们的预处理要包括拼写检查,比如“Helo World”这样的错误,我们不能在分析的时候讲错纠错。所以需要在预处理前加以纠正。第四点就是词干提取(stemming)和词形还原(lemmatization)。这个东西主要是英文有单数,复数和各种时态,导致一个词会有不同的形式。比如“countries”和"country","wolf"和"wolves",我们期望是有一个词。

后面的预处理中,我们会重点讲述第三点和第四点的处理。

标签:编码,中文,文本,英文,挖掘,转载,预处理
来源: https://www.cnblogs.com/zjuhaohaoxuexi/p/16462967.html