python-检测外来词
作者:互联网
我正在编写一个脚本来检测语言A中来自语言B的单词.这两种语言非常相似,并且可能具有相同单词的实例.
如果您对到目前为止的内容感兴趣,可以在这里找到代码:
https://github.com/arashsa/language-detection.git
我将在这里解释我的方法:
我用语言B创建了一个双元组列表,使用语言A创建了一个双元组列表(语言B中的小语料库,语言A中的大语料库).然后,我删除所有常见的二元组.然后,我浏览了语言A中的文本,并使用双字母组检测了语言A中的文本并将它们存储在文件中.但是,此方法找到了两种语言都通用的许多单词,并且还发现了奇怪的二元组,例如彼此相邻的两个国家的名称以及其他异常情况.
你们有没有建议,阅读材料以及我可能会使用的NLP方法?
解决方法:
如果您的方法返回的是两种语言中存在的单词,而您只想返回一种语言中存在的单词,则可能要创建一个语言A的一克列表和语言B的一克列表,然后删除在两个词.然后,如果您愿意,可以进行二元分析.
也就是说,Python中有一些不错的工具可用于语言识别.我发现lang-id是最好的之一.它经过针对90多种语言的语言分类器进行了预培训,并且如果您愿意,可以很容易地针对其他语言进行培训.这是docs.也有guess-language,但根据我的估计,效果不佳.根据外语的本地化程度,您可以尝试以适当的粒度对文本进行分块,然后通过(例如)langid的分类器运行这些分块.
标签:n-gram,nlp,python 来源: https://codeday.me/bug/20191121/2048388.html