其他分享
首页 > 其他分享> > NLP初识笔记

NLP初识笔记

作者:互联网

(Natural Language Processing)

一、研究对象

对日常生活中的“文字”进行处理(翻译等)

二、历史

1950-1980,nlp还是机器机械的运作人给他的指令(做简单的文字匹配等工作)

1980后,刚性的文字处理人工规则日益被柔性的、以概率为基础的统计模型所替代。

三、自然语言处理的一大难题——翻译

现仍存在的问题:中文成语→英文

现在的搜索引擎仍是关键词匹配,缺乏自然语言处理

存在的问题:

一:单词界定
二:短语级别歧义
三:上下文关系获取
四:背景知识获取

四、发展趋势

分为基于规则的理性主义和基于统计的经验主义

理性主义:人类语言主要是由语言规则来产生和描述的,因此只要能够用适当的形式将人类语言规则表示出来,就能够理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。

经验主义:从语言数据中获取语言统计知识,有效建立语言的统计模型。因此只要能够有足够多的用于统计的语言数据,就能够理解人类语言。

随着近代社会的信息大爆发,海量的自然语言充斥这网络世界,随着研究的深入,寻找规则的理性主义饱受质疑,就连已统计为主的经验主义都不再适用。这时,神经网络出现了。

五、神经网络

随着2013年word2vec技术的发表,以神经网络为基础的深度学习技术开始在自然语言处理中广泛使用,深度学习的分布式语义表示和多层网络架构具有强大的拟合和学习能力,显著提升了自然语言处理各种任务的性能,成为现阶段自然语言处理的主要技术方案。

ps:计算机视觉与自然语言处理的区别

标签:NLP,语言,处理,笔记,神经网络,初识,规则,自然语言,统计
来源: https://www.cnblogs.com/LALALKY/p/16513744.html