计算机语言学笔记(一)计算机语言学概论
作者:互联网
1 计算机语言学概论
计算机语言学:通过建立形式化的计算模型来分析、理解和处理自然语言的学科。
自然语言处理为了解决歧义等问题,常采用下面的对策。
交互式处理:人机互助进行处理。
受限语言:限定处理文本的领域。
受控语言:限定语言的词汇和句法,降低复杂度。
1.1 计算机语言学研究方法
研究方法:规则驱动的方法,数据驱动的方法和二者融合的方法。
规则驱动的方法:语言学家对语言规律总结,形成规则知识库。研制处理算法,利用规则处理自然语言,研究人员根据结果调整规则,改进处理结果。但是,很多基于规则的系统只能在很小的子集上表现良好,不能满足真实文本处理的要求。
数据驱动的方法(统计方法):建立语料库,研究人员对自然语言进行统计建模,利用统计技术或机器学习技术,训练统计语言模型,利用模型设计算法处理语言,根据结果改进模型。
在数据驱动的方法中,语言模型通常体现为一组参数,这些参数通常表示某个语言形式发生的概率值。
融合规则驱动和数据驱动的方法:两种方法的优劣不能简单评价,如何无缝结合尚需进一步探索。
1.2 计算机语言学研究中的评测问题
为了评价各种方法的有效性,必须进行客观公正的评测,客观公正的评测有助于引导计算语言学朝着一个健康的方向发展。
1.3 计算机语言学的应用
- 机器翻译 2. 人机对话 3. 信息检索 4. 信息提取 5. 自动文摘 6. 文本分类 7. 拼写检查 8音字转换
标签:计算机,语言学,规则,驱动,方法,概论,语言 来源: https://blog.csdn.net/tianyouououou/article/details/95358803