首页 > 其他分享> > NLP 实战

NLP 实战

2021-02-04 10:01:11 作者：互联网

下载其 training-monolingual 语料并使用 get_data 脚本进行 tokenize 和 shuffle（不清楚 shuffle 对于语言模型有多大影响）

2、训练
传统方法： KenLM
rnn

语言模型可以对句子通顺度建模，可以用于纠错

引入 seq2seq 模型的神经机器翻译，不仅仅是语言翻译

特征选择粒度：字粒度，词粒度
Ngram：1~5
长短文本：长文本tf-idf；摘要
短文本：word embedding

传统机器学习模型：LR，朴素贝叶斯，SVM最大熵，GBDT，随机森林，KNN等等

深度学习模型：CNN，RNN（包括普通RNNLSTM 双向 LSTMGRU 等），CNN 与 RNN 结合，当然也有用普通的前馈神经网络做的（一般的DNN）

聚类，Rank 模型，CTR预估，其他（打标签，构建知识图谱等）

标签：实战,NLP,语言,模型,机器翻译,粒度,文本,语料
来源： https://www.cnblogs.com/fldev/p/14370993.html