其他分享
首页 > 其他分享> > 大话中文文本分类之前数据处理

大话中文文本分类之前数据处理

作者:互联网

基本操作就是将要分类的文本用正则匹配一下
之后迭代成列表去重一下,得到 vocab
(后期训练的时候也要使用,这个正则表达式,否则字符不在vocab中无法编码)
接着进行编码,就是一个字符也就是中文和标点符号用一个数字代表
形成一个字典word2id 例如 { “你”:0}
其实各种格式和存储方式的训练数据集,考验的就是你的python 基本功好不好
也就是数据结构的和数据类型的处理.本人因为从事过RPA ,经常要爬虫处理各种数据,练就了超强的基本功,所以对于任何文件都能处理成想要的格式
接下来就秀一波代码:

import mathimport torchimport numpy as npimport torch.nn as nnimport torch.optim as optimimport torch.utils.data as Data

               

标签:vocab,编码,大话,torch,数据处理,基本功,文本,就是
来源: https://blog.51cto.com/u_15177056/2725899