首页 > 其他分享> > Day1—达观杯智能文本处理

Day1—达观杯智能文本处理

2019-04-06 08:48:06 作者：互联网

Day1_数据初始

Task:项目任务建立模型通过长文本数据正文，预测文本对应的类别
数据
train_set.csv:
test_set.csv:
测试集数据情况

Task:项目任务建立模型通过长文本数据正文，预测文本对应的类别

数据

数据包含2个csv文件,即train_set.csv和test_set.csv.
ps:因为在外条件有限，先读取前5000行数据。

train_set.csv:

此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：
第一列是文章的索引（id）;
第二列是文章正文在“字”级别上的表示，即字符间隔正文（article）;
第三列是在“词”级别上的表示，即词语相隔正文（word_seg）；
第四列是这篇文章的标注（class）。

test_set.csv:

此数据用于测试。数据格式同train_set.csv，但不包含class。
注：test_set与train_test中文章id的编号是独立的。

测试集数据情况

在这里插入图片描述

标签：set,Day1,文本处理,train,文本,test,达观,csv,数据
来源： https://blog.csdn.net/gritscarlett/article/details/89048826