其他分享
首页 > 其他分享> > 中文作者识别自建数据集

中文作者识别自建数据集

作者:互联网

自用中文作者识别数据集,包涵六位不同时代的作者

巴金: 《家》、《秋》

贾平凹:《秦腔》、《古炉》

老舍:《骆驼祥子》、《四世同堂》

鲁迅:《呐喊》、《华盖集》、《彷徨》、《朝花夕拾》、《而已集》、《南腔北调》、《二心集》、《花边文学》

路遥:《平凡世界》

莫言:《红高粱家族》、《丰乳肥臀》

构建四类数据集:

六分类数据集->Author_6_class

鲁迅莫言二分类数据集->Author_LX_MY

老舍巴金二分类数据集->Author_LS_BJ

路遥贾平凹二分类数据集->Author_LY_JPW

按单句进行划分构建数据集,其中训练集、验证集、测试集比例均为6:2:2,各数据集作者文本分布均为1:1。

百度网盘 请输入提取码

提取码:tg5g

标签:贾平凹,中文,Author,路遥,分类,作者,识别,数据
来源: https://blog.csdn.net/zcp0216/article/details/122063405