中文作者识别自建数据集
作者:互联网
自用中文作者识别数据集,包涵六位不同时代的作者
巴金: 《家》、《秋》
贾平凹:《秦腔》、《古炉》
老舍:《骆驼祥子》、《四世同堂》
鲁迅:《呐喊》、《华盖集》、《彷徨》、《朝花夕拾》、《而已集》、《南腔北调》、《二心集》、《花边文学》
路遥:《平凡世界》
莫言:《红高粱家族》、《丰乳肥臀》
构建四类数据集:
六分类数据集->Author_6_class
鲁迅莫言二分类数据集->Author_LX_MY
老舍巴金二分类数据集->Author_LS_BJ
路遥贾平凹二分类数据集->Author_LY_JPW
按单句进行划分构建数据集,其中训练集、验证集、测试集比例均为6:2:2,各数据集作者文本分布均为1:1。
提取码:tg5g
标签:贾平凹,中文,Author,路遥,分类,作者,识别,数据 来源: https://blog.csdn.net/zcp0216/article/details/122063405