实验记录
作者:互联网
FAQ
训练数据
len(faqs): 73926
train: 44355
dev: 14785
test: 14786
评测指标
-
Precison, Recall, F1计算方式 (多分类)
-
计算 A类别的P,R时,将A类看做正例,其他类别看作负例,计算该类别的P,R,F1。计算B,C类别同理。
-
本实验通过 三个类别的macro-F1 来评价模型。
-
举例:
实验方法
- BERT+Classifier
一开始手工标注,性能很不稳定:
使用维基百科类别筛选后:
用LDA训练出来的主题类型:(更多的是 冬奥会 和 不相关的问题 主题)
标注数据出现的问题
-
凡是出现关键词的问题,都会被筛选出来。如,球,运动等
-
维基百科根据词频选出来的词表,很多是日常问题也会出现的词语。如,自由,国家名,
解决方法
还在想.....
标签:F1,记录,维基百科,实验,计算,类别,标注 来源: https://www.cnblogs.com/douzujun/p/14443632.html