情感数据标注情感标签的策略分析和直观感受
作者:互联网
0. 说明
需要标注已有数据集的情感, 而不是重新录制
- 不好表, 数据不均衡
- 7 种情感并不太适合
1. 辅助标注法
- 用预训练好的 SER 先打上与标签, 做指导, 然后再标
- 由于数据差应比较大, 没有通用的 SER, 通用的一般就会不准确, 或者同意有偏差到某一个地方 (虽然可以用蔡雄滴, 但是毕竟比普通的有那么一丢丢复杂, 也可以研究下跨域的 SER ?)
- 使用之前已经标注过的 30% 训一个小的模型, 或者 SVM, 然后作为参考
- 如何解决 5 个人标数据, 每个人的标准差异性大的问题
2. 二分类法
- 不直接归类为 7 类
- 最终仍然可以归类为 7 类, 但是要设计 N 个二分类的方面, 比如喜悦度, 讨好度, 批评度, 文本一致度, 消极度, 使对方消极度, 不礼貌度, 爆粗口度, 开车度
- 这些 N 个程度, 每次去二分类, 或者 -1 到 1 的程度去打分, 听一次这句话, 只需要回答其中一个度的一个程度
- 然后综合都回答完句子得这 N 个程度, 由系统的 (规则性和专家知识) 来对应到 7 类情感中
- 希望这样的二分类一是有利于标注, 二是对于直播数据, 讲课数据等 Domain 特性更好把控, 三是做实验时也好建模和评测; 兼而有之
标签:SER,标签,归类,情感,标注,数据,程度 来源: https://blog.csdn.net/u013625492/article/details/115199290