首页 > 其他分享> > EVA

EVA

2022-08-15 18:31:33 作者：互联网

EVA

主要贡献

构建2021年最大中文对话数据集WDC-Dialogue，有1.4B context-response pairs。
基于Transformer架构，搭建2021年最大中文对话系统，有2.8B的参数量

WDC-Dialogue Dataset

数据收集

Repost 转发
Comment 评论
Q&A 问答

数据清洗

删除平台相关的tag信息，例如Reply to @***
删除URL链接
将超过30轮的切分成小于30轮
将句子中重复超过6次的单词仅保留一份
删除回复过短/过长的对话
删除回复被判定为广告的对话
删除90% 3-gram为高频短语的对话
删除回复为通常反应的对话
删除回复和context一样的对话

另外还维护了一个违禁词表
（1）脏词、敏感词、方言；
（2）特殊主题词，例如罕见病毒或化合物的名称；
（3）名称、未知缩写；
（4）特殊符号和表情符号；
（5）与广告、图片、视频相关的文字等平台标志；

数据分析

Method

Model

典型的Transformer结构。

Tokenization

通过subword构建30000 token的词表。

Pre-Training Details

为了解决一些过短的对话，在EVA预训练中加入了短对话合并的操作。

EVA2.0

Reference

EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training
EVA2.0: Investigating Open-Domain Chinese Dialogue Systems with Large-Scale Pre-Training

标签：Pre,Dialogue,删除,EVA,Training,对话
来源： https://www.cnblogs.com/hyserendipity/p/16589255.html