首页 > TAG信息列表 > tinybert

【笔记】TinyBERT(EMNLP2019)

【笔记】TinyBERT(EMNLP2019) 两阶段蒸馏:预训练阶段+finetune阶段 设计3种损失函数分布来适应bert的不同层级的损失计算 embedding 层输出来自 transformer 层的隐藏层和注意力矩阵输出 logits 的预测层 1. 知识蒸馏的设计 可以将网络的任何一层称为行为函数(

TinyBERT

TinyBERT TinyBERT: Distilling BERT for Natural Language Understanding 对Bert encoding中Transformer进行压缩,使用two-step学习框架在精度允许的范围内节约计算资源和推理速度 Transformer蒸馏 Embedding-layer Distillation

语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。 欢迎关注微信公众号:低调奋进   Unified Mandarin TTS Front-end Based on Distilled BERT Model 本文章是华为诺亚方舟实验室在2020.12.31更新