其他分享
首页 > 其他分享> > 跟着李沐老师做BERT论文逐段精读(笔记)

跟着李沐老师做BERT论文逐段精读(笔记)

作者:互联网

论文地址中文翻译代码地址视频地址本篇大部分内容来源 。只做整理补充,推荐去看李沐老师原视频,讲的真的很好

建议学习顺序: 李沐老师论文讲解 -> 图解or手推BERT -> 代码讲解

1-标题 + 作者

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

2-摘要

摘要第一段:和哪两篇工作相关,区别是什么:BERT 是在 GPT 和 ELMo 的基础上的改动。

新的语言表征模型 BERT: Bidirectional Encoder Representations from Transformer,是 Transformers 模型的双向编码表示。与 ELMo 和 Generative Pre-trained Transformer 不同:

可以说,BERT 具有预训练、深度、双向这几个特点

摘要第二段:BERT 的好处(实例)

simple and empirically powerful

3-Introduction

导言第一段:本篇论文关注的研究方向的一点点 background

  1. Language model pre-training 可以提升 NLP 任务的性能
  2. NLP 任务主要分两类:sentence-level tasks 句子级别的任务——情绪识别; token-level tasks 词级别的人物——NER (人名、街道名) 需要 fine-grained output

注意,NLP 预训练很早之前存在,BERT 使 NLP 预训练 出圈了

导言第二段:摘要第一段的扩充

介绍别人工作的目的:铺垫自己方法的好

导言第三段:当前相关技术的局限性

已知相关工作的局限性,+ 解决局限性的想法 -- > 导言第四段: 如何解决?

BERT 通过 MLM(Masked language model) 带掩码的语言模型 作为预训练的目标,来减轻 语言模型的单向约束

导言第五段:文章的贡献

  1. 展示了 bidirectional 双向信息的重要性
    1. GPT 只用了 unidirectional 信息
    2. Peter 2018 也做了双向的尝试,但只是简单把 从左看到 和 从右看到左的模型独立训练 + shallow concatenation 拼在一起
    3. BERT 在 bidirectional pre-training 的应用更好
  2. 假如预训练模型结果很好就不用对特定任务的架构等做这么多改动了
    1. BERT 是第一个微调模型,在一系列 sentence-level and token-level task 都取得了很好的成绩
  3. BERT 开源,随便用

4-结论

近期实验表明,非监督的预训练模型很好, 资源不多的任务也能

本文拓展前任的结果到 deep bidirectional architectures,使同样的预训练模型能够处理大量的 NLP 任务

近年来语言模型迁移学习的研究表明:

稍微总结

锐评:A + B 缝合工作 or C 技术解决 D 领域的问题,不要觉得想法小、不值得写出来;简单朴实的写出来。简单好用 说不定会出圈

标签:BERT,精读,训练,逐段,模型,任务,token,句子
来源: https://www.cnblogs.com/youtmdyang/p/16177152.html