(转载)GPT-3阅读笔记:Language Models are Few-Shot Learners
作者:互联网
Abstract
- 提出问题:最近的许多研究都表明pre-train模型搭配下游任务fine-tune在许多情况下效果显著,但是微调过程需要大量的样本。这一框架不符合人类的习惯,人类只需要少量的示例或说明便能适应一个新的NLP下游任务。
- 主要贡献:本文证明了通过增大参数量就能让语言模型显著提高下游任务在Few-shot(仅给定任务说明和少量示例)设置下的性能。*(笔者注:证明了大规模语言模型使用元学习策略的可能和fine-tune策略的非必要性)*
- 具体贡献:
- 训练了包含175billion参数(以往非稀疏语言模型的10倍大小)的GPT3自回归语言模型,并在多个数据集上测试没有fine-tune过程的性能表现。
- 虽然GPT3在文本翻译、问答系统、完型填空、新词使用和代数运算等任务表现不错,但在阅读理解和推理任务数据集上的表现仍有待提高。
- 由于GPT-3的训练依赖于大量的网页语料,所以模型在部分测试数据集上可能出现方法论级别的data containation问题。
- GPT3能够编写出人类难以区分的新闻文章,本文讨论了该能力的社会影响力。
标签:Shot,GPT3,Language,Models,模型,任务,集上,fine,tune 来源: https://www.cnblogs.com/zjuhaohaoxuexi/p/16438430.html