基于转换器的生成式预训练模型

维基百科,自由的百科全书
跳到导航 跳到搜索
The original GPT model

基于转换器的生成式预训练模型[1](Generative pre-trained transformers; GPT)是OpenAI开发的一系列延伸自转换器架构(Transformer)的自然语言生成模型。它可以进行微调以完成各种自然语言处理任务,例如文本生成、代码生成、视频生成、文本问答、图像生成、论文写作、影视创作、科学实验设计等。基于大量语料数据上训练,以生成类似于人类自然语言的文本。其名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程,其中模型学习预测文章中下一个单词,这为模型在具有限量的任务特定数据的下游任务中表现良好提供了坚实的基础。

应用[编辑]

  • ChatGPT (Chat Generative Pre-trained Transformer,基于转换器的交互式生成式预训练模型[1][2])是由OpenAI于2022年11月30日发布的一款聊天机器人。它采用的是GPT-3.5,应用了“基于人类反馈的强化学习方案”(Reinforcement Learning from Human Feedback,RLHF)。
  • BioGPT是由微软开发的[3]一种专注于生物医学领域的GPT模型。[4]
  • ProtGPT2是一种专注于蛋白质研究的GPT模型。[5]

历史[编辑]

2018年6月11日,OpenAI发表了一篇名为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)[6]的论文,在其中介绍了“基于转换器的生成式预训练模型”(GPT)。当时,表现最好的自然语言生成模型主要依靠大量手动标注数据的监督学习。这种依赖于人类监督学习的开发途径限制了模型在未经精细标注的数据集上的应用;许多语言(例如斯瓦希里语海地克里奥尔语)也因缺乏能建立起语料库的文本资料而造成实际应用(如翻译和解释)上的困难[7];此外,训练超大模型相当耗时且开支非常昂贵。[6][7]

相比之下,GPT提出了一种“半监督(semi-supervised)”(后来普遍改称为“自监督”)的方法——先在没有标号的数据上面训练一个预训练模型,再在少量标号数据上面训练一个分辨的微调模型。[6]

GPT版本历史
参数数量 训练数据
GPT-1 1.2亿 BookCorpus[8]:是一个包含7000本未出版书籍的语料库,总大小为4.5 GB。这些书籍涵盖了各种不同的文学流派和主题。
GPT-2 15亿 WebText:一个包含八百万个文档的语料库,总大小为40 GB。这些文本是从Reddit上投票最高的4,500万个网页中收集的,包括各种主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等。
GPT-3 1750亿 一个总大小为570 GB的大规模文本语料库,其中包含约四千亿个标记。这些数据主要来自于CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。

引用[编辑]

  1. ^ 1.0 1.1 冯志伟. 冯志伟教授聊ChatGPT. 中国科技术语. [2023-02-27] –通过微信公众平台. 
  2. ^ Roose, Kevin. The Brilliance and Weirdness of ChatGPT. The New York Times. 5 December 2022 [26 December 2022]. (原始内容存档于January 18, 2023) (美国英语). Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash. 
  3. ^ Matthias Bastian. BioGPT is a Microsoft language model trained for biomedical tasks. The Decoder. 2023-01-29. 
  4. ^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. BioGPT: generative pre-trained transformer for biomedical text generation and mining.. Brief Bioinform. 2022, 23 (6). PMID 36156661. doi:10.1093/bib/bbac409. 
  5. ^ Ferruz, N., Schmidt, S. & Höcker, B.; et al. ProtGPT2 is a deep unsupervised language model for protein design.. Nature Communications volume. 2022, 13. doi:10.1038/s41467-022-32007-7. 
  6. ^ 6.0 6.1 6.2 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya. Improving Language Understanding by Generative Pre-Training (PDF). OpenAI: 12. 11 June 2018 [23 January 2021]. (原始内容存档 (PDF)于26 January 2021). 
  7. ^ 7.0 7.1 Tsvetkov, Yulia. Opportunities and Challenges in Working with Low-Resource Languages (PDF). Carnegie Mellon University. 22 June 2017 [23 January 2021]. (原始内容存档 (PDF)于31 March 2020). 
  8. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja. Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books: 19–27. 2015.