GPT(Generative Pre-training Transformer,生成预训练变压器)是由OpenAI开发的一种语言模型,在广泛的自然语言处理任务中取得了最先进的结果。它最初由Alec Radford, Karthik Narasimhan, Tim Salimans和Ilya Sutskever在2017年的一篇论文中介绍。
GPT的关键思想是在大量文本数据上以无监督的方式预训练一个大型变压器模型,然后在下游任务上使用较少的标记数据进行微调。这种方法在语言翻译、语言生成和问答等任务中已被证明非常有效。
GPT的一项关键创新是使用变压器体系结构,该体系结构由Vaswani等人在2017年提出。变压器体系结构基于自注意机制,可以使模型更好地捕捉输入数据中的长距离依赖性。这对于语言建模特别有用,因为在输入文本中单词和短语可能相隔很远,但仍然具有很强的关系。
GPT自初次发布以来经历了几次重大修订。GPT-2是2019年发布的一个更大、更强大的版本,具有超过15亿个参数。GPT-3是2020年发布的,更大,具有175亿个参数,能够以高精度执行各种各样的任务。
GPT还启发了许多后继模型的开发,比如Google于2018年推出的BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示来自变压器),该模型也在许多自然语言处理任务中取得了最先进的结果。
总体而言,GPT及其后继产品对自然语言处理领域产生了重大影响,为建立基于语言的智能系统开辟了许多新的可能性。
原文链接:https://baijiahao.baidu.com/s?id=1752989690645243062&wfr=spider&for=pc