ChatGPT是一款于2022年11月30日在美国发布的聊天机器人程序,是一款基于人工智能技术驱动的自然语言处理工具。
ChatGPT全称为“Chat Generative Pre-trained Transformer”,Chat是聊天,GPT是“生成型预训练变换模型”,它可以翻译成“聊天生成预训练转换器”或简称“优化对话的语言模型”。
ChatGPT是OpenAI开发的、具有语言预测与文本续写功能的一个大模型。一个用对话的方式进行交互的模型。一种基于互联网可用数据训练的文本生成深度学习模型。一个人工智能聊天机器人程序。
ChatGPT是一款建立在云计算、海量数据库、人工智能算法架构和深度神经网络基础之上开发的聊天机器人程序,它不像传统的搜索引擎一样复制和拼凑网上已有的信息给用户。相反,它提供的回答是有逻辑的、生动的,有上下文关联的。
总结一下,ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
ChatGPT目前系统功能主要是文本生成、聊天机器人、语言问答、语言翻译、自动文摘、绘画功能、编程功能、视频生成等八大功能模块所组成。
从ChatGPT字面意思来看,Chat是聊天,GPT才是关键。
字母G是Generative,属于生成的人工智能,根据我们的需要,创造生成全新的内容。
字母P是Pre-trained的缩写,预训练。表示这个模型已经在大量的数据集上进行了预训练,ChatGPT在与人的对话中几乎接近正常人的交流,就是因为已经接受过海量数据的训练,而这些数据就是我们2022年以前在互联网上的内容(目前版本的ChatGPT还不具备网络数据实时更新功能)。ChatGPT当前还没有实现网络的实时连接,因此回答问题的时效性受到一定的限制。
字母T是Transformer,转换器的意思,是ChatGPT底层人工智能学习的一个算法架构。
ChatGPT严格意义上来说是一种基于Transformer的自然语言处理模型。采用预训练加微调的方法,通过对大规模语料库进行预训练,对标注数据进行微调,从而使模型能够适应特定的自然语言处理任务,拥有语言理解和文本生成能力。
ChatGPT使用基于GPT-3.5架构的大型语言模型并加以强化训练训练。
ChatGPT的演进过程:
第一阶段:GPT-1发布
2018年6月,OpenAl 第一篇论文《Improving Language Understanding by Generative Pre-Training》通过生成式预训练来提高语言理解能力的论文中提出了第一个模型GPT-1。从这篇论文中得出的关键结论是,Transformer 架构与无监督预训练的结合产生了GPT-1, 加上有监督微调方式,针对特定任务进行预训练,实现了强大自然语言理解能力。
第二阶段:GPT-2发布
2019年2月,OpenAI发表了第二篇论文《Language Models are Unsupervised Multitask Learners》,推出了GPT-2 。GPT-2是一种自然语言生成模型,其设计目标是生成与人类语言相似的文本,可以完成多任务处理。
第三阶段:GPT-3发布
2020年5月,OpenAI发表第三篇论文《Language Models are Few-Shot Learners》,推出了GPT-3。GPT-2和GPT-3是两个不同的模型,它们的主要区别在于应用场景、模型规模和性能表现。GPT-3是一种自然语言生成模型,它是目前规模最大的预训练模型,可以生成高质量的自然语言文本,包括文章、诗歌、对话等。GPT-3还支持一些其他的自然语言任务,例如翻译、问答、语义搜索等。
第四阶段:GPT-3.5 发布
2022年11月29日,OpenAI发布了一个命名为“text-davinci-003”(文本-达芬奇-003常称为GPT3.5)的新模型。它以对话方式进行交互,既能够做到回答问题,也能承认错误、质疑不正确的前提以及拒绝不恰当的请求。
所谓的ChatGPT预训练,是一个基于transform模型的预训练语言模型,它的训练逻辑如下:
第一是语料准备,从互联网上收集大量文本语料。
第二是对数据预处理,对语料进行处理,把它们分割成许多独立的句子或段落,对每个句子进行分词。分词后把每个单词转换成数字,生成一个数字序列,然后构建成数字词典。
ChatGPT训练就是使用这些数字序列用transformer模型进行模拟场景试验,需要投入大量的人工干预,并使用监督学习的方式对预训练模型进行微调。根据奖励模型优化策略,然后生成输出,ChatGPT的预训练应当是基于正向传递,反向更新,梯度收敛,预训练模型降低了获取更高水平人工智能的成本。
ChatGPT的核心技术之一是Transformer转换器,Transformer技术是近几年人工智能技术最大的亮点之一,由谷歌的人工智能的团队“谷歌大脑”首先发布。
这种模型是使用一种叫自注意力的机制(self attention mechanism),它允许模型在进行预测的时候,可根据语言序列的任何位置,为输入数据的不同部分赋予不同的权重,并支持处理更大的数据集。
Transformer的精度和性能上都比之前流行的CNN(卷积神经网络)、RNN(循环神经网络)等模型,大幅提升了模型训练的效果,让人工智能在更大模型、更多数据、更强算力的基础上进一步增强运算能力。此外,还具有很强的跨模态处理能力,不仅在NLP(自然语言理解)领域表现优异,在语音、图像方面也显示出了优异的性能。
Transformer是ChatGPT语言模型的核心技术,是一种用于序列到序列(Sequence-to-Sequence)任务的神经网络模型,例如机器翻译,语音识别和生成对话等,它使用了注意力机制来计算输入序列和输出序列之间的关系。
Transformer的主要优点是它可以并行地处理输入序列中的所有信息,因此在训练和推理时都有很高效率。
此外,Transformer没有使用循环结构,因此它不受长序列的影响,并且在处理长序列时不会出现梯度消失或爆炸的问题。
ChatGPT 面对多样化的问题对答如流,已经打破了机器和人类沟通的边界,这一工作的背后是大型语言模型 (Large Language Model,LLM) 生成领域的新训练范式RLHF (Reinforcement Learning from Human Feedback) ,即依据人类反馈的强化学习方法模型。
OpenAI官网上如是说:我们使用依据人类反馈的强化学习方法模型(RLHF)来实施训练,使用监督微调训练一个初始模型与人类人工智能训练师提供对话,他们在其中扮演用户和人工智能助手。我们让培训师可以访问模型编写的建议,以帮助他们撰写答案。为了创建强化学习的奖励模型,我们需要收集比较数据,其中包括两个或多个按质量排名的模型响应。为了收集这些数据,我们进行了人工智能培训师与聊天机器人的对话。我们随机选择了一个模型编写的消息,抽样了几个替代完成,并让AI培训师对它们进行排名。使用这些奖励模型,我们可以使用近端策略优化来微调模型,我们执行了此过程的多次迭代。
ChatGPT强化学习算法训练奖励模型简单来说就是分为三个阶段:
第一阶段是收集示范数据,人工智能培训师与聊天机器人对话,并接受监督。
第二阶段是收集比较数据,训练一个奖励模型。
第三阶段是利用PPO强化学习算法,优化一个针对奖励模型的策略。
根据OpenAI官网上的介绍,ChatGPT中的DALL.E 2自然语言转换成像技术,最初只是一个研究项目,目标是制定并继续改进安全缓解的措施,其中包括:
第一、限制DALL·E 2 自然语言转换成影像时生成暴力、仇恨或成人图像。通过从训练数据中删除有害的视频内容、使用先进的技术来防止真实人物的面部,包括公众知名人物的面部在视频中出现。
第二、遏制用户滥用政策。不允许文本要求生成暴力、成人或政治内容等视频。如果我们的过滤器发现可能违反我们政策的文本提示和图片上传,ChatGPT就会采用自动化和人工监控系统予以拒绝。
OpenAI认为:负责任的开发和安全监管是人工智能的重要组成部分,让用户对ChatGPT安全系统有信心。
OpenAI希望DALL.E 2自然语言转换成像技术能降低图像生成模型相关的风险。为此,DALL.E 2在互联网上数亿张带标题的图像上进行训练,删除并重新加权其中一些图像,更改模型学习的内容。
同时,采用在DALL.E 2中设置各种防护栏训练数据集,过滤训练数据,放大偏差、重复数据删除等多种技术手段,以防止生成的图像违反内容管制政策。使人们能够创造性地表达自己,帮助人们了解ChatGPT人工智能系统如何看待和理解我们的世界,对于创造人类的人工智能使命至关重要。
1,数据偏差和样本不足问题。虽然 ChatGPT 使用了很大规模的语料库进行预训练,但是其在某些领域的样本仍然不足,比如在一些非英文的语言中,ChatGPT 的表现不如英文。
2,在训练的强化学习 (RL) 阶段,没有真相和问题标准答案的具体来源,来答复你的问题。
3,模型参数过多,计算资源要求高。ChatGPT 模型参数数量大,对计算资源的要求也高,需要大规模的GPU 集群才能进行训练和应用。
4,监督训练可能会误导/偏向模型倾向于知道理想的答案,而不是模型生成一组随机的响应并且只有人类评论者选择好的/排名靠前的响应
原文链接:https://www.bilibili.com/read/cv22872904/