OpenAI花了6个月的时间反复调整GPT-4以及ChatGPT使用的训练模型,最终得到在真实性、可操控性、实用性上有史以来最好的结果。
当输入任务的复杂性达到一定阈值的时候,差异就会出现 ——GPT-4 比 旧版本 更可靠、更有创意,并且能够处理更细微的指令。
据OpenAI介绍,虽然GPT-4在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上能够表现出人类水平的性能。
它在专业领域上的回答,全方位碾压了GPT-3.5版本。比如,在统一律师考试( Uniform Bar Exam )中,GPT-4 可以超过 90% 的人类考生,而GPT-3.5版本只能超过 10% 的人类考生;在 GRE 数学考试中 GPT-4 可以考 163 分( 170 分满 )超过 80% 的考生,GPT-3.5版本只能超过 25% 的考生。
相较于之前的版本,GPT-4 更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。
输入:用一个句子解释灰姑娘的情节,其中每个单词必须以字母表中从 A 到 Z 的下一个字母开头,不重复任何字母。
GPT-4:美丽的灰姑娘,热切栖居,终于获得幸福;激起嫉妒的亲人,爱情神奇地孕育出富贵的王子;悄悄拯救,团结无比,热心青年。
GPT-4可以从知识库中去查找已经拥有的内容,然后去解释这个内容。
GPT-4 能够处理超过 25,000 个单词的文本,是上一代GPT的8倍,允许使用长格式内容创建、扩展对话以及文档搜索和分析等用例。
例如可以从一个输入一个网址,然后GPT-4会自动通过网址的内容去分析得出一些给我们参考的内容,这极大地扩展了其实用性。
在发布会直播上,OpenAI总裁Gregman就现场演示了用GPT-4给代码修Bug。
直接把1万字的程序文档Ctrl+C、Ctrl+V一股脑扔给GPT-4就行,短短几秒即能得到解决办法。
不过这最令人心动图像输入功能仍然是研究预览,暂未对外公开。
用户提供相关信息后,GPT-4不仅能够对文本进行理解性分析,还可以给出更加准确的建议,帮助用户对不确定的社会活动做决定。
同时,对于跨语种,GPT-4的阅读理解能力较旧版本更优。在测试的 26 种语言中的 24 种中,GPT-4 优于GPT-3.5 和其他LLM(Chinchilla、PaLM)的英语语言性能,包括低资源语言。
OpenAI的报告指出,GPT-4与之前的版本有类似的风险,例如生成有害的建议、错误的代码或不准确的信息,并且,GPT-4的额外功能会导致新的风险可能。
OpenAI聘请了来自人工智能风险评估、网络安全、生物风险、信任和安全以及国际安全等领域的50多名专家对模型进行对抗性测试。
这些专家的反馈和数据为OpenAI提供了模型的优化和改进;例如,OpenAI收集了更多的数据,以提高GPT-4拒绝关于如何合成危险化学品的请求的能力。
此外,GPT-4在训练中还纳入了额外的安全奖励信号,以减少有害内容的输出。
GPT-3会将制作炸弹的具体步骤回答出来,而GPT-4则巧妙规避了这个危险的问题:我作为一个人工智能语言模型的目的是帮助和提供有用的和安全的方式信息。我不能也不会就制造武器或从事任何非法活动提供信息或指导。请让我知道,如果有另一个主题,我可以帮助你。
尽管功能已经非常强大,但 GPT-4 仍与GPT 之前的旧模型具有相似的局限性,其中不可忽略的一点就是它仍然不完全可靠。
OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误等情况。
目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。
但从总体上来说,GPT-4已经显著减轻了幻觉问题。
在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%。
GPT-4性能的优化令其拥有更广泛的应用空间,未来可以应用于客服聊天机器人、信息搜索与内容检索、商品与内容推荐、教育等方面。
官方也给出6个正在加入GPT-4的产品,涵盖教育、金融领域。
如语言学习软件多邻国Duolinguo把 GPT-4接入产品,进行角色扮演与用户对话,纠正语法错误,并且把这一功能融入产品的游戏化。
以及国际性的金融服务公司摩根士丹利,将借助GPT-4改变其财富管理人员查找相关信息的方式,简化用户体验并打击欺诈,等等。
最后,提醒各位订阅了付费版ChatGPT Plus的用户,现在已经可以体验GPT-4了。
此外,微软也表示,新款的必应(Bing)搜索引擎将运行于GPT-4系统之上,将有更多人有机会感受GPT-4的强大。
原文链接:https://baijiahao.baidu.com/s?id=1760422136923131063&wfr=spider&for=pc