目前GPT-4正式发布。OpenAI的总裁和联合创始人GregBrockman展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的,GPT-4轻松拿下。
OpenAI让GPT-4在参加了许多项人类的通用考试,结果证明,它在许多测试和基准测试中的表现比前一代确实大大提高:
根据他们的测试结果,GPT-4的SAT分数增加了150分,现在能拿到1600分中的1410分;
它能通过模拟律师考试,分数在应试者的前10%左右,相比之下,GPT-3.5的得分在倒数10%左右;
在SAT阅读考试中和SAT数学考试中,GPT-4的成绩都能达到领先的排名……
“我们花了6个月的时间使用我们的对抗性测试程序,以及在ChatGPT身上累积的经验教训来迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”OpenAI称。
“我们的GPT-4训练运行(至少对我们而言!)前所未有地稳定,成为第一个我们能够提前准确预测其训练性能的大型模型。”
GPT-4还有了一个质的飞跃——可以开始处理图像。GPT-4开始接受图像作为输入介质。GPT-4可以同时解析文本和图像,这也使它能够解释更复杂的信息。
GPT-4的改进是迭代性的。在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。但是,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令,可以更准确地解决难题。
GPT-4对于英语以外的语种支持也得到了大大的优化。
许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,OpenAI使用AzureTranslate,将一套涵盖57个主题的1.4万多项选择题的MMLU基准,翻译成了多种语言,然后进行测试。
在测试的26种语言中,有24种语言,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。
其中中文达到了80.1%的准确性,而GPT-3.5的英文的准确性为70.1%,也就是说,在这个测试中,GPT-4对于中文的语言理解,已经优于此前ChatGPT对于英文的理解。
原文链接:https://m.life.southmoney.com/IT/202303/130287.html