当人们在担心GPT-4飞的太快时,出乎意料的事情发生了:GPT-4竟然被强行降智了!
人工智能秒变”人工智障“,到底发生了什么?
这还要从一份论文说起~
该论文名为《ChatGPT的行为是如何随时间变化的?》(How Is ChatGPT’s Behavior Changing over Time? ),来自斯坦福大学及加州大学伯克利分校的研究人员。
论文评估了GPT-3.5和GPT-4在2023年3月和6月的变化。
诡异的是GPT-3.5更智能了,但GPT-4更智障了。
首先,研究人员给出500个数学问题,GPT-3.5回答的准确率有了很大的提高,从3月份的7.4%提高到6月份的86.8%,但GPT-4的准确率却从3月的97.6%下降到6月的2.4%。
论文中还以其中一个问题进行了举例:“17077是不是一个质数?”(科普:一个大于1的自然数,除了1和它自身外,不能被其他自然数整除的数叫做质数)
接下来,3月版本的GPT-4很好的遵循了思维链指令,首先将任务分解为四个步骤,检查17077是否为偶数,找到它的平方根,获取所有小于它的质数,检查17077是否能被其中的任何一个数整除。然后它执行每个步骤,最终得出正确的答案,即17077确实是质数。
而6月版本的GPT-4完全没有生成任何中间步骤,只是简单粗暴的给出了一个错误答案“NO”。
对比之下,GPT-3.5恰好相反,3月版本的给出错误答案“NO”,6月版本的给出合理解答思路并呈现了正确答案。
相信你看到这里,很多人不免发出疑问:这不是见了鬼了嘛~
除了解决数学问题的能力之外,研究人员还在回答敏感问题、代码生成、视觉推理,三个方面进行了测试。
其中代码生成能力方面,GPT-4也表现出了明显的“降智”。
研究中通过50个相关问题的测试发现,GPT-4在3月份有52.0%的代码是可以直接执行的,在六月降至10.0%。作者总结称:代码生成,更冗长,可执行的更少。
在回答敏感问题方面,GPT-4回答的概率下降了超四分之三,相应做出的解释也变少了。可以看出,GPT-4的实用性表现有所下降,但安全性得到提升。
最后,视觉推理方面,整体来看变化不大。
通过以上论文的介绍,不免让人质疑两个问题~
-
论文的可信度如何?
-
如果论文属实,降智的原因是什么?
首先,近期我们确实看到有很多用户吐槽GPT-4变得“更懒”、“更笨”。
部分用户在Twitter和OpenAI在线开发者论坛上表示,问题包括逻辑弱化、错误响应增多、无法跟踪所提供的信息、难以遵循指令、忘记在基本软件代码中添加括号以及只记住最近的提示等。
甚至Roblox产品负责人Peter Yang在Twitter上也提到,该模型生成的输出速度更快,但质量较差。
另外,OpenAI也在近期表示:“虽然大多数指标都得到了改善,但某些任务的性能可能会变得更差。”
从这里不难发现,论文中的问题也许所言非虚。
那么最后的问题就在于,为什么会这样~
目前有这样几种猜测:
一切为了安全。一直以来,AI的安全性都在面临着越来越严峻的考验,从版权到隐私保护等等,各国也纷纷表示将出台监管措施。因此,平台将逐渐加强产品的安全性,比如安全过滤器等措施导致模型逻辑受到影响,从而导致降智问题。
降低成本。大模型的高成本是显而易见的,为了解决这一问题,平台会简化决策,降低计算成本,这也会导致产品表现下滑的问题出现。
另外,还有用户怀疑与OpenAI 对系统的重大重新设计有关。也有阴谋论认为是为了后续的收费增智,故意提前降智。
作为行业翘楚的ChatGPT,发布仅半年,就已经掀起了全球的AI浪潮。作为一股能够改变世界的力量,其诱惑力是谁也无法抗拒的。虽然这次“降智”引起了小小波澜,但未来AI的飞速发展将成为毋庸置疑的事实。
最后,你认为最近GPT-4为什么会变笨呢?欢迎发表您的高见~
举报/反馈
原文链接:https://baijiahao.baidu.com/s?id=1772021662629882665&wfr=spider&for=pc