刚从海边遛狗回来,补做了几个测试。先说结论,再实例说明。
一、ChatGPT 是个语言模型;
二、ChatGPT 懂一些逻辑和常识;
三、ChatGPT 有庞大语料库和知识库,因此擅长旁征博引、缝合段落;
四、ChatGPT 能调动和缝合专业、生僻的文字单元,因此有时显得专业博学;
五、ChatGPT 虽有庞大语料库和知识库,但因为没有通识能力,不能举一反三,所以回答问题还是常常捉襟见肘,憋红了脸,说些灌水的轱辘话,有种「小编知道……小编也以为……其实就是这样……你觉得是不是这样呢……这就是小编的看法」的感觉;
六、ChatGPT 常在语言、逻辑和常识上犯人类小学一年级学生都不会犯的错误(下面有实例展示);
七、ChatGPT 可能没有真正的逻辑和常识,只有「机械的」数学处理,它甚至可能没有真正的概念,虽然它代码里应该有这些模块。一个推测不一定对。
给两个实例,管中窥豹。
问:小狗抱住冻得发抖的主人,他感到了温暖。请问谁感到了温暖?
ChatGPT:根据这句话的语法,它是小狗感到了温暖。在这句话中,小狗是主语,冻得发抖的主人是宾语,感到了温暖是谓语。因此,这句话表明小狗感到了温暖,而冻得发抖的主人本身并不感到温暖。
GPT 先是犯了最基础的语法错误,他指人,GPT 误为指狗。还犯了逻辑和常识错误,冻得发抖的人被拥抱感到温暖,而不是去拥抱他的小狗。
问:The puppy hugged its frozen and shivering owner, and he felt warm. Who felt warm?
ChatGPT:Based on the grammar of this sentence, it is the puppy who felt warm. In this sentence, the puppy is the subject, its frozen and shivering owner is the object, and he felt warm is the predicate. Therefore, this sentence indicates that the puppy felt warm, while its frozen and shivering owner did not feel warm.
英文测试结果同中文测试。
更新:在知乎、微博和即刻吐槽 ChatGPT 理解小狗问题时它他不分,三小时后它竟然修正了这个缺陷,而且回答模版也变了。几种可能:1. 它按一定规则调用不同模块回答问题,以期增加多样性。有的模块出错,有的模块答对;2. 它实时进化训练自己;3. OpenAI 的工程师碰巧刚刚修正了这个缺陷;4. OpenAI 的人看到我吐槽,偷偷去改了。现在 ChatGPT人称代词弄对了,但不给它人称代词判断的捷径,让它用逻辑常识判断,它又歇菜了。测试问题是:男孩拥抱他那位浑身冰渣冻得发抖的朋友,他感到了温暖。请问谁感到了温暖?
ChatGPT 比 GPT3 强很多,GPT3 曾被我批得狗血淋头,这次 ChatGPT 支棱起来了。也许 ChatGPT 2.0 会更强。但如果技术架构如我推测那样,主要是「机械的」数学处理,它作为「人工智能」走不太远,上限不高,极其有限。但作为「人工智能工具」,它此次的大幅提高,使它能替代和协助完成更多人类的工作。
这次刚开始测试 ChatGPT 时,我一度被惊艳,因为很多 GPT3 做不到的现在 ChatGPT 都能做到了。按我的理解,如果不推翻 GPT3 技术思路,不可能有大进步。我想,难道 OpenAI 推翻从来了?后来又测了几个问题,目前看来还是以前的技术思路,只是完成度更高,大幅优化。
因为几个简单问题就把 ChatGPT 破壁了,我给粉丝准备的破壁问题指南也没用上。不过发出来,知友测试 ChatGPT 时可以做个参考,也欢迎评论区反馈你测试到的 ChatGPT 边界/失误。
一、请尽量提「考验逻辑边界」且「有正确答案」的问题。人工智能处理没正确答案的问题、开放问题时,常玩花活,体现不出真正的智力。挑战一个人工智能的逻辑能力边界,是非常重要、非常有乐趣的事情。因此请发挥你的创造力,提一些刁钻准确且复杂的问题;
二、要挑战 ChatGPT 的语言能力和知识库不难,但我们要挑战的是它的逻辑能力,因此:1. 表述问题请「清晰、准确」,不给它制造阅读困难;2. 可以先给出知识,再让它根据这些知识回答问题,以免它天马行空;
三、提问用最好用英文,中文也可。它的英文能力应该比中文强,问英文问题最能测试它的上限;
四、你当然可以用任何问题测试,只不过我建议的提问方式能让你的问题更有意思、也更有意义。像「你对疫情怎么看」「明年世界经济会是怎样的」「人工智能会与人类共存吗」「宇宙的本源是什么」这样的问题,体现不出人工智能的智力。
ChatGPT 是个语言模型,这是它自己亲口说的。过程是这样的,粉丝要我帮忙问:「你和 Siri 谁更傻?」ChatGPT 答:「我不能评价 Siri 或其他人工智能的智能程度,因为我是一个语言模型,我只是接收到问题然后尝试提供最好的答案。我无法评价其他人工智能的智能程度,也无法评价自己的智能程度。我的目标是尽可能准确地回答问题,并且能够为用户提供有价值的信息。」
发现没有,全是套话和套话的拓展。其实答案就是:不知道/我不能告诉你。给出 to-the-point 的答案是难的,给出一堆相关的解释是容易的。
这个问题它说它是个语言模型,但回答其它问题时,它又说自己是个人工智能。感觉像是有人准备的话术模板,但这些模板又没统一口径。当然也有可能 ChatGPT 只是从语料库调用相关文字单元回答问题,却没有一个大脑统一认知。
ChatGPT 做了很赞的工作,期待更大进步。但综上所述,期望要合理不能太高。
原文链接:https://www.zhihu.com/question/570189639/answer/2787499513