人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

【花师小哲】当代炼金术(神经网络)前沿(39)——人工人工智能?GPT-4背刺GPT-5?

2024-05-25 70

今天讲下前不久小火的一篇论文:

【花师小哲】当代炼金术(神经网络)前沿(39)——人工人工智能?GPT-4背刺GPT-5?插图
AAAI:?

看标题就有点奇怪,人工智能怎么就套起娃来了?甚至有些文章根据这篇文章说明GPT-4有可能背刺GPT-5,这又是怎么回事呢?

这篇专栏就不细讲这篇论文了,而是展开说说一些事情。

【花师小哲】当代炼金术(神经网络)前沿(39)——人工人工智能?GPT-4背刺GPT-5?插图1

1.众包标注与黄金标准

稍微熟悉机器学习的人应该都知道,监督学习是机器学习中非常重要的组成部分,监督学习所需要的数据集分为数据和标签。

其实很好理解,对于一张图片,我们可以把它标注为“猫”或者“狗”,这样,("猫的图片","猫")就是可以在监督学习中使用的数据了。如果我们有了大量的这样的数据对,我们就可以“教”我们的模型区分一张图片是猫还是狗。

但是这遇到了一个问题,即我们日常中的图片不会自己就带着一个标签记录着“猫”或者“狗”(至少在第一个猫狗分类器出现之前),于是我们就需要标注,就是让人来给这些数据赋予一个标签。

一般来说,人类进行标注的标签就成为黄金标准,AI就是要向黄金标准看齐。

但是,强AI就需要更多标注数据,虽然现在很多无监督方法的应用使得AI发展迅速,诞生出ChatGPT这样的东西,但ChatGPT在很多领域仍然比不过监督模型或微调小模型,毕竟全部能做也意味着很多方面都不能兼顾。这些标注数据可不是几十上百个数据小打小闹,往往都大的离谱,几十万往上都是常态。研究者自己一一标注往往是不现实的,找好友、志愿者也许可以,但在现在这种到处都需要标注数据的情况下也不好用。

于是,就有了众包标注,就是有专门的公司接受标注请求并让旗下的一些外包标注员进行标注。

但是,众包标注的问题是,标注经常出现不准的情况。毕竟这些工作者也不是什么领域都懂,而数据则是千变万化,甚至有专业论文提取摘要这样的工作。但是一般来说问题也不算大,数据集存在一定噪声是很正常的

【花师小哲】当代炼金术(神经网络)前沿(39)——人工人工智能?GPT-4背刺GPT-5?插图2

2.ChatGPT与GPT-4 VS 众包标注者

2022年11月底,那个模型它发布了,没错,就是ChatGPT,这个模型在很短的时间内就大范围地改变了自然语言处理的游戏规则,关于ChatGPT的研究也迅速扩展到我们生活的方方面面。之后出现的GPT-4则更是强大,在很多测试中都碾压ChatGPT(最近有消息说GPT-4可能是8*2200亿参数,这个消息还没坐实,大家就先吃瓜等)

之前就有一篇论文经过对比发现,在一些情况下,GPT-4标注的准确率已经比众包标注要高了。

而且,GPT-4还有很多优势,例如速度。毕竟我们调用GPT-4的API是可以开多线程的,计算也不需要在本地,就等着OpenAI那边给反馈,可以标注的非常快。

【花师小哲】当代炼金术(神经网络)前沿(39)——人工人工智能?GPT-4背刺GPT-5?插图2

3.人工人工人工智能

但是,GPT-4毕竟顶多算是通用人工智能的曙光,很多时候还是比不过人类的,很多众包标注的使用者还是希望能够得到人工标注的数据集的。

但是,众包公司当然可以为了利润而采用GPT-4进行标注而不使用人工(怎么说的跟黑作坊一样,不过很多众包标注者的待遇其实并不好,众包标注本身就值得吐槽)。即使众包公司不这样做,众包标注者也可能使用GPT-4来辅助自己标注或直接让GPT-4做一部分标注。

再加上现在我们依然没有很好的方法来区分AI生产的文本和人类文本。

没错,这篇论文就调查说在一些领域,可能33–46%的数据已经是AI标注了(具体细节就不说了)

既然基于人类标注的数据训练出来的模型是人工智能,那基于人工智能标注的数据训练出来的模型就是人工人工智能了,然后就可以套娃了。

人工人工人工智能存在的问题是,这样的模型可能越来越偏离人类,毕竟很多研究都在表明AI的输出分布和人类语言的分布是不一样的,考虑到还有自蒸馏这样的东西和蝴蝶效应等,套娃越多,模型越有可能走偏。

【花师小哲】当代炼金术(神经网络)前沿(39)——人工人工智能?GPT-4背刺GPT-5?插图2

4.GPT-4背刺GPT-5?

不仅仅是标注数据,非标注数据也可能会受到影响。

我们知道GPT的训练数据只需要从网上扒文本就可以了,不需要标注。但是ChatGPT和GPT-4出现后,网上也开始充满了AI生成的文本,例如知乎上就有人用GPT-4来自动回答问题(已经有封号的了),这甚至会误导new bing

也就是说,如果我们不能有足够的手段来区分人类文本和AI生成的文本,那么GPT-5的语料库中将包含大量GPT-4生成的文本,这很有可能会影响GPT-5的性能。甚至通用人工智能将提前杀青,强行腰斩。

【花师小哲】当代炼金术(神经网络)前沿(39)——人工人工智能?GPT-4背刺GPT-5?插图2

5.总结

也不知道该说些什么,就希望众包工作者的待遇能好一些吧。

原文链接:https://www.bilibili.com/read/cv24538491/

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部