人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

GPT4详解_你感兴趣的点都在这里

2023-11-13 144

公众号:算法一只狗

GPT4是一个大型的多模态模型,虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。

例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。OpenAI花了 6 个月的时间,使用对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可控性和拒绝超出回答边界方面取得了有史以来最好的结果(尽管远非完美)。

在过去的两年里,我们重建了整个深度学习堆栈。一年前,我们训练 GPT-3.5 作为系统的第一次“试运行”。我们发现并修复了一些错误并改进了我们的理论基础。结果,OpenaAI发现GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为能够提前准确预测其训练性能的第一个大型模型。随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力。(能够首先预测)

目前OpenAI开放了对应的GPT-4接口,同时也可以加入waitlist进行等待体验。

1.GPT优化了哪些方面的能力

1.1 Capabilities能力

GPT-3.5和GPT-4对比来看,有以下几个区别:

  • 在处理复杂任务上,GPT-4更可靠、更有创意,并且能够处理更细微的指令。
  • 各种奥林匹克竞赛、GRE考试、代码考试、统一律师考试等测试上,GPT-4都基本完虐GPT-3.5

GPT4详解_你感兴趣的点都在这里插图

  • 在机器学习的一些基准测试集上,也表现更加突出,达到了SOTA的水准,比大部分的语言模型效果要好:

GPT4详解_你感兴趣的点都在这里插图1

1.2 视觉输入能力Visual Inputs

对比与GPT-3来说,GPT-4主要新增在可以处理图像输入信息。但目前图像输入功能还在预览阶段,目前不能够体验到该功能。

官网上给了很多具体的例子,像它能够理解图片的笑话:用一个VGA连接器去给手机充电

GPT4详解_你感兴趣的点都在这里插图2

或者能知道整幅图的不寻常地方:

GPT4详解_你感兴趣的点都在这里插图3

另外,GPT-4在解答数学问题的时候,也会给出一个比较详细的步骤:

GPT4详解_你感兴趣的点都在这里插图4

1.3 可操纵性

GPT-4在不同风格和角色上,完成度相当高。给定了一个角色给它,它能够有效的执行下去。

比如在官方放出的例子上,它扮演一个“苏格拉底式导师”,在一开始设定好系统所扮演的角色之后,用户不断逼问它公式的答案,但是它仍然能够不卑不亢的引导用户进行学习。这样的角色定位,相当于一名小学教师了:

GPT4详解_你感兴趣的点都在这里插图5

1.4 增强模型限制性

尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠。这里OpenAI把它定义为幻觉:给出的事实式错误的,也就是一本正经胡说八道。

从实际的效果来看,GPT-4模型比以前的GPT-3.5模型能够显著减少幻觉性。并且准确得分比GPT-3.5高40%:

GPT4详解_你感兴趣的点都在这里插图6

在基础模型上,GPT-3.5和GPT-4模型的效果还相差不多,但是GPT-4模型在经过RLHF后训练,效果比GPT-3.5要好很多。

GPT4详解_你感兴趣的点都在这里插图7

2.有趣的问题

2.1 校准能力在RLHF训练过后下降

GPT-4由于用到的数据是2021年9月之前的,因此如果你问他未来的事情的时候,往往会犯简单的推理错误。

或者,它也会在生成代码的时候,引入一个安全漏洞。

但其实,在基础预训练模型过后,OpenAI发现它的校准能力还是不错的。但是经过之后的训练步骤之后,发现整体模型的准则减少了。

比如左图是预训练过程之后,对答案的预测置信度通常与正确概率相匹配。右图是经过RLHF流程之后,模型的校准能力大幅下降。

GPT4详解_你感兴趣的点都在这里插图8

2.2 风险和缓解措施

GPT-4在奖励模型上,新增了一个安全奖励信号,用来减少有害信息的输出。这里面,OpenAI制定了对应的很对不安全的规则来提示模型:

GPT4详解_你感兴趣的点都在这里插图9

在结果上,GPT-4比GPT-3.5模型在有害信息的输出上少15%:

GPT4详解_你感兴趣的点都在这里插图10

3.GPT-4训练过程

GPT-4模型过于强大,以致于广大读者一直都希望OpenAI能够公布实现细节。但是遗憾的是,OpenAI发布的GPT-4,不是“Open的AI模型。”

GPT4详解_你感兴趣的点都在这里插图11

大部分的人工智能专家认为,这不仅破坏了OpenAI作为研究机构的创始精神,而且让其他人难以制定保障措施来应对威胁。

从GPT-4放出的技术报告来看,OpenAI主要是出于竞争以及安全等方面的考虑,未公布模型规模等技术细节。这种趋势感觉会越演越烈,以至于有网友开始调抗GPT-4应该去掉“Open“两个字

GPT4详解_你感兴趣的点都在这里插图12

从GPT 2.0的开源,到GPT 3.0的只有论文,再到ChatGPT连论文也没有,直到GPT 4.0的技术报告更像效果评测报告。一个很明显的趋势是,OpenAI做实了CloseAI的名号,之后OpenAI的最前沿研究不会再放出论文。

但是我们也可以从技术报告中,看到一些技术细节。

3.1 大模型能力预测

与以前的GPT模型一样,在做预训练的时候,GPT模型在公开的数据集上,预测文档中的下一个单词。这些数据是一个网络规模的数据语料库,包括数学问题的正确和不正确的解决方案,弱和强推理,自相矛盾和一致的陈述,并代表各种各样的意识形态和思想。

同时也和GPT以前的模型一样,都使用了RLHF方法(基于人类进行反馈),用来尽量拟合用户的意图。但是从上面来看,使用了RLHF方法之后,其实准确率反而会有所下降。

另一个新的创新方法是:OpenAI在大模型训练之前,做了一个预测大模型的任务。

我们知道,GPT-3参数量在1750亿左右,那么保守估计,GPT-4模型参数量可能已经上万了。对于这种大模型,每次训练都要花费大量的时间和算力。万一在训练好之后,发现模型效果不行,那么就需要重新调整超参数。这样就又需要耗费大量的成本。

因此,OpenAI为了能够预估待训练的模型的能力,用小模型来预测某些参数组合下对应大模型的某种能力,如果预测足够精准,能够极大缩短炼丹周期,同时极大减少试错成本,所以无论理论价值还是实际价值巨大,这个绝对是非常值得认真研究具体技术方法的。

从下图可以看到:x轴是计算量,OpenAI利用了多个小型模型,来很好的预测出GPT-4的模型能力。

GPT4详解_你感兴趣的点都在这里插图13

特别是在数据集HumanEval中,计算量可以有效减少1000倍。

3.2 整体模型流程

通过OpenAI放出的技术报告,有理由怀疑GPT-4的模型训练过程如下所示:

GPT4详解_你感兴趣的点都在这里插图14

步骤如下:

  • 准备预训练数据集
  • 利用小模型,来确定要训练的GPT模型的参数
  • 利用RLHF方法,从预训练开始到强化学习阶段,这部分为主要阶段
  • 安全性评估
  • RBRMs(基于规则奖励)方法:在GPT-4训练过程中,额外提供一个奖励信号,当模型输出有害信息时,则拒绝这些请求。

4.总结

整体看下来,GPT-4模型可能不是创新力度最大的模型,但确实在与人交互上达到了目前AI的最高水平。其在理解人类语言上,是一个里程碑式的工作。

但GPT-4也存在一些挑战和局限性,比如数据质量、安全性、可解释性等。更多人希望看到更多开放、创新、合作的研究成果,推动整体AI领域的发展。我也期望着这一天的到来。

以上就是本期的全部内容了。我是leo,我们下期再见~

原文链接:https://zhuanlan.zhihu.com/p/618857751

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部