人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

百度发布「文心一言」模型,背后有哪些技术细节?

2023-10-21 153

GPT4.0和文心一言前后脚发布,两边发布会全部看完,我心里只有一个感想:

文心一言被低估了。

发布前网络上两级分化,网友们小看百度即将推出的中国版ChatGPT。

百度发布「文心一言」模型,背后有哪些技术细节?插图
百度发布「文心一言」模型,背后有哪些技术细节?插图1

其实业内人士还是普遍期待文心一言的发布。

首先,这个代表我们国家的AI实力,百度投入了十多年的时间和大量资金,其次,在美国那边我们知道类似谷歌提前没有投入时间和资金,AI成果不可能忽然被拿出来,最后我们想知道百度的成果到底怎么样了。

这一次发布会完事儿,我们感觉还是比较超出预期的

超出预期的点在哪里?

我列举发布会上的一个案例你就知道了。

百度发布「文心一言」模型,背后有哪些技术细节?插图2

文心一言,在发布会上做出了非常多的多模态案例,也就是文字,图片,音频,视频转换输出的内容结果,转换的十分OK,多重模态意义了解的较为准确。

百度发布「文心一言」模型,背后有哪些技术细节?插图3

GPT4,也就是NewBing的多模态效果事实上不及大家的预期,多模态演示有突破目前还只能输出文字为主,我们过去知道的图片输出只能采用API接口,曲线救国的形式转发图片。

换句话说GTP4的多模态不成熟,更多的是跨模态技术,ChatGPT自己告诉我们实际运行的是ChatGPT3.5。

可能很多人不知道什么是多模态,跨模态,在这里科普一下。

多模态的意思是让AI观察同一现象的多种模式,比如我们说到只因,AI就能给你一个篮球小子图片。而文心一言多模态的成功应该是取决于过去文心ERNIE-ViLG 对跨模态的难题攻克。

跨模态其实是AI领域一个非常具有挑战性的一道难题,意思是,你得把一种模态(文本,图像,语音)转换成另外一种模态,还得保持模态中的语义一样。

百度发布「文心一言」模型,背后有哪些技术细节?插图4

比如随便你弄一个图片,里面有几个苹果,苹果大小,联系到一句中国古代诗句,这就是一个问题。文心ERNIE-ViLG 则在生成式视觉问答(Generative VQA)图像描述(Image Captioning)文本生成图像(Text-to-image Synthesis)等几项任务中都得到了很好的攻克。

百度发布「文心一言」模型,背后有哪些技术细节?插图5

文心ERNIE-ViLG 是文心大模型的一员,文心一言则基于文心大模型,达到这种多模态其实不是一件简单的事情。

事实上在看发布会的时候,我们圈里的几个人也都有调侃“这百度该不会直接转的ChatGPT接口在玩双簧吧”但是实际操作结果,我们感觉确实带来了很多改变,可以跟大家解释一下。

除了刚才的多模态效果,在GPT这一块本身我们国内的中文模型是很缺乏的,如果你有关注GPT4的表现,你会发现,中文本土化的意思GPT是无法了解的,有一个大前提是必须是网络上公开可以搜索到的意思才能和你正常的对话;不仅如此,很多中文情感,以及一些拐弯抹角的词汇GPT4也不行。

但是如果拥有完善的中文模型,那么哪怕GPT3也可以GET到我们的意思。

从这一点来出发,文心一言的技术完全是百度的全栈自研,每一行代码都是自己敲的,属于完全的国产技术。

我觉得大众对我国的技术发展现在已经有了一种很强烈的自卑在里面,这样挺不好。

没错,芯片方面我们被别人卡了脖子,但是AI技术不是啊。

百度的ALLinAI,十几年前就投入AI研究,不仅拥有自研的AI芯片昆仑,目前已经量产,2019年推出文心大模型,在这个圈子里挺出名的。

在投入成本方面,十年累计投入超过1000亿元,就以2022年核心研发费用都有214.16亿元,占了百度核心收入比例的22.4%,这种研发力度在大厂里是很罕见的,大部分企业全部的研发资金也就占据了整体收入的8%左右。

可以说AI研究,本身就是规模大,回报大,但是周期和投入极其变态的一个领域,百度有决心从AI芯片,然后AI框架,AI大模型一个个攻略下来,还是有魄力的。

AI的研究单独就投入资金来说,轻松拖垮一家大型企业是没有问题的。

我们可以从多个维度来评价一下文心一言的能力。

【文学创作能力】

可以总结,分析,内容,检索,以及延伸至检索增强。

本身百度是基于搜索业务的积累,拥有世界上最大的知识图谱,因此文心一言的回答准确性以及生成结果的可信度是有一定提升的。

百度发布「文心一言」模型,背后有哪些技术细节?插图6

【商业文案写作能力】

小到起名字,大到写新闻稿,写标语,这一块主要依赖的是文心一言大模型的训练数据,内部包含万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据及5500亿事实的知识突破。那么在中文层面,表现是很杰出的,并且可以形成知识和逻辑推理能力。

在自然语言问答和创意内容生成上也会很突出。

百度发布「文心一言」模型,背后有哪些技术细节?插图7

【数理逻辑推算能力】

回答问题,拆解子问题,这个是基础能力,不多说。

【中文理解能力】(重点)

这个地方是文心一言的优势,重点在于中国市场扎根,理解我们的中国文化,老外想问中国的问题,那得问文心一言,而不是ChatGPT。

百度发布「文心一言」模型,背后有哪些技术细节?插图8

【多模态生成能力】(重点)

前面我们讲了,文心一言在这一块目前表现是很突出的,可以说领先GPT。

百度发布「文心一言」模型,背后有哪些技术细节?插图9

总体来看,百度发布的文心一言,还是很不错的。。

最初我们对文心一言的期待其实也复杂,对于我国,GPT是必须有的技术,内心还是有些忐忑的,现在东西拿出来了,我觉得我们确实没必要唱衰自己的企业和技术。

一个重点:

文心一言是刚发布状态,未来随着用户不断的反馈,模型迭代跑起来后还会越来越好。

最后

3月16日起,百度智能云将面向企业客户开放文心一言API接口调用服务,终于,我们国家的AI迭代也开始奔跑起来了。

那么大家就可以回想一下美国企业在引入GPT的时候,整个企业环境和职业环境发生了什么样的变化。

现在有个风向就是,你找工作,会用人工智能,你就会加分,企业是鼓励使用这些东西的,这就是人工智能的时代。

我很期待文心一言和国内商业环境深度结合后,对这个社会产生的化学效应。

原文链接:https://www.zhihu.com/question/589938328/answer/2939241077?utm_id=0

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部