全文共 5473 字,阅读大约需要 15 分钟
作者 | 王晓玲 罗立璇
AI的技术和产品演进越来越快。Kimi刷完屏,GPT-4o又再次占领聚光灯。但不管是从业者还是用户,已经不再像以前那么容易激动了。
除非,是能让用户亲身体验到AI降临奇迹时刻,真正给用户带来实际帮助的产品。
目前,海外AI领域的当红炸子鸡,要数AI搜索引擎Perplexity,连英伟达创始人黄仁勋都“每天会用”。自2022年创立至今不到三年,Perplexity的最新估值已经接近30亿美元,被认为是谷歌未来在搜索引擎领域的主导地位的有力挑战者。
谷歌也确实在追逐AI搜索这个AI时代新的风口,与Perplexity跑在了同一条赛道上。I/O开发者大会上,谷歌除了宣布对自己的AI多模态模型Gemini进行升级,还对自己的搜索业务进行了大刀阔斧的AI化改造。
通过融合Gemini大模型的能力,谷歌演示的AI概览(AI Overviews)能为搜索用户提供多步骤推理能力。简单来说,你可以要求谷歌搜索寻找一家评分4.5以上、人均消费150元左右、距你公司半小时车程的中餐厅,它会进行研究,将符合要求的餐厅呈现在AI概览中,为答案配上相应的图片,并生成清晰的关键信息对比表格。
就效果而言,虽然谷歌围绕AI搜索进行了一番卖力的输出,但这些看上去很炸裂的功能,其实我们中国也有,大可不必去氪金。
不仅在美国有Perplexity,在中国,昆仑万维也早在2023年8年就上线了中国第一款基于自研大模型和自研搜索引擎的AI搜索产品——天工AI搜索。并且,在此之前,天工AI搜索就具备了与谷歌AI概览一样的多步骤推理、对比表格生成、图文并貌呈现等能力。
与谷歌的AI概览依托Gemini大模型实现一样,天工AI搜索强悍能力的养成,也有赖于采用MoE(混合专家模型)架构的千亿级参数开源大模型天工3.0。相比天工2.0,天工3.0不但新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力,还集成了AI PPT、AI视频转绘、AI图片生成、AI漫画创作、AI音乐生成等多模态能力。
作为以AI搜索为主的全能AI助手,天工AI的背后有强大的MoE大模型,能够越来越精确地独立完成规划、调用、组合外部工具及信息;月活跻身国内AI独立应用Top 3,激烈的市场竞争中不断发展壮大,为中国用户将AI“用起来”提供了一个优质选择。
据今年3月,QuestMobile发布的《2024生成式AI及AIGC应用洞察报告》,天工AI的月活,已经接近千万,仅次于抖音的豆包百度的文心一言。
一年前,当昆仑万维刚刚发布天工AI时,大多数人都不会想到这个结果。
AGI的远大愿景高悬在头顶,PMF的现实需求在脚下。朱啸虎和杨植麟引发的争论,让技术信仰派和市场信仰派的分歧摆在了台面上,但这两者并非不可调和。在昙花一现的噱头型产品之外,依然有人在不断将AI雪球滚大,寻找技术与市场的最佳契合点。
“一款产品,一站式满足所有愿望”
对于打工人,这次天工大模型3.0更新带来的AI助手的体验升级,让我们看到了原生自中国本土语境的AI助手,已经具备将大模型能力的运用推进到解决现实工作中的复杂需求上。
当然,能干和会干是完全不同的两个维度。
即使是全球范围影响力最大的ChatGPT,也从去年6月开始不得不面临流量下滑的问题。除了竞品变多以外,核心问题是,它不能完全理解人类提出的复杂问题,给出的回答有时并不靠谱,甚至会产生“幻觉”,在严肃的工作环境中难以带来颠覆性地效率提升。
所以,在这次测试天工AI的时候,我就给自己设定了一个虚拟的工作角色,尝试处理这个角色日常工作中可能会遇到的一些业务问题——一名试图进入短剧行业的制片人,“我”需要尽快了解这个行业,并且对执行层面的工作有框架性的了解,以便有效地安排项目的流程和计划。
在这个过程中,我需要:
*海量搜索资料
*大量阅读
*内容结构
*文案撰写
*配图样例
*BGM配乐
*最后做成PPT
接下来我们用天工AI一站式完成任务,开始测试。我选择在手机端下载安装APP“天工AI智能助手”进行体验。当然,你也可以在网页端点击www.tiangong.cn,或者在小程序端搜索【天工AI智能助手】,开启体验。
首先,我肯定需要了解行业的最新全貌,进行一些市场调查,来确认这个方向是否可行。
还给了一些热门的短剧参考,附带图文:
到这里,天工AI很好地完成了工作,并且在具体的数据、案例背后,都提供了相应的信源参考。对任意一个细节存疑的用户,都可以进一步查看相应的资料。而且,天工AI的搜索结果里,在进行了条件限定的前提下,提供的都是最新信息,不需要浪费更多时间进行区分了。
而且,在总结完了我需要的答案以后,天工AI还在篇尾进一步细化了我的模糊问题,引导更深入的提问,比如“2024年最热榜单”“现在什么题材的短剧最火”,来帮助我进一步了解短剧行业的全貌。
在这里,我使用了“增强”模式。在“增强”模式下,天工AI会检索更多网页,提供相对全面和个性化的答案,而“研究”模式结构更细致,内容更深入,还能自动总结大纲和知识图谱,使得答案更清晰。
但时间紧急,我需要尽快了解情况,所以我回到了简洁模式,开始进行下一步提问。
我对霸总题材格外感兴趣,还需要收集相关具体的资料。
从参考链接中可以看到,天工AI不单检索了文字资料,并且还检索了视频内容,这正是需要拍摄短剧内容的我最需要的。并且可以针对每个搜索落地页进行AI速读,大大节省我自己翻江倒海的时间。
之前搜索资料,文字、音频、视频等媒体形式,都需要分开检索,并进行阅读、收听、观看,消耗很多时间。而现在一个AI助手,已经能同时解决这个问题。
另外,我还想让天工AI帮我分析一下当下最红的标杆案例,爆红的反套路霸总短剧《我在霸总短剧里当保姆》,也顺利完成了。
这确实是我需要的答案。想象一下,如果你是一个公司里的打工人,在开例会的时候,你的老板在早会中随意发问,“王妈最近很火啊?这是怎么回事?”的时候,你只需要在天工AI输入一个问题,就能有理有据、头头是道地给老板一个靠谱分析,绝对算是一个加分项。
在看完了这些资料以后,作为制片人的我更加确认我想拍霸总题材了。这时候,我尝试让天工AI尝试帮我创作剧本大纲,看一下相关的套路。
我还想了解根据之前的内容,相应的分镜剧本该怎么写,天工AI也帮我创作了出来。
显然,我们不能期待AI帮助我们人类在创意层面无中生有,但天工AI依然给我生成了一个大纲和分镜头的模板,让我的工作有了一个更清晰的推进方向。
不过话又说回来了,天工AI编纂出来的剧情,和奈飞以及抖音上的一些流水线“行活儿”相比,也没有那么难看,一些糊弄事儿的、甚至比不过AI 的编剧可能真的会被淘汰。
天工AI的优势是具备多模态应用,除了文字处理,也能做图做音乐,作为生产工具,在同一个App内切换起来非常方便。有了剧本,我让天工图片生成助手帮我画一个分镜图,内容分别是:1、艾米丽进入庄园 ;2、艾米丽坐在客厅;3、艾米丽在庄园发现了一间密室;4、艾米丽站在密室门口。
但图片助手显然对画分镜图没有什么经验。后来,我降低难度,分别让它画了这四个场景。
如果是用来做项目PPT,其中有两张用来做海报图也还不错。
天工3.0发布同时推出了天工音乐大模型,同样主打简单易用。作为制片人,我只要选择好自己喜欢的参考曲目,并准备好歌词,就能创作一首原创歌曲。当然,歌词可以是已有的诗词作品,也可以交给天工AI进行生成。
与此同时,这个新功能甚至还配备了新的智能助理,主打一个高效交互。例如,我用林黛玉的白海棠诗(其实上传任何内容都可以,甚至菜谱也行)完成了一支古风歌曲后,想把它分享到微信群。当我在对话框里,问了关于这首歌如何分享的问题后,天工AI立即就为我推荐了专门的音乐分享小管家。
作为第一次尝试的低成本制作,这首歌已经可以直接用到我的短剧中,没有版权问题。
与此同时,制片人当然还有一份最重要的工作,那就是找钱。我又让天工AI帮我找了找可能会对短剧项目感兴趣的投资人。
诚然,在现实的场景里,当然有很多项目的融资,靠的是人际关系和小道消息。但是,至少先了解公开层面里,谁对短剧项目感兴趣、愿意投入,背后的资源能够和项目相结合,已经算是做好了基础的市场调查工作。
另外,天工AI在研究模式下还能帮我生成思维导图和大纲,并能够将搜索到的答案一键转化为带有示意图和图表的PPT,以便我更好地向投资人说明行业潜力。
可以看到,在“我”的每一步工作里,都已经能很好地和AI助手协作,并且产生有意义的结果。
集成多模态能力的AI助手
站在用户角度看,简捷有用,才是生产力工具的硬核实力。大多数需要用AI来帮忙完成的工作,无论是AI搜索还是AI助理,我们都希望它是一个全能同事,帮忙写文案的后,也能帮忙配图、生成图表。
因此,天工AI搜索在研究模式中,会支持搜索结果的多模态呈现。像前文演示的那样,在搜索结果出来后,既能输出大纲,形成PPT,方便我在会议上分享,也能画出思维导图,方便作为资料保存。
多种实用功能聚集,就是天工3.0的最大特色。官方资料显示,天工3.0是全球首个多模态“超级模型”(Super Model),其集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,是大模型时代的“超级应用”。
“超级模型”背后,天工AI从2.0版本就开始采用MoE 混合专家模型,相比Transformer大模型,前者计算效率更高、计算速度更快,能够在不大幅增加算力成本的同时,有效增加模型容量,甚至能达到万亿参数级别。
同时,MoE大模型中的各个专家模型基于不同数据分布和构建模式搭建,能支持针对特定领域进行优化。通过调整专家模型的数量、类型和组合方式,可以多样化构建、扩展MoE大模型,使其可以灵活地应对各种复杂任务。
这也是目前大模型发展的重要方向。天工3.0发布一个月后,OpenAI发布了新一代旗舰生成模型GPT-4o,产品新增了文本、语音、图像三种模态的理解能力。比OpenAI晚一天,谷歌推出了拥有强大多模态理解能力和实时对话功能的未来AI助手Project Astra,并且发布了文生图模型Imagen 3、文生视频模型Veo,以及音乐创作大模型Music AI Sandbox。
几天后的上海创新创业青年50人论坛上,Moonshot AI月之暗面创始人杨植麟谈到,自己也关注到了GPT-4o的多模态能力,“这个也是我们持续重点投入的方向。”
而在昆仑万维董事长兼CEO方汉看来,GPT-4o展示了超级个人助理的交互新形式。从共同选择布局大模型多模态能力来看,GPT-4o和Project Astra展示出来的能力,同样也是天工AI正在逐渐接近的下一代超级个人助理的终极交互形态。
不难发现,虽然天工AI整体定位于生产力增强工具,却也是目前市面上AI对话App中,相对C端友好型产品。
新用户习惯使用的天工AI网页版界面干净简洁。用户打开之后默认进入AI搜索界面,主页面中央的搜索框,是我们再熟悉不过的,左边的边栏上半部分排例着天工3.0对话助手、AI文档分析、AI图片生成、AI音乐等一应功能,下半部分则列有口语练习,豆瓣推荐,旅游规划师等实用小助手,甚至还有热梗百科,每天更新网络热点,也方便吃瓜群众使用AI搜索这种高阶工具深度追踪热事件。
“买时生产力,买后爱奇艺”是大家对于平板使用的自嘲,实际上AIGC产品也同样如此,目前市面上的AIGC App卸载率都在30-40%左右,甚至ChatGPT也有用户留存率不高的问题。
让用户在摸索用大模型提升生产力的同时,娱乐应用提供的情绪价值,或许是提高留存率的好办法。
为什么是昆仑万维
在将人工智能列为公司未来十年的发展战略后,昆仑万维在这个方向上能够坚持下占得一席之地的原因不仅是具备先发优势,还有在先发之后,快速在垂直领域形成了技术领先,并利用领先的技术和产品的创新,促成了用户体量的增长。
正如方汉所说,在当前的AI领域,讨论产品开发和商业逻辑时,技术驱动无疑是核心动力。而技术红利当下在这个领域中发挥着重要的作用。例如,OpenAI的文本大模型一鸣惊人,一举奠定了自己在大模型领域的地位,当然也吸引了全球海量用户。
在5月15日的一次演讲中,方汉透露,一个月前发布的天工音乐大模型的评分已经达到SOTA水平。SOTA(State of the art)是指目前能够实现的最佳结果,也就是“最新技术”的最佳状态。
“在评分对比上,我们与全球领先的Suno模型进行了对比。结果显示,我们大概在三项指标(人声&BGM音质、人声自然度、发音可懂度)上领先,而在另外三项上稍显落后。但总的来说,我们的评分已经达到全球最顶尖的SOTA水平。”方汉说。
作为国内AI搜索产品的鼻祖,天工AI搜索的产品体验和用户规模提升,也依赖于昆仑万维技术积累。在天工3.0支撑实现的AI搜索升级中,昆仑万维引入了检索增强生成技术RAG(Retrieval-Augmented Generation),针对用户的复杂Query进行拆解、细化、并进行追问、信息理解与补全,然后发放给对应的专家模型处理。
依靠RAG技术与MoE大模型的结合,天工AI搜索得以减少“幻觉”,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求,拉开与传统搜索的差距,将搜索结果的获取时间从3-10分钟,压缩到5-10秒,在AI搜索领域收获技术红利。
这个优势的取得是搜索引擎+大模型自研经验积累的结果。昆仑万维旗下拥有千万级DAU、面向全球十余种语言市场的新闻推荐产品Opera News,已经是非洲用户规模最大的新闻客户端。昆仑万维已经通过Opera News产品,在数据抓取、数据清理等搜索引擎技术上拥有了5年的技术积累。
2020年,昆仑万维建立团队立项大模型研发时,确定了自研路线。5年搜索引擎再加上3年的大模型研发的积累,昆仑万维才有了做AI搜索的底气。AI搜索从产品立项到完成仅花费了半年时间。经过一年时间的迭代,天工AI搜索已经在一定程度上走在了国外同行的前面。
接下来,天工AI还准备在小说、漫画、音乐、视频等AIGC垂直领域内,继续达到SOTA水平,进一步加强技术红利,从C端获取更多用户。也因为在C端上有长期积累,天工AI的产品开发和商业逻辑才能持续聚焦C端市场,养成独特的竞争力。
原文链接:https://new.qq.com/rain/a/20240525A06EBG00