人工智能大数据,工作效率生产力
Ctrl + D 收藏本站,更多好用AI工具
当前位置:首页 » AI资讯

又一个 AI 自动写作神器,开源了!

2024-05-15 97

最近两天,高考终于出分了!你们考得咋样?QQ 空间上转得那 10 条锦鲤起作用了吗?能让爸妈给换新 iPhone 吗?和妹子报同所学校有戏不?

好了,不装嫩凑热闹了,我参加高考都十年前的事儿了。

又一个 AI 自动写作神器,开源了!插图

遥想当年考场挥斥方遒,可以说是我人生文化水平的巅峰,下笔如有神。而看看今年的高考作文题目,别说写了,曹公的这几句话都不见得能读懂几分,以现在的水平我可能连机器都考不过。

又一个 AI 自动写作神器,开源了!插图1

emmm 不是可能,是真的连机器都考不过。不是我小瞧自己,是如今的 AI 在写作这一块真的太厉害了。不信你看这篇文章:

又一个 AI 自动写作神器,开源了!插图2

这篇鲁迅体风格十足的文章,正是由浪潮信息推出的全球最大规模中文人工智能巨量模型 “源 1.0” 生成。

我大抵是没见过世面,思来想去不知输在了哪里,起身看了看,这惭愧没由头,黯黯然翻了翻这两篇作文,一篇是 AI 写得,另一篇也是 AI 写得。

好了,解除鲁迅先生 emo 版附体,话说回来,“源 1.0” 能写出这样的文章有迹可循:“源” 的单体模型参数量达 2457 亿,单在阅读方面,小源就 “读” 过 300 万本书。

所以能写出这样的高质量作文也不足为奇,不仅如此,它甚至还会写文综…… 分析汽车尾气对小花小草的生态影响、探讨中国科技发展史……

又一个 AI 自动写作神器,开源了!插图3

尽管 AI 应用于文字创作并不算新鲜事,但 AI 大模型的出现还是一再给人带来惊喜,创作形式和内容也变得更加丰富多彩。

小、快、灵:要想 AI 大模型落地,还看蒸馏后的技能模型

过去两年,AI 巨量模型在业内引起开发风潮。

大规模模型虽好,但落地应用过程中还需解决性能以及成本的阻碍。

在产业 AI 应用落地过程中,如何大模型产业化应用,让模型的能力变得更加 “小、快、灵”。

基于大模型快速蒸馏出轻量化标准化的技能模型,将大模型沉淀的知识、认知推理能力及泛化能力向技能模型输出,同时技能模型可专注在特定场景做极致优化,提升性能与效率,已成为新的发展趋势。

根据当下的应用需求,浪潮信息推出了全球领先中文 AI 大模型 “源 1.0” 的最新成果,基于 “源 1.0” 千亿大模型蒸馏出 4 个百亿参数规模的技能模型:知识增强的对话模型、知识检索问答模型、中英文翻译模型、古文理解模型

又一个 AI 自动写作神器,开源了!插图4

蒸馏成技能模型后,在相同任务上保留 98% 的基础模型效果的同时,推理速率能提升 9 倍甚至更多。

同时,技能模型还可以与巨量模型协同进化,将执行结果反馈给巨量模型,巨量模型的知识与能力持续进化,形成一套有机循环的系统,落地场景越多、模型进化得 “越聪明”,同时模型进化的速度也越快。

如此的降本增效,可以让行业用户甚至是中小用户也能使用大模型进行深度创新,而这四个模型也正是基于 NLP 技术最常上岗的各类场景。

“源” 开发团队为模型选择的数据也是精且全,可开发出才高八斗的 “文化 bot”,也可开发出对答如流的 “社会 bot”,还能开发出满足人相对高阶情感需求的 “知心 bot”。

来看下这四个蒸馏出的技能模型都达到了怎样的水平:

古文理解模型(源晓文)在源大模型精读了 5000GB 高质量中文的基础上,又学习了先秦到近代几乎所有诗词,并精选其中最优秀的 10 万首进行强化训练。可广泛应用于文学创作、古诗文教学、汉语言文化研究等场景中。

对话技能模型(源晓问)在源大模型基础上,采用了 2660 万条医疗、法律、保险等不同行业,历史、电影、娱乐等不同场景的对话语料数据进行强化训练,源晓问可广泛应用于虚拟人、智能助手、智能客服等场景。

中英翻译技能模型(源晓译)基于源大模型阅读的海量高质量数据集,采用维基百科、书籍、联合国文件及字幕组等近 80G 高质量数据集进行强化训练,可轻松应对日常对话、新闻、哲学、小说等日常的语言翻译任务。

知识检索问答技能模型(源晓搜)链接了包含了维基百科、书籍等知识的数据库,根据用户提问的内容,利用高性能检索方法,可广泛应用于医疗、法律、保险及娱乐等领域的智能客服、个人助理等场景。

当然,考虑到智能客服覆盖的领域不同,领域知识已经被预先编码到的知识库中,如果开发者想切换不同的应用领域,只需要替换知识库即可,不需要重新训练这个模型,可以做到应用在不同专业领域之间的迁移。

又一个 AI 自动写作神器,开源了!插图5

从自动驾驶到线上剧本杀,“源 1.0” 开发应用范畴广且新

自去年 10 月发布以来,“源 1.0” 已经快速投入应用实践中,在企业开发团队和个人开发者的 “真刀真枪” 中不断成长,取得了不斐的成绩:

例如,超 600 家用户,采用 “源 1.0” 提供的数据和 API 显著提升了金融、互联网、医疗和自动驾驶等行业应用的精度;

源 1.0 已经与多个行业用户开展深度合作,支持手机智能语音助手、大型互联网翻译平台等应用的 AI 智能化升级……

除了这些相对 “常规” 的操作,不少开源社区的开发者们通过源 1.0 的开放开源平台进行了创意实现。

“AI 剧本杀” 就是其中代表,曾在 GitHub 引发热烈讨论。

GitHub:github.com/bigbrother66

实际上,剧本杀非常考验玩家的故事场景理解能力、目的性对话能力和线索收集能力,“源” 的出现,让 AI 有了这样的能力。

下图这个顶着女生侧脸头像的蔡晓正是一群开发者开发出的 AI 虚拟人物。经过训练,“她” 不仅擅长剧本杀推理游戏,还拥有自己完整的朋友圈人设 —— 经典 AI 科幻电影《黑客帝国》的经典片段作为朋友圈背景,还会发剧本杀相关内容辅助剧情延续。

又一个 AI 自动写作神器,开源了!插图6

蔡晓之 “父”(们)是一群来自上海交通大学、华东理工大学等高校的学生开发者。

基于浪潮 “源 1.0” 的开源开放能力,他们开发了一个 AI 剧本杀平台,让 AI 与真人同场竞技,源 1.0 的场景化对话技能已经达到了 “人机难辨” 的程度。

低代码友好度满分:开发工具齐全,开箱即用

据开发团队介绍,在「剧本杀」项目中的合成文本环节,浪潮团队提供了技术支持,对 prompt 生成、request 提交以及 reply 查询均提供了详细的、质量极高的范本代码。

源地址:air.inspur.com/home

又一个 AI 自动写作神器,开源了!插图7

借助源 1.0 的开放开源的能力,AI 开发者可以快速的享受大模型带来的便利:

包括可以直接调用的开放模型 API—— 显著降低了开发者应用开发的门槛;

并且,浪潮开源了直接可用的代码示例,包括高质量中文数据集,开源模型训练代码、推理代码和应用代码等,可以帮助开发者节省各类研发开支。

如此,开发者无需关心底层技术,设置无需配置编程环境,就可以直接将应用构建于 AI 大模型的能力之上,在降低开发门槛的同时,让开发人员能够将更多的精力聚焦核心业务逻辑。

围绕 AI 大模型构建的算法基础设施,“源” 开源社区建设再次升级。

目前,源的 API 和数据已经面向教科研、互联网、制造业等多个产业超过 600 家用户开放使用。开发团队已提供源 1.0 巨量模型、四个百亿领域模型和模型工具、开发者工具及行业合作服务。

同时,源的官网同步开放和上线了 APIExp 和 Web 应用 Sandbox(沙箱)开发工具,开发者可在 APIExp 上设置参数,零代码调用和测试所有已开放的模型服务。

Sandbox 开发工具可以让开发者仅修改少量代码,即可完成包含 web 交互的应用示例,从而快速验证业务逻辑和功能效果。

未来,“源” 还会进一步开放模型在线蒸馏、领域模型下载等服务,并完善和丰富更多基于大模型的应用示例。

低代码、低门槛,开发工具齐全、开箱即用…… 这些特点以及 NLP 巨量模型自身的魅力与潜力,让更多的、不限技术水平的开发者都有机会尝试大模型应用。

一项技术的出现,起初确实需要聚焦精炼技术和底层开发,夯实基础,而若发展到后来,它也必将 “往上走”—— 慢慢解放人类曾被限制的想象力、服务于缤纷多彩的创意,甚至会帮助证实那些曾被嘲笑是天马行空的幻想。

借用 “小源鲁迅体” 作文中的一句话:“中国青年要创造,我们要或挑战,或因势利导,或顺势而为。”

所以,想怎么用 “源”,看诸君咯。

文中所提到的所有开源项目,已收录至 GitHubDaily 的开源项目列表中,有需要的,可访问下方 GitHub 仓库查看:

GitHub:github.com/GitHubDaily/

文末,照旧安利一波我们的公众号:GitHubDaily,主要分享比较实用或有趣的开发工具与 GitHub 开源项目,偶尔也会聊聊技术圈内最近发生的新鲜事,感兴趣的小伙伴可以关注一下~

原文链接:https://zhuanlan.zhihu.com/p/533244988

相关推荐

阅读榜

hellenandjeckett@outlook.com

加入QQ群:849112589

回顶部