详细举例说明:
1、华为的盘古模型
华为模型是华为开发的一系列大模型自回归中文预训练语言模型,包括NLP大模型、CV大模型、多模态大模型、科学计算大模型等。盘古模型可以支持多种自然语言理解和生成任务,如文本生成、文本分类、问答系统等,也可以应用于多个领域,如医疗、工业、交通、气象等。盘古模型有2000亿个参数,比GPT-3的1750亿稍高一点,且是基于鹏城云脑Ⅱ和全场景人工智能计算框架Mindspore训练的。
2、百度文心一言
百度的文心大模型和Open AI的GPT模型类似,在2019年就已经推出,并且已经迭代了多代。从单一的自然语言理解延伸到多模态,包括视觉、文档、文图、语音等多模态多功能,所基于的ERNIE系列模型也已经具备较强的泛化能力和性能。在算力方面, 百度自研AI芯片“昆仑”已在多场景实际部署几万片,在搜索业务中也已形成较强的工程化实践,因此,“文心一言”底层算力有所保证。
3、阿里通义
4月份阿里云智能首席技术官周靖人在阿里云峰会上正式宣布推出大语言模型通义千问,基于Transformer架构的自然语言处理模型。且阿里巴巴所有产品未来将接入“通义千问”大模型,包括天猫、淘宝、钉钉、天猫精灵、闲鱼、盒马等。功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
官网通义大模型 (aliyun.com)
4、清华大语言模型ChatGLM
GLM-130B千亿基座模型,ChatGLM参考了ChatGPT的设计思路,在千亿基座模型GLM-130B1中注入了代码预训练,通过有监督微调(Supervised Fine-Tuning)等技术实现人类意图对齐。该模型有一些独特的优势:
-
高精度(英文): 在公开的英文自然语言榜单 LAMBADA、MMLU 和 Big-bench-lite 上优于 GPT-3 175B(API: davinci,基座模型)、OPT-175B 和 BLOOM-176B。
-
快速推理: 首个实现 INT4 量化的千亿模型,支持用一台 4 卡 3090 或 8 卡 2080Ti 服务器进行快速且基本无损推理。
-
可复现性: 所有结果(超过 30 个任务)均可通过我们的开源代码和模型参数复现。
5、科大讯飞星火认知大模型
发布以来核心能力持续迭代,6月9日又发布星火认知大模型V1.5,不仅各项能力持续提升,且突破开放式知识问答,多轮对话、逻辑和数学能力再升级。有着文本生成、语言理解、知识问答、逻辑推理、数学知识等七大核心能力。在教育、医疗、办公、数字员工、汽车、金融、工业等多场景应用。
6、实在智能TARS大模型
实在的国产大模型,TARS(塔斯)历经半年研发,近期正式上线开始内测。这是国内人工智能企业、RPA赛道头部实在智能自研垂直领域的大语言模型,在TARS大模型中叠加了多项自然语言处理前沿技术,基于开源基座模型,在千亿级高质量Tokens上进行了充分训练,完整复现了Pretrain、SFT和RLHF三个阶段,语言理解能力及指令跟随能力等在横向对比测试中均取得良好效果。
7、商汤科技日日新SenseNova/商量、秒画、如影
作为商汤“日日新SenseNova”大模型体系的重要一员,“商量SenseChat 2.0”是商汤科技研发的AI大语言模型,拥有很强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且能够在与用户的互动过程中精进判断力与创作智能,实现知识实时更新。
8、知乎×面壁科技 知海图AI大模型
“看山”小助手会出现在热榜的问题下方,会抓取那些优质问答的重要观点,经过AI算法整理、聚合、润色后,将回答梗概展现给用户。其背后的大语言模型是CPM-Bee,来自当下饱受市场关注的清华系大模型创业公司面壁智能。
……
结语:
这些大模型就像一群巨人,正在各个领域中挥舞着他们的力量,引领着一场前所未有的技术变革。他们的出现,让我们感觉仿佛是在观看一场“百模大战”。
原文链接:https://baijiahao.baidu.com/s?id=1770546466720105471&wfr=spider&for=pc