当前位置：首页 » AI资讯

AI大模型：以“大规模预训练﹢微调”范式满足多元化需求

2024-09-12

177

文继荣：一般认为，AI大模型发展起源于自然语言处理领域。在2017年Transformer网络提出后，伴随着参数量的不断提升，它在自然语言处理领域慢慢成为基础性架构，并在2018年其参数量达到3亿规模，也就是我们所熟知的BERT。基于如此之大的参数量，研究者发现它能够同时出色地完成多种自然语言处理任务，这也就吸引了越来越多的人加入其中。

在大模型研究的早期阶段，仍然主要集中在自然语言处理领域，诞生了诸如上述BERT、GPT-3等一系列代表性模型，它们的参数量从起初的几亿，快速增长为数十亿乃至千亿规模。而随之带来的就是相应能力的提升，具备了从简单的文本问答、文本创作到符号式语言的推理能力；近两年，部分研究者提出了以其他模态（如视觉等）为基础的大模型研究，希望模型也可以看懂世间万物。在这个阶段，诞生了如ViT等包含数亿参数规模的视觉模型。

上述模型分别具备了读的能力和看的能力，研究者期望将这两类能力统一起来，具备如大脑体现的多模态感知能力，这一部分的代表性模型就是文澜、CLIP、DALL·E等模型。

当前，AI大模型的发展正从以不同模态数据为基础过渡到同知识、可解释性、学习理论等方面相结合，呈现出全面发力、多点开花的新格局。这对AI大模型研究而言是一件非常好的事情。

曹峰：AI大模型的发展经历了多个重要阶段。从参数规模上看，AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段，参数量实现了从亿级到万亿级的突破。从模态支持上看，AI大模型从支持图片、图像、文本、语音单一模态下的单一任务，逐渐发展为支持多种模态下的多种任务。在各阶段的衍变过程中，涌现出多个具有代表性的AI大模型。

国外方面，Google于2018年提出BERT模型，掀起了预训练模型的研究热潮；OpenAI于2020年提出首个千亿级的GPT-3模型，将模型规模推向新的高度。

国内方面，华为于2021年发布首个中文千亿级的盘古模型，进一步增强中文大模型研究影响力；中科院自动化所于2021年提出首个三模态的紫东太初模型，预示着AI大模型进一步走向通用场景；百度于2022年发布10个产业级知识增强的ERNIE模型，全面涵盖基础大模型、任务大模型、行业大模型。

原文链接：https://baijiahao.baidu.com/s?id=1735770739273944604&wfr=spider&for=pc

人工智能自然语言处理

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » AI大模型：以“大规模预训练﹢微调”范式满足多元化需求

AI大模型：以“大规模预训练﹢微调”范式满足多元化需求

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

AI大模型：以“大规模预训练﹢微调”范式满足多元化需求

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航