ModelArts 是面向 AI 开发者的一站式开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成,以及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。主要应用场景在于视频分析、图像识别、产品推荐、异常检测、语音识别等。
1、关于 AI Gallery
AI Gallery 是在 ModelArts 的基础上构建的开发者生态社区,提供了数据集、算法、模型、NoteBook 代码样例等 AI 数字资产的共享,为高校科研机构、AI应用开发商、解决方案集成商、企业级/个人开发者等群体,提供安全、开发的共享及交易环节,加速 AI 资产的开发与落地,保障 AI 开发生态链上各参与方高效地实现各自的商业价值。
1.1模型
模型涉及计算机视觉、自然语言处理、语音、多模态、表格、强化学习等标签。
(1)计算机视觉
图像分类:ResNet_v1_50(图像分类/TensorFlow)、ResNet-图像分类(Pytorch)、MobileNet 等几十种分类模型(不同数据集),直接在云上进行训练,配置费用按小时进行收费。图像分割:2020 西安人工智能大赛季军获奖模型(冠亚季及优胜),“华为云杯”2020 人工智能创新应用大赛训练模型(冠、亚、季),关于路网识别模型。目标检测:YOLOv3_ResNet18 物体检测、YOLOv5(物体检测/Pytorch 训练)等模型进行部署,部署后直接上传图片进行检测(按小时计费)。其他计算机视觉任务:图生图、零样本图像分类、视频分类、深度预估、人
脸检测、OCR(文字识别)、关键点检测、行为识别、轨迹跟踪、视觉编辑、图像超分。(无模型)
(2)自然语言处理
包含机器翻译、掩码填充、Token 分类、句子相似度、文本问答、摘要、零样本分类、文本分类(外卖评论数据集)、文本生成、文本检索、对话、命名实体(岩性识别、关系抽取)等自然语言处理任务。(无模型)
(3)语音
包括语音识别、语音分类、文本生成语音、语音生成文本、声音检测、语音合成、语音鉴定等任务。(少数有模型)
(4)多模态
特征提取、文本生成图像、视觉问答、图像生成文本、文档问答、文本生成视频、图机器学习、视频生成文本、视觉定位、图文检索、文档问答等任务。(少数有模型)
1.2数据集
按模型分类标准,图像分类存在花卉、口罩检测、猫狗等分类数据,图像存在官方示例数据 COCO 数据集,其他 AI 任务基本不存在示例数据集,存在的数据集不能下载到本地,只能在华为云新建桶存到桶里面。
1.3AI 体验
主要部署以对话 Demo 和文生图为例的 AI 模型。
2、关于 MoXing
MoXing 是 ModelArts 自研的组件,是一种轻型的分布式框架,构建于TensorFlow、PyTorch、MXNet、MindSpore 等深度学习引擎之上,使得这些计算引擎分布式性能更高,同时易用性更好。MoXing 包含很多组件,其中 MoXingFramework 模块是一个基础公共组件,可用于访问 OBS 服务,和具体的 AI 引擎解耦,在 ModelArts 支持的所有 AI 引擎(TensorFlow、MXNet、PyTorch、MindSpore等)下均可以使用。
对象存储服务(OBS 服务)是一个基于对象的海量存储服务,无法通过像访问 unix 本地文件系统那样访问 OBS 上的文件,必须通过网络请求读写文件。
为了在 ModelArts 服务中,更便捷的访问 OBS 目录,建议通过 MoXing Framework(mox.file)对 OBS 目录进行操作。
3、开发工具
1. 在线使用体验 CodeLab 与 JuprterLab,CodeLab 内置了免费算力,包含CPU 和 GPU 两种。您可以使用免费规格,端到端体验 ModelArts Notebook 能力。也可使用此免费算力,在线完成算法开发。针对 AI Gallery 社区发布的 Notebook样例(.ipynb 格式文件),可直接在 CodeLab 中打开。(配置费用 0.807/小时)。
2. 使用本地 IDE(PyCharm2019.2 及以上版本,SSH 远程开发功能只限PyCharm 专业版)具体步骤主要包括:(1)创建 Notebook 实例(运行中),并配置远程访问白名单。(2)下载并安装 PyCharm ToolKit,通过 Marketplace 安装( 在 PyCharm 中 选 择 “ File > Settings > Plugins ” , 在 Marketplace 里 搜 索“ModelArts”,单击“Install”即可完成安装)。(3)登录插件(打开已安装ToolKit 工具的 PyCharm,在菜单栏中选择“ModelArts > Edit Credential”),填写“Region”、“Project”等配置选项。(4)插件自动化配置,在本地的 PyCharm开发环境中,单击“ModelArts > Notebook > Remote Config…”,配置插件。(5)使用插件连接云上 Notebook。(6)同步上传本地文件至 Notebook。(7)远程调试(本地云进行调试)。
3. 本地 IDE(VS Code)。在左侧导航栏中选择“开发环境 > Notebook”,进入“Notebook”页面。可以打开 VS Code 连接。单击“操作”列的“更多 > VSCode 接入”;或者单击“操作”列的“打开”,自动进入 Launcher 页面,然后单击“VS Code”。弹出“是否打开 Visual Studio Code?”对话框。直接使用密钥 SSH 连接。
4、关于数据集介绍
当前 ModelArts 支持如下格式的数据集。(1)图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp 四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。(2)音频:对音频类数据进行处理,支持.wav 格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。(3)文本:对文本类数据进行处理,支持.txt、.csv 格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。(4)对视频类数据进行处理,支持.mp4 格式,支持用户进行视频标注。数据集数据集创建在 AI Gallery 中,点击右侧头像创建数据集,依次输入数据集的英文名称、中文名称、许可证。且发布需要审核。具体如图;也可使用官网的示例数据(完成发布任务的数据)。在 AI Gallery 介绍了具体相关的数据产品。
关于数据标注:由于模型训练的过程需要了大量有标签的图片资源,因此在模型训练之前需要对没有标签的图片添加标签,可以通过手工标注或着智能标注的方式进行标注。手工标注需要将 OBS 存储路径中的数据同步至 console,从而为每一张数据图片数据添加分类标签完成标注,智能标注,智能标注指基于当前标注阶段阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注操作。团队标注将数据标注任务分配给团队成员,在完成标注后,对标注结果进行验收并完成所有的数据标注。
原文链接:https://blog.csdn.net/JHZ056/article/details/139249206?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171851505116800184117690%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=171851505116800184117690&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-1-139249206-null-null.nonecase&utm_term=AI%E5%A4%B4%E5%83%8F