当前位置：首页 » AI资讯

人工智能三大核心要素简析（上）

2023-08-09

215

人工智能行业概述

1、人工智能概念

人工智能是利用机器学习和数据分析，对人的意识和思维过程进行模拟、延伸和拓展，赋予机器类人的能力。人工智能将重塑实体经济，提升社会劳动生产率，特别是在有效降低劳动成本、优化产品和服务、创造新市场和就业等方面为人类的生产和生活带来革命性的转变。

人工智能行业的发展历程和未来发展轨迹可大致分为“三个浪潮” 阶段：第一个阶段，以计算机视觉、语音识别等为代表的人工智能单点技术实现突破，催生了人工智能在特定场景的初步应用；第二个阶段，人工智能经历了对单点技术的聚焦关注，客户逐渐发现自身的复杂需求难以得到快速响应，转向寻求获取人工智能综合解决方案以实现对全业务链条的 AI 赋能，形成行业价值闭环；第三个阶段，随着人工智能与实体产业深度融合，预计将以用户体验的革命性提升为主要驱动因素，人工智能将尝试以人类与机器智能交互嵌入所有业务流程，联通线上线下数据，进行智能流量的再分配，大幅优化人类与智能的协同体验。

2、人工智能三大核心要素——算法、算力、数据

算法、算力和数据是人工智能三大核心要素。AI算法持续突破创新，模型复杂度指数级提升，算法的不断突破创新也持续提升了算法模型的准确率和效率，各类加速方案快速发展，在各个细分领域应用落地，并不断衍生出新的变种，模型的持续丰富也使得场景的适应能力逐步提升。

芯片处理能力提升、硬件价格下降、神经网络模型优化，推动算力大幅提升。目前，同等算法水平所需的计算量每 8 个月减半，成本降低至不到 1%，‚摩尔定律效应明显。目前全球 AI 算力主要是以 GPU芯片为主，随着技术的不断迭代，包括 ASIC、FPGA 在内的计算单元类别有望成为支撑 AI 技术发展的底层技术，加速算力的提升。

数据量迎来爆炸式增长，对 AI 算法、系统的持续迭代至关重要。模型训练数据的丰富程度、清洗的干净程度一定程度上决定了 AI 算法的优劣。而大数据技术的不断提升也降低了 AI 赖以学习的标记数据获得成本，同时对数据的处理速度出现大幅提升。

3、人工智能行业规模

经过多年的发展，人工智能技术已在金融、医疗、安防等多个领域实现技术落地，且应用场景愈来愈丰富，AI 产业已进入全方位商业化的发展阶段。根据国际数据公司（IDC）的数据， 2019 年，全球人工智能产业规模达到375 亿美元，预计 2023 年将达到 979 亿美元，年复合增长率为 27.11%。

当前我国人工智能产业加速发展，从基础支撑、核心技术到行业应用的产业链条基本形成，一批创新活跃、特色鲜明的创新企业加速成长，新模式、新业态不断涌现，整体呈现蓬勃发展态势。政策支持、投资引导和巨头布局将推动中国AI 产业的结构调整，进一步扩大市场规模。根据国际数据公司（IDC）的数据，2020 年，中国人工智能产业规模达到 68.36 亿美元，预计 2023 年将达174.68 亿美元，年复合增长率达到 40.52%。

4、人工智能产业链

人工智能行业的产业链可以分为基础层、技术层和应用层。基础层是人工智能行业发展的基石，具体包括支撑计算、网络、存储、感知等功能的芯片、传感器、数据服务和云计算等细分领域，它的任务是保障人工智能算法和系统功能的数据传输和存储、算法训练和推理等物理实现。技术层是人工智能行业发展的核心驱动力，依托海量数据和强大算力进行深度学习训练和机器学习建模，以解决机器的“看”、“听”、“理解”问题，相关技术主要包括计算机视觉、语音技术、自然语言理解等。应用层建立在基础层与技术层的基础上，融合大数据和分布式计算技术，包括应用终端和解决方案两大类，解决现实行业问题，解锁行业的人工智能应用场景。

5、人工智能产业格局

在数据、算力和算法的进步与驱动下，近年来人工智能商业成熟度不断提升，行业进入加速发展阶段。与此同时，人工智能与传统产业的融合发展，彰显出了巨大的市场潜力，吸引了包括国内外科技巨头、解决方案及设备供应商、传统行业龙头企业以及人工智能企业等各类企业，积极参与到各个层面及细分领域的发展布局和市场竞争中。各类企业因资源禀赋、创新能力、经营策略等方面的差异，其经营模式、产品服务及应用领域等各有侧重。

从国家层面来看，美国人工智能产业整体领先，中国紧随其后。美国人工智能企业数量占比达到全球的40.8%，中国占比则达到38.4%。美国在基础层与技术层的布局先于中国，如：芯片上拥有行业领先的英伟达GPU与谷歌TPU等；除百度的飞桨外，其他主流深度学习开源框架均来自于美国。中国在计算机视觉、语音识别等领域已与美国处于同一等级，如百度预训练模型ERNIE超越微软、谷歌拿下Glue冠军，商汤一举拿下ImageNet 2016年三项冠军；云从科技在Librispeech上刷新世界纪录等。

中国人工智能企业主要集中于应用层（应用终端和应用行业解决方案），占比达到78%，主要是机器人、无人机、AI+医疗、AI+教育、AI+金融、AI+制造等领域。技术层企业占比为14.3%，其中计算机视觉企业占七成。

人工智能算法

1、机器学习（Machine Learning，ML）

机器学习之父亚瑟· 塞缪尔在1956年正式提出“机器学习”概念：机器学习是在不直接针对问题进行编程的情况下，赋予计算机学习能力的一个研究领域。全球机器学习教父Tom Mitchell则把“机器学习”定义为：对于某类任务T和性能度量P，如果计算机程序在T上以P衡量的性能随着经验E而自我完善，就称这个计算机程序从经验 E 学习。普遍认为，机器学习的处理系统和算法是主要通过找出数据里隐藏的模式进而做出预测的识别模式。

按照训练样本提供的信息以及反馈方式的不同，将机器学习算法分为以下几类：

（1）监督学习（Supervised Learning）

监督学习中的数据集是有标签的，就是说对于给出的样本我们是知道答案的。根据标签类型的不同，又可以将其分为分类问题和回归问题两类。前者是预测某一样东西所属的类别（离散的），比如给定一个人的身高、年龄、体重等信息，然后判断性别、是否健康等；后者则是预测某一样本所对应的实数输出（连续的），比如预测某一地区人的平均身高。我们大部分学到的模型都是属于监督学习，包括线性分类器、支持向量机等。常见的监督学习算法有：k-近邻算法（k-Nearest Neighbors，kNN）、决策树（Decision Trees）、朴素贝叶斯（Naive Bayesian）等。

（2）无监督学习（Unsupervised Learning）

跟监督学习相反，无监督学习中数据集是完全没有标签的，依据相似样本在数据空间中一般距离较近这一假设，将样本分类。

常见的无监督学习算法包括：稀疏自编码（sparse auto-encoder）、主成分分析（Principal Component Analysis, PCA）、 K-Means 算法（K 均值算法）、DBSCAN算法（Density-Based Spatial Clustering of Applications with Noise）、最大期望算法（Expectation-Maximization algorithm, EM）等。

利用无监督学习可以解决的问题可以分为关联分析、聚类问题和维度约减。关联分析是指发现不同事物之间同时出现的概率。聚类问题是指将相似的样本划分为一个簇（cluster）。维度约减：顾名思义，是指减少数据维度的同时保证不丢失有意义的信息。

（3）半监督学习

半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习一般针对的问题是数据量大，但是有标签数据少或者说标签数据的获取很难很贵的情况，训练的时候有一部分是有标签的，而有一部分是没有的。与使用所有标签数据的模型相比，使用训练集的训练模型在训练时可以更为准确，而且训练成本更低。常见的两种半监督的学习方式是直推学习（Transductive learning）和归纳学习（Inductive learning）。

（4）强化学习（Reinforcement Learning）

强化学习从动物学习、参数扰动自适应控制等理论发展而来，基本原理是：如果 Agent 的某个行为策略导致环境正的奖赏(强化信号)，那么 Agent 以后产生这个行为策略的趋势便会加强。Agent 的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

2、计算机视觉（CV）

计算机视觉技术就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、分类、识别、跟踪、判别决策等功能。计算机视觉系统就是创建了能够在2D 的平面图像或者 3D 的三维立体图像的数据中，以获取所需要的“信息”的一个完整的人工智能系统。

计算机视觉本身包括了诸多不同的研究方向，比较基础和热门的方向包括：物体识别和检测（Object Detection），语义分割（Semantic Segmentation），运动和跟踪（Motion & Tracking），视觉问答（Visual Question & Answering）等。

物体识别和检测，即给定一张输入图片，算法能够自动找出图片中的常见物体，并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测（Face Detection），车辆检测（Viechle Detection）等细分类的检测算法。

语义分割是将输入图像的每一个像素点进行归类，可以看出，物体检测和识别通常是将物体在原图像上框出，可以说是“宏观”上的物体，而语义分割是从每一个像素上进行分类，图像中的每一个像素都有属于自己的类别。

跟踪也属于计算机视觉领域内的基础问题之一，在近年来也得到了非常充足的发展，方法也由过去的非深度算法跨越向了深度学习算法，精度也越来越高，不过实时的深度学习跟踪算法精度一直难以提升，而精度非常高的跟踪算法的速度又十分之慢，因此在实际应用中也很难派上用场。

视觉问答也简称 VQA（Visual Question Answering），是近年来非常热门的一个方向，其研究目的旨在根据输入图像，由用户进行提问，而算法自动根据提问内容进行回答。除了问答以外，还有一种算法被称为标题生成算法（ Caption Generation），即计算机根据图像自动生成一段描述该图像的文本，而不进行问答。对于这类跨越两种数据形态（如文本和图像）的算法，有时候也可以称之为多模态，或跨模态问题。

3、自然语言处理（NLP）

自然语言是指汉语、英语、法语等人们日常使用的语言，是人类社会发展演变而来的语言，而不是人造的语言，它是人类学习生活的重要工具。概括说来，自然语言是指人类社会约定俗成的，区别于如程序设计的语言的人工语言。

自然语言处理，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流，是人工智能、计算机科学和语言学所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说，自然语言处理就是要计算机理解自然语言，自然语言处理机制涉及两个流程，包括自然语言理解和自然语言生成。自然语言理解是指计算机能够理解自然语言文本的意义，自然语言生成则是指能以自然语言文本来表达给定的意图。

4、语音识别（ASR）

语音识别是让机器识别和理解说话人语音信号内容的新兴学科，目的是将语音信号转变为文本字符或者命令的智能技术，利用计算机理解讲话人的语义内容，使其听懂人类的语音，从而判断说话人的意图，是一种非常自然和有效的人机交流方式。

语音识别包含两个阶段：第一个阶段是学习和训练，即提取语音库中语音样本的特征参数作为训练数据，合理设置模型参数的初始值，对模型各个参数进行重估，使识别系统具有最佳的识别效果；第二个阶段就是识别，将待识别语音信号的特征根据一定的准则与训练好的模板库进行比较，最后通过一定的识别算法得出识别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择都有直接的关系。

（未完待续）

*免责声明：本文由桐曦资本原创，出于业界同行交流的目的。文章内容均是相关的公开信息整理，其未来发生任何变化与本文无关，不代表任何形式的投资建议。如果有任何异议，欢迎联系桐曦资本后台。

原文链接：https://zhuanlan.zhihu.com/p/419951640?ivk_sa=1024320u

人工智能机器学习计算机视觉

声明：本站内容均来自互联网，归原创作者所有，如有侵权必删除。本站文章皆由CC-4.0协议发布，如无来源则为原创，转载请注明出处。
小默AI工具导航网 » 人工智能三大核心要素简析（上）

人工智能三大核心要素简析（上）

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

热门标签

人工智能三大核心要素简析（上）

相关推荐

评论 ( 0 )

取消回复

AIGC

AI聊天

AI文章工具

实用工具

阅读榜

点击榜

小默AI工具导航网-1000+AI工具导航