截止2019年12月31日,小米集团共提交专利申请33000余件,其中AI领域专利申请数量已进入全球互联网企业第一阵营。
2019年,小爱同学推出了很多好用有趣的重磅功能(详见《2019新功能大盘点,这20个小爱同学新玩法你都用过吗?》),比如全新的小爱同学3.0,不仅拥有了新男生声音,小爱同学也成为首个在手机上实现连续对话功能的智能语音助理,引领行业发展新潮流。在小爱同学持续进化的背后,是小米AI技术的强大支撑和不断深耕。
王斌-小米AI实验室主任、小米NLP首席科学家
“总体而言,刚刚过去的2019年,小爱同学一方面在不断夯实基础技术,包括基础NLP、基本的语音识别及唤醒、智能问答、人机对话等,另一方面也在研制使得小爱同学更加个性化、更加智能化的相关技术,包括端到端个性化语音识别与合成、多轮连续对话、就近唤醒、分布式放音、离线机器翻译等等。借助于公司强大的智能硬件生态,包括端到端语音识别、就近唤醒、分布式放音、离线机器翻译等在内的部分技术达到了行业一流水平。未来我们将进一步深入研究多模态交互、复杂任务连续对话、深度内容理解、用户行为分析等技术,期待打造一个更加完美的小爱同学,给用户带来极致的体验。”
2019年,是小米AI技术狂飞猛进的一年。小爱同学强大功能背后到底隐藏了哪些前沿技术?接下来,我们按照小爱同学背后的技术流程(声学 → 语音 → NLP → 服务 → 自然连续对话 -> 个性化助理),带你走近平时你可能毫无感觉的几百毫秒!看看背后蕴藏着多少小米AI技术,多少小米工程师的心血。↓↓↓
01/声学-就近唤醒及全屋立体声播放
就近唤醒
当你同时拥有多个内置小爱同学的设备,就可以使用这项功能,再也不用担心多个小爱同学被同时唤醒,就近唤醒功能会帮你找到最适合进行交互的那个TA。
2018年4月,小米基于分布式拾音技术的就近唤醒功能在国内智能音箱行业进行首发,领先其他品牌一年时间。目前为止,就近唤醒功能已在小爱音箱、小米电视、IoT设备三个品类的10余款产品上线。
小米多设备就近唤醒算法可以根据用户唤醒时的距离、朝向等维度智能判决,选择用户期望的音箱响应,解决了多设备唤醒一呼百应的问题,大幅度提升了用户体验。
目前,就近唤醒功能已上线小米AI音箱、小爱音箱mini、小米小爱智能闹钟、小米壁画电视、小爱触屏音箱、小爱音箱万能遥控版、小爱音箱Play、小米小爱音箱、小米小爱音箱Pro、小米小爱音箱HD、小米电视5、Redmi小爱音箱Play、小爱触屏音箱Pro 8等13款产品。峰米投影仪、手机等设备也即将支持就近唤醒。
立体声全屋播放
立体声全屋播放,即2台音箱组成立体声,支持多房间音乐播放、全屋同时播放的功能。2019年9月20日,小米基于分布式放音技术的组合立体声功能在小米小爱音箱Pro正式发布,在智能音箱行业属于国内首发,功能上线后收获好评连连。
全屋播放图片来自Google
音箱立体声在行业内最大的问题就是音效不同步,小米工程师将这个误差做到了500微秒以内(几乎无感知),整体体验行业领先。立体声全屋播放功能通过音频压缩技术避免了高带宽占用导致播放卡顿问题,同时又极致地还原出最真实的听感。未来,会把这项技术应用到更多的小米设备上,相信在“5G+AIoT”趋势下,带来的体验会更棒。
02/声学-麦克风阵列技术
在日常生活场景中,如果说话的人距离智能设备的麦克风较远,加上周围存在的噪声、多径反射和混响,会导致麦克风收取信号的质量下降,严重影响语音识别率。
针对这一问题,2019年,小米声学与语音团队联合推出了自主研发的阵列唤醒算法,并于2月20日上线小米AI音箱,有效提升噪声场景平均唤醒率及回声场景平均唤醒率。9月20日发布的小爱音箱Pro及小爱音箱全量采用六麦自主研发的阵列唤醒算法,成为小米首款落地的全自主研发的智能音箱。
同时,小米在业内首创实时麦克风检测算法,可及时发现麦克风异常并解决问题。目前该算法已落地小米AI音箱和小爱音箱Pro、小爱音箱3款产品,检测准确率和召回率均达到95%以上,可以更好地解决用户遇到的问题。未来,也会将这项技术应用到更多的小米设备中。
03/声学-产线测试支持
随着智能音箱等语音设备越来越多,不同产品的体验参差不齐,除了算法的影响,设备自身硬件尤其是声学硬件质量起着决定性作用。产线测试作为保证产品质量的最后一道防线,其方案的完善性、准确性直接影响产品质量。
依托于小米声学测试实验室自主研发的声学硬件测试平台,部分测试算法在产线测试上应用,相较于第三方的大部分算法依赖外部计算仪器的测试系统,自主研发产线算法直接运行在待测设备上,提高了测试效率,追踪效果更好,问题修正改进速度也更快。
04/声学-声学认证系统
小米人工智能部声学项目荣获2019小米年度质量奖一等奖!
小米质量奖是集团内的最高质量荣誉,旨在表彰积极推动质量改善、在质量活动中具有突出示范作用、为提高产品与服务质量做出杰出贡献的团队,以此鼓励小米人全力打造质量品牌。
小米首创的智能家居远场声学实验室,分别从不同说话人、不同声学场景等维度,全面评测智能产品的语音交互功能,保障用户拥有更加流畅智能的使用体验。日前,小米的声学认证标准被中国人工智能产业发展联盟正式采纳,小米公司还与该联盟及中国信息通信研究院联合成立人工智能声学实验室。
小米将不断探索人工智能领域的前沿技术和产业应用,推动人工智能技术的创新发展。
05/语音-语音唤醒和语音识别
在AIoT时代,语音唤醒和语音识别作为智能设备人机交互的关键环节,有着至关重要的作用。语音唤醒分为近场和远场两种形式。目前,业内近场语音能力已经达到了较高的水平,但在更复杂的远场环境中,比如在说话距离远、噪声干扰、混响干扰等情况下,唤醒和识别仍然具有挑战性。
如何让远场语音性能达到和媲美近场语音相近的水平,一直是困扰业界语音工程师的一大难题。鉴于此,小米语音团队自主研发“多通道端到端语音识别技术”,显著提高唤醒率和识别率,在远场环境下,唤醒更灵敏,识别率更高,比“传统多通道阵列增强模块加单通道语音技术”拥有更好的使用体验。
为了更准确地识别出目标语音,传统多通道阵列增强技术会使用空间滤波或语音分离算法,但这些算法引入了较多先验假设,在一些不符合假设的场景下,性能会明显下降。另外,这项技术是由多个技术模块串联组成,每一个模块可能引入误差,最后整体产生的误差较大。
2018年,小米开始验证端到端语音唤醒和识别的思路,小米自主研发“多通道端到端语音识别技术”,直接用一个网络中不同层去替代之前的多个模块,最后有一个一致化的目标,避免误差的逐级传播,迭代周期短并且优化效果立竿见影。
小米语音团队自主研发的“多通道端到端语音识别技术”今年即将落地到小米产品上,这项技术将颠覆传统声学算法,大大减少对硬件的成本要求(更少芯片、更低功耗),以后大家花更少的钱可以买到性价比更高的产品,享受更好的使用体验,敬请期待!
06/语音-新男声 AI角色多样化
一直以来,小爱同学给人的印象都是一个甜美可爱的小姐姐,但这并不能满足所有用户对小爱同学角色的期望。因此,在2019年9月份推出了男生声音,一个阳光活泼的小哥哥角色。在此爆个料,在不久后还会推出包括儿童声音在内的更多声音,值得大家期待!
为了尽早让用户体验到新男生声音,小米工程师们大胆尝试迁移学习的方法,以女声声学模型作为基础模型训练男声模型。在经过一系列调整和优化后,暖心阳光的男生版小爱同学就跟大家”见面”了。
除了迁移学习,还使用了最新的端到端语音合成技术,相比传统的Pipeline参数合成(声音单调乏味、机器味重),新技术保留了声优的说话风格与感情色彩,生成的语音更加自然生动。这项新技术由于计算复杂的增加导致系统响应延迟,通过不断优化,将实时率降到0.1以下并成功上线提供服务,小米也成为业界最早一批成功上线端到端语音合成技术的技术公司。
小米人工智能部的《高质量端到端个性化语音合成》项目也荣获2019小米年度技术大奖三等奖。
目前小爱同学新男声已上线小爱同学3.0、Redmi小爱音箱Play,会逐渐适配到更多的设备中。未来,小爱同学的声音会往更个性化的方向发展,比如拥有喜怒哀乐的情绪,具备更多才艺,会唱歌,会外语等等。
07/语音-声纹识别 听声识人
声纹识别,即通过深度学习,分析你的声纹特征进行识别。有了声纹识别,小爱同学可以识别身份进行个性化推荐,目前,在小爱音箱、小米手机、小米电视上已上线儿童锁、声纹书签功能。小米电视5、Redmi小爱音箱Play支持听声识人功能,自主给你推送你喜欢的内容。
2019年10月19日,语音识别开源工具Kaldi的创始人,语音和AI领域大佬Daniel Povey正式加入小米。语音识别工具库Kaldi支持多种语音识别的模型的训练和预测,很多国内外语音技术公司的研发测试都是从Kaldi起步,Kaldi在语音识别方面有着不可撼动的地位。Daniel Povey此番加盟小米,计划在小米组建团队开发下一代Pytorch-yKaldi,这将大大提升小米未来在语音和AI领域的实力。
图片来自小米集团副总裁、集团技术委员会主席崔宝秋微博
2019年9月份,在AISHELL Speaker Verification Challenge 2019远场语音说话人识别挑战赛中,来自小米人工智能部AI实验室语音组的声纹识别团队在近场注册track1和远场注册track2两个任务上获得双第一,采用的多维度数据增广+经典识别模型+深度神经网络嵌入的融合方法,获得了参赛队伍的一致认可。
目前,小米声纹识别技术处于行业内第一梯队,预计在未来3到5年内打通所有的AIoT场景,应用在更多内置小爱同学的设备上。另外在声纹上也进行了新的能力尝试,例如“声纹支付充话费”正在测试中,预计春节后会跟大家见面。
08/NLP-MiNLP分词系统
分词是自然语言处理的基础,在小爱同学进行意图识别、槽位提取中起着重要的作用。小爱同学之前采用开源分词等,准确性不高、且未对业务数据进行专门优化。
小米AI实验室采用先进的深度学习技术实现了分词模型,在标准数据集达到前沿水平。同时实现了基于业务语料的自动标注技术、提供分词结果灵活干预机制、支持多端分词,为小爱同学内容理解提供了支持。
2020年,AI实验室将提供更多、更先进的NLP基础技术和模块,为小爱同学提供强大基础支撑。
09/NLP-闲聊
闲聊对话是人机对话的重要形态,大家对小爱同学说的任意对话,“闲聊功能”都会尝试给出合理的回复,通过这种方式对用户进行情感陪伴,满足沟通需求与归属感。
闲聊对话技术上面临许多挑战,比如用户想要表达的意思太过广泛;闲聊对话往往是多轮对话,要做好回复,需要对上下文有较好的理解等。为了解决这些难题,小米工程师构建了规模过亿的海量对话语料库,从海量的数据中学习对话语义关系;采用了端到端的改写算法,更为具体地判断上下文语义。
同时,赋予了小爱同学AI写诗的创作能力,基于主题词的自动写诗、以及写藏头、藏尾诗等等。在这里大胆爆料,今年春节小爱同学还将支持写春联的功能哦,敬请期待。闲聊对话是一个快速发展的领域,未来小爱同学的性格会更加多样化,在对话过程中会更有趣更人性化,可以多多来找小爱同学聊天哦!
10/NLP-翻译
相信大家都使用过小爱同学的翻译功能,机器翻译已经成为人工智能助手的重要功能。随着人们跨境出行以及移动互联网设备的普及,很多国家和场所并没有稳定的移动网络支持,因此,无需互联网连接,即可实现高质量低延迟的离线神经网络翻译必不可少。
小米通过技术探索,对现有主流的神经机器翻译模型进行了优化,在移动端设备上实现了基于低计算能力CPU的高质量低延时的离线翻译。
这一成果带来的直接体现是在不影响用户体验的基础上,硬件成本大大降低,相对于市面上几千元的翻译机,购买小爱老师这款产品只需499元。
11/服务深度学习在小爱同学中的应用
如何让小爱同学更懂你,更聪明智能?深度学习起到至关重要的作用。
近两年以来随着ELMO和BERT的诞生,基于深度学习的语言模型技术成为了NLP学界和工业界的一个现象级研究热点。学界和工业界的研究和实践已证明以ELMO和BERT为代表的语言模型技术能够给各项NLP任务带来突破性的性能提升。由此,小米工程师希望能将这项技术落地到小爱同学自然语言理解的应用中去,让小爱同学更加聪明智能。
小爱同学有多个功能模块,小米工程师希望提供一种通用的BERT模型和服务的解决方案,使得计算资源能够最大化的得到利用。基于此,小米工程师创造性的提出一种多任务BERT模型架构,自主研发NLU架构提高BERT模型工作效率,帮助小爱同学变得越来越聪明。
12/服务行为数据在NLP中的使用
语言总是博大精深,尤其是汉语,一个词具有很多不一样的意思,语义消歧是自然语言处理(NLP)任务中的一个核心与难点,影响了几乎所有任务和应用的性能,而在内容领域(音乐,视频,电台)由于所接触的词语更新速度快,词歧义度高,因此在消歧方面面临的困难和挑战尤其明显。
传统解决方案热度更新不及时,缺少纠错能力,在尊重用户隐私与安全的前提下,小爱同学通过对用户数据反馈的歌曲和视频15秒完听率进行分析,确保在用户修正过一次之后,小爱同学可以理解用户的真实需求。比如当抖音带火《芒种》(节气)同名歌曲后,如果有用户在后续修正说“我要听芒种”“播放芒种”时,小爱同学会及时调整推荐内容,播放用户真正想听的歌曲。
13/服务-知识图谱在小爱同学中的应用
知识图谱简单理解就是知识库,包括小爱同学的问答、搜索、推荐等能力都有涉及。我们主要在知识类问答中应用了小米图谱,如何准确地理解用户问法的意图并转化到图谱知识上,是问答技术的关键难点。
为了解决这些技术难题,小米工程师在图谱的构建过程和质检流程中采用了一些新的方法,能够显著提升问答的准确率,让用户得到满意的答案,提升使用体验。
小米图谱规模在业界处于领先地位,在智能客服、开放域问答等领域发挥了重要作用,获得了“2018-2019年度CCCS中国最佳客服智能机器人”、“2019世界人工智能大会卓越人工智能引领者奖”、“2019数博会领先科技成果奖”等
2020年,将打造更自动化的知识图谱构建技术、更智能化的知识表示和知识推理应用、更开放化的知识图谱社区、更特色化的知识内容。
14/自然连续对话全双工自然连续对话
语音交互中的全双工连续对话能力,是目前业界比较关注的热点。全双工语音交互的特点是具备“边说边听,可随时打断”的能力。小爱同学是首个在手机上实现自然连续对话的智能语音助理。
△小爱同学3.0功能演示视频GIF
在手机上实现全双工连续对话,主要面临的挑战包括:回声消除、无关人声拒识、多轮对话能力和语义判不停能力。通过技术攻关,针对语音和语义特征联合建模,解决用户说话时短暂停顿,导致声音被截断的问题,小爱同学成功上线自然连续对话功能。
后续会持续优化连续对话和多轮任务的使用体验,在视觉摄像头的延伸将进行更多尝试和突破。
15/自然连续对话-主动交互
主动认知即根据用户信息以及环境信息,预测用户需求,及时主动以合适的方式满足用户。比如:用户: “再见”(晚上10点30),小爱同学回复:“晚安,台灯还没有关呢,要小爱帮你关上吗?”
精准推荐是主动认知的重要体现,小爱同学根据用户历史交互数据进行差异分析和针对性优化,更精准地满足用户需求。
未来,在全面认知、精准触达、多轮交互方面会持续优化和加强,小爱同学将会更懂你,并与你建立更自然的交互。
16/自然连续对话-复杂自然对话
用户和小爱同学的对话按照类别可以分为聊天型、任务型、问答型。任务型对话可以是“一句话的事”,但更多情况下是需要多轮交互才能完成的复杂任务。小爱同学要保持业内的技术领先,需要具备复杂任务的处理能力。
刚开始,小爱同学在大多数情况下只能处理“一句话的事”,后来小米工程师们创新引入了基于frame的会话状态表示方案,能够在多轮交互中完成用户需求,并处理“打断恢复”“目标跳转”“信息修改”等各种情况。这个技术方案也最终在语音订餐功能中应用,帮助大家完成订餐、查询等需求。
未来,会持续探索新方案,更快地理解用户的意图,做好个性化语音交互,让小爱同学更贴心。
原文链接:https://www.163.com/dy/article/F323LM2N0530JKKT.html