能够与人自由对话的机器,一直出现在各种科幻当中。曾经有人预测这样的机器会很快实现,但是这预测却失败了,那是人工智能领域迎来第二次寒潮期的时代。时隔多年,人们对人工智能的期待再度被点燃,这样一个“能够与人自由对话的机器”出现的可能性再度浮上台面。他说,他相信这样的可能性会在十年内得到初步的实现。这一次,人们的愿望是否能够实现?且看二叉树最新作品——
嘉宾简介
王刚博士,小米小爱同学团队负责人,毕业于香港科技大学计算机科学系,曾在微软亚洲研究院和腾讯工作,长期从事机器学习和搜索引擎方向的研发工作。
Q:王刚老师在这几年有没有遇到什么印象特别深刻的事情可以跟我们分享一下?
我博士毕业是在2007年,到现在大概11年的时间,做小爱的这一年,是感觉跟前十年完全不一样的一个状态。之前的工作,更多的是偏向于技术驱动的性质,把技术做深做透,然后在具体的业务场景中去发挥出技术的价值。但是做小爱的话,它是变成了一个用户价值驱动的性质,更多的去思考怎么样为用户产生价值,给用户带来快乐。
Q:您对自己的性格怎么评价?
性格?我还是希望能做一些有用的事儿吧!从博士毕业之后,我就一直在去想,怎么样能做出一些有用的事儿,影响到更多的人。
其实博士毕业的人一般都有想当老师的情结,我当时觉得,教书育人对于我而言,就是对社会最有意义的事。所以当时我博士毕业的时候,加入北航当了一段时间的老师。
但在高校里工作和我想象的不太一样,后来我就到了微软亚洲研究院,在那个年代,MSRA可能是大家公认的中国最好的做计算机研究的地方。当时在微软是有大数据的条件,对于做机器学习方向的研究是很难得的,我可以做很多把学术界成果和工业界的一些现实问题紧密结合起来的事情。我在当时的目标就是想做出有影响力的科研成果,对社会产生有价值。但其实在微软三年多,真正做到有影响力的科研成果,我对自己是不满意的,从科研角度来讲,我是没有做出什么真正有影响力的东西。
人的目标也不断在变的,对吧?后来我就定了第三个目标,就是能不能做出来一个好的产品,对用户是有帮助的,对用户能有价值。腾讯是公认的注重用户价值的公司,于是我加入了腾讯去打造腾讯的搜索引擎,主要负责搜索质量的一些工作。但后来腾讯放弃了搜索引擎的研发,于是我加入了小米。刚加入小米的时候我负责的是大数据领域,虽然做的是技术,但是我很强调产品化,一定要以产品化的形式去输出技术,让用户用起来好用、方便。我们面对的用户不是千万级的终端用户,是公司里的各个业务用户,但我们会很认真的去做大数据产品。从去年年初,我们开始研发小爱同学,这是我第一次直接负责一个面对终端用户的产品,对于我而言,有机会做用户产品是一个由来已久的愿望。
Q:您最早接触机器学习是什么时候?
我做机器学习的时候应该是在2004年。2004年那会儿,机器学习在整个计算机行业里面是一个很小众的领域,它脱胎于统计学。其实当时人脸识别在工业界里面已经有一定的应用了,但是它相对于那时候计算机里边比较大的领域——像数据库、网络、图形学这些来讲——其实是一个非常新兴的、非常小的领域。
在那个时候机器学习比较知名的会议,像NIPS、ICML,基本上参加的人数不会超过五百人,但现在这种会议的参加的话可能都报不上名了,听说去年的NIPS,参加会议的人数超过了八千人。
在本科学习的主要是一些基础知识,那时候我对软件工程和操作系统比较感兴趣,但没有明确的研究方向。读博士的时候其实面临很多的选择,当时修课的面很广,比如图形、图像、计算机理论,各个方面都会去了解一些。
当时机器学习是众多选修课里面的一门,我们那时候看到的跟今天完全不一样。现在大家看到了人工智能发挥这么大作用,是三方面原因的综合结果:算力、大数据和算法。但是在我读博士——大概在15年前,的那个时候,数据和算力都是不太受关注的。当时我们要解决的问题都是小样本问题,本身的数据规模都不大,我们用单机来处理数据就足够了,相对于当时的数据量和模型大小,使用单机的存储空间来处理数据和优化模型是远远足够的。当时面对的主要问题是模型优化的速度慢,所以会有很多的加速算法来研究如何提升模型训练的速度,机器学习的研究主要是偏统计、偏数值优化的角度研究算法。
我到微软亚洲研究院加入的是机器学习团队,做了很多关于计算广告、用户行为建模方向的研究,在微软里可以看到很多有趣的大数据问题,可以用大规模的机器学习方法来解决,我相当于是在学术界和工业界之间的一个角色,一方面可以将工业界的问题带到学术界,一方面可以把学术界的好方法拿到新的问题上试试效果。在研究院三年半的时间里做了不少有趣的工作,其中比较有代表性的是用户点击模型(click model)。在搜索当中,点击模型是利用了用户点击搜索结果的行为信息来帮助搜索排序质量的优化。在影响搜索质量几个主要因素中:文本匹配度、权威度、时新性和用户点击反馈,用户点击反馈占了60%以上的重要性。
在2011年的时候,腾讯要重点投入搜索引擎的研发,当时吴军在腾讯主抓搜索这一块,我跟吴军聊了这块,知道腾讯非常需要做click model这块的工作,于是加入了腾讯。
Q:然后您加入小米之后开始做是大数据方向?
是的,对大数据的分析和价值提炼是互联网公司的核心能力,宝秋很早就有成立大数据团队的想法。正好是一个好朋友推荐,我和宝秋讨论的很投机,就加入了小米,一起构建小米公司背后的大数据能力,来为各个业务赋能,支持公司内的各个业务通过大数据的手段提升用户价值。
Q:以最近一年或者五年为跨度的话,您所关注的领域发生了什么重要的事情?
有几个词很像,叫模式识别、机器学习、统计、统计机器学习,包括现在很火的人工智能,深度学习,这几个词其实本质上,讲的是从数据里面去发现规律。
在历史上很长一段时间内,大家都是在琢磨算法。从现在往之前的10年、20年甚至50年看,机器学习的理论基础,都是可以归纳到最优化的理论,不同的算法 ,不同的模型,可能开始的出发点不一样,但是最后都殊途同归。
有些非常知名的模型,如逻辑回归模型,神经网络模型,都是在四五十年代提出的,九十年代的Boosting,00年代的SVM,虽然提出来的时候基于各自的理论,但最后发现都可以统一到最优化理论上的,不同模型的差别在于不同模型有不同的表示方法,以及不同的目标优化函数。可以说,其实整个机器学习的基础理论在50年前就已经奠定了,直到今天都没有特别大的变化。
Q:可能我所理解的“后来的”人工智能,比如 Imagenet,当时它在业界引起的反响很大吧?
对。Hinton等人提出的深度学习模型AlexNet远超第二名百分之四十多,从此掀起了深度学习的繁荣,这届的比赛一定会载入史册的。
在ImageNet之后,大家发现了全新的一个维度,就是怎么样通过更大的数据量,通过更好的架构,去把数据的价值充分的发挥出来。这件事情本身比单纯研究算法的价值带来更大的作用。
Q:那就有一个问题了。其实搜索引擎在之前已经发展了那么多年,为什么 Imagenet 这个事情在 2014 年才出现?
这个问题很好。搜索引擎中最重要的排序问题,直到今天,使用深度学习和不使用深度学习,在这个问题上并没有体现出像在图像识别、语音识别中深度学习产生的那么显著的效果,这是搜索的天然属性所造成。
ImageNet是一个大规模的图像分类数据集,建设这个数据集是巨大的工作量,它为深度学习的出现创造了条件,这是非常大的贡献。但虽然它为深度学习的出现创造了条件,但没有人以这种思路来解决这个问题。
这个其实就是Hinton的贡献。Hinton用深度学习,然后用大样本数据,然后采用GPU,去通过大数据加上算力来解决机器学习的问题,在Imagenet上面取得了一个突破性的成果。深度学习完全是靠一个人的力量去改变了整个行业,它不是一个必然的结果。如果Hinton没有想到的话,可能这个技术真的可能要再晚很久才会出现。
Q:嗯。我记得自然语言处理这块也是后来才用大数据的方法来提高?
自然语言处理到现在,其实还没有像图像识别、语音识别那样可以用大数据的技术去解决。因为它的维度太高了。比如我们所有的对话,要理解,我们要对现实的客观世界去理解,背后是基于很多知识的。
语音识别基于音频的信息转化成文字的信息,它有大量的平行语聊样本可以让机器去学习从语音到文字的对应关系。但是自然语言理解这件事情,我们要去讲话的这些事情,让机器去学习出来,现在还没有一个成熟的大数据的方法可以去解决它。比如我们讲话,比如想上个闹钟,你给我拍一个照,把灯打开,这里边每一个名词、动词背后,其实都隐藏着一个知识体系在里面。知识体系怎么样去表示,让算法在学习的过程中能用到?怎么样通过大数据的方式、让深度学习在人机对话中发挥出来,现在我们还没看到成熟的方法。
所以现在自然语言理解的技术,我们还是依赖于小数据学习的方式,在非常细分的垂直领域去学习,采用分而治之的思路。假如说你我现在的对话,我们只聊音乐,音乐背景知识可能相对比较窄了,比如说有歌手,有歌名,然后每首歌有标签,有类型,当我们把一个垂直领域的所有的知识构建好,限定我们的对话领域只是聊音乐,那这件事是可以让机器学习来搞定的。
如果我们能限定领域,去一个领域、一个领域的去突破,那我们可能未来在某个时间内,我可能绝大部分的我们的交流都能够覆盖。我们先把音乐能聊清楚了,再把电影视频能聊清楚了,把旅游聊清楚了,能把买东西聊清楚了,未来可能这种通过分而治之的思路,就能更多的去理解人与人之间交流它背后的整个知识体系。
Q:您现在做小爱一年半,现在最大的挑战是什么?
我先说一下优势,说完优势之后,其实理解挑战就比较自然。
首先,在小米做这件事情的优势是特别显而易见的:小米本身有非常多的终端。小米生态链里边各种智能设备非常多,当语音这件事情变得靠谱之后,这些智能设备它有旺盛的通过语音交互来给用户带来更好的便捷性的需求。所以可以看到,像我们电视、手机,然后智能音箱,它天然是为语音设计的。你如果不跟它说话的话,基本上设备就是纯的一个摆设了。包括我们的小寻儿童手表、故事机,其实都在用语音的方式给用户带来一种革命性的人机交互方式。
语音交互这个浪潮其实在美国已经提早中国大概两年的时间。但小米的优势就是说,我们有大量的设备、大量的用户,可以开始有一定的交互。所以短期来讲,我们的挑战有几个:
1、深度和广度的矛盾,由于用户对小爱同学的预期无边界,他认为小爱同学什么都懂,所以各种话题的聊天和提问,但是小爱同学很多领域做得还不够细致,不够深入。
2、第二个就是全新的语音交互和设备已有习惯之间的矛盾。语音交互是一种全面的交互方式,以语音的方式和用户交流对话,但有些设备是带屏幕的,有些设备带胳膊带腿的,不同终端的交互习惯不同,需要充分尊重硬件设备定制化的需求。
3、第三个就是我们期待的“人工”智能不用人工,利用积累的大数据和深度学习算法来自动构建全方位的语音助理,让对话变成一个自动学习的过程。
4、第四个是让我们的短期的产品需求和我们长期的技术演进能有一个比较好的一个平衡,让我们的设备能给带来用户有非常好的体验。
随着我们的基础技术能长期迭代,能在某一个时间点能够比较大的突破,从一个量变到质变,这是我最最期待的。
我想像比如说十年以后,语音交互它会变得越来越聪明。我们期望十年以后,在每个家里面,小爱同学会成为家里的一个非常得力的助手,这个助手会以各种设备的方式去跟用户去交互。它可能是一个音箱的方式,可能是一个手机的方式,有可能是一个浴室镜,也有可能就是你的墙壁上的一个开关,它们都是小爱同学所存在的一个载体,载体可能并不重要。只要它能听到你,然后能帮助你去完成你所需要完成的任务,然后很能贴心地提醒你所有的事情,这件事情我觉得十年后是一定能达到。我希望这一天能来得更快。
Q:您怎么看我们现在所处的时代?
现在的时代变化非常快,只能说我们是不断地去迎接新的变化。我今天看到的东西过一个月看可能就不一样,无论是从软件的层面上,还是硬件层面上,新技术新方法层出不穷。但基础的理论层面上,可能看起来其实发展是相对没有那么大的。语音这种新一代的人机交互方式、在接下来的几年里,会快速渗透到智能家庭里面,会越来越懂你。希望很快我就能像宝秋一样,有一个自己的助理,是虚拟的助理。
Q:那么您对您自己,然后包括整个团队,您希望对业界乃至整个社会发挥怎样的价值?
其实没有想到这么高大上的目标了。只要是对用户有价值,其实我们就觉得特别的高兴。我们之前在微博上看到一段视频,整个团队都非常的兴奋,就是一个用户他家里的一个小孩,小孩直接跟小音箱说:学一个老鼠叫,然后老鼠叫声就出来了,然后小孩就高兴的不得了,然后在家里边床上翻滚到地上,不停的打滚。
原文链接:https://blog.51cto.com/u_15057858/2691785