科大讯飞胡国平:人工智能怎样实现产品落地?

科大讯飞胡国平:人工智能怎样实现产品落地?

2016-11-17 11:08B座12楼 特邀作者
人工智能不一样,人工智能是一种技术,是一种机器智能。一旦某一个机器具备97%的语音识别正确率,那么世界上所有机器原则上都可以具备这样的正确率。

工业革命将人类从体力劳动中解放出来,信息技术把全世界紧密的联系在一起,而人工智能则是要将人类从繁重的脑力劳动中解放出来。人工智能可能是最后一个需要靠人类自身智慧去攻克的革命。

11月13日,由B12、观数·涂子沛频道主办,智东西、良仓加速器、腾讯大浙网、创享基金联合主办的第二届万物互联创新大会「创业下一潮水:大数据与智能时代」在杭州召开。

作为重磅嘉宾,科大讯飞研究院院长胡国平分析了人工智能浪潮背后的三大推手,并分享了科大讯飞17年来在智能语音和人工智能走过历程中的经验教训。

以下内容根据胡国平现场演讲整理,有删减:

60年来,人工智能经历了三次浪潮,或者说三起三落。目前我们正在经历第三次人工智能的浪潮。也许这一次还可能会有一些波折,但无论如何人类去追求人工智能的梦想会持续的往前推进。

人工智能真正爆发的前夜

大部分人包括科大讯飞都认为,我们正在经历的第三次浪潮,已经处在人工智能真正爆发的前夜,人工智能技术会被应用到各个行业。

这一次人工智能真的火了起来,机器下棋攻克了围棋的最后一个难题,语音识别达到了97%的识别率,人脸识别也已经超过了人类肉眼所能达到的水平。

人工智能火起来之后有一个很明显的迹象:政府、巨头、创业者以及资本都在大量涌入。包括美国、中国,都把人工智能定义为国家战略。Google、Facebook、苹果、讯飞、百度都进入了人工智能前沿领地。特别是最近2016年以来,阿里、华为腾讯、乐视、联想,小米都已宣布要进入人工智能领域。

目前国际范围内人工智能的对抗依然主要是中美两国之间的对抗,这主要是因为人工智能的技术依赖于大数据、移动互联网、云计算,和广大的用户群体。在这方面,中国和美国是佼佼者。

这次人工智能技术火起来背后真正原因,我把它们归结为三点:

第一个是深度学习;

第二个是大数据;

第三个是云计算。

首先是深度学习,或者说深度神经网络的横空出世。这个2006年提出来的深度学习的方法取得了历史性的重大突破。它的基本原理其实也比较简单,就是输入相关数据,通过网络产生最后的输出。

如果这个输出和原来所标注的答案不一样,它可以通过一个BP的错误回馈算法去修正相关网络中的参数,使得最终对整个训练级而言,它的预测和建模的准确度最高。

方法其实很简单,但是最大的一个作用是它的网络量非常大,自由数非常多,建模能力非常强。类似在图象识别中,它能有效地抓住从像素到边界,部件,到人脸一系列特征,从而做出有效的人脸识别。所以它其实是一个更强大,更通用的,更耗训练数据的建模机器。

$page$

我们举一个具体的例子供大家理解深入学习关键突破的点,模式识别。左边假设是一张人脸,按照经典人脸识别套路,可以提取它的特征,头发、胡须,训练相关模型,用各种语言,一系列机器学习的模型,最后来建初模型,做触摸式识别,来判断图像显示的人脸性别。

但是用了深入学习之后有一个很关键的变化:提取特征的环节已经没有了。对于机器而言,整个模式识别内容已经简化为准备数据和训练模型两个最简单的环节。

如果大家注意到AlphaGo的算法原理,它也是类似这样操作的,对图象识别来说不再需要任何特征的提取,直接把像素值输进去。对于AlphaGo而言,它也是用深度学习,直接把19×19格子上围棋黑白棋信息输入神经网络,判断当前棋局下黑棋赢的概率是多少。不再用人工方法告诉AlphaGo应该去看什么样的东西,它输入的都是最原始的信息。

如果把深入学习看成一个黑盒子的话,或许可以理解这次人工智能的变革。拿足够多的,有监督的海量训练数据直接输入一个黑盒子,它就可以获得一个与人类可媲美的人工智能技术。

简单来说,一万个小时训练样本,再去训练10的7次方自由度或者参数、个数的神经网络,就可以达到与人类可媲美的语音识别效果。

当然,这个不是黑盒子,用的是包括GPU为主的计算服务器。所以再抽象的来看,与人类可比的人工智能其实是靠大数据、或者说大数据、大成本、大量计算喂起来的。

现在我们进入了一个深度学习的时代。因为深度学习的通用性,已经不再需要针对任何一个特定任务去做很多特征提取,或者相应的分析和研究工作。

深度学习从2013年起就已经被广泛应用在语音和语言的各个方面。我们现在几乎用的所有方法都是以深度学习为主框架方式来做语音合成、评测,包括语言模型、机器翻译与人脸识别。

而且更关键是大家如果做投资也好,做相关创业者,一定要记得另外一条:深度学习也在不停的往前演进。2011年主流的DN技术路线实现了广泛的应用。到了2015年提出了有效模拟人类神经注意的模型。现在全世界相关会议论文,50%以上都和深度学习相关,或者说全世界所有智力学者都在研究和改进深度学习。深度学习本身也会持续改进,因为持续改进,每年都会费掉讯飞研究院30%的代码。你可以爱上自己的工作,但一定不要爱上自己的工作成果,因为技术变化非常非常的快。

刚才说的更多是偏语音图象识别的概念,深度学习在2014年左右开始,在机器翻译上也取得了更好的效果。它也是采用最新Atentional技术。基于海量中英文对齐句队,机器可以有效的实现机器翻译。

而且现在大家所喜闻乐见的聊天机器人,自动做诗全是用这个套路所实现的,机器并不能真正的懂得语义。人工智能还在继续往前走,被广泛认为可以替代图灵测试,来测试机器智能有没有像人思考的测试。这个测试是用常识推理的任务,检验机器是否具备这方面的智能。

举个例子,爸爸没法举起他的儿子,因为他很重。是谁很重?所有人都很容易理解是儿子很重。如果爸爸没法举起他的儿子,因为他很虚弱,大家都知道是爸爸很虚弱。

科大讯飞提出了基于神经网络主要方法的深度学习认知智能路线,取得了2016年评测第一名。这里要告诉大家的是,第一名的成绩在5选1的选择里,我们正确率只有58%,所以相对而言和人类接近100%智力相比,还是有相应的一些差距。

$page$

第三个推动人工智能在最近这五年内取得飞速发展的就是云计算。因为在云计算的支撑下,人工智能首先扩大了整个模型的规模。刚才说了10的7次方参数的模型能够有效被应用起来。其次,也获得了大量真实数据,我们前面所说的人工智能所需要的位进学大数据获得了有效支撑。其三,加速了技术迭代的速度。所以云计算是人工智能进步的技术推手。

整合前面所说的,人工智能专业技术公司必须拥有三大要素:顶尖人工智能算法及团队,独特优势的大数据积累,以及云计算的能力和服务。这三个加在一起,它就可以去实现包括科大讯飞在内所做到的,每年相对30%-50%的错误率下降。

这里有一个技术上的概念,错误率相对下降是评价一个人工智能系统往前改进难度的概念。简单来说语音识别错误率从20%降到10%的难度,等同于从2%降到1%,因为它们相对下降都是50%。

大家前面也说了,摩尔定律走了几十年,而人工智能类似的摩尔定律,30%为错误率相对下降基线,每年错误率相对下降持续了至少五年以上。

而且我们也相信通过算法的演进,数据的积累和云服务的模式,这个相关的人工智能摩尔定律还会继续往前走至少3-5年。

我们要从两个方面来看这30%到50%的错误率相对下降。

第一,如果你所从事相关人工智能算法,年平均错误率下降没有达到这个值,那就证明你在整个人工智能竞争中是处于相对落后的状态。现在我们在拼人工智能,已经不再是拼现在已经达到的水平,而是拼你在人工智能的速度进一步加速度。

第二,现在还不成熟的技术,比如说目前视频监控中的人脸识别,未来如果掌控了之前所说的三大因素,就可以保持每年相对错误率30%下降幅度。

简单来说,如果今年错误率是20%,那么明年就是14%,再往后可能就到10%的水平。所以创业也好,投资也好,你可以拥有这样一个摩尔定律去预计相关的技术在什么时间点,能够达到用户可接受的门槛,这是很关键的一点。

人工智能的落地的挑战

前面讲的是真正所理解的人工智能这次浪潮背后的原因、三大推手。下面是科大讯飞17年来在智能语音和人工智能走过历程中总结出来的一些经验,或者说教训。

确实,人工智能是最近五年,或者最近三年才真正火起来,特别2016年是最火的一年。但是对科大讯飞而言,我们99年从科大大学生创业以来,一直在追求人工智能的梦想。因为技术的进步,我们打开整个相关的市场空间,获得了更好的发展机会。

这里首先要说一个挑战。人工智能和传统意义上的技术在立地方面有很大的不同点。

大家也许不能完全理解,我为什么把机器翻译和WIFI放在一起来理解。是这样的,当世界上推出一个WIFI技术的时候,所有人都会欣然接受它,不会说你的WIFI,我不需要,我可以通过自身能力实现手机和终端设备联网的能力,因为所有的WIFI是人类自身所不具备的技术范畴。

而机器翻译不一样,只要是大学生,都能找出来现在的机器翻译系统所出现的系统。所以当你把一个机器翻译技术推出去,或者把语音识别技术推出去的时候,别人总会质疑你,你的技术和人的能力相比实际上还是有差距的。我未必要用,我可以自己搞定。

简单来说,人类的智能相对人工智能来说,它的打击是无处不在的。比如自动驾驶和驾驶员的PK,以及速录员对语音转写,医生对于沃森的系统。虽然说现在智慧医疗宣传得非常好,但是要传统领域医疗医生接受这个新鲜事物还需要一个漫长的过程。科大讯飞所独家在做的自动阅卷技术,拿到老师那边去的时候,老师始终会以挑剔或者质疑的眼光来看待。

应该说任何一个方面,人类智能都是人工智能的师傅和竞争对手,所以我们在做人工智能创业的时候一定要想清楚。和传统WIFI的创新相比,人工智能的落地会有更多面临的挑战和困难。

$page$

但是,作为人类徒弟的人工智能,其实它有非常多的优势。如果要充分的发掘,或者说借势于这样一些优势,就能够有效实现人工智能产业的落地,或者说创业的成功。

我这里总结了五条,未必是完全,大概可以供各位参考。

第一,人工智能技术可以作为人机,或者其它系统人机接口。因为人自身的能力就只能是人自身的,人机智能可以拓宽交互系统。当手写识别作为发短信,作为人与人之间信息沟通人机接口的时候,它就实现了有效大规模的应用落地。

我们现在的扫描识别也是为检索分析做的应用,现在车派识别为什么多起来,是因为停车场收费管理里对车派识别应用有广泛的需求。人脸识别很多时候是为了身份认证和手机支付,用户有明确需求的,人机接口才可以做广泛的落地。

第二,随着IoT或者传感器技术的进步,利用传感器以及大数据来超过人类的智能也是人工智能有效的发展模式。这里最典型的一个例子就是天气预报,以前人还会说夜观天象,现在人都不会了。你想出差直接打开本地天气预报,就能有效知道明天相关天气的情况。

包括自动驾驶,包括其它的,为了方便都可以用比人类更多的传感器获得信息输入,有效做出人工智能来超越人类智能,达到更多应用推广落地机会。

第三,相对客观性,或者稳定可传承性。包括语音评测,作文评分,以及一系列的技术。因为人与人在对同一份试卷阅卷时存在主观性,机器在这方面会更加可观和无感情的。这时候相对机器对于大量人工阅卷而言就有更多的优势,这样才会使相关人工智能技术被老师和学校广泛接受的主要原因。

第四,面向海量任务的不知疲倦。科大讯飞是从语音合成起家,语音合成就是一个典型的不知疲倦合成任一文本,合成海量文本的概念,这个成为它真正落地的原因。

第五,人类学习成本高,使用频度低的产业。比如说多语种翻译,是的,人类可以在多语种翻译上做出很好的能力,但由于学习成本太高,使用频度太低,这时候相关人工智能就会有很好的应用落地。

人工智能立地的方向和节奏把握

最后我再稍微讲一下人工智能立地的方向和节奏把握,这也是非常关键的一点。

第一,优先对准现实生活工作中存在的大量重复性的脑力劳动去应用人工智能,可以更有效地实现广泛落地和大规模产业化。很多报道都说机器能够自动做诗,机器自动做曲,而机器自动阅卷显然具有更大更广泛的落地机会。

$page$

另外,我们还是要把握好相关人工智能技术进一步台阶的设计,不同应用场景对同样语音识别技术来说,所要求达到的水平是不一样的。简单来说,手机云输入现在已经达到97%,已经非常好用。而相应的会议语音转写,因为在会议当中人的争吵等问题,会议语音转写的正确率还没有完全达到应用门槛。

当然现在这种发布会,或者这种会议宣讲是可以有效达到语音识别率跨过应用门槛,达到落地机会。所以当你在选择人工智能方向时,不管是人脸识别还是其它方向,一定要想好第一个应用场景是什么,并且集中力量把那个场景攻下来。

最后一个,人工智能和人类智能并不是严格意义上PK和对立的,有很多人机互助的场合和场景。典型来说就是辅助驾驶和自动驾驶这件事情,自动驾驶还没有真正商业化,但辅助驾驶已经在很多场合得到了广泛应用。在人工智能落地的时候,你可以优先考虑人机结合的落地方式,能够让相关技术更早达到可应用的门槛。      

如果大家认真听了前面部分的介绍,应该可以得出一个结论。做人工智能技术的核心技术研发,其实是需要花费非常多的时间、精力和钱的。

另外一种方式,这个就是刚才吴军老师所说的,当人工智能技术有进步的时候,有很多飞跃的时候,我们能不能拿着现有人工智能的技术进步,去和传统行业,去和相关的产品进行有效的结合和创新,这方面如果从创业和创新的角度来说,机会其实会更大,特别是相对于小规模的公司而言。

另外,如果你要选择公司做人工智能核心技术的研发,一定要有相关的坚守。讯飞输入法我们做了六年,每年识别率错误率相对下降30%都是坚持在相关方向做了很大的技术投入。

另外一方面,讯飞也不是那么的自私,我们也把相关核心技术和人工智能技术进步、进展,通过云服务的方式,语音云的具体载体来给很多创新创业团队提供更好的人工智能支撑。

整个讯飞云自2010年首次发布以来,经过六年的发展,已经集聚了7亿用户,上面有11万开发者,以及30亿次日访问的云计算服务规模。我们把所有相关人工智能技术都有效地对外开放,大家基于讯飞云可以在人工智能这个大的行业和领域里实现自己的创新和创业。

最后想强调一下人工智能的无穷魅力,刚才说了人工智能是人类智能,自身智能智慧最后一个需要攻关的。另外一个,即使没有攻关搞定人工智能技术状态下,人工智能无成本复制的能力和持续向前进化的能力也是人类自身所无法比拟的。

人类智能无法复制。即使你是英语大师的儿子,单词也要自己重新背诵,这就是人类智慧进步最大的障碍。

而人工智能不一样,人工智能是一种技术,是一种机器智能。一旦某一个机器具备97%的语音识别正确率,那么世界上所有机器原则上都可以具备这样的正确率。

不管是哪个公司再继续研发下一代语音识别技术,他一定站在97%的指标之上,无成本复制和持续向前的进化能力是人工智能相对人力智能来说非常大的优势,这也是“人工智能威胁论”的主要来源,因为人工智能进化的速度超过人类至少1万倍。

现实生活中,人类对人工智能已经越来越习以为常。我们现在已经不再夜观天象,直接用天气预报这样有效的人工智能技术。而我们在以前很多时候还会记忆相关地址和路线,现在走路都直接用地图导航。我们原来只是习惯于拼音输入法,后来习惯于手写输入法,现在越来越习惯语音输入。

结语

我们非常相信在不久的将来,人类可以通过语音和车、家电、家居进行自然交互。每个人都会有一个虚拟助理。我们会越来越对人工智能习以为常。

人工智能的顶天和立地是科大讯飞成立以来一直所秉持的追求,同时也是我们的方法论。带着顶天的梦想的同时,也要脚踏实地地去实现人工智能的落地。只有人工智能真正落地了,才能真正把人工智能技术推向世界最高峰

人工智能技术只有达到世界领先,才可以有效的推动相关技术达到亿万应用的规模。科大讯飞希望和在座各位一起,带着顶天的人工智能梦想,知其然,且知其所以然,脚踏实地,乐观积极的实现人工智能的立地。

*本文由新芽NewSeed合作伙伴新芽NewSeed授权发布,转载请联系原出处。如内容、图片有任何版权问题,请联系新芽NewSeed处理。

相关专辑

我,机器人

我,机器人