徐浩峰导演的《师父》,描述的是这样一个故事:咏春拳的唯一传人陈识来到北方武林中心天津,希望在天津开一家武馆把咏春这门绝学发扬光大。天津武林却容不下他,摆下横竖规矩的同时,还想让陈识把真功夫交出来。
忍无可忍的拳师最后表示,那我干脆把你们都打趴下呗。
虽然剧情逻辑完全不一样,但这几天打败柯洁和各路围棋高手的AlphaGo,总让我想起《师父》的这段故事。区别在于电影里拳师是处处留面子,最后忍不下去才打败所有高手;而AlphaGo是一开始就注定要打败高手们,但同时要处处留面子……或许仅此而已。
同样的高手挑战,同样的按规矩拜码头,同样的内藏锦绣和心照不宣——在极其和谐且去商业化的对抗赛+表演赛+演讲+论坛+媒体报道里,AlphaGo在其乐融融的气氛里完成了对中国市场以及中国网民的一次大公关,同时宣告基本完成了AI+棋牌领域的基础探索。
更加巧妙的是,DeepMind和谷歌团队还顺势玩了一回“内容电商”,把几个刚刚在谷歌开发者大会上重点布局的产品做了次顺势推销。实力是真的,一举三得也是真的。
《一代宗师》里说,有人活成了面子,有人活成了里子,面子敬人一支烟,里子可能就要除掉一个人。这次AlphaGo的立馆之战,恐怕也有面子与里子的分别。
当然,这里并没有反对这次人机赛盛宴的意思,相反,这样的比赛和套路恐怕越多越好。但是太多的套路确实让我们很难看清AlphaGo带来的最珍贵价值。毕竟求棋道是少数人的事,AlphaGo的核心却可能关乎更多。
AI+围棋的公关任务:精准、厚道、有套路的拜码头
不妨先来聊聊这次AlphaGo中国之行的实质。开赛前,我们就被关于限制报道此次比赛的新闻刷了屏。但是围观几天之后会发现,谷歌和DeepMind团队这些人尖子何尝不了解官方的要求和立场?
甚至比想象中更多,AlphaGo团队在一言一行上仿佛都受过某种训练,不仅照顾了官方情感,还对中国网民的喜好了若指掌。
比如DeepMind创始人Demis
Hassabis就在接受采访和主题演讲中,反复提及围棋这门运动本身的伟大和艺术性,谈论其如同探索宇宙一样的价值与魅力。并且还不忘记借助围棋赞美中国本身的伟大和历史悠久。当然了,表示未来愿意在华开展更多合作也是必须的。
除了情商在线的发言外,AlphaGo团队的阵容齐整,诚意拳拳也令人感叹。要知道,DeepMind是家以高冷著称的科技公司。三位创始人基本不同时露面,而这次不仅三人同时到场,还拉上谷歌高管一起,想聊未来聊未来,想说技术说技术,说市场说营销也有人陪着你。总之是实力拒绝一切暴力挑事儿。
此外,对柯洁与AlphaGo之战的态度也耐人寻味。第一局柯洁半目惜败,AlphaGo团队还马上澄清没有让棋,第二局Demis Hassabis直接表示柯洁表现几乎完美,想来第三局即使不是柯洁胜,也应该会有更加“厚道”的赢棋方式。
这个剧情不由得联想到《师父》里的天津比武:你赢不了就不能开武馆,但你赢的不给面子,抱歉,那还是不能开……
谷歌的面子:TPU、谷歌云和TensorFlow
在非常给中国,甚至可以说给人类面子的前提下,谷歌也一举满足了自己的面子。
我们可以整体看一下这几天科技媒体刷屏报道的人机大战关键词。会发现一些逻辑上可能不应该出现的高频词汇出现了。
比如说:TPU
作为谷歌专门为机器学习量身定制的处理器,Tensor Processing Unit,简称TPU,自打诞生之日起就是谷歌的掌上明珠。在刚刚结束的谷歌开发者大会上,还重点披露了二代TPU的情报和数值。虽然仅有照片,但还是作为了大量发布产品与项目中的核心拿来展示。
要知道,TPU在战略意义上彰显了谷歌从产品与计算服务为主导的公司,向着硬件+计算+产品的全流程迈进。谷歌几次明确了AI first战略,而专为AI提供的芯片处理器,价值不言自明。
按理说,与李世乭对弈的AlphaGo当中就已经使用了TPU驱动计算,而在这次与柯洁对弈版本中,TPU的使用只是数量上减少了,并没有在硬件计算能力上得到何种改变。应该不能算作AlphaGo升级的重大变化。
但在DeepMind创始人与谷歌相关负责人分享的演讲,以及回答记者提问过程中。TPU却被仿佛提及,描绘成AlphaGo计算力的核心。按理说,这次的AlphaGo特征是对计算的需求量大大减少,玩命吹应用的处理器仿佛有哪里不对….但他们就是这么干了。这就是面子。谷歌的面子。
人在屋檐下,自然要低头。无论你是技术天才还是理想主义者,拿了谷歌的收购款自然要为谷歌服务。
事实上,目前TPU的市场应用价值还有待考量。
首先这是个不外售产品,只能通过购买谷歌云的服务来获得TPU的计算能力。而另一方面,作为专门为旗下机器学习平台TensorFlow量身打造的芯片,TPU在处理其他平台算法以及其他机器学习计算网络时展现的效率还在经受质疑。
这次乌镇峰会上,DeepMind联合创始人之一David Silver在演讲中特意强调“TPU 像 CPU 或 GPU一样都是可编程的。它并不专为某个神经网络模型设计,可以在多种网络上执行 CISC 指令,比如卷积神经网络、LSTM 模型、大型全连接模型等”。
但事实上,针对一代TPU的测试数值来看,LSTM模型的运转效率还相当低,远比不上卷积神经网络的运算速度。这也是为什么以机器学习硬件为核心的英伟达似乎始终对TPU有着某种不屑:毕竟AI之路千万条,大家不可能都在TensorFlow上走。
但是显然,谷歌是希望将TensorFlow的平台、谷歌云的云服务和TPU的运算能力打包给更多企业的。这样近乎于整个AI应用产业的命脉都在谷歌手里。
这种想法目前有些不现实,毕竟TPU的适应度还太狭窄,创业公司选择GPU就够了。而大公司怎么可能把身家性命都交给谷歌?
所以说,人机大战中谷歌赚足的“面子”,其实是由各种各样的“里子”撑起来的。
AlphaGo的里子:半掩半遮的低耗高拟态算法
那么,到底什么是撑着谷歌面子的、AlphaGo真正的“里子”呢?
从逻辑上讲,这个里子就是能够让新版本的AlphaGo毫不留情的秒杀旧版本,轻松写意战胜人类的深层原因。
这几天比赛中,有个概念突然火起来了,就是围棋当中的“让字”。非常诡异的是,大家仿佛都认为让几字对应着实力高出几个等级。事实上,围棋当中的“让子胜”绝不是以数字来计算棋力的。
每多让一子,被让子者将会获得巨大的优势。一般来说最多能让四子,而让四子基本就是专业棋手跟入门棋手的教学赛了。这次出战的AlphaGo能不能对人类选手让子胜不得而知,但如果它能够对旧版的AlphaGo让三子,那说明棋力已经有了等级上的进化。
这个进化的核心实力来自什么呢?显然不是来自运算速度的加快和数据处理量的加大。根据Demis Hassabis的说明,“本次对弈的新版 AlphaGo计算量小了十倍,自我对弈能力更强,运行起来更简单,更好,功耗也更小。”
而这个神秘效果或许来源于几个能力。最核心的就是AlphaGo改良了蒙特卡洛树搜索算法。这种算法的本质,是在完全信息博弈的情况下采用不断穷举极大值与极小值,在根据数据结果来匹配能达成玩家目标的搜索结果。顺着搜索树上升,最终达到最优结果。
这个算法是AlphaGo初代时就开始采用的机器学习算法。但这个算法的缺点在于对于博弈目标需要的运算量会非常庞大,如果不加以限制,很可能出现暴力穷举的运算方式。这对于围棋显然是不智的。
而解决运算量问题的方式就是通过卷积神经网络,使用策略网络与价值网络对举的方式来确定运动方向,这样就几大减少了搜索树的运算量与运算时间。据说,这一版本的AlphaGo策略网络/价值网络构成的精神网络由12层增加到了40层,这其中蕴含的也绝不仅仅是数量上的增加,而应该是更复杂的算法逻辑在起作用。
初代AlphaGo对人类棋谱的大量学习完毕,也给版本进化提供了有力基础。这一版本的AlphaGo更多采取自我对弈的方式来完成强化学习,辅助以少量人类棋谱。显然会在优质数据搜索上更上一层楼,也更加无法被人类预判。
同时这次的AlphaGo虽然依旧是使用监督学习与增强学习结合的训练手段,但应该已经达成了部分无监督学习。这很可能是master连胜60局时很多奇招和布局感的来源。
简单来说吧,AlphaGo的“里子”在于它使用了全面改进的算法和优质数据源,虽然目前资料甚少,我们还无法窥探其究竟。但AlphaGo通过多种算法逻辑、训练逻辑与学习资源相结合,让机器获得了近乎于直觉和创造力的东西,恐怕才是它传达出的最重要信息。
虽然这个信息包裹在层层商业目的和新闻噱头的背后,但还是有必要把它找出来……因为……我也不知道因为什么,但这里似乎可以再引用一句《一代宗师》:功夫只有两个字,一横一竖,对的站着,错的躺下。
——AI也是如此。