十多款芯片问世,多起并购案,这是过去500多天里中国AI芯片的热度。
始料未及的事件再次点燃了学界业界和整个舆论场,在人工智能技术跻身世界前列的背景之下,我们开始期待它成为中国芯片的“嫁衣”。
人工智能的概念开始伴随着每片新品一个个抛向大众视野。
AI芯片指专门针对AI算法的专用集成电路,不同于传统的CPU、GPU,后者虽然可以用来执行AI计算,但速度和性能都影响了商用效果。
一位芯片工程师举例到,自动驾驶需要识别道路行人红绿灯等状况,但如果用当前的CPU去算,估计车翻到沟里了还没发现前方是河。
而如果是GPU,速度当然快得多,但其巨大的功耗和高昂的费用依然不是AI场景理想的选择。不仅如此,AI芯片还在场景侧分为云端和终端,大量数据训练人工神经网络的场景在云端完成,追求低成本和低功耗地推理则在终端搞定。
真实需求,不缺场景,资金到位,前赴后继的AI芯片公司纷纷上路,但造芯片可不是赶风口,设计、制造、封测整个链条之艰难让无数人却步。而且这还是一个板凳坐得十年冷的体力活。
跌宕起伏又心潮澎湃,棘地荆天又发奋为雄,这都汇聚成这批AI芯片创业者们的造“芯”故事。
寻找最优解
2013年秋天,张军是云知声在深圳唯一的销售人员,负责开拓白电客户。
他经常和前来出差的联合创始人李霄寒请教,怎么才能帮助传统家电企业提升竞争力?起初,他们在云端提供SaaS服务,给客户提供语音识别能力,但很快意识到这还不够。
他们发现物联网设备和手机不一样,手机端的语音识别可能不是刚需,但在家居生活和独立办公场合,人类最自然的交互方式就会有它的用武之地。
当时的深圳办公室只有12平方米,里面两张桌子,三把椅子,大家头脑风暴想做一个类似“U盘”的东西,有标准的接口,可以把它插到家电上实现语音交互。
2015年8月,这个后来取名叫做智能语音模块(IVM)的产品大获成功,一个硬件版可以标准化的对接不同的客户,型号A和型号B都可以轻松适配,格力空调、华帝油烟机顺利出货。
深圳团队开始搬进了大办公室,团队招兵买马。
不过,短短的几个月之后,他们又发现了新的问题,板子带芯片,各种各样的东西串起来,每个其实都不贵,但加起来成本太高了,客户问李霄寒:你这东西如果卖一百块钱,那只能放在高端产品上,低端产品就卖几百块钱,我没法用。
怎么办?有人提出自己造芯片,把东西集成到芯片里解决问题,但一算账发现,如果无法一片片摊薄,总体算下来还是贵。
这个事情经过了激烈的讨论,甚至有投资人颇有怨言的找到他们说,我们投一笔钱不是特宽裕,你们拿去做芯片,大家都知道芯片高投入周期长,你们为什么要做?
也不能怪投资人,被称为“独角兽捕手”的金沙江创投董事总经理朱啸虎就有言,“中国VC不是不投芯片,之前我们投了好几个都血本无归。”那个时候,所有的投资人都会提到投入成本高、门槛高、周期长、回报率低。
时间到了15年下半年,团队还是拍板要上,因为他们发现这里有一个尖锐的矛盾是长期不可调和的,只有足够的算力和功能才能支撑起AI应用,但成本是主要的限制因素。
一款AI产品,有了好的底层支撑就需要高出一两百的成本,但又想出量就必须以更低的售价,这样还不想降低算力就只能通过芯片本身了,没有其它解。
他们判断这是整个IoT方向的问题,云知声CEO黄伟说“不做芯片就是死路一条”。
对抗短期“情绪”
动手稍快的是时任百度深度学习研究院副院长余凯,他于2015年6月1日离开百度,一周之后就开始为新公司造势“我们要做人工智能时代的英特尔”。
让他毅然离开并火速创业的原因,也正是由于笃定AI的变量并不在软件,而是处理器架构,底层计算效率和功耗不解决,应用层就会多做很多无用功。
因为随着嵌入式处理器的功能不断外延,质变已然发生,北京航空航天大学教授何立民曾谈及,自从人工智能进入机器的深度学习时代,原有MCU的硬件加速已无法满足高速海量数值计算要求,以及大数据的云间交互要求。
这样一来,在嵌入式领域便出现了MCU与AI芯片两个有本质差异的芯片群,前者以控制见长,后者以计算见长。
找准了方向,紧接着余凯遇到一个好消息一个坏消息。
顺利的是创业团队的搭建,基本上就是找老朋友老部下,吃几顿饭挖几圈一支三五十人的战斗部队就拉好了,团队涨到几百人之后遇到的管理困扰,那是后话。
坏消息是在有豪华团队背书之下,轻松完成第一轮融资之后,接下来去哪里找钱。
在那个“人机大战”还没有到来的2015年秋天,老百姓特别是投资人根本看不懂这个家伙要做什么?余凯连续谈到六七十家投资机构,无一出手。
那会儿的风口是共享单车和P2P。
以至于那场影响世界人工智能发展的“人机大战”到来时,余凯积极参与并出现在网易的直播间,作为技术嘉宾讲解AlphaGo,也通过这样的机会为自己正在做的事儿正名。
2016年3月9日至15日在韩国首尔进行的围棋比赛,AlphaGo围棋以总比分4比1战胜李世石。余凯信心大增,这意味着大多数人开始看懂人工智能和AI芯片的开始。
他从创业伊始就说要坚持战略判断,不为大环境左右,这付出了不少代价,令他一直感到困惑的是,短期的情绪和竞争所造成的市场影响,在中国是被放大的,这也是为什么很多国外投资人来中国赚不到钱,他们往往低估“局部”的力量。
好在“人机大战”过去的几个月之内,地平线连续获得了Yuri Milner、双湖投资、青云创投和祥峰投资的资金驰援,并在第二年拿到了英特尔领投的超一亿美金A+轮。
过冬的粮草终于备足了。
余凯说地平线做的是“反共识”的事情,百度系自动驾驶创业只有他们采取不同路线,这就导致谈的时候处于两个极端,要么一拍即合,要么无法正常对话,你要做的就是找到想法一致的人。
巨头种子遇变数
2015年左右地平线和云知声开始大量投入兵力,寒武纪虽创立最晚,但原始积累已早早在中科院计算所完成。
2014年,身在中国科学院计算技术研究所的陈云霁、陈天石课题组就提出了深度学习处理器指令集DianNaoYu,被计算机体系结构领域顶级国际会议ISCA2016所接收,其评分排名所有近300篇投稿的第一名。
那时的模拟实验表明,采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升。
陈云霁9岁上中学,14岁进入中科大少年班,24岁取得中科院计算所博士学位,29岁晋升为研究员,33岁荣获中国青年科技奖和中科院青年科学家奖。兄弟二人平步青云,循着同样的步伐直到再次“交汇”。
2008年,陈云霁兄弟开始联手打造AI芯片,利用各自的科研优势攻关,在此之前,陈云霁已经跟随中国“龙芯之父”胡伟武十余年。胡伟武带领团队在2016年研制成功的龙芯3A3000处理器已经用在了北斗二代卫星。
同一年,寒武纪科技公司成立并顺势推出了首款可商用的深度学习处理器寒武纪1A,这个速度早于业界。
陈天石曾说,寒武纪只有小几百人的团队,已经做了很多事情,全球第一款终端AI处理器落地、全球第一款多核终端AI处理器落地、中国第一颗云端人工智能芯片落地、三代终端IP产品发布。
他说难以想象AI芯片领域不诞生新巨头,这显示着寒武纪的勃勃野心。但很快他们需要面对的是华为自己做芯片,外界指“抛弃”寒武纪的质疑。
陈天石回应华为发布的峰值性能16T的昇腾310和寒武纪发布的MLU100没有竞争,场景不同,峰值性能也不同,作为一家开放独立的芯片公司,要具备宽广的视野。
不知道这是否是他的心里话,但至少在前往巨头路上的变数多了起来。
AI芯片是时代机遇,更是技术所需,在这波崛起潮水之中,最早开始投入研发的还属海思,但一直被华为“雪藏”。
早在2004年,华为全资子公司海思半导体逐渐登上历史舞台,他们起初主攻基带芯片、视频编码芯片和为自家手机打造麒麟芯片,而和AI芯片扯上关系要从2017年说起。
2017年9月初,华为在柏林发布了麒麟970,宣称这是“全球第一枚手机AI芯片”,其中集成了寒武纪1A处理器的IP作为其核心AI处理单元。次年8月,麒麟980同样搭载了寒武纪1A的优化版本。
不过,从2018年10月开始,寒武纪迎来坏消息,情理之中,意料之外,“客户”华为推出全栈全场景AI解决方案和昇腾910、昇腾310两款AI芯片。
在绝地求生之前,华为创始人任正非就计划在芯片上投入四亿美元和两万人,23年以来,海思的舵手何庭波从工程师直至总裁,她历经微米到纳米,再到现在的5纳米技术。
这些积淀和努力,都成为海思在AI芯片时代的强力储备,正在开花结实,昇腾910、昇腾310、麒麟980的下一代们正在加速度。
创造性和秩序性讲道理
寒武纪有中科院背景,海思有华为这艘巨轮作为背靠,一千多位高级半导体专家参与本身就是超级壁垒。
而团队的建设和磨合对于云知声和地平线这样的创业公司来说就没那么容易了。
从2015年开始决定做AI芯片,直到2016年中才正式步入正轨,云知声组建芯片团队经历了漫长而又艰难的磨合期。直到“关键先生”谢冠超2015年11月加入,负责整个IoT事业部,其中最重要的KPI就是造芯片。
从深圳到北京,云知声的解决方案开始迎来彻底革新。
有了带头打仗的人,但作战部队还在缓慢的招聘和打磨,令彼时的管理层最为棘手的问题是算法团队和芯片团队的“互掐”。这是软硬件结合的AI芯片必须经历的阵痛,双方在底线的边缘疯狂相互试探。
如果是通用芯片,成本高企且有比较大的内存和存储空间,但一旦到了AI芯片,特别是边缘侧,多一点点东西都是成本的痛苦,那就希望算法团队配合裁剪。
这个时候算法团队就炸毛了,拍桌子瞪眼睛在办公室是常事,说这个东西我已经做到极致了,而且我很忙。双方争执不下,只能等老大拍板。
在老大眼里,那就是倒推,如果这款芯片成立,就必须满足资源限制的需求;算法是你给我的资源越多,我给你的性能就越好。现在要做的就是确认性能水平,然后榨干每一个空间,达成和解。
在AI芯片的研发过程之中,这是团队在每一个引擎,每一个模块,都会遇到的事情。
余凯将这个问题归结为理念冲突,招聘时有人问他,你做软件就做软件,软硬件结合是干嘛?
他认为这是打头阵必须经历的“风阻”,地平线芯片团队也在初期的相当长时间内协同工作不融洽,软件开发强调快速迭代,而硬件强调系统性的程序思维。
一个快一个慢,一个讲创造性,一个讲秩序,这两拨人有天然的对抗性。
从2015年10月,地平线第一个芯片工程师入职,第一行芯片代码敲出,开始做前端开发,经历了写代码,测试代码,画一层一层的物理实现图的过程,再到制造样片,最终在2017年8月16日点亮。同年12月20日,第一代芯片连同基于芯片开发的多个典型应用发布。
其实,一开始芯片团队自己都怀疑,“能成吗?啥啥都没有啊!”。但项目真正跑起来之后,团队的信心开始愈发坚定。
在某一个关键的节点,为了保证芯片研发进度,据说地平线算法负责人黄畅把自己锁在小会议室里,噼里啪啦写了两个星期的代码,并在门口挂了张牌子:“封闭开发中,请勿打扰”。
两个星期之后,拿着最终版本的算法架构,黄畅走出小会议室,黑眼圈深重,顶着凌乱的头发,眼里闪着光,“搞定了!”
磨合成熟的团队让地平线的芯片研发周期缩小到了22个月,不同于互联网行业的快速试错和迭代,芯片还绝对错不得。余凯说,一款AI芯片研发成本超过5000万美金,这对创业公司来讲是风险极高、压力极大的事情。
只造武器不打仗
造芯两年,2018年5月,云知声交出了第一代芯片“雨燕”,面向智能家居和智能音箱,在更低成本和功耗下提供更高的算力。芯片采用了ARM的架构和自主算法,选择台联电代工和一家中国台湾企业完成封测。
没成想,黎明之前最黑暗,5月16日的芯片发布会,一度让云知声决定取消,因为本来就绪的芯片突然点不亮,大家惊出一身冷汗。
李霄寒迅速组织排查,发展板子图有问题,立即改了一版重新验证,用时一周,有惊无险。
芯片发布之后的语音功能测试也让团队煞费苦心,客户大多是南方人,有次经过几天几夜的测试调整终于过关,但最后一群人灰头土脸的又被打了回来,因为客户老板的口音来自另外的更小众的地方。
李霄寒把造AI芯片的挑战归结为三个原因,首先是怎样在整个体系架构上做到能耗比的最优,怎样突破冯·诺依曼内存墙,其次是做好软硬一体,最后是要理解应用场景。
云知声是物联网专用芯片,地平线是围绕车载的智能驾驶的计算和AIoT场景的专用芯片。
不约而同的是,他们的商业模式都显得克制,就像英特尔不会成为联想和戴尔一样。别人都在垂直往上做应用的时候,余凯希望能在底层呆着,往上做,等于互相之间竞争。
一个是挣整个产业链的钱,一个是挣平台的钱,他们选择后者,大家都知道做芯片只有铺量才能活下去,尽可能的避免参战,只作为输送弹药的角色,是他们的生存之道。
余凯常言只造武器不打仗就是这个道理。
云知声同样,在2018年下半年开始交付芯片的时候,他们思考最多的就是交付给客户的是什么?他们虽然不是芯片和应用都包办,但因为物联网领域的不同,他们还是会为客户准备好诸多现成的功能应用。
团队调研发现,物联网市场需要的不是一个AI芯片,而是一个应用于物联网的AI功能,比如你拿出一个智能灯泡的方案,里面有一个芯片不假,但功能才是客户看重的。
有一次,李霄寒把AI芯片拿到一个卖灯的厂家,老板看了一脸茫然地望着他,你给我这个干嘛?但他又说这个芯片还有哪些功能,芯片和软件连同后台服务,并且能实现这样那样的功能,老板就把他请进屋坐下来详谈了。
相比于云知声早半年,2017年底,地平线发布了征程(Journey)1.0处理器和面向智能摄像头的旭日(Sunrise)1.0处理器。
余凯把芯片架构比作人的左脑和右脑,负责理性计算还是采用了ARM的架构,负责感性的部分被称为BPU(Brain Processing Unit)——这是地平线自主设计的主要用于人工智能计算的部分。
征程1.0和旭日1.0芯片采用了芯片地平线第一代 BPU架构“高斯”,提出算法来定义芯片,他们赞同计算机先驱、图灵奖得主的理念“真正认真对待软件的人应该做自己的硬件”。
创业四年有余,大家对软件算法的热情和投入依然令余凯困惑,一直以来他都坚信算法的门槛会越来越低,事实上,我们也可以看到很多纯粹的人工智能算法公司正在调整航向。
热闹是他们的
这波AI芯片热,做智能语音的公司最热闹,做计算机视觉的公司最低调。
此话怎讲?资深分析师吴磊的观点是,无论是机器人还是空调的语音控制模块,都是新的东西,这是属于语音领域的机会,所以他们更愿意尝试AI芯片。
商汤、云从这类计算机视觉公司的业务并没有创造出新的设备,网络摄像头或专业摄像头都是已经在那的,他们目前是要解决数据流到服务器之后,没有被有效利用的事情。
云从科技就是一家将重心放在计算机视觉的人工智能公司,2017年底工程技术负责人汤丽斌团队遇到一个困扰,他们此前把算法放在PC端,这个“金贵”的PC设备又怕冷,又怕湿,又怕脏,还得有人伺候。
他们亟待找到能把算法塞到相机端的方法。
第一步是芯片选型,这个时间大概持续三个月左右,产品部和算法部进行协调,把市面上有接触的所有符合场景需要的芯片一个一个拿到测试。
如果遇到中意的有不合适,还会和芯片供应商商量着做定制化,比如有些芯片不是专门为终端设备做的,为PC设计就不会周全的考虑紧凑环境。
而且,除非选的是通用芯片,一般专用芯片的话产品的设计和芯片的选型会同步进行,稍微滞后一点芯片。以防万一如果芯片最后搞不定,这个产品都不用设计。大家会卡着相同的时间点把产品设计敲定。
汤丽斌还发现,国内外的芯片企业都很优秀,但支持速度会有些许差异,国际大厂的支持速度是国内同类型公司的三分之一,原因之一在于国际大厂会将技术需求反馈到国外总部,整体决策流程较长,而国内公司可以迅速根据客户需求对芯片进行定制化。
2018年3月,云从科技的第一代AI智能相机“炬眼”面市,采用了英特尔的芯片,双方在算法和硬件的功耗上成立专项做了优化,功耗降到了15瓦,顺利出货。
几个月之后,第二代AI智能相机提上日程,华为海思的芯片成为主要选择,虽然成熟度还在打磨,但给汤丽斌吃定心丸的是,性能提升明显。他们可以在产品上市前花更多精力在算法的打磨和场景功能的调研方面。
从2019年开始,汤丽斌就在不停的走访客户,很多银行和他反复提及网点投诉率的事情,有时候客户感到业务流程复杂、等待叫号时间长容易生气,这个时候安抚是第一位的。
他们在广东农行试点了一个应用,后台可以看到网店有多少人,每个人头顶会显示一个状态,一般的等待时间上限是15分钟,到时候如果还没叫号,你就需要去问候一下了,或者倒杯水让顾客的情绪降档。
这些直抵客户的东西,都是作为一家不造芯片的人工智能厂商,算法“就”芯片的工作。所以前期选型一款优秀的AI芯片就至关重要。
对扎十年马步说No
不过,同属计算机视觉阵营的依图还是坐不住了,几乎在同一时间发现问题,一家选择有求于人,一家选择身体力行。
今年5月,乘着新闻联播的预热,创始人朱珑在上海滩发布“求索”芯片,这是一颗同时兼顾云端和边缘端场景的 SoC 级芯片。剑指英伟达。
他们打算造芯片是在2017年2月,而后投资了AI芯片初创团队ThinkForce,这家由芯片行业老兵组成的军团让依图造芯路变得顺畅起来。依图提供视觉算法,ThinkForce承担硬件研发。这印了朱珑口中“算法即芯片”的理念。
这是一个完整的故事,终端侧有海思在,依图可能没那么容易,但云端侧他们自己就有强算力需求。
但芯片行业浸润多年的专家,张兵的疑问是,依图的需求能不能撑起足够的量,如果不能,依图既做业务又做芯片,处境还是略显尴尬。相比完全第三方独立做底层的寒武纪,在芯片方面更有机会。
一位已经离职的依图工程师胡小军和网易智能《洞见》说道,其实在早期朱珑经常强调要扎十年马步,那为什么现在依图急了?
因为2017年去融资的时候,对于扎马步这件事,投资人第一个不答应。而且现在依图的营收压力在陡增。这也许是最好的选择。
无论怎样,每一条道都可能通往罗马,这是他们关于芯片的故事,也是中国芯崛起的佐证,不管前方是地雷阵还是万丈深渊,每个人看上去都神采奕奕。
通用芯片终于到头了。
(应被采访者要求,吴磊、张兵、胡小军为化名。)