英伟达的股价从20美元涨到200美元,只用了两年。
这多半归功于自2015年以来人工智能的兴起。机器学习消耗大量数字运算能力,CPU虽然能够处理复杂问题,但并不适合AI应用程序。英伟达的GPU有数百甚至更多专用核心并行工作,天然适合AI。
2017年年底,英伟达推出了一款Titan V显卡,号称最强显卡,超越其前代性能9倍,售价3000美元。一家独大,定价就这么任性。
这个曾濒临破产的公司,现在成为耀眼的千亿美元明星企业。
技术变革带来市场格局的巨变,也引来一群垂涎的新选手:寒武纪、地平线、深鉴科技……在这个千亿美元竞技场上,90后、深鉴科技创始人兼CEO姚颂是最年轻的竞争者。
1、人工智能中的「清华帮」
2015年,23岁的姚颂从清华大学本科毕业,拒了卡耐基梅隆大学给的offer。
本科导师汪玉劝他,既然不想去,那不如留下来做一年研究。姚颂觉得既然都是做事情,不如创业。
就这样,姚颂拉着老师汪玉,以及远在美国斯坦福大学(当时PHD在读,后任教MIT)的韩松,创立了深鉴科技。作为创始团队中唯一一个全职人员,姚颂成为了CEO,开始了从学生到公司创始人的角色转变。
时间来不及让他慢慢适应。
2015年11月28日做出决定,第二天姚颂就开始写BP、见投资人。一天见一位,白天谈融资,晚上修改BP。一连十几个投资人,都对他们表示疑虑:纯学术的团队,一位太过年轻的CEO、一位大学老师、一位美国PHD,到底能不能干成这件事?
深鉴科技联合创始人汪玉告诉新经济100人:「讲了无数遍BP,被人拍得死去活来的。我们回来接着改、接着讲、再接着改、再接着讲。」
他认为姚颂抗压能力很强,这也是为什么年轻的姚颂能做CEO的缘故之一。
「抗压是第一位的,因为时时刻刻都在担心,融不到钱怎么办,找不到人怎么办,东西做不出来怎么办。外面也有不好的评论,觉得这一拨小毛孩出来做芯片不靠谱。但是,我们都顶过来了。」
姚颂是长沙人,霸蛮,「学生时代的我其实属于支配欲望比较强的人,就是我认定了,就这么干,哪怕外面都在质疑。」
直到2016年2月份,姚颂到硅谷参加学术会议,遇到了金沙江创投在美国的合伙人林仁俊。两人聊了一下午,从人工智能和半导体行业几十年的发展,聊到后摩尔定律时代的芯片延续,最后得到一个结论,交叉点一定会出现人工智能芯片,当场谈定意向,第二周就签了合同。
从创始人到员工,早期的深鉴充满了学院气息,有很多兼职学生和实习生。虽然汪玉从2007年开始做硬件加速研究,积累了一定的技术,深鉴团队已经有组织架构、产品形态,但技术部门之间没有形成很好的合力,产品进度比较慢,满足不了产品级要求。
2016年年底,单羿加入深鉴科技,担任CTO,调整了团队成员结构,将学生替换成社招人员,提高研发标准,加速产品落地。
优化后的团队,分为算法、软件、硬件和芯片四个方向。核心是做芯片系统,由芯片提供算力,硬件为芯片打磨硬件系统,同时用FPGA这种平台做先期客户的接触和反馈。软件把压缩工具、量化工具、编译器工具、部署工具穿到一起,形成一个产品系统。同时关注最新算法的演进趋势,为芯片架构设计提供指导。
单羿是汪玉带的第一位博士生,后加入深鉴。随着人工智能热潮渐起,人才的争夺战日趋白热化。
工业界有两个「黄埔军校」,一个是百度,一个是微软亚洲研究院。旷视科技引入微软亚洲研究院的首席研究员孙剑,担任首席科学家,增强算法上的竞争力。商汤科技创始人汤晓鸥出身香港中文大学,其实验室有关计算机视觉算法亚洲排行第一,与旷视创始人印奇是老师学生关系。二者分庭抗礼,一直竞争到今天。
深鉴科技有着清华和斯坦福的双重学术背景,吸引到的多是此类学术背景的人才,以电子系和微电子专业居多,更偏向工程类人才。目前公司100人有一半以上来自清华。
清华帮在国内人工智能领域「呼风唤雨」,旷视科技团队多来自清华计算机系。地平线软件副总裁杨铭、算法副总裁黄畅也是来自清华电子系和计算机系。商汤科技副总裁杨帆亦是清华电子系出身。
「全国清华相关专业毕业的硕博一年加起来也就百余人,有BAT、华为、商汤、旷视,以及我们在抢。所以每一家公司能够分到几个就已经很不容易。」姚颂说。
引进人才的好处也是明显的:2017年10月,深鉴一口气推出6款深度学习产品,产品落地、商业化速度明显加快。
2、主打低功耗
一块绿色的PCB板子上,数亿晶体管集成到一张小小的黑色芯片里,约矿泉水瓶盖大小。
板子前面连接着摄像头,采集到的数据在前端实时处理。显示屏上,可以看到来往人群中被框起来的每个人。
它的模组规格50mm*60mm,每秒可处理18fps@1080p视频,单帧可30张以上人脸检测、建模及识别,支持GoogleNet、VGG、SSD、ResNet、YOLO等深度学习网络部署,功耗5W。
这是2017年深鉴重点推出的安防产品芯片,一个方案大约400元,推出两个月,接到几万个的订单。
「我们对标英伟达,但是效率更高。我们跟英伟达的芯片区别在于,他们在市面上卖几千美元的板卡,对于我们来讲,提供类似的算力,我们的芯片成本可能只有10美元。」单羿说。
英伟达现在没有旗鼓相当的竞争对手,在某些场景里随意定价。这也给后来的创业公司提供了机会,做到成本可控,为客户提供更低的价格。
神经网络既是计算密集的任务,又是存储密集的任务。早年经历了从优化计算引擎到优化存储系统,如今算法和硬件分开的情况下已经达到了优化的极限,所以深鉴选择软硬件协同设计,利用压缩和稀疏化达到整体最高效的方案。这套解决方案中的主要技术,获得ICLR 2016、FPGA 2017最佳论文奖。
简单来说,神经网络训练模型时更在意精度的提升,有很多运算是冗余的。在获得精度之后,找出其中的冗余部分,将其去掉,以实现获取收益减去负担。
压缩之后可以把模型变小,比如变小50倍。芯片是一个运算单元、一个处理器,外面挂着内存以及硬盘等存储设备。如果模型变小,内存缩小到一定程度时,可以把它放在芯片里,不再需要外接内存,帮助客户省掉内存的成本。
此外,当模型变小以后,运算的次数也变少了,计算的时间会缩短,功耗也会进一步降低。
深鉴科技宣称,在算力同等的条件下,GPU的功耗在十几瓦左右,深鉴芯片的功耗只有3瓦。
深鉴科技商务副总裁刘竞秀说:「算法本身不是我们最强的地方,我们强在可以利用我们独门的压缩技术,结合我们的DPU把算法发挥更好的端到端效果。」
但是硬件公司的普遍难处在于产品的稳定性和良率。
硬件的打磨周期很长,相对投入很大。第一代芯片流片(像流水线一样通过一系列工艺步骤制造芯片)出来,很难与有多年芯片设计制造经验的英伟达相抗衡。英伟达与产业链的结合次数更多,配合关系更好,能够每个环节发挥出最优的效果,在这方面创业公司是有劣势的。
并且,芯片设计中可能存在着一些风险和要迭代的地方。比如,公司在设计时期待芯片能发挥出90%以上的利用率,但实际生产出来后可能只有80%或70%。这在没做出芯片之前,很难预计会有怎样的问题。但是改进的成本很高,不能随意投片,做不到像英伟达那样快速迭代。
深鉴通过与A轮、A+轮的投资方合作芯片,来解决一些财力、人力、经验等方面不足的问题,这其中包括三星、联发科和赛灵思。同时,与这些厂商合作,也是渗入到其他行业的一块敲门砖。
「我们现在整体来看已经比英伟达做得要好一些,但是不确定是不是真的有优势。因为对英伟达来说,他不着急把最好的东西放出来,只要市场上没有竞争对手,他可以把先研发的东西缓一缓再拿出来。」单羿说。
3、从安防撕开商业化口子
刚走出院校的深鉴科技在芯片落地上,也曾经走过一段「弯路」。
2016年,他们与一家无人机公司合作,推出了一款只有巴掌大小的智能无人机,在满足尺寸、功耗、价格的条件下,通过Zynq FPGA平台实现实时的多人检测、姿态识别、追踪。
对姚颂来说,这是他第一次用具体的产品将零散的技术串起来,无人机对芯片的要求并不高,是理想的试水产品,但不是一个可以全身投入的行业。
因为市场太小了,养不活AI公司。大疆无人机占着市场70%以上,一年出货百万台,剩下30%被几百家公司瓜分。
芯片本身是一个高投入、边际成本很低的产品,它前期研发成本很高,后期批量生产成本非常低。硅片的硬件成本和原料成本,姚颂把它戏称为「沙子钱」。芯片靠量产把研发成本摊薄,无人机市场显然满足不了「量」的要求。
那自动驾驶呢?三五年不会有量产车上路,创业公司拖不起。新经济100人最近采访一家国内无人驾驶公司,其提到研发早期调研了一圈国内外芯片公司,发现国内芯片普遍主打低功耗、高性价比,但在运算能力和稳定性上与国际一线仍有较大差距,所以最终仍然选择与英伟达合作。
智能家居呢?风声大雨点小,没有几个家庭真正用上。数据中心呢?英伟达打算接手英特尔的摊子,正在全面布局,直接交锋不理智。
人工智能的概念太热,却一直在为商业化苦苦挣扎。作为人工智能的技术底层芯片供应商,深鉴也在摸索类似的路径。
2016年末,姚颂做了好几个月的调研,他认为公司应该尝试转型安防领域,并且在春节前后召开核心成员的闭门会议讨论最终决策。
安防的水很深,整个系统格局非常复杂,是一个相对封闭的环境。海康威视、大华这种安防产品的行业巨头,掌握了大部分的资源,而一些小的安防设备公司,也在各自的地盘有着不错的营生。
「我们不想做海康、大华的竞争对手,也不想做本地经销商的竞争对手,我们是想做海康、大华背后AI方案的提供商。我们最擅长的就是做跟AI相关的一整套方案。这些做安防设备的公司他们最缺的也是这个能力,因为他们都是传统公司,都是靠做硬件、软件起家的,没有做AI的经验。」刘竞秀说。
深鉴与安防厂商合作,可以一到两个月帮他们出一款有AI能力的新产品。硬件的模组、算法、软件都是现成的,客户只要做硬件的对接,把硬件插到机器里就可以工作。如果他们自己研发的话至少要半年、一年甚至更长的时间。
在新经济100人访谈中,姚颂和其他高管们多次提到英伟达。英伟达依靠GPU在数据中心、自动驾驶(英伟达拿到了特斯拉订单)等领域横冲直撞。在安防领域,基于GPU的智能安防成本比较高。GPU高性能、高功耗、高成本,最低功耗在15瓦以上,这要求GPU布局在服务器端,一般能够承担起这个成本的是公安。
像小区安防布置视频监控,有4到8个摄像头,不可能布置服务器在小区,也不会直接连到公安,只会连到保安室让人在电脑上盯着。
将英伟达视作对标的深鉴,主打的是低功耗,范围在1-20瓦。这可以满足小区视频监控的需求,做成一个功耗十几瓦到二十瓦的小盒子,能做八路视频识别,摄像头直接连接小盒子,数据再传到电脑上看。
金溢科技,全国最大的ETC公司,主营公路收费、停车收费。传统ETC在地底下埋一个线圈,车通过的时候,上面的雷达探测到车辆,线圈会感应上面ETC的芯片卡,进行收费。
它的痛点在于线圈昂贵、易损耗,只能进口,广泛应用在停车场,成本会非常高。此外,如果不是ETC的车,开到ETC通道,还要倒车出去换一个通道。他们希望在传统的线圈电磁感应之外,加一块视频作为辅助,在路边吊个杆挂一个小摄像头,识别车型和车牌号。在高速公路通行雷达上面加一个摄像头,远远就看到车辆牌照,如果不是ETC的车辆,就请车辆走另外的车道。
金溢科技也是深鉴第一批软件客户。软件对于AI的芯片来说非常关键,英特尔之所以成功与和微软深度绑定有关,AMD之所以市值才百亿美元,也与软件做得很差脱不开干系。
「我们做了国内第一个,现在唯一敢拿出来给用户使用的神经网络开发软件DNNDK。开发软件有很多预设,但是用户的使用情况是千般万种,不会按照规定去做,所以也给了我们很多的反馈。」姚颂说。
目前,深鉴与大华等大型厂商的接触还在测试阶段,第二梯队的安防公司许多已经进入了联合研发阶段。
4、AI芯片:中国弯道超车机会
国内研发AI芯片的公司,除了深鉴以外,还有寒武纪、地平线等。寒武纪侧重于通用芯片,既做训练又做应用,首先布局在智能终端。
「我们的芯片叫做DPU,这是深度学习处理器。AI分训练和应用两层,我们只做深度学习应用端,不做训练端。」姚颂告诉新经济100人。
地平线则是提供一个闭环的封闭系统,客户购买算法加上硬件的全套解决方案,算法加硬件都固定在一个「黑盒子」里。
深鉴的用户则可以选择用不用他们的算法。这导致整个产品设计思路完全不同。
「比如我就想用这一袋面粉做馒头,那我可能做几种样子的馒头,但是如果我想用这个面粉做面点,那你在后厨需要准备的东西肯定要比只做馒头复杂很多。」刘竞秀说。
这是为了迎合客户的需求,打造一整套生态环境。在「数据为王」的时代,客户都希望把数据掌握在自己手中,利用手里的数据形成对行业的理解,做定制的算法,从而增加公司的附加价值。
就像英特尔最开始做了CPU之后,定下标准的接口,交由主板公司解决硬件层问题。之后在上层跑一个Windows操作系统,通过中间的程序支持鼠标、键盘、摄像头等外接设备,最终才能在系统上运行诸如Office这样的应用。所以英特尔做了大量工作,让微软把操作系统部署在上面,才有了今天英特尔CPU在PC的广泛应用。
到了AI时代,打造生态又变成所有芯片行业巨头和创业公司最大的挑战。英伟达发布了工具TensorRT,深鉴也公开发布了类似编译器和工具。
在半导体芯片领域,中国在全球一直处于追赶者的角色。CPU芯片一直被英特尔等国外巨头垄断,2016年中国在半导体芯片进口上的花费已经接近原油的两倍。
人工智能的兴起,正在引发各行各业的变革。旧型芯片不能完全满足机器学习的需求,英特尔与英伟达多年的技术积累不再作为壁垒(GPU非专门的AI芯片),而是与国内创业公司站在同一个起跑线上,为机器学习研发专门的新型芯片。
「我们是一个人工智能平台的公司,在技术角度,我希望所有行业都可以用我的产品。从商业角度,我们希望在这两年把一个大的市场吃下来,站住脚,再五年的阶段能够吃下来三个不同的市场。」姚颂接着腼腆一笑,「我现在要多听取批评,少年得志容易骄傲,还是要多打压一下。」
他带着半框眼镜,穿着深灰色连帽衫,看起来像刚从实验室走出来,接着又要去图书馆的学生。
正如现在的AI行业一样,一切才刚刚开始。