一项人工智能识图技术的曲折历程

一项人工智能识图技术的曲折历程

2016-10-22 12:00阑夕 合作伙伴
解决不了准确性,就很难开启商业化的进程,在实验室里留得太久,也会造成技术研发和市场需求的错位,虽然标准化的识图应用在最近几年已经隐有气势,但在真正产值巨大的企业级市场。

曾经谈过一个道理,是说人工智能的科幻色彩固然能够引发公众的遐想和惊叹,但在实际应用层面,企业仍需考虑这项技术的功利用途,要有天马行空的瑰丽,也要有落地生根的务实,就像Google的「AlphaGo」在表选出令人称奇的围棋技艺之后,其首要使命还是要帮Google卖掉更多的广告。

历史学家认为战争和商业是推动人类进步的唯二因素,既然战争的代价实在过于高昂,那么拥抱商业也就成为仅剩的选项,驱使着天才们日以继夜的为之奋斗,人工智能在本质上和交流电其实并无区别,只是前者尚未见到属于它的威斯汀豪斯及其西屋公司罢了。

而在中国的人工智能领域,有着这么一起案例,对于如何将高端深厚的技术落地到商用市场,或许有着相当的启发性。

深圳一家人工智能企业码隆科技发布了一款致力于提供「以图搜图」服务的企业级平台「Product AI」,他的两名创始人分别来自中国和美国,与有着技术界「黄埔军校」之称的微软亚洲研究院有着紧密联系,曾在2015 ImageNet(人工智能图像识别领域的奥林匹克)的比赛中获得优胜。

说得更通俗一点,「Product AI」的应用场景之一,就是向各类电商及零售平台提供技术支持,使其增加识图功能,用户能够上传拍得的照片,借助人工智能的计算能力,寻找同款大衣、同款包包甚至同款面料,从而承接消费行为。

是不是距离想象中「高大上」的人工智能,有着那么一点点儿不一样?

甚至有人会问,这也属于人工智能吗?实际上也有黑客在论坛回复:这确实是属于非常正宗的人工智能。以前图片是一种静态的存在,「Product AI」更像一个能量模块,它有给图片打标注的能力,将会让每一张图片都拥有了自我认识的能力,进而和更多的图片进行交互。

「以图搜图」曾是专业搜索引擎的功能,随着Google、Bing和百度等通用搜索引擎的加入,它的「黑科技」成分被稀释了不少,图片识别的原理和文字相仿,都是通过比特化的拆解,记住信息内容的特征,然后再由机器在数据库中去进行匹配,交给用户最为接近的结果。

就像机器翻译永远只会逐字逐句的获得词语转化而无法理解语义和修辞,人工智能所能起到的作用,就是模拟人脑的思维结构来优化这项工作,通用搜索引擎的「以图搜图」在很大程度上只能采取「撞库」的形式索引信息,当两张图片的元素略有不同——拍摄角度、遮挡情况、成像质量等——时,准确匹配的难度就很高了,打个比方来说,机器可以在一秒钟之内,从上亿张图片里找到相同的两张,但是想要让它理解猫和狗是两种不同的动物,却是有着登天之难。

早些时候,Facebook的机器算法就曾将丹麦哥本哈根的著名雕塑「小美人鱼」的照片判断为色情内容而进行屏蔽,引起舆论一片哗然。而在微博上,博物杂志这种识别各种植物的人肉搜索引擎受到广泛欢迎,无疑是对现有识图技术的赤裸裸的嘲讽。

解决不了准确性,就很难开启商业化的进程,在实验室里留得太久,也会造成技术研发和市场需求的错位,虽然标准化的识图应用——比如针对K12人群的拍照解题类产品——在最近几年已经隐有气势,但在真正产值巨大的企业级市场,人工智能和识图引擎的结合还存在着相当充裕的空白。

码隆科技就为这个行业交过学费。

2014年,黄鼎隆和他在微软时的同事Matt Scott携手创业,微软也是迄今为止在人工智能方面造诣最为顶尖的科技公司之一。两人推出的第一款产品,是直接面向C端市场的「Style AI」,直接扎入了时尚领域,用户拍下他们心仪的杂志模特的照片,便可在App内获得同款或是最为接近的商品页,从服装到鞋靴,从腕表到首饰,品类一应俱全。

然而,技术的前沿性质并不能等价换算为市场的容量,尽管首次下载使用「Style AI」的用户大多认为这项功能足够新奇有趣,只是这款应用归根结底并非是电商入口,当天猫、京东等巨型平台早已错节盘根的拦截着消费者的每一次行为,彩蛋式的「Style AI」显然无法与之抗衡。

交完学费,黄鼎隆及其团队知道了扬长避短的重要性,既然对于技术本身是有着高度自信的,那么避开直接说服用户使用的C端市场、而是寻求那些已经拥有用户资源的B端企业的合作,可能更为现实和轻巧。

和一家面料交易商贸平台的合作,坚定了码隆科技的转型思路:

纺织行业的交易撮合,离不了「阿里巴巴」式的平台,但是在线上沟通时,即使有着图片的辅助说明,用户仍然很难将一匹面料的特性和材质表达清楚,而当码隆科技向其提供识图技术之后,面料与面料之间的可视化对比以及基于某款纹路样式的关联搜索都变得简单快捷起来。

合作方的各种好评,让码隆科技为B端企业提供图片扫描服务的商业探索初步被证实。随后,黄鼎隆决定推出具有开放能力的「Product AI」,包括电商、安防、医药、艺术等多种行业都可接入这个「擅长识别图片的人造大脑」,糅合成自家产品的特色功能,提升用户体验。

比如暴风影音和上海卫视这类视频媒体也是「Product AI」的典型客户,用户在观看电影或者电视剧时,能够直接到京东上下单订购当前画面里男主角正在使用的手机,就是技术合作的经典应用场景。

在「Product AI」的后台提供支持的是一套神经网络,它不是压缩图片的像素去进行对比识别,而是用海量的学习和消化来理解图片的含义,并进行语义提取,根据黄鼎隆的解说:在ProductAI的驱动下,每一片GPU工作效率相当于200到400个经过训练的专业人员。

看上去,在互联网企业越来越讲究「赋能」的时代,反而会让传统企业的春天提早到来,马云说互联网会成为未来的电能,普惠所有的生产机构,倒也贴切。

人工智能就符合这样的说法,在可见的阶段里,它并不适合作为一款商品放在超市的货架里供人选购,但是任何企业必然都需要它的力量,作为增益服务的关键道具。

有个令人捧腹的故事是说,某款逼死拖延症患者闹钟应用的运行模式,是让人在睡前拍下一张静物照片——比如客厅的电视机——那么在次日早晨响起时,用户必须起床前往客厅,在同样的角度也拍下一张照片,当两张照片被判断为一致时,闹钟才能被关闭,以此来逼迫那些喜欢随手按掉闹钟的贪睡者。

只是有一次,一名用户在临睡前拍下的照片是冰箱里的一个苹果,第二天早上当他打开冰箱时,发现那个苹果被室友咬了一口,这下就不好收拾了,闹钟的铃声无论如何都停不下来,换上一个新的苹果都没办法「骗」过系统,于是只好重新刷机,把手机还原到初始状态。

显然,人工智能的理论和畅想如何炫目,都比不上解决这类问题来得痛快。

*本文由新芽NewSeed合作伙伴新芽NewSeed授权发布,转载请联系原出处。如内容、图片有任何版权问题,请联系新芽NewSeed处理。