有了人脸识别,“刷脸”不是再是网络里用于调侃的词汇,而是现实的场景了。
想象一下,刷脸就可以打开自己家门,刷脸就可以去银行提款,刷脸就可以完成支付——一个刷脸的世界或许很快到来。
这是因为,2014 年人脸识别领域的水平飞速发展,数次超过人眼的人脸识别精度。
首先,得先明确一下人眼的人脸识别精度有多少。为了衡量各个机构研究成果的大小,一般机构都要都通过难度极高的人脸图像集检验,比较准确率的高低。
Labeled Faces in the Wild(LFW)是国际上公认难度最高的人脸图像集之一。它的图像来自 Yahoo! News,一共13233 幅,包括 5749 个人,有 1680 人有两幅或以上的图像,4069 人只有一幅。这些图像均来自真实场景的拍摄(自然光线、阴影、表情、姿势、遮挡),因此难度极大。也因此 LFW 现在已经成为验证人脸识别成果所使用次数最多的图像集。因此,可以认为,LFW 的测试数据是权威的。
而在 LFW 上,人眼的识别精度有三个档次:
一般来说,各个机构的目标是超越第二档,也就是没有背景信息情况下,人眼的人脸识别精度。而在 2014 年,由于长期积累所诱发,人脸识别领域的技术进步爆发式增长,一年之间人类数次令机器的人脸识别精度达到人眼的标准,甚至超过人眼。
2014 年 3 月 18 日 Facebook 宣布推出 DeepFace,在 LFW 上识别精度可达 97.25%;而同样在 3 月,清华 Face++ 团队则宣布同样通过 LFW 测试,识别精度达 97.27%;而过了不久,4 月 25 日香港中文大学教授汤晓欧领导的计算机视觉研究组通过 Gaussianface,将人脸识别的精度提升到 98.52%。
值得一提的是,汤晓欧教授及团队所研发的 Gaussianface 是基于 20 万样本量得到的结果,而 Facebook 的 DeepFace 的样本量高达 750 万。
而 2014 年下半年,汤晓欧教授和研究组再接再厉,研发 DeepID2 和 DeepID2+。DeepID2+ 于 11 月 17 日推出,人脸识别精度经过 LFW 检测,高达 99.4%——这是LFW 上相关测试项目里最好的成绩。
$page$汤教授科普了一下“模式识别”相关测试性能的关键在于看“错误率”,而且错误率的降低才是研发的目标。因此,可以看到,人脸识别在 2014 年当中,从 Facebook 当香港中文大学计算机视觉研究小组,错误率不断下降,从 2.75% 到 2.73%,从 1.48% 到 0.40%——性能大大增加。
我咨询一名计算机视觉方面的专家,他说,“(机器人脸识别精度)超过人眼是合理的。 因为计算机的判断本来就可以深入到人眼所不能解析的细微部分的差别。DeepID2+ 是一个值得继续深入研究的方向。”
在昨天科大讯飞的新品发布会上,汤晓欧教授感慨自己过去多年在计算机图形、人脸识别上投入,但只在科学界有一定的知名度。而 Facebook 这样一家大公司宣布自己搞人脸识别,就马上引起大众的注意,而且被竞相报道。也可能正因为如此,汤晓欧教授也开始考虑将科研与产业进行结合,而他首选的合作伙伴则是科大讯飞。
换言之,科大讯飞的语音云为开发者、创业团队不再只是提供语音相关的能力,而将人脸识别、手势识别等结合当中,创业者可以通过科大讯飞语音云为用户提供更加自然的交互方式。
而在活动现场,利用科大讯飞语音云所开发的无线婴儿监护器 iBaby 展示了人脸识别的能力,它的摄像头环绕一周,结果很快知道活动现场来了多少人, 多少人是男性、多少人是女性。
科大讯飞也同时公布了语音云的相关数据:目前激活终端数量为 6 亿,日活跃终端数量为 1.5 亿。另外,科大讯飞努力压缩语音识别所需要的时间,2013 年在 Wi-Fi、3G、2G 环境下,语音识别时间分别需要 1.25 秒、1.4 秒、1.5 秒,而在 2014 年这几个数据降低到 0.14 秒、0.45 秒 和 1.5 秒,而在 4G 环境下,仅需 0.3 秒。
对于人类的行为进行识别,然后通过大数据方式处理,得到有用的数据,再为用户反馈有效的结果,这已经是业界未来的发展方向,科大讯飞也是其中一员。
现在问题来了,既然机器的人脸识别精度可以超过人脸,那么,未来可以围绕它开发哪些应用?