未来几年，谁能拯救手机拍照功能？

2019-02-05 08:43

尽管在过去的2018年，AI人工智能手机噱头满满，不乏各种炒作以及不着边际地吹牛皮。但手机摄影取得的巨大进步，主要在于软件和硅层，而不是传感器和镜头等硬件。

手机拍照作为刚需功能，一直是用户评判一款终端好坏的直接标准之一。受限于物理极限以及摩尔定律，摄像头和传感器实现“质”的飞跃，可能性不大。未来几年，手机摄影的突破点在于AI技术与元器件的深度融合。

近日，在商汤科技与艾瑞咨询联合发布的《2018年中国人工智能手机行业研究报告》中指出，2006年及以前，手机行业属于功能推动阶段，从一开始围绕接打电话到承载拍照、听音乐、上网等复合功能。2007年至2016年，市场变为性能推动阶段，配置成为商家逐鹿的方向。2017年之后，市场进入智能驱动的阶段。人工智能开始推动手机产品的迭代，硬件技术的升级需要软件技术地优化和凸显。

人工智能手机＝AI芯片＋AI功能，即“满足AI算力需求移动端芯片，且加载了深度学习AI功能的智能手机。”。AI芯片指内置独立神经网络计算单元，通过CPU、GPU、DSP及其他通用计算单元联动赋能。AI功能囊括人脸解锁、AI拍照、智能相册、AI智能助手等等。

报告显示，巨头厂商扮演了引领者的角色，多方面推动AI手机落地。2018年，我国4G渗透率达70%，手机市场3G向4G升级结构性红利渐失。部分硬件提升边际成本和收益不成正比。这种情况下，预计到2022年，搭载AI功能的智型手机出货量占比，将从2017年的不到10%提升到80%，年销量将超13亿部。AI手机将是未来行业的产品方向。

尽管在过去的2018年，AI人工智能手机噱头满满，不乏各种炒作以及不着边际地吹牛皮。但手机摄影取得的巨大进步，主要在于软件和硅层，而不是传感器和镜头等硬件。AI人工智能可以更好地理解，图像呈现的内容。预计未来几年关于手机摄影的常识，将会从硬件思维转变为AI思维。手机制造商们的人工智能技术水平，将会成为手机拍照功能好坏的主要判断标准，且这种趋势丝毫没有放缓的迹象。

2015年，谷歌上线的APP，清晰地展示了人工智能技术与摄影技术融合之后的照片。在此之前，谷歌一直试图通过机器学习技术对照片进行分类。谷歌的照片APP直接面向消费者提供人工智能服务，这对于大多数人而言，是难以想象的。“突然之间，用户可以从杂乱无章、数以千计的图片库，转换为可搜索的资料库”，“突然之间，谷歌就知道你的猫看起来像什么”。

据雷锋网了解，2013年，谷歌收购了多伦多大学一家神经网络方面的初创公司DNNResearch，用以推动谷歌基于语音和图片的搜索功能。该公司通过训练人类标记的数据，训练深度学习网络，此过程被成为监管学习（Supervised Learning）。具体而言，在数百万张图片上训练网络，以使得它能够通过像素级别的视觉线索，来帮助图片识别分类。随着时间的推移，算法将会识别得越来越准确。

比如，一个大熊猫，囊括了可以正确识别熊猫动物品类，黑色皮毛与白色皮毛的比例，以及和荷兰奶牛皮毛的区别。进一步训练以后，理解更加抽象的词汇成为可能。例如，“动物”、“早餐”等，对人类而言比较简单，但对机器来讲，属于没有视觉输出的词汇。

训练完以上的模型，需要大量的时间以及整理能力。一旦数据中心完成之后，它将可以以低功耗、便捷的方式在设备上运行。如今，前期这些繁重的工作已经完成，只要把照片上传到云端，谷歌就可以通过模型来分类、标记整个图片库。

谷歌图片功能发布大约一年之后，苹果发布了基于神经网络（类似谷歌）的搜索照片功能。但鉴于苹果用户隐私条例的承诺，苹果的分类功能实际上是在每个设备中单独进行的，设置后在后台进行，并不发送数据，用时长达一到两天时间。

尽管和照片智慧管理是一回事，但人工智能和机器学习，毫无疑问，对于照片拍摄具有重大意义。摄像头和传感器可以“比大更大”，可是又起到怎样的作用呢？摄像头、传感器已经达到物理极限。如今，在某些情况下，手机拍摄的照片比传统照相机拍得更好已经不是什么“稀罕事”。其背后深层次原因在于，传统相机无法在芯片维度与手机竞争。手机芯片系统包括CPU、图像信号处理器、越来越多的神经处理单元NPU。

硬件的改变促成了计算摄影时代的到来，广义上的概念，涵盖了从人像模式的“假景深”到算法，一切计算形式，帮助手机拍摄出难以置信的手机照片。不是所有的计算摄影都包括人工智能，但人工智能肯定是重要的一个部分。过去，苹果手机正是基于此，驱动双摄像头的人像模式。iPhone一个摄像头的图像信号处理器通过机器学习区分人，另一个摄像头创建深度图隔离主体、模糊背景。

这项技能在2016年就出现了，所以，通过机器学习识别人并不是什么新生事物。照片软件组织（photo organization software）也早已经做到这一点，智能手机拍照的突破在于，实时性的处理速度。然而，谷歌才是这一领域的领导者，三代Pixel所展示出的结果令人信服。HDR+是一种默认的摄影模型，通过复杂的算法，融合几张曝光不足的帧合并为一帧。就像谷歌计算摄影的负责人Marc Levoy所言，“机器学习只会随着时间的推移变得更好，同谷歌照片软件一样，谷歌已经在一个巨大的、被标记的照片数据库上训练人工智能。进一步帮助相机的曝光，就像Pixel 2，产生了令人印象深刻的照片质量基准。”

前几个月，谷歌推出了Night Sight（夜景）功能，Pixel通过机器学习技术以长曝光来精准地预测白平衡和色彩。其中，Pixel 3效果最好，可能是算法随最新的硬件进行了迭代。这套算法适用于谷歌所有Pixel系列，甚至是缺少光学图像稳定性的工程机。这也从侧面说明了，于移动摄影而言，相机的软件比硬件更为重要。简而言之，在人工智能的“操持”下，硬件因此拥有了更大的提升空间。

据雷锋网了解，华为的Nova 4以及荣耀的View 20，首次采用了索尼IMX586图像传感器，4800万像素，意味着现阶段的最高级别分辨率。尽管如此，仍然需要在很多极其微小的单元填满像素，对图片质量产生不确定性影响。荣耀“AI Ultra Clarity”（人工智能超清晰）模式，擅长于最大限度地利用分辨率，解扰传感器不常见的色彩滤光器，释放出额外的细节。用户可以将图片放大，“海报”级照片应运而生。

图像信号处理器在某一段时间非常重要，随着计算摄影技术的进步，NPU将会发挥重要的作用。虽然苹果公司的A11仿生芯片最先触达消费者，但华为是率先宣布在自家麒麟970上，采用人工智能芯片的公司。全球最大的安卓处理器供应商高通公司，并未将机器学习作为战略重点。谷歌开发了自己的芯片Pixel Visual Core，用以帮助人工智能相关的图像处理。苹果最新的A12仿生芯片具有八核神经引擎，可以在core ML中运行任务，直接与图像处理器相连接，比A11快九倍。可以更好地对焦，生成更真实的景深。

所以，芯片对于对于机器学习的效率和性能至关重要。需要说明的是，谷歌的算法是在大型计算机上训练的，大型计算机拥有发达的GPU以及英伟达深度学习Tensor Core（张量计算核心），大部分工作可以“提前”完成。一旦将机器学习的计算能力搬运到移动端设备上，可以预见，在相当长的一段时间内，属于前沿性研究。

即使目前处于计算摄影的早期阶段，神经引擎可以减少手机拍照的处理负担，随时间的积累，运行速度越来越快。拍照作为任何手机最基本的功能，面部ID、人脸识别解锁、AR视频、AI人像、景物美化、相册智能分类、智能场景识图......在过去两年时间，已经深入渗透到普通人的日常生活中。

《2018年中国人工智能手机行业研究报告》显示，语音助手、人脸解锁、智能光线拍摄、美颜和识图成为2018年中国AI智慧手机用户最经常使的TOP5功能。人脸解锁、语音助手、随行翻译、智能光线拍摄、AI双摄／三摄、背景虚化成为用户认为最有价值的TOP5功能。

雷锋网认为，指数级增长遇到物理极限这个“天敌”，没有休止地持续增长逐步放缓。未来谁能够拯救停滞不前的移动摄影，答案不言自明！