搜狗获Cityscapes评测世界冠军多项指标刷新世界纪录

2018-08-03 14:06

人工智能的命题范围很大，而搜狗选择的突破口很小。以点带面，正是王小川为搜狗所规划的未来道路。

【TechWeb】近日，来自搜狗公司的视觉研究团队，在国际自动驾驶领域权威评测集Cityscapes上获得实例分割评测的第一名，击败了Nvidia、Facebook、商汤等几十支强劲的国际科研机构，并一举刷新了世界记录，代表中国向全世界彰显了我们出色的技术实力。

这是今年搜狗继CVPR大会上夺得WAD自动驾驶识别挑战赛冠军之后，所摘得的又一桂冠。短期内连夺两项世界冠军，充分证明了搜狗在计算机视觉上已经位列行业领先地位。

Cityscapes评测数据集是什么？

众所周知，人工智能技术在自动驾驶领域有着非常广阔的市场空间，也是最被人们所看好的一大应用前景。而如何决定AI判断识别路况信息的理解能力，就取决于它的评测数据集水准。

Cityscapes评测数据集在2015年由奔驰公司推动发布，是目前公认的自动驾驶领域内最具权威性和专业性的图像语义分割评测集之一，其关注真实场景下的城区道路环境理解，任务难度更高，且更贴近于自动驾驶等热门需求。在Cityscapes评测数据集之中，共分为像素分割和实例分割两个子任务，其中相较于像素分割，实例分割的难度要更大，也是计算机视觉领域最重要、最具挑战的任务之一。

如何让机器变得更加“聪明”，具备足够的学习能力，是所有人工智能研发时的最大难题，更是国内外科技企业争相研究的自动驾驶技术。能够在Cityscapes评测数据集中脱颖而出，打破世界纪录，意味着搜狗已经具备了强大的AI技术硬实力。

实例分割，自动驾驶的曙光已现

实例分割是一个很综合的问题，融合了目标检测、图像分割、图像分类等多种AI技术。顾名思义，像素级别的语义分割，是对图像中的每个像素都划分出对应的类别，即实现像素级别的分类；而分类的具体对象，即为实例。那么实例分割不仅要进行像素级别的分类，还需要在具体的类别基础上区别开不同的实例。实例分割对自驾汽车、机器人、视频监控等领域，都有着举足轻重的重要价值，获得全世界科学研发界的密切关注。

Cityscapes评测集包含50个城市不同情况下的街景，以及30类物体标注。此次搜狗参加的实例场景图像语义分割评测，类别对象多、场景复杂，挑战难度非常大。面对复杂的实例环境，搜狗所展示的技术十分巧妙。

过去，我们常常会把AI的关注点放在单一的车道上，而实际的路况信息乃是十分复杂且多变的，必须要求驾驶员有足够的“眼观六路耳听八方”的能力，用纵览全局的目光来观察整个路况。基于这个原因，搜狗通过引入全局编码模块，来显著提升了全局信息在实例分割中的影响。全局编码模块可以很好地捕获图像中的语义信息，并选择性地突出显示与实例相关联的特征映射，从而提升准确率。

另一方面，在训练过程中如果只是简单地引入每个像素的分割损失，而不是着重使用场景的全局上下文信息，会导致严重的类间不平衡问题。针对这一现状，搜狗引入了一种全局实例例编码损失函数GIE-loss。这种损失函数会预测场景中出现的实例类别，来加强网络学习全局语义信息的能力。不像传统的针对每个像素的损失函数，GIE-loss对每个物体，不管大大小小都是同等对待的，在使用这个损失函数后，小物体的分割效果明显变好。

通过上面的结果对比图，我们可以清晰的看出全局编码模块的引入，彻底改变了实例分割传统算法中远近物体不能兼顾的缺点，近处物体可以识别的很好，远处小物体的分割效果也提升了非常多，使得最终的AP100指标远超其他队伍。

截至目前，Cityscapes评测吸引了近百支队伍参赛，包括Facebook、香港中文大学、商汤和NVIDIA(英伟达)等众多国内外优秀创新企业和顶尖学术机构参加。值得一提的是，在过去的近两年时间里，商汤、港中文团队与NVIDIA(英伟达)几乎包揽了所有图像分割评测的冠军。而首次参赛的搜狗团队，各项评测指标均远超其他队伍，打破了世界纪录，以无可争议的成绩拿下了第一名。

搜狗视觉研究团队通过不断地算法积累和迭代，建立了一套高效易用的通用检测分割框架，可以针对任务快速迁移算法模型，达到实际应用需求。 CVPR2018 WAD检测任务和本次实例分割任务所用模型基本一致，验证了模型的高效易用性。同时团队最近也做了一些简单的实验，在少量代码改动的情况下，仅仅训练几个小时，便可以在一些著名的评测数据集上达到top的成绩。

聚焦“自然交互+知识计算”，将成就搜狗人工智能的未来之路

人工智能的命题范围很大，而搜狗选择的突破口很小。以点带面，正是王小川为搜狗所规划的未来道路。

一直以来，搜狗都在坚持着“自然交互+知识计算”的人工智能核心战略，专注于自然交互领域展开发力。在语音领域，拥有充足真实语料数据优势的搜狗，把语音识别与人机对话相结合，发布了知音引擎，并推出了全球首款商用AI同传。除了单独的语音识别“听的能力”之外，搜狗还向着合成方向的“说的能力”展开突破，能够自动学习的AI机器兼具了听、说、翻译等多种能力，位居业界领先地位。多模态输入，已成为了搜狗语音交互的研发重心。

而在视觉领域，搜狗也实现了AI技术的不断突破，让机器的自然交互变得更加全面。2017年乌镇互联网大会上，搜狗发布了行业首款唇语识别技术，实现了视觉与听觉的首次结合，帮助机器以更加多元化的维度来理解用户的诉求。在车载、智能家居等垂直场景下，准确率高达90%。本次在Cityscapes的实例场景图像语义分割评测中大获全胜，更是体现了搜狗对于视觉识别的技术积累，帮助机器进一步提升各项感知能力的交互水准。

连续获得多项国际比赛冠军的搜狗，已经证明了自己在人工智能领域的充足技术底蕴。我们有理由相信，在未来的AI赛道上，占据领先优势的搜狗一定能取得更加出色的成绩，用实际的AI产品来切身改善用户的交互体验。