2016 年 11 月,搜狗决定在乌镇世界互联网大会首次公开展示自己的同声传译技术。陈伟心中有些忐忑,甚至想过为了保险起见,要不要向搜狗 CEO 王小川提前要些演讲材料。
陈伟在搜狗语音交互技术中心任职,之前几个月,已经和同事针对同声传译技术做过多次内部测试。效果虽然不错,但毕竟在此之前业界还没人公开演示过这一技术,「吃螃蟹」的搜狗但凡有一点差错,都可能被人拿来反复检视。
王小川否决了陈伟的想法,技术做派的他不想让这件事失去公正、客观。同时,他对搜狗同声传译技术自信,认为没必要耍这点小聪明。
演示当天,在人工智能分论坛上,王小川戴着耳麦,在台上讲述自己对人工智能的理解。他的话被实时转换成中文和英文翻译,显示在身后的大屏幕上。台下有人开始拍照,一些外国嘉宾也摘下了用来听人工同传的耳机,这一幕让陈伟悬着的心放了下来,觉得这事「没问题了」。
2017 年,搜狗同声传译在全国又经历了近百场公开演示,涉及从互联网到金融等多个行业,陈伟称每一场都让它的能力更强,反复的实用让这一技术不断演进。2017 年的乌镇世界互联网大会上,搜狗同声传译还加入了语音合成功能,嘉宾能从耳机里听到机器翻译播报出来的声音。
搜狗在去年的上市招股说明书中总计提到了 90 多次人工智能,昭示着 AI 是它接下来最核心的发展战略。搜狗 CTO 杨洪涛告诉极客公园,对于同声传译技术,「我们更多把它看成是 AI 技术研发的一个演进」,是搜狗人工智能在向「自然交互+知识计算」发展过程中要攻克的难题之一。
那么,如果我们跳出具体技术本身来看,搜狗 AI 战略发展的全景又究竟是怎样的?
按照杨洪涛的解释,搜狗 AI 布局不会离开自己的优势领域,而是对这些领域能力的加强和形态的延伸。
这些领域里,输入法是一个。根据艾瑞咨询的统计数据,截至去年 9 月,搜狗输入法拥有 3.07 亿移动日活跃用户,8700 万 PC 日活跃用户,是中国第二大 PC 软件,第三大移动应用。
搜狗一直在尝试加强输入法的能力。从 2012 年开始,陈伟和他的团队就在做语音识别相关的工作,让用户通过输入法把自己的声音变成文字。后来基于语音技术的积累,决定研发同声传译,也是为了「提升用户跨语言间的交流」。
输入法满足的是用户的表达需求,而单纯的文字和语音,则是最传统的输入法功能,搜狗想在这两者之外,探索更多的帮助用户表达的方法。
杨洪涛认为输入法接下来的发展有两个方向。一是让用户表达时能使用更丰富的多媒体信息,除了文字、语音外,诸如地图位置、餐馆的点评信息等也可作为表达的手段,输入法应该智能、自动地发现用户会话中的潜在需求,增强用户的表达能力,提升沟通效率。「比如发『在星巴克等你』,输入法就自动把星巴克的地图也一起发送过去,这是在智能匹配用户需求上要去做的工作。」
输入法发展的另一个方向是帮助用户更好地「聊天」,通过分析、理解用户想要表达的意思,自动引经据典、索引段子,让用户的会话更个性幽默。
但这不是输入法的最终形态,未来的输入法将是一个宽泛的概念,它可能有形,也可能无形,帮助人与人之间的交流,也帮助人和物之间的沟通。我们现在和智能设备的语音交互,本质上也是输入法的一种。
杨洪涛认为语音/语言是人能用到的最自然的交互方式,也是搜狗 AI 技术理念的核心。围绕语音,搜狗推出了知音 OS——一套语音交互系统,为搜狗用到语音识别、语音合成、翻译以及相关能力的产品提供技术支撑。
「知音 OS 强调的是自然交互,让用户很自然地用语音、语言去和机器互动,机器能够理解用户在说什么,然后利用它掌握的知识来回答用户的问题。比如你对搜狗地图说去首都机场,它会反问你去哪个航站楼,是到停车场还是出发的大门口。」这个过程自然流畅,不会打断用户的驾驶行为。
知音 OS 的能力扩展了搜狗输入法的外延,让搜狗在帮助用户表达这件事上能「做得更好」。
「知识计算」则是搜狗围绕另一个深耕多年的业务领域——搜索——来进行的。
搜索引擎针对用户的问题,从互联网海量的数据中把答案提取出来,呈现给用户。但杨洪涛认为,时至今日,搜索引擎对用户问题的解答做得还不够好,它必须变得更加精准和高效。
「传统的搜索方法是你敲一个关键词,给你十条结果,让你去选命中你需求的。如果没有你想要的结果,那就再加一个或减一个关键词。下一代搜索引擎基于对知识的掌握和推理,能够用一个结果直接回答用户的问题,这就是知识计算。」
从多条结果选择到唯一答案,这是一个极其困难的演进过程。到目前为止,搜狗也只能在一部分问题上去直接回答,还有用户问题理解、知识提取、知识间相互关系的推理和计算等众多难题需要解决。
把自然交互和知识计算联系起来看,便是搜狗人工智能发展的逻辑:以语音、语言为核心的自然交互作为输入方式,经过知识计算,将唯一且确定的答案提供给用户,满足用户对学习、娱乐、生活服务等的需求。近几年,搜狗在 AI 上动作不断,但几乎都是沿着这条主线在布局,很少分散精力去盲目扩大「战线」。
本质上,这依旧是「输入法+搜索引擎」的组合,但在产品形态上却有着更为自由的选择。「它可能不发生在电脑上,也不发生在手机上,而是人跟手表、智能音箱、智能电视等各种智能设备去互动,这种互动不用敲字,没有搜索框。」杨洪涛说。
从这个角度去理解,未来的「输入法」和「搜索引擎」,或许将不再是今天这般的两款独立产品,而是作为两种不可见的底层能力,被整合进各种各样的软件及智能硬件中。「知音 OS 跟人对话,深智引擎(指知识计算)回答问题,有这样的技术我们才能实现无处不在的搜索。」
最近两年,搜狗陆续推出过一些软硬件产品,如速记工具「搜狗听写」、车内场景的智能副驾(支持与搜狗地图全程语音交互),还有儿童智能手表「糖猫」、智能陪护机器人「糖猫在家」,以实践和推动自己在自然交互、知识计算上的能力建设。
杨洪涛透露搜狗正在扩大智能硬件产品线,但他们目前不做开放式的生态体系建设,只挑选少数的合作伙伴去做技术落地。
「数据是驱动 AI 进步的核心点」,杨洪涛认为输入法和搜索积累的数据是搜狗做 AI 的天然优势。同时,搜狗 C 端产品庞大的用户群,为其提供了技术落地的场景,由此带来的软硬件产品线的丰富,又将产生更多的用户行为数据,「这样就形成了(数据生产)的闭环」。
多年前,搜狗将自己的使命总结为「让表达和获取信息更简单」,多年后的人工智能时代,这句话依旧适用于描述这家公司。「今天搜狗的使命体现在输入法和搜索上,未来体现在这些产品的演进上」。杨洪涛说。