想象一下,咖啡桌旁两人相对而坐,一位只会说中文,另一位只能讲英语,可是他们却聊得眉飞色舞,这是什么情况?
有翻译器!熟悉数码产品的人一定会马上说出答案。
的确,目前很多AI企业都推出了体积小巧、功能强大的即时翻译器,这似乎并不是一个新鲜事物。那么,如果旁边突然又过来了一位说法语的,也和中国人攀谈了起来,接着又加入了一位说日语的,对话却依然在顺畅进行,这又是什么情况?
在前两天的2018 微软人工智能大会上,这样的场景引起了很多与会者的好奇心。当天,小米生态链企业香蕉出行展示了基于微软翻译引擎的“魔芋AI翻译器”,这款翻译器能够提供多达14种语言的实时语音翻译。而通过远场语音识别技术,两个语言不通的人可以像朋友一样,边喝咖啡边聊天,使用不同语言的人还可以通过语音进行语言模式切换,自由自在地进行多语种交流。
突然感觉,这款不到手机一半大小的小东西,很快将会成为出国旅行时的必备“利器”。
从一款翻译器到一群生态伙伴
不过,显然香蕉出行不仅仅是要打造一款旅行专用翻译器,在公司合伙人及CTO于亮看来,魔芋AI翻译器核心的武器是AI,而AI促使以往的翻译能力突破了窠臼。“整个翻译器市场火起来有个原因,语音(识别)的技术和翻译的技术都达到了可以真正落地的水平。” 于亮在和懂懂笔记交流时表示,目前人们对于语言交流(翻译)的诉求越来越多,“随着整个社会的开放性,人们到达的地方将更多,开放合作的机会将更多,多元化的交流需求也会更多。”
关于产品,于亮坦言一直自己有一个梦想,就是能够做一款世界上最好用的翻译器。“关于核心技术,我们的思路是迅速落地产品,在翻译、语音这方面借助与微软的合作,尽快实现技术积累。”
于亮所说的合作,来自于微软今年2月与小米签署的战略合作备忘录,内容包括微软与小米在AI方面的多个合作项目,如计算机视觉、语音、自然语言处理、对话式人工智能、知识库等AI技术,还有“两位小姐妹”——小娜和小冰、SwiftKey、微软翻译Translator等方面的产品及服务。
可能有人会说,当天微软人工智能大会上可是秀出了“18般武器”,你为什么只关注小米生态链企业的这款翻译器?
其实原因很简单,这个有趣的产品背后透露出了两个关键词——技术落地和商业伙伴。
首先,微软这几年在AI技术方面的深耕正在开始全面落地;其次,除了小米,我们还看到国内大量的商业合作伙伴(生态体系)开始浮出水面。
这也正是2018 微软人工智能大会上,值得业界关注的最重要的一些信息。
作为一名普通参会者,我们在大会上看到的,是微软在语音语义、视觉、机器翻译和“全双工语音技术”等方面的新进展;ONNX项目及ML.NET背后正在建立的开源跨平台AI开发框架;包括中国移动、小米生态链、大疆、唯品会等多家合作伙伴基于微软AI技术展示的合作成果。而更多重要的信息,需要进一步剥茧抽丝。
三个令人动容的瞬间
懂懂笔记在微软人工智能大会上感觉最有趣的,首先是三个人讲的三段话。
“全双工……谷歌动不动就喜欢吹牛。我们的系统不仅仅支持两个人交流对话,还可以支持五个人(对话),这算是全武工(全五工)了?”在大会上,微软技术院士黄学东这句半开玩笑的话语,引发观众席上的一片笑声。
或许是因为前一段时间谷歌I/O大会上的那段“人机对话”在朋友圈霸屏,多少让黄学东感觉有些不忿。微软也对此表示,早在2017年微软小冰就已经主动和人类拨打了第一个电话,远远早于谷歌。而黄学东提到的“全五工”,是指现场演示的微软与Roobo合作研发的一款AI会议系统,这款开会“利器”可以同时支持五人对话和语音内容记录。
可以看到,会议中交流的几个人有时是一人一句,有时话题会被打断或是有人插话进来,而这款“利器”能自动识别出说话的人和声音,并把各方讲话内容自动转换为文字并记录下来。这里的“全五工”,指的是数据能同时在五个方向上进行传输,实现群聊识别及多轮对话记忆等功能。
在这段演示背后透露出的信息,是微软即将在今年秋季推出一项开源计划——全双工语音感官技术(Full Duplex)。微软将在中国和日本帮助开发者在开发相关应用时,能够使用到包括语音唤醒、群聊识别(基本身份与声纹)、控制器应答、多轮对话记忆等新的技术成果。
“有时候用户冒犯了小冰,小冰也会打电话过去质问对方,有时能把用户问蒙了。” 微软 (亚洲) 互联网工程院副院长李笛的这句话,引发了很多听众的兴趣。小冰在很多场景中的应用以及越来越普及,而且这个“小姑娘”已经让人真假难辨,听不出是一个人工智能系统了。
李笛展示的内容,包括小冰在与一位用户电话聊天后,判断出对方的情绪不好,于是再次拨打电话,询问对方情绪是否好转,还温馨提示用户尽早休息,并预告了第二天的天气状况。这个小故事背后,体现的就是人工智能从语音识别到语义识别过程中的巨大进步。而从大会上透露出的中国移动与微软合作内容来看,微软已经将领先的语音技术应用到前者巨大的语音及数据运营环境中,同时双方还将在机器翻译等技术上打造出更多的应用场景。
大会上,最让听者动容的,还是微软全球执行副总裁沈向洋的这一幕画面:他与来自南京工业大学的硕士研究生宋昊旻的一段对话。宋昊旻自幼丧失听力,发声也非常困难,但他通过不懈努力,终于考上了南京工业大学的本科和硕士研究生。现场宋昊旻是通过微软语音服务的协助,与沈向洋进行了对话。沈向洋介绍,针对宋昊旻声音特点定制的语音识别模型,能够将他努力发出的语音转换成文字,而且可以同步翻译成多种外语,真正实现无障碍沟通。
沈向洋在其新书《未来计算》中表示:人工智能的发展让我们有机会,以前所未有的方式塑造我们的未来,我们必须以负责任的态度,确保打造一个所有人都能参与和分享的美好未来,让人工智能为全人类造福。对于他讲的这一点,我们深感认同。
而在当天的大会上,技术趋势和亮点太多,我们所记忆深刻的这三个瞬间,也只是众多精彩中的一小部分。正如沈向洋所总结的,微软正在将认知服务扩展到智能边缘,通过推出ONNX项目及ML.NET开源跨平台人工智能开发框架,以及为微软小冰赋予更多创意功能““将18项创新技术、工具、服务与合作伙伴分享,与开发者分享,共同把握数字化转型机遇。”
多形态的合作伙伴=数据维度
关于大会上微软这十八般武器,以及背后的底气,我们认为不仅仅来自于技术的能力。
之所以这么说,来自于对AI应用落地的理解。
在与众多科技企业高管的以往交流中,可以得到这样一个共识:AI不仅仅是算法、技术门槛,它还需要海量的(并且是打过标签的)数据进行训练,让算法和模型在反复训练中变得更加“聪明”。更为重要的是,大数据的多维度、多样化尤为重要。
反过来看,即便依靠微软自家的数据积累,也不足以支撑起一个更加聪明的AI系统。这时候,更多的合作伙伴,更完善的生态体系也就弥足珍贵了,这里的合作伙伴,包含开发者和合作商业企业。
以微软认知服务为例,目前微软已经在全球推出了覆盖语音、视觉、语言、机器翻译等功能的24项服务,并且有超过100万开发者使用认知服务。而微软智能云上的Azure Batch AI服务,则允许数据科学家和人工智能开发者以非常简单的方式利用包括GPU在内的Azure云计算资源对人工智能模型进行训练。数据科学家只需明确任务需求,设定输入、存储、输出等设置,其它所有与基础设施管理、规模缩放、批量工作任务相关的繁杂的后台工作都能由Azure Batch AI自动完成。
而大会当天的众多商业合作伙伴——中国移动、大疆创新、唯品会、游族网络、小米生态链企业等分享的案例中,我们也能看到开放和共赢的AI合作理念,对于微软夯实自身在行业应用落地中的重要作用。
微软大中华区副总裁兼市场营销及运营总经理康容在与懂懂笔记的交流中这样强调,“实力”与“态度”是微软人工智能得以赢得广大中国客户、合作伙伴、开发者充分信任的两个关键要素。“从认知服务、机器人框架到最新发布的ONNX和ML.NET,微软正在不断敞开胸怀,积极拥抱开放、开源、跨平台开发。”康容总结。
他以和小米公司的合作为例,强调双方强强合作的基础是创造共赢:“小米是从客户转变成伙伴关系的,小米重在技术和产品落地,微软则有AI和云方面的身后积累,双方的合作空间会不断扩大。”
实际上,手握Azure这朵云,微软发力AI已经有了先天优势,而要让AI和云落地应用,了解行业,深入行业已经成为必然,这也就可以理解,微软不仅在中国市场,包括在全球市场去积极拥抱各行各业的企业客户资源,积极拓展具有行业特点的应用场景的落地工作。
这也是CEO纳德拉过去一年多来战略变化的重点——不断推进微软研究院的研究项目转换为实际应用和产品,加码增值服务市场的增长势能。至少从微软2018年Q2的财报中,我们已经看到ABC(AI+BigData+Cloud)融合带来的效果:Azure在全球云计算市场的份额已经从 16%上升到了 20%。
当然,作为一名普通消费者,微软财报的变化离我们太远。而懂懂笔记筹划的,是在下一场说走就走的“欧洲五小国自由行”装备清单里,加上那个能“讲”14种语言的翻译器了。