“如果结果不够好,那一定是还没有到最后。”
撰文|裴一多
出品|产业家
“您好,我是齐天大圣孙悟空!”一个孙悟空的声音在上海世博中心的场馆中响起。
别误会,这可不是孙悟空配音者出现在现场,这个酷似孙悟空的声音来自于智能语音企业标贝科技的一款语音合成互动产品——“你说我学”。而在场馆现场,除了孙悟空特色合成声音外,你还可以看到包括台湾女声小美、中文儿童冉冉等6个动漫IP形象,滑动到对应人物形象进行点击,说出你想要的话语,人物就会将话语用个性化声音表达出来。这一幕来自于8月29日在上海世博展馆举办的WAIC2019世界人工智能大会。
在人工智能行业飞速发展的如今,一个不争的事实的是,语音开始扮演场景连接器的新角色,通过赋能产品,成为了AI服务的最新供应商。可以理解为,在这个最接近未来的行业里,“一个好的声音,就是一门好生意”已经成为一个共识。
跑马圈地间,赛道新“头牌”已经出现。
一、智能语音的产业新「抓手」
智能语音的东风已来。
一组来自语音产业联盟白皮书的数据为证:人工智能行业在近几年的产业增长率平均在43%左右,2018年市场规模达200亿元,预计到2019年年末,整个人工智能行业规模将达到近300亿元。
而在这一组上扬曲线背后,智能语音的发展更为引人关注。作为如今人工智能赛道产业化程度相对成熟、产业规模较大的细分领域,2011年其整个市场规模只有6.3亿,到2017年整个智能语音市场规模已经超过百亿,整个行业的发展近乎呈现指数级增长。
市场是宏大的,实操是具体的。尽管如今各家在语音识别领域呈现出你追我赶的进击态势,但在如今的这股智能语音东风中,一个微不可查的趋势是,语音合成正在成为各家新的布局点。
“很多从事做语音识别的大牛现在转型做语音合成。以一些公司为例,它之前对合成的重视程度不是特别高,但从去年开始,重心逐渐转向合成”。一位业内人士告诉产业家。
时代趋势永远和个体行为相伴,事实确实如此。国外,Google系的Lyerbird推出了一套“只需一分钟的声音样本就能模仿任何人说话”的系统;去年,微软在其公有云平台上推出了语音合成定制服务产品Custom Voice。国内,标贝科技推出有370余种音库支撑的“声音超市”,为客户提供一整套的个语音合成解决方案;讯飞推出了“讯飞留声”,只需要10段的声音采集即可完成个人声音的复刻。
就当下而言,与语音识别、语义理解等智能语音交互的技术相比,语音合成技术的体系更为独立,也更被外界认为是有机会单独存在而无需做全栈的一个方向。
不难看到,人工智能行业正在驶向深水区。
随着人工智能赛道更为个性化的产品的出现,对声音的要求不再是千篇一律,而是更加追求个性化和饱满度,以通过更好地连接场景来完善基于产品本身的服务。这也意味着,语音定制化已经成为了一个新的刚需。
二、「拆解」语音合成这张牌
事实上,相比于聚光灯下的语音识别、语义理解两项技术,语音合成更为“低调”。
低调背后是其相较于其他两种技术更为严苛的标准,“声音是日常沟通交流的重要载体,想要让大家在各种场景下都能享受到很好的声音体验,要让声音以假乱真,其苛求度非常高。”标贝科技联合创始人兼CTO李秀林说道。
他是语音合成行业的老兵,见证了近年来语音合成技术在国内从无到有,不断发展的每个阶段,“怎么让声音更有温度,更有灵性地与产品结合,是一个永远需要探讨的命题。”
从时间轴来看,追溯语音合成技术还要回到上世纪90年代,彼时科大讯飞是最主要的玩家。早期的语音合成技术应用很受局限,主要应用在汽车导航、银行叫号、医院叫号和车站播报系统,可以理解为,那时候的合成技术处于萌芽期。
合成技术分两种,第一种称为拼接法。把语音里面所有的语料基础片段都录好,再根据需要,择取语音单元,并拼接成具体话语,这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练,合成新语段,参数法的优势在于对录音数量要求较少,几千句话就能出一个合成效果。
“无论客户用哪种合成技术,都离不开专业的语音数据服务。”标贝科技数据团队负责人表示。可以理解为,在语音合成的赛道上,语音数据是一切服务的“基石”,唯有基于此才可以铸造语音合成“更高层建筑”。
但这并不是全部。“尽管都认识到语音合成的重要性,但真正实现可落地的产品还是很少。”一位常年关注人工智能赛道的人告诉我们。
事实确实如此。相比于技术的研究,从实验室到商用阶段的跨越才是真正考量一家企业能否适应趋势的最佳标准。
在AIOT和物联网不断发展的当下,人们需要的是可视化的声音,进而辅助不断涌现的新设备,打造更具生命力、温度的智能硬件。
换个角度理解,对语音合成技术而言,数据、场景、产品、服务,四位一体,相互递进,相互成就,缺一不可。语音连接场景,场景构建服务。
在这个被新置于大众主流认知的跑道上,有人已出发,有人在观望。
三、标贝科技的“重生意”
语音合成技术的落地需要多少步?不可计量。
这是标贝科技给出的答案。发音人选择、语料设计、语音采集、数据处理、语音深度加工……但凡你能想到的关于声音合成全部环节,都早已成为标贝科技产品落地环节的家常便饭。
据了解,标贝科技有一套专业化业务流程,大致包括语料设计、语音采集和数据处理等环节。作为定制化的数据服务提供商,由于流程繁复,贯穿每个环节的质量控制便成了最终结果的生命线。
“人工智能比较厉害在于不仅把简单的标注处理好,还可以把后期的合成,通过技术手段提升准确度,最终接近真人发声的状态。”标贝科技语音团队负责人表示。
标贝科技有这样的底气。首先,标贝科技有着专业的标注团队和大量自有数据打底,为语音合成提供丰富不断的“原料”,据了解,标贝科技目前有着3000余小时的自有合成数据库;其次,它已经构建出了包含需求分析、立项设计、严格授权的数据采集,专业的数据加工处理流程,严格的校对及语音标注,统一整齐的结构处理、TTS评测系统等全部环节的完整业务链。
这也意味着,标贝科技不仅仅能提供语音合成标准化服务,更可以提供多场景个性化的语音定制方案。
数据壁垒辅以专业的技术模式,最终落地成了标贝科技的明星产品——声音超市。其模式即为在标贝科技提供的汇集370余种音库,同时包含多元音色、类型、明星、动漫IP和优质发音人等多个维度的声音平台上,自由挑选声音,根据线程、调用次数等模式进行缴费。据了解,截至目前,语音数据超市的规模已经突破10万小时。基于此,标贝科技还同步为有需求的大型企业提供定制化业务。
另外,除了定制化、标准化的技术模式和超大容量的语音库外,声音超市同样还有服务的加码。基于此的是标贝科技的TTS评测系统,对于它的作用,你可以理解为“检测师”——即利用系统为保障客户后续产品的调试和完善。
不难看出,标贝科技在此之中的角色不仅仅是“授鱼人”,更是“授渔者”。
截至目前,标贝已与百度、阿里、腾讯、微软、京东、滴滴、字节跳动、网易、360、三星等国内外百余家企业客户建立合作,服务项目累计超过300项,涵盖汽车、教育、客服、零售、阅读、智能硬件等领域。
除此之外,标贝科技还免费向社会开放了中文合成语音数据库(10000句),主动承担行业“水电煤”的角色,通过对行业数据库等基础设施的搭建赋能AI产业,加速产品在不同场景下的落地。可以理解为,在AI大火的当下,标贝科技真正将自己定位成了构筑行业基石的“底层搭建者”。
对它而言,这是一门“重”生意,更是一门“慢”生意。走得快,更要走的稳。
四、技术驱动的背后
时代正在变化。
“标贝科技认为语音合成现在走入一个新的阶段。”李秀林说,“功能性的时代已经过去了,语音合成功能并不稀奇,现在最主要的需要让用户有更多的可选择性,需要满足个性化的需求。”
毫无疑问,AI、互联网与5G的结合,将加快万物互联时代的到来。对产业而言,各方紧密协作,更需要强大且不断迭代的基础服务。对企业而言更应该找准自己的定位,建立自身壁垒,为产业发展提供基础支持,构建基于自身有力的竞争优势。
在人工智能不断跃进的当下,进化将是存活下来的唯一机会。
但我们更应该给予关注的是,在不断涌现出来的、改变时代节奏的新产品、新趋势背后,像标贝科技等在技术领域十年如一日的挖井人。
从海量数据收集到技术模型搭建,从前端产品设计到后端运维服务,每一个流畅的环节背后都有着成千上万次的调试和计算,每一个新体验、新需求背后都是一个个从0到1的算法和研究。
吃水不忘挖井人,时代终将有所馈赠。一如那句话,“如果没有最好的结果,那一定是还没有到最后。”应如是。