文丨智能相对论
作者丨叶远风
自然语言处理(NLP),人工智能皇冠上的“明珠”,由于各个底层算法和技术模块都与业务场景的业务逻辑、数据特点高度捆绑,每一个领域、每一个业务场景都需要高度定制,已经成为AI领域最难啃的硬骨头。
目前,国内NLP在生活场景的应用占比不到1%,与之对比的是,视觉(CV)、听觉赛道上商业化的大幕早已开启。
尽管微软亚洲研究院认为未来十年是NLP发展的黄金档,尽管Tractiac的“自然语言处理(NLP)市场研究报告-全球预测2022”分析NLP市场将在未来五年内快速增长,尽管市场乐观预期国内NLP在生活场景的应用占比在10年内将突破50%……然而,这一切终归需要NLP领域的创新企业一个个技术难题攻克、一个个场景突破来最终实现。
谁来啃下这最硬的骨头?
不同的人会有不同的答案。而现在,一些不常出现在业界舆论焦点的创新企业,却正在成为NLP创新突破的重要力量。
中科凡语就是其中之一。这家由中国科学院自动化研究所孵化、专注于NLP服务的创新型企业,历经短短的几年发展后已经成长为 “中关村金种子企业”。基于特定行业、教育、医疗、航空等多个细分领域的特定需求,中科凡语的技术和产品正在改变人们工作、生活的方方面面,并凭借众多语种的覆盖成为“一带一路”建设的重要伴行者。
如同投资方高科新浚所言,中科凡语“汇聚具有国际视野和产业实践的人才梯队”,该企业优质的人才体系已经成为各项发展优势的重要支撑——首席科学家宗成庆、董事长周玉均是来自中国科学院自动化研究所的研究员,核心团队成员均为博士学历,有阿里、IBM等高级算法专家的从业经历。
如果说NLP的创新突围是一场旷日持久的抢滩登陆,那么中科凡语已经为此做了完善的顶层规划,而在其耕耘NLP赛道的过程中,一个客观上的、围绕抢滩NLP蓝海的体系化步骤也显现出来。
深挖洞:用最顶尖的团队夯实最坚实的技术基础
“九层之台,起于累土”。对NLP而言,最首要的莫过于坚实的技术创新,为一切应用创新、场景攻克提供最底层的支撑,挖洞越深,在面对NLP那些复杂场景需要时越能够从容。
而中科凡语早已完成了这样的挖洞过程,且还在持续巩固。
作为一个并非赶着AI、NLP风潮而凭空创立的企业,中科凡语承接的是中国科学院自动化研究所在人工智能、自然语言处理和机器翻译等方向20多年的技术储备,或者说,中科凡语就是这些技术储备的一种实体化、市场化表现。
再加上,行业顶尖团队和技术储备对整个行业技术人才的天然“吸引力”,不断壮大的团队让中科凡语在算法或技术层面持续突破、领导行业,以创新企业的身份获得了不可忽视的NLP技术话语权,甚至在技术层面一定程度上代表着行业发展走向,睥睨整个赛道。
在2019年9月,中科凡语就已获得中关村高新技术企业认证,12月获得国家级高新技术企业认证;2020年10月,在中关村国际前沿科技创新大赛上,中科凡语从数百家高新企业中脱颖而出,入围人工智能领域TOP10榜单。
此外,已经拥有一百余项国家发明专利、软著的中科凡语,还横扫了各种行业权威技术大赛:
核心技术团队荣获2014年 “钱伟长中文信息处理科学技术奖”一等奖、中国电子学会科技进步一等奖、2015年度国家科技进步奖二等奖;
与中国科学院自动化研究所共同申报的“多语言机器翻译关键技术及平台建设”项目被中国发明协会授予发明创业奖创新奖一等奖;
2020年11月荣获“2020全国移动互联创新大赛(社会组)决赛一等奖”及单项奖“最具市场潜力奖”;
在第五届中国健康信息处理大会评测大赛第一赛道临床术语标准化任务中,进入前三甲;
中科凡语首席科学家宗成庆、董事长周玉深度参与的《神经网络机器翻译核心技术及产业化》获得北京市科学技术进步奖一等奖。
……
如果说这些技术优势是中科凡语布局NLP领域的生产机器,那么在NLP的基础生产资料——语料数据方面,中科凡语也有着行业最充足的准备,极具创新精神的人才团队不断推动着中科凡语领先的数据优势进一步夯实。
由于NLP领域的特殊性,相对于视觉、听觉,其对数据的渴望更为强烈,大部分NLP技术都是建立在大规模语料训练的基础之上。
而中科凡语一方面依托中国科学院自动化研究所相关团队过去20多年的积累,另一方面依托于与语言类高校的深入合作,如前文所言已经建立了涵盖特定行业、教育、医疗、航空等多个领域的亿级双语平行语料,NLP语料数据方面领先行业,先天拥有NLP基础资源方面的优势。
现在,看似与数据资源关联不大的人才体系,还在不断强化中科凡语这种优势。
在NLP领域,数据一般来源于两个方向,一是全网无标注数据;二是采集特定语料进行标注后的数据,后者价值更大但往往需要大量的体力劳动来完成工作。中科凡语依托强大人才体系创新了业界领先的智能化标注技术,让原本需要大量人工来完成的NLP数据标注进程变得更有效率,从而大大推动有标注数据的生产,不断充实自身的NLP语料池,保持甚至扩大在行业的数据储备优势。
由此可见,NLP领域的人才并不只有业界通常认为的算法创新价值,在数据方面同样有显著的推动作用。
集齐了算法、数据两大优势,中科凡语已经为NLP抢滩做好了最全面的准备。
广积粮:以场景突围为导向构建稳固且灵活的人才体系
基于NLP的内在需要,只是在某个技术领域、某个场景耕耘,无法完成NLP的创新突围。“兵马未动,粮草先行”。NLP抢滩需要积累更为广泛且灵活的多专长人才体系。
而中科凡语客观上所组建的人才体系“中台”结构,就成为其在NLP领域积蓄粮草的重要表现方式,不同特性的人才相互协同推动中科凡语实现高效的垂直场景拓展。
事实上,不论算法还是数据优势多么强大,最终的NLP成果都要与场景有效结合才能实现商业价值,而NLP在跨语种、跨领域时又表现出很强的领域特征,这意味着产品的实现和落地必须有多方面能力的人才体系来支撑。
在中科凡语,一个包括技术人才、业务人才、语言人才在内的内外部人才体系已经搭建起来:
1)技术人才面向不同的行业或场景提供通用型技术,确保底层技术基础的稳固,类似于互联网企业的统一“中台”;
2)业务人才向不同的行业或领域延伸,提供独属于本行业、与行业实际相结合的进阶服务能力,推动产品落地;
3)语言人才提供外部协助,例如与中科凡语紧密合作的高校的语言学者,可提供更专业的语言层面的词法、句法、语义的专业指导等。
这样的人才储备,使得中科凡语既具备稳健的底层技术支持,也拥有了向不同行业领域开拓的能力——现在,中科凡语已经在特定行业、教育、医疗、航空等垂直领域设计了定制化翻译及信息分析服务产品,且面向“一路一带”国家提供了70多种语言翻译。
数不清的场景、全球超过100种常用语言的市场,NLP的场景空间广阔而深入,而上述相互协同的人才体系正在成为中科凡语不断突破这些场景空间、落地商业价值的核心竞争力。
高筑墙:全面落地应用场景的同时不断为下一步领先优势做准备
对NLP这片蓝海而言,谁能建立起高行业壁垒,谁就能在抢滩登陆中占据先发优势。而建立行业壁垒的先决条件,就是要能推动技术创新在各个场景走向落地,以市场化的标准来验证产品的实际价值,为下一代NLP技术发展提供正向反馈。
基于深厚的技术积淀和体系化的人才支撑,目前中科凡语推出了“信译”、“信推”、“信析”、“信服”和“信取”五大NLP技术产品,并在此基础上整合建立了全网态势洞知平台。此外还包括一款“基于神经网络及领域知识的机器混译系统成套装备”(该装备已被列为2019年中关村首套重大技术装备试验、示范项目),向不同行业提供解决方案。
(全网态势洞知平台上线仪式)
例如,“信译”智能翻译系统可以为用户提供最优质、专业、准确、高效的机器翻译服务,它支持包括英语、日语、韩语、俄语、西班牙语等语种以及泰语、越南语、缅甸语、阿拉伯语等“一带一路”国家语种在内的70多个语种;“信推”智能摘要系统采用深度学习+强化学习技术,融合抽取式和生成式模型,针对长文本完成多模态自动摘要生成和关键词提取;“信析”提供多语言词法分析、句法分析、命名实体识别等基础模块,服务于机器翻译、自动摘要、情感分析等自然语言处理中的应用,提升产品性能;“信服”智能分析系统为各个细分领域提供智能对话系统,实现多轮交互对话,节省大量人力成本和时间成本,提升服务质量;“信取”信息获取系统,则提供跨场景、多语言、多粒度的数据爬取、融合、分类及管理。
全网态势洞知平台则基于多年“五信”产品功能积累和NLP实践经验,运用系统化、模块化、工具化的设计,以组件定制的形式来整合模块功能以对外输出解决方案,如要素提取、文本分类、知识图谱、观点提取、文字识别、机器翻译等,针对不同用户的零散的、多样的、特殊的场景需求,进行多维度、多功能的产品方案定制,推进人机协同优化效率,最终形成面向多行业领域的产品矩阵。
目前,中科凡语已经服务于国际国内20余家知名企业,80余家B端G端重要客户,同时还承担了多项国家和政府重大需求项目,例如为“一带一路”沿线国家提供翻译、信息整合及分析服务等。
在具体案例上,中科凡语服务一家国际知名航空公司,完成每天约10万条飞行维修日志的实时翻译、译后信息处理;服务某全球生物制药集团和某国内三甲医院,帮助推进医疗Al,在电子病历结构化处理、医疗文本分析、智能辅助诊疗、智能分诊问诊等方面提供机器翻译系统、提升协同效率,等等。
就在去年11月12日,中国外文局翻译院与中科凡语签署协议,共建智能翻译实验室、开展翻译领域技术赋能模式研发合作,共建共享语料库、术语库、人才库、翻译院官网及中国外文界多语种终身学习平台“三库一网一平台”。
无论是To B还是To G,中科凡语势头都非常强势,不断向高端和权威推进。从NLP的行业发展来看,这是落地场景的不断拓展、商业机遇的不断迸发,技术在源源不断推向市场、获得应用反馈并迭代提升。
出机杼:不断扩展融入新的发展元素拉升行业发展天花板
在完成技术、人才、市场的充分准备之外,还有更重要的是深层次布局。不仅要在企业核心产品上自出机杼,更要在对下一代行业技术风向能够未雨绸缪。对NLP而言,就是在不断挖掘NLP技术价值潜力的同时,不满足于市面既有的创新、业务框架,不断融入新的发展元素拉升发展天花板。
中科凡语在NLP领域的自出机杼,表现在两个方面。
一是摆脱To B、To G的行业固有业务框架,而通过更广泛的资源配置惠及更广泛群体。
这尤其表现在To B、To G的众多商业合作项目之外,中科凡语所投入建立的To C项目上——“飞译”。该平台与“信译”产品技术能力相结合,将原本面向B端客户的翻译学习方案和辅助翻译技术通过平台化的方式惠及更广泛的人群,解决翻译等领域的大众痛点问题。目前,该平台已可实现70多种语言翻译,30多个语种的图像翻译,显著提升了翻译效率,且该平台已完成国产化适配,技术上自主可控。通过平台形式,让NLP产业层面的资源配置效率提升,也让更多的群体享受到技术所带来的应用红利。
(飞译CAT平台上线仪式)
据了解,飞译平台已推出了具有实用性和针对性的四个版本,即高校版、医疗版、通用版和个人版,实现了对不同人群、不同领域、不同需求的全方位覆盖,这背后既需要To B领域的积淀,也需要团队以平台化的方式将原本束之高阁的技术、方法不断向C端用户开放,提供更好的体验,凸显了中科凡语一定程度上的互联网能力印记。
显然,飞译平台将帮助中科凡语在C端市场拓展业务规模,不断拉升企业发展的天花板。
二是不断拥抱NLP的技术未来,为一切变化和趋势做最充分的准备。
NLP的技术不会有终点,在效率之外,超越人类的理解能力也早晚会实现,但在这之前,作为技术方面的行业领导者,中科凡语还必须进行更前沿的技术和应用探索。
2020年11月,凡语AI研究院成立,共有高级发展顾问、教授级专家委员、博士青年委员等60多人加入,它成为中科凡语不断探索更前沿的算法、突破现有算法模型的抓手。典型如当下大热的多模态大模型,中科凡语的研发团队很早之前便已经参与研发,在推进跨模态语义关联以及实现更完善的算法模型方面积累了丰富的经验。
(凡语AI研究院成立揭牌)
技术上突破新的基础模型,业态上向新语言、新场景落地,开拓NLP应用的版图,AI研究……这些都在成为中科凡语在NLP前沿发展领域的重要支撑,乃至在此基础上可能向行业反向输出、引领NLP的趋势,做行业的领导者而不是跟随者。
深挖洞,广积粮,高筑墙,出机杼,中科凡语在这场NLP蓝海抢滩中已经做好了关于技术、人才、产品和市场的完善布局。这个过程与NLP行业日新月异的快速发展息息相关,而中科凡语对行业的吸引力也变得越来越强,体系化的职能架构越来越清晰,无论是作为职业选择还是作为投资对象,都表现出一个趋近成熟的科技企业特质。
未来,NLP的每一次创新突破、场景落地,来自中科凡语的表现都值得期待。
*本文图片均来源于网络
深挖智能这口井,同好添加vx:zenghy2017
此内容为【智能相对论】原创,
仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
智能相对论(微信ID:aixdlun):
•AI产业新媒体;
•今日头条青云计划获奖者TOP10;
•澎湃新闻科技榜单月度top5;
•文章长期“霸占”钛媒体热门文章排行榜TOP10;
•著有《人工智能 十万个为什么》
•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。