AI跑的越快,数据的加速度就越快。
出品/新摘商业评论
撰文/皮爷
1997年5月11日北京时间早晨4时50分,一台名叫“深蓝”的超级电脑在棋盘C4处落下最后一颗棋子,全世界都听到了震撼世纪的叫杀声──“将军!”这场举世瞩目的“人机大战”,终于以机器获胜的结局降下了帏幕。
这也标志着,AI终究是以不可抵挡之势冲进了现代社会的舞台。
如今,在距离5G技术真正落地就差临门一脚的万物互联的当下,AI时代越来越成为一个可望并可及的时间节点,概念的喧嚣和争论终于在此刻即将被画上一个收尾的句号。
从某种角度而言,它像一门“火箭”的生意,响彻云霄却又往往消匿于人们的视线之外,奇快无比但仍让人不断感知到它的运行轨迹。
但相比于流星划过天际的加速度,外界更想看到的是AI背后的纹理和每一个加速被无限放大的“慢镜头”,这些背后的故事真实发生又肉眼可见。
而数据,正是解构AI的第一环。
一、AI数据「向阳而生」
350个小时,这是贾宇航给出的一个数字。
他是Testin有数的总经理,上面这组数字便是Testin有数项目经理的职前培训时间,这300多个小时被拆解为多个模块——AI基础、作业管理、场景搭建、突发事件处理等等。
将这些拆解的模版拼接组合,便构成了一个完整的行业操作架构——AI数据采集标注服务,这是一个藏在AI高光影子里的幕后产业。
一个明显的信号是,在当下这个全民皆“AI”的时代里,AI数据服务始终保持着向阳而生的进击姿态,缓慢却又不容置疑。
对于这个行业近几年的发展,一组数据是最佳佐证:据艾瑞咨询最新报告显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。
你可以理解为,AI数据服务如同人工的“水电煤”,只有这些原料储备充足,才能保证人工智能的大船顺利航行。
和算法、算力一样,数据同样至关重要。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥表示。
拆解来说,当下的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,而需要用于训练的数据量越大,这些都为这个行业带来元源源不断的活水。
具体的工作内容不难理解——用数据爬虫抓取互联网现存数据,并进行选取拉框,再或者根据用户定制化的硬件以及场景需求,去完成数据的采集与多维度数据标注。
更可以看作,AI数据的采集与标注是以互联网时代的其他技术手段为抓手,在如今AI+lOT+5G的时代里,它站在巨人的肩膀上为人工智能提供最精准和最丰富的养料。
一个定论是,AI跑的越快,数据的加速度就越快。
二、中场战事
但从某种角度来说,AI数据服务的中场已至。
随着人工智能的逐渐落地,企业对于数据精度的要求也开始越来越高,更多粗放的企业已经不能满足高质的要求。
“对于算法,数据已经不仅仅是充当饲料,同时也在逐渐充当婴儿的奶粉,运动员的优质蛋白一样,拥有了就可以更好的成长具备竞争力。”贾宇航表示。
但事实上,为算法提供足够优质的婴儿奶粉,并不是一件容易的事。
在数据采集标注服务中,尤其是数据标注,一度被外界描述为“血汗工厂”——在不少中国的三四线城市乃至山区,从事数据标注的人们遍布其中,无数大量、廉价的标注工作填充着他们的闲余时间,进而为人们带来一定的报酬。
但就本质而言,这种机会正在越来越少,“随着标注行业的持续推进,更多重复性的数据已经不需要再被标注,更多精细化的、专业化的数据和场景才是目前的刚需。”
摘掉廉价劳动力的帽子,不难发现数据AI数据服务行业正在发生着从量到质的本质变化。
一个最简单的例子是,如果是人脸检测,那么利用人们的拉框标记就可以很快满足需求。但随着专业AI公司要求的提升,AI已经不再仅仅是做人脸检测,而是视线追踪、或是微表情检测。很显然,这类需求很难通过互联网或者众包用户采集完成。
有不少前沿性的公司已经意识到这种改变,“Testin有数的办法是自建数据采集基地,搭建专门的场景实验室。目前,Testin有数已经有了200多人的研发与产品经理,以及近千人的数据标注团队。”
不难看出,随着人工智能逐步进入深水区,AI对于数据的需求正在以一种坚定而又缓慢的姿态改变,与之对应的也正是数据行业的重新洗牌。
贾宇航表示,现如今,一个完整的数据服务工作流程是由可行性评估到执行,到审核,再到交付四个环节组成。这中间,如何分工,审核与执行之间又该如何形成反馈闭环,怎样能够提升工作效率都是需要经验摸索以及成本投入的。
细颗粒化的流程,专业可视化的操作模式再辅以定制化的数据场景,无不都在显示这个“藏”在AI影子里的产业正在迎来自己的中场战事。
有人在改变,更有人在消亡。
三、数据服务的“摩斯密码”
在消亡和新生的常态之中,对数据服务行业中,企业需要拥有自己依托于AI发展的“摩斯密码”。
拆解来看,可以理解为三个不同的模块。
首先是针对不同场景的数据采集。从某种意义上来说,根植于使用场景的需求正在逐步成为现实,即通过自行构建实验场景来进行更为专业、高效的数据采集。
如Testin有数专门在横店建了一个数据采集基地,根据客户订单需求,进行特定动作、表情的捕捉,以进行多角度多姿态的动作数据采集。
二是标注方面的人才。从某种角度来说,人才才是标注行业自身壁垒的最大支撑。对于普通的数据标注,简单的拉框勾选定义即可完成工作,但更为专业的需求就需要从业人员对行业有足够深入的理解和足够丰富的标注经验。
一个比喻较为恰当,如果将数据标注比作一台手术,随着手术规模的逐渐增大,主刀人的技术和经验也必须提上同等的水平,只有这样,才能获取更为精准高质的数据。
最后是数据安全。对于这样一个老生常谈的话题,数据采集标注的企业更需要保持高度的敏感,从某种意义上,它更代表着企业的摘牌和操守,只有保持这个底线,才能永立于不败之地。
“Testin有数不仅在硬件和操作系统上采取了加密措施,封死USB接口、采用内网浏览器端操作标注数据、保证所有参与工作的员工只能操作数据,不能获取数据,且每次标注任务交付数据结果后,都会销毁数据。”贾宇航这样向我们介绍Testin有数的数据安全机制。
不能回避的是,行业的另一面也确实存在企业数据粗制滥放的现象,不过可以看到,在当下日益规范的大趋势下,良币驱逐劣币的现象正在发生。
偏“重”的场景化建设,更为专业的人才梯队,数据的安全底线,只有具备这三个环节的全部属性,企业才可以算是真正拥有了构建AI服务底层框架的“摩斯密码”。
就当下来看,这是一项颇为长远的工程。作为AI数据服务行业的领跑者,Testin有数等企业正在以自身为标杆不断完善行业规范,构筑数据服务行业的新未来。
▼
在电影《西部世界》里,只有你达到代表着钥匙的迷宫正中心,才可能真正完成这个AI游戏的通关。
可以看到,在人工智能不断升温的当下,需要更多优质的数据构建它的数据密码,这是一个道阻且艰的过程,考验的不仅是耐力,更是与时俱进的进化力,唯有如此,才能真正达到迷宫的正中心,取得钥匙。
值得庆幸的是,有更多的像Testin有数这样的企业站在AI的身后,用更为专业专注的态度来保障AI,真正做AI行业的挖井人。
有领跑者,更有AI行业不断向前的动力加持,对于人工智能三要素之一的数据,它值得我们赋予更大的期待。