“就企业来说,只是对于业务模式的选择不同而已,我们更看好现在这个精细化、场景化的方向。”
“就像一个大网吧。”徐铭告诉我们。
他说的是位于河南郏县的某数据中心的办公室。在这里,几十排机器连在一起,伴随着机箱轰轰的散热声,人们正在进行着夏收之后的另外一项工作。
随后,这些人被轮流带进了临时搭的摄影棚里——一个光线昏暗、不到30平米的小房间,墙壁不久前刚被刷得雪白,里面摆着椅子、三脚架和灯光器材。
在相关人员的指引下,人们摆出不同的表情面向摄影机,每“咔”的一声都意味着他们能获得一个礼品或者金钱报酬。
除此之外,在不远处几台大风扇下,还有一些人在不断地用鼠标进行框选,标注。“工作蛮简单的,就是从这一堆图像里把汽车框出来。”张娜说。不只是她,几十台台式电脑前还有不少像她一样的人,不大的房间里遍布着鼠标点击的“哒哒”声,机械且杂乱。
拉框、辨识、数据采集……在这里,人工智能展露出了它最原始和最脆弱的一面,和那些动辄晦涩难懂的“自动驾驶、语音交互、语义识别……”词汇相比,这里的人工智能更为人性化,也更为平凡和普通。
这只是一个缩影。在星罗棋布的三四线城市里,有无数人从事着这项工作,尽管大部分人对“数据”这个概念模棱两可,但在他们看来,“人工智能一定能颠覆未来。”
这里是人工智能的起点,更是人工智能的最底层基座。
一、无数据,不AI
一个明显的信号是,人工智能正距离我们越来越近。
先来看一组数字,2018年,全球人工智能市场突破2700亿元,其中中国超过360亿元,相比2015年的203亿元复合增长率为21%。飞速上扬的曲线背后是科技发展的日新月异,于互联网下半场,AI已经成为很多公司、企业面向未来的武器和底气。
与之对应的是另外一组数字,据We Are Social公司统计,全球独立移动设备用户渗透率超过了总人口的65%,活跃互联网用户突破了40亿人,接入互联网的活跃移动设备超过了50亿台。根据IDC预测,2020年,全球将总共拥有35ZB的数据量。
这是一组每天都处于千万亿次增长的数据曲线。
人工智能,算法是发动机,数据是燃料。对于大部分公司的AI业务来说,获取海量而优质的标注数据是进行人工智能的先决条件。算法模型是计算机基于大规模的训练数据集,归纳出的识别逻辑,以实现精准的物体和场景识别。可以说,实现机器精准识别的重要一步,就是获取海量而优质的标注数据。
“人工智能的背后是有数据、算法和算力来支撑,它其实是一种相互促进,并且也相互制约的关系。没有数据,再多的算力和模型上的投入,也不能让AI实现落地。”云测数据总经理贾宇航表示。
诚然如此。人工智能更可以看成是一项庞大的建筑工程,算法为建筑框架,算力为构筑手段,而数据则是最为重要的建筑原料。
这更像是一种唇齿相依的关系,你中有我,我中有你。
但事实却是,算力和算法更多的被人们提及,处于资本和媒体的曝光灯下,但数据却保持着“悄然无声”的态势。
“但在现阶段工业界的AI应用研发,标数据是一定跳不过去的,可能10年之内都要依赖于标数据。”一个业内人士告诉产业家。
就当下而言,从最基本的构建模式来看,数据是人工智能的原料;但如果将数据与人工智能技术的整体发展相比,如今数据的采集和标注方式却是后者发展的“木桶短板”。
可以预测,“无数据,不AI”将会一直是常态。
二、数字的新「边界」
不能否认的是,这门生意正在进步。
从粗放型到如今的精细化运作,数据的生意模式正在不断升级。身处这个赛道的玩家们,则是给它做了最佳注脚。
先看百度,据了解,其实早在2011年百度数据众包就以部门的形式成立,不仅为百度内部需求方如百度NLP、百度地图等提供AI数据采集和标注服务,同样将数据众包业务进行开放,根据客户需求制定数据采集方案,量体裁衣,和传统的互联网数据训练相比更为细分,同时也更为专业。
处于同一身位还有云测数据。起家应用测试业务的云测数据本身就与数据采集有着浑然天成的亲和度。据了解,云测数据有自建的数据标注基地以及定制化场景实验室,可以根据客户需求提供更为定制化的场景数据采集服务。
除此之外,大洋彼岸的亚马逊平台的Amazon Mechanical Turk同样值得一提,在亚马逊品牌的加持下,它靠为训练人工智能提供AI数据众包服务起家,但主要经营业务还是众包型业务,在精细化场景方面略逊一筹。
可以理解为,云测数据和百度众包平台更可以看成是Amazon Mechanical Turk升级版,他们更精细,更趋向场景,同时也更加垂直。
数据采集的模式正在升级。一方面这和愈发加速的AI步伐相关,但更重要的是数据采集的赛道开始呈现出更为清晰的边界和梯度。
隐藏在新边界背后的是AI行业发展的良莠不齐,在这样一个良币驱逐劣币的赛道上,数据的生意边界被无限放大,却又无限缩小。
放大的是基于技术的横向场景化发展,企业有能力、也有信心来进行更多有难度的数据采集工作;缩小的是这个行业内玩家上升的门槛,技术化的“重模式”注定了这里的玩家会筑高墙,广积粮。
三、重新「定义」AI数据服务
助力AI企业获取更多优质的特定场景数据,辅助其构建自身的核心数据壁垒——这是云测数据一直赋予自身的“使命”。
这是一家不同其它的公司。
它有着自身独特的运作模式——建立了多个大型的数据标注基地和大型场景化数据采集中心,高度保证客户数据的精准率,进而辅助产品更好的重现使用时的场景和真实情况。
“我们发现AI与产业相结合是未来趋势,为此我们培养工作人员学习相关领域知识,以更好更快的理解企业需求,辅助企业建立数据核心壁垒。”贾宇航这样表示。
与之对应的是在每个项目内都会有对应的场景化数据模式培训,保证数据采集不仅仅是限于科学理论,而且更合乎产业,更合乎实际情况。“数据采集同样需要领域的相关知识,以更好更真实地还原一些场景。”
可以理解为,云测数据的采集模式更像是“产业+技术”的双重叠加,以更为科学的模式重现生活化的场景,使数据更鲜活有生命。
在他看来,如今云测数据的角色更像是服务企业AI数据核心壁垒的”构建者” 。它利用自身这种“更为鲜活的数据”来辅助企业的AI业务线快速成型,迭代进化,进而加速人工智能行业的场景化落地。
从某种角度来说,云测数据正在重新定义“AI数据服务”——通过协同沟通、对定制化场景理解,进而搭建对应采集线下场地,同时以技术驱动提升标注流程的效率,以更好地满足业务对数据的要求。
从技术出发,落地到精细场景,可以看到,云测数据越走越稳,也越走越快。
四、快速,进化和细分
不同的前进方向,永远是时代浪潮中企业发展的常态。决定于此的,是基于当下市场的需求。
一个不可忽略的大背景是,数据行业正在蓬勃发展,据IBM Marketing Cloud分析指出,近9成数据在两年内产生。而结合5G和AIOT的设备的到来,未来更将会有越来越多的数据产生,进而不断催生数据服务业的发展。
而面对新产品的不断落地,如今数据行业正处在选择和被选择的分水岭。
在如今的数据采集和标注赛道上,你能看到遍布三四线城市的“小团队”,也能看到像云测数据这样偏更重场景化、精细化的数据企业;你能看到每天有不少团队选择众包的渠道模式,也能看到很多AI数据企业开始自建线下场地,精益求精,建立品牌。
从某种程度来看,每个行业形态的存在都必然有其合理性。企业对于自身数据的需多种多样,对应的也自然是以完成客户需求为使命的不同服务形态的企业模式。
但就当下而言,数据行业更像是一个蹒跚学步的孩童。我们很难给它的未来下一个确切的定义,但可以肯定的是,随着企业模式的变化,这个行业也必将呈现不断进化的态势。
“就企业来说,只是对于业务模式的选择不同而已,但我们更看好现在这个精细化、场景化的方向。”贾宇航最后说。