作者 | 曾响铃
文 | 响铃说
大量的野外拍摄照片需要专家人工识别并进行注释,费时费力;
决策者可以很快决定该如何采取行动,但在这之前要花很长时间等待数据分析结果;
帮助行业专家和公益界人士更好地优化保护方式的科学研究,常常因为野外图像数据支撑还不够导致进展缓慢……
动物保护已经成为人类共识,但在行动上却因为数据处理和挖掘速度根不上而面临种种尴尬。随着渡渡鸟、大海雀、塔斯马尼亚虎、西部黑犀牛等珍惜动物的灭绝,生态系统所面临的潜在不利影响正在放大,强化动物保护的科研认知、加快实践落地工作变得更加紧迫。
在这样的大背景下,人工智能介入动物保护就变得顺理成章,这些年从国内到国外大量的公益组织与科技企业都在尝试用AI推动与动物保护有关的图像数据处理工作。
然而,对AI模型开发而言,濒危野生动物保护与其他多数领域相比面临十分复杂的挑战,高效的AI开发框架和专业的技术团队支撑变得更加重要,在业内,已有相关的合作在开展,例如某自然保护机构就与来自昇腾AI产业生态的昇思MindSpore开源社区合作,共同将AI 应用于生物多样性保护场景。
这种合作,将推动照片识别流程的速度,节省人力和时间,并将野外相机抓拍到的珍贵动物数据更快地反馈到科研和保护工作当中,而其过程,也是克服动物保护领域的独特挑战。
数据端被“扎口”,AI动物保护在模型端承受更大压力
经过数年积淀,立足自主AI计算架构的昇腾AI产业生态已经度过原始的积累期,在生态伙伴、行业场景等方面不断突破,推动着千行百业的智能化升级。现在,昇腾以昇思MindSpore开源社区进入公益领域并不令人意外。
而无论与谁合作、服务于谁,昇腾AI产业要“搞定”一个场景往往需要针对性的合作模式与技术创新——在与上述自然保护机构的合作中,AI参与动物保护就面临独特的训练数据挑战。
从官方公布的信息看,双方首期投入作为训练集的数据主要来自上述自然保护机构与其他合作机构从2011开始所积累的野外红外相机数据,一共12680 张照片,其中12180 张作为训练集,500 张作为验证集。
这些照片来支撑一个AI模型的开发,面临两个问题:
一是数据总量“不上不下”,上万张照片用人工去分析、挖掘数据耗时费力,但对AI来说又似乎并不充裕,尤其是照片还分为了雪豹、岩羊、白唇鹿等常见的 10 个物种或物种类别,进一步“稀释”了数据的垂直度,而照片数据的获取与增长本身还受限于采集条件;
二是数据质量不佳,部署于野外的红外相机所获取的图像往往难以清晰、完整,模糊的身影、与周边环境难以区分等问题常常出现。
这就形成了一个尴尬的逻辑链条:一个动物越濒危,其保护就越重要,AI越是应当参与进来,但是,能够获取到的图像数量和质量往往也越差,又给AI带来了更大的挑战,即“越重要就越困难”。
于是,一个AI模型开发所主要关注的两个环节——数据和算法,随着数据端被“扎口”,压力就更大程度上来到了算法开发上。而且,由于很多图片本身即便是人工识别也有一定难度。
这又对AI模型的能力提出了其他领域少见的“超越人眼而不是追平人眼”的要求。一边是数据受限,另一边是对效果有高期许,动物保护领域的AI模型开发“两头承压”,也就对开发框架提出了更高的支撑要求。
成为国内首个参与动物保护的AI开发框架,MindSpore的探索不仅限于技术
昇腾与自然保护机构的合作,让昇思MindSpore成为国内首个参与动物保护的AI开发框架,而为了应对上述挑战,可以认为,此次合作中昇腾除了技术本身,还在合作模式上做了探索。
首先,是既然“数据采集”(原始数据获取)受限,那么就不断提升对数据的“珍视度”,在“数据标注”(用标注框框出照片中的识别对象的位置)阶段发力。
一般而言,用于AI模型训练的数据往往都是通过“劳动密集”的标注工作来输出,目前较少有前沿技术和专业人士的参与。而此次合作,昇思MindSpore 团队线上指导了自然保护机构团队使用AI标注平台开展物种标注工作,并后续邀请了 61 位志愿者来一同进行数据标注——准确标注的数据再去“喂养”AI模型,将直接提升模型训练的效果。
然后,是通过权衡取舍确定最佳的算法路径,不迷信于单一类别的基础模型,而是根据实际情况结合AI开放框架的创新综合考虑。
针对经典的one-stage模型精度低但速度快,而two-stage模型精度高但速度慢的现实,昇思MindSpore 开源运营团队和自然保护机构讨论后采用了YOLOv3 目标检测模型,其归属于one-stage但同时得益于昇思MindSpore的创新开发能够平衡检测的质量和速度,能在效率的基础上保证识别的效果。
再有,是以开源推进的方式让公益领域的AI也能群策群力。
本次合作的所有代码、模型文件和部署文档均已在昇思MindSpore社区开源,大量的开发者参与其中,为模型的优化做出贡献,更好地应对动物保护领域的独特挑战。而模型被开源后也不单服务于上述自然保护机构一家机构,还能够帮助到更多需要的人和机构,发挥出更大的价值。群策群力、群体价值共享的开源社区基础愿景在公益领域得到践行。
最后,是公益组织与科技平台进行了“初创式”的合作模式探索。
在直观上,是自然保护机构与昇思MindSpore探索了一套从需求出发的紧密协作机制,可以往其他公益机构、领域进行复制。
而内里,是开源模式在公益领域的有效落地。在环保已经成为普遍共识的今天,通过技术的手段来强化公益工作已经是许多公益组织的必选项,公益组织与商业组织一样在积极拥抱AI,拥抱能够加深AI技术广度与深度的开源打法。华为当然十分有意愿加入到公益事业当中,发挥自身技术和业务沉淀的价值,而更应该强调的是,它作为昇思MindSpore 开源社区的一员,也是通过开源社区在贡献自己的力量,努力推进优质识别模型的发展。
开源时代,AI社区“社会意义”的一面正在不断强化
从自然保护机构与昇思MindSpore开源社区的合作不难看出,作为一种推动“技术进步”的模式存在,开源的打法不负众望,帮助了AI识别模型的不断优化并分享给了更多人。
而从另一个角度看,通过开源的方式,很多希望为公益出一份力的开发者有了新的抵达路径,在捐钱、捐物、抵制珍惜动植物消费等做法之外,能够将技术的力量通过社区贡献注入到公益工作当中去,也许未来某一次的雪豹保护工作中所采用过的AI识别应用就有自己所贡献的技术的痕迹,这是不可否认且能够长期发挥价值的公益举动。
自2020 年 3 月正式开源以来,两年时间过去,昇思MindSpore社区已拥有 80 万社区开发者,下载量超过 166 万,5000+企业应用上线,认证开发者/布道师近300人,社区贡献者4500+,成为了国内第一热度的 AI 开源社区。参与公益合作,让快速发展的昇思MindSpore展示了AI社区在推动“技术进步”之外更能推动“社会进步”的意义,社区越是繁荣,能够吸引到参与公益的开发者就越是广泛,公益事业也就有了更好的技术支撑和保障。
而昇思MindSpore开源社区与上述自然保护机构联合成立的AI for Biodiversity Conservation Working Group(简称:WG-AI4BC)就是基于此目的,以常态化合作机制汇聚更多的社会力量,强化人工智能技术研究,帮助寻找、保护中华水塔中的珍惜野生动植物。
就在520当天,华为官方公众号还发布了关注昇腾AI(喻为“爱”)帮助世界更美好的推文(见文末链接),其中首先提到了利用昇腾AI保护雪豹,可见AI参与动物保护正在以凸显人文关怀的方式来获得更广泛的关注和参与——本文的撰写就一定程度上受到了这种人文关怀的推动。
现在,WG-AI4BC还在邀请更多开发者参与,在查阅立项文档后,开发者可以选择通过在社区提交ISSUE或者PR的方式参与到开源贡献当中来,或者直接通过 naturewatch@shanshui.org提交提案。
回过头来看,昇思MindSpore开源社区所汇聚的行业、科研及开源力量,已经推动了医疗、交通、金融、互联网、制造、能源、运营商等8大行业的智能化变革,帮助昇腾AI与产业的融合深度不断加深,千行百业的产业智能化升级既有了高效可靠的底层AI基础设施,也有了全面业务助力的AI使能者。
随着昇思MindSpore开源社区开始往公益领域深入,昇腾AI产业生态将增添又一个重要的垂直领域,AI在公益领域的落地表现将更值得期待。
*本文图片均来源于网络
*此内容为【响铃说】原创,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
【完】
曾响铃
1钛媒体、品途、人人都是产品经理等多家创投、科技网站年度十大作者;
2 虎啸奖评委;
3 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;
4 《中国经营报》《商界》《商界评论》《销售与市场》等近十家报刊、杂志特约评论员;
5 钛媒体、36kr、虎嗅、界面、澎湃新闻等近80家专栏作者;
6 “脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业;
7 腾讯全媒派荣誉导师、多家科技智能公司传播顾问。