一、数据标注概述
数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。常见的数据标注按照数据类型可以分为图像标注、文本标注及语音标注。
数据标注按数据类型分类
资料来源:公开资料整理
二、训练数据生产流程
训练数据生产过程主要包括四个环节,设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测),通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供算法模型训练使用的专业数据集。
训练数据生产流程
资料来源:海天瑞声招股书,公开资料整理
2、下游需求
AI训练数据标注需求以语音和计算机视觉为主,对数据质量的要求提升拉动产品服务价格不断升高。据统计,2021我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。
2021年中国数据标注行业下游需求占比
资料来源:公开资料整理
三、数据标注行业政策背景
随着数据要素市场不断壮大,数据要素市场的各个参与主体都投入到市场运作中。政府作为数据要素市场的管理者,将发挥政策扶持和积极引导作用,推动公共数据扩大开放,构建数据开放平台。相关政策文件的密集出台推动我国数据产业迅速发展,技术不断进步,基础设施不断完善,融合应用不断深入。
数据要素行业相关政策梳理
资料来源:政府公开报告,公开资料整理
相关报告:华经产业研究院发布的《2023-2028年中国数据要素行业市场深度分析及投资策略咨询报告》
四、数据标注行业现状
1、数据要素市场
随着数据要素市场化配置进程加速,数据要素的生产力度加大,数据标注产业也将迎来快速发展。根据国家工信安全发展研究中心测算,2022年中国数据加工环节的市场规模约为160亿元。
2022年中国数据要素行业市场规模
资料来源:《中国数据要素市场发展报告(2021-2022)》,公开资料整理
2、市场规模
具体来看行业市场规模,2021年我国数据标注行业市场规模达到43.3亿元,同比增长约19.2%,预计到2029年市场规模将达到204.3亿元。
2021-2029年中国中国数据标注行业市场规模及预测
资料来源:公开资料整理
3、学习时间
人工智能模型和算法的发展带动数据标注的需求不断成长。根据AI分析公司Cognilytica研究数据显示,在AI项目中,对数据相关的处理过程可占据超过80%的时间,其中数据标注环节的耗时占比可达25%。
机器学习项目中不同环节耗费时间的结构比重
资料来源:Cognilytica,公开资料整理
4、市场结构
从市场结构来看,国内数据标注行业仍以定制化服务为主,标准化产品占比较低。相关数据显示,2021年我国数据标注及审核市场中定制化服务的占比达到85.41%,而标准化的数据集产品仅占13.33%。
2021年中国数据标注与审核细分产品市场结构
资料来源:公开资料整理
五、重点企业分析
海天瑞声是我国领先的训练数据专业提供商。自2005年成立以来,公司致力于为AI产业链上的各类机构提供算法模型开发训练所需的专业数据集。公司所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个核心领域,全面服务于人机交互、智能驾驶、智能家居、智慧城市等多种创新应用场景。
根据公司财报,2021年海天瑞声总营收2.06亿元,净利润0.32亿元。受新冠肺炎疫情影响,2020-2021年公司收入略有下滑。2022年前三季度营业收入1.67亿元,净利润0.19亿元,公司研发投入提升,净利润明显降低。随着疫情影响减弱,营收有望进入快速增长阶段。
2019-2022年海天瑞声营业收入及净利润情况
资料来源:公司财报,公开资料整理
华经产业研究院对中国数据要素行业发展现状、市场供需情况等进行了详细分析,对行业上下游产业链、企业竞争格局等进行了深入剖析,最大限度地降低企业投资风险与经营成本,提高企业竞争力;并运用多种数据分析技术,对行业发展趋势进行预测,以便企业能及时抢占市场先机;更多详细内容,请关注华经产业研究院出版的《2023-2028年中国数据要素行业市场深度分析及投资战略研究报告》。