摘要:《中商产业研究院》的一份报告预测,2025年,中国自动驾驶市场规模将接近4500亿元,自动驾驶技术的发展,需要海量、高质量的数据支撑,这些数据经过清洗和标注,才能成为机器可识别的训练数据。
《中商产业研究院》的一份报告预测,2025年,中国自动驾驶市场规模将接近4500亿元,自动驾驶技术的发展,需要海量、高质量的数据支撑,这些数据经过清洗和标注,才能成为机器可识别的训练数据。数据标注行业,无疑是AI时代的新基建行业。
感知、决策、执行,是自动驾驶的核心技术体系,其中,数据标注在车身感知、环境感知都扮演了重要角色。IDC预计,2025年,中国人工智能数据采集、标注服务市场规模将达到123.4亿元,自动驾驶是需求巨大且增长迅速的一个领域。
进入2025年,自动驾驶标注市场迎来变革的契机。
一是AI技术发展带来的自动化升级,可能会让这个劳动密集型的行业升级换代,另外,主机厂激增的复杂需求,也让那些优秀公司更容易实现身位的领先。
2025年,创业邦首次启动自动驾驶数据标注的榜单评选,旨在挖掘这一新兴行业在这一轮变革中的创新力量。
行业需要效率变革,AI被给予厚望
2022年,是AI爆发的元年,也是自动驾驶爆发的元年。以人工标注为主的数据标注市场,将迎来一次大变革。
推动自动驾驶数据标注变革的最直接原因,是车载激光雷达在智能汽车的广泛应用。作为自动驾驶“眼睛”的激光雷达传感器精度更高,产生的数据更大、更复杂。比如激光雷达生成的是三维点云数据,相比二维图像,点云数据更复杂,标注时需要处理空间中的点集。此外,激光雷达的数据是连续性的,需要跨帧标注,种种原因,使得自动驾驶场景数据标注的需求量呈几何倍增长。
与此同时,自动驾驶的端到端技术革命正在掀起。无论是蔚小理等造车新势力,还是大众等传统车企,亦或是华为,都在逐步引进端到端技术,将自动驾驶的规则导向彻底转变成了数据导向。
以特斯拉FSD 为例,特斯拉 FSD每天从车队中收集的数据量高达 PB 级(1PB = 1024TB)。数据处理成为自动驾驶流程中的重中之重。特斯拉前AI高级总监Andrej Karpathy 曾表示,特斯拉自动驾驶部门将3/4的精力用在采集、清洗、分类、标注高质量的数据上面,只有1/4的用于算法探索和模型创建。
特斯拉在2023年将 FSD 代码量削减99%,让大模型更加依赖大数据“喂养”。但大模型本身存在难以解释的“黑盒效应”。因此,只能投喂更多的高质量数据,来尽可能修正错误与幻觉。
这对数据集的量级和传感模态都提出扩充需求。大量数据的需求,成为了数据标注行业变革的催化剂,原先“人海战术”式的数据标注难以应对这样的规模。
AI预标注的介入,成为数据标注企业的新质生产力。数据标注企业开始形成人机协同的智能化标注平台,行业内也开始进行自动化标注的探索。
尽管行业内对自动标注概念的意见不一,但在自动驾驶爆发元年的2022年,各家数据标注企业开始发力智能平台的布局。
以曼孚科技为例,曼孚科技推出的第三代 MindFlow SEED(下称“ SEED 平台”)通过引入驾驶数据建立RLHF(人类反馈强化学习)。在RLHF的帮助下,AI能快速掌握了人类经验。基于深度学习与计算机视觉构建大模型,曼孚科技可实现复杂场景下数据的高效处理与全自动化标注。
基于积累的海量数据与标注经验,曼孚科技综合运用业界领先的模型结构,形成一套从数据预处理、算法推断到结果精修的完整算法链路,匹配不同应用场景。其中,典型场景效率可提升10倍以上,精准度达到99.99%以上。
强者恒强,飞轮效应加剧格局调整
当前,汽车市场竞争激烈,主机厂大力推动智能驾驶技术的普及应用,让更多消费者能以更低的成本享受到智能驾驶功能。因此,自动驾驶业务有几大特点。
一个体量大, 一些大厂在大力推动自动驾驶的普及化,因此需求体量很大;第二,主机厂竞争激烈,要求在极短的周期交付;另外,主机厂多短平快的项目越来越多。这对数据标注企业的交付能力提出更高的需求,交付时间甚至达到小时级别。
需求端的变化,也推动自动标注市场格局进入快速调整期。
为了满足主机厂的需求,除了AI赋能生产工具的基础之外,数据标注企业在各个维度上都努力尝试优化和设计,进一步提升效率。
比如曼孚科技,公司强化了 RPA(机器人流程自动化)在 AI 落地中的作用。在配备 RPA 技术后,SEED 平台可以根据预设的脚本与用户系统交互,接管那些原本需要人工完成的任务,从而实现部分流程的自动化,提高效率。
RPA通过读取标注员操作日志,让 AI 能够找出其重复人工环节,让RPA取代人工标注。同时,曼孚科技的RPA+AI技术,可以根据人类标注员的具体能力,自动匹配相适应的标注任务,改变了传统的生产关系,让业务边界不受限制,大大提高了交付时间。
在自动驾驶这个高度垂直化的场景中,对场景坚持深耕,是数据标注公司的基本功,只有这样,才能完成主机厂的定制化数据处理需求。当前,数据标注行业标准不统一,每家公司的标注标准也很不相同。主机厂客户在涉及多个细分项目时,往往倾向选择一家能数据复用的标注公司,避免数据迁移导致的成本和效率问题。
这对数据标注公司的数据中台提出了更高要求,只有打通数据流转的全生命周期,才能够实现数据复用。
为了满足主机厂需求,覆盖数据流转的全生命周期,曼孚科技打造了集存储、处理、导入导出于一体的数据管理平台:通过 SDK 打通数据采集平台、数据标注平台、模型训练平台和生产运营系统等多种外部平台。其中,SDK能将标注能力模块化,帮助企业快速构建或增强标注流程,相当于搭建了一条跨平台的数据高速公路。
有了数据管理平台,数据标注企业也能接入外部的数据交易核心平台模块,深入布局数据交易上下游产业链,连接供给端与需求端。这种方式,把主机厂变成数据资源供给方,进一步丰富了数据标注企业的数据集,形成飞轮效应,进一步筑高标注企业的竞争壁垒。
从战略到技术落地的一站式数据解决方案,让曼孚科技与数百家企业达成深度合作,其中包括世界顶级Tier1厂商、造车新势力,以及传统汽车主机厂商等。
超大赛道 有望诞生标注行业独角兽
《2025自动驾驶数据标注企业TOP10》榜单评选,由投资机构的专业人士担任评委,评选对象,是市场上活跃的自动驾驶数据标注企业。评选维度主要包括技术能力、标注质量、资本价值和企业规模及影响力四项内容。
综合本次榜单评选的结果,10家上榜企业在技术能力这一项的评分上,明显领先非入榜企业,这也从侧面说明,数据标注行业当前已转变为技术主导的行业。
资本价值也是本次榜单关注的重点。本次上榜的10家企业中,4家企业获得5轮以上融资,融资轮次涵盖了天使、A、B、C各个轮次,这也说明,这个行业还在市场爆发期。
而且,标注行业的独角兽,极有可能在自动驾驶行业诞生。
美国数据标注独角兽企业Scale AI最新估值达138亿美元,追溯其发展历程可以看到,Scale AI的第一个风口,就是自动驾驶。因此,国内数据标注行业的独角兽企业,很有可能在自动驾驶数据标注赛道诞生。
工信部的一份数据显示,2024年国内L2级自动驾驶新车渗透率已达50%。而随着高阶自动驾驶技术落地,L3+渗透率也迎来提速之时。Canalys 预计,到2025年,L3辅助驾驶市场渗透率有望达到4.6%。
据英特尔的统计,一辆L3+级自动驾驶汽车,每天产生的数据高达 4000GB 。
面对即将爆发的L3+市场,海量数据需要经过筛选、清洗、标注,自动驾驶数据标注仍有极大的增量空间。根据公开信息,国内几家相对成熟的数据标注企业,在2022年实现了200% 以上的业务增速,且自动驾驶业务占比逐年上升。
自动驾驶数据标注不仅应用于乘用车领域,还可扩展到物流、农业、矿业和航空等多个领域。这是一个有着广阔前景的市场,AI的发展将加速行业的发展进程,也许,下一个巨无霸会在不远的将来诞生。
1月9日至10日,由数央网、数央公益联合众媒体共同举办的第十四届公益节暨2024 ESG影响力年会在...
投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。
2016年注册于北京的中氢新能技术有限公司,下设位于大兴的装备制造公司、位于海淀区的技术研究院、材料...
一度无比高光的理想汽车,猝不及防遭遇重挫。
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...