文
潘程、闵令智
编辑
石亚琼
封面来源
视觉中国
“有多少智能,就有多少人工。”
这句话在人工智能崛起的十余年里,俨然变成了一个挥之不去的魔咒。0年,工信部副部长张云明指出,“截至目前,我国人工智能核心产业规模已经超过亿元,企业数量接近家。”这背后,从事数据标注的劳动人口超过千万,其中从事「自动驾驶数据标注」的劳动人口已达到万左右。
0年,随着自动驾驶数据标注的需求量开始爆发,简单粗暴的堆人力,已无法有效解决“需求波峰”时供应不足的行业痛点。
该如何利用技术的手段,缓解人力的困局?该如何让「自动驾驶数据标注」的效率提升、质量可控?已经成为不少数据标注创业者、自动驾驶从业者共同思考的现实问题。
基于此,本期《6氪·汽车数智内参》将围绕「自动驾驶数据标注」的需求趋势、供给趋势做出判断,并为主机厂、自动驾驶机构、芯片机构等寻找一批前沿的科技创新项目。
需求侧:「自动驾驶数据标注」的需求将长期存在,量级无上限从01年下半年起,主机厂「数据标注的需求信号」开始释放,并呈现逐步扩大的趋势。
据行业内部人士透露,“去年下半年,国内一大批主机厂开始在内部搭建自动驾驶团队,去年的人员规模大概从几人到十几人不等,今年已经突破百人。”“某一主机厂,单单是研究体系的数据一天就有三个T。”
从主机厂的数据标注投入金额看,去年的投入金额在几十万左右,今年的投入目标从大几百万到上千万不等,明年的预算已达到万人民币左右。对标国内某头部自动驾驶公司,其每年在数据方面的投入在6万人民币左右,不难看出国内主机厂在自动驾驶的赛道上已开始奋起直追。
从相关数据标注公司的业务印证看,01年,澳鹏在中国市场收入近万美元,年增长率为44%,预计0年收入增速达到%左右。其中自动驾驶相关的份额占60-70%以上,增长率达00%左右。其自动驾驶D/D融合标注产能已达到个月1万帧,覆盖商用车、乘用车等各类车型。
从自动驾驶的不断演进看,随着激光雷达、摄像头等感应器的不断丰富,自动驾驶的数据标注类型与数量在不断增加;随着高速路、城市快速路、停车场等应用场景的不断丰富,自动驾驶的数据标注量呈现出指数级上升的趋势;随着更多量产车的上路,未来回传的数据量也将是大量且多元的……这些都对数据标注产生了持续的需求。
与此同时,自动驾驶行业「缺乏统一标准」「重复造轮子」的混乱局面,反而也催生了大规模的数据标注量。
据行业内部人士透露,“在自动驾驶行业里,几乎每一家涉足的机构都有各自的标注标准,甚至是标注工具。需求方的要求五花八门,每一家都在建立自己专属的数据集,且行业内无法通用,这就导致不少数据标注公司可能在‘同一张图片上’反复做不同的标注。”
6氪判断:
到05年(中期)、00年(长期),自动驾驶数据标注的整体市场空间仍无法精准估算,但自动驾驶数据标注持续且长期的需求是非常确定的;
自动驾驶数据标注的需求量级也是无限的,并不会因为行业较长时间停留在L+级别,而导致数据量不大;
国内主机厂不断提高数据标注预算的机会窗口期,将至少持续5-10年甚至更长;
主机厂与数据标注创业机构“强绑定”将成为趋势,这将有利于主机厂长期“把控”数据安全,且抢占产能,从而使自动驾驶相关项目的落地更具确定性。
供给侧:创新将重点围绕“AI辅助标注算法升级”和“精益流程”两条路径展开从目前自动驾驶数据标注的供应商看,目前国内以百度、澳鹏、海天瑞声、数据堂、龙猫数据、倍赛科技等为代表,主要的合作模式为提供“标注工具+众包服务”。此外,在这个行业中还有中小型企业大约-家,它们大多数停留在“劳动密集型”的定位之中。
从「自动驾驶数据标注」的供给侧技术演进看:
1.0时代,01年前以开源的单机标注工具为代表,可以满足10K数量级的标注处理;
.0时代,01年后深度学习的火热,催生了以海量数据“喂养”人工智能模型的更具性价的研发方式,进而催生了更大量级的数据标注需求。因此在01年-年期间,是以数据标注平台为代表的,可以满足10K-K数量级的标注处理;
.0时代,年后自动驾驶的火热则不断对数据标注的量级提出更高要求,K、1K的需求量演进几乎成为行业共识,单纯堆人力的方式已经变得既不经济也不效率,行业呼唤着更加智能化的数据生产平台,或者是更加精益化的生产流程出现,以应对K的数据标注需求。
通过供给侧的技术演进路径不难看出,从01年至今,整个数据标注的技术正在从“单机标注工具——数据标注平台——智能数据标注平台/精益流程生产平台”的趋势演进。在0年这个关键节点,行业内已经出现不少优质的“智能数据标注平台/精益流程生产平台”,其背后的创业机构也纷纷在今年完成早期融资。
6氪判断:
「自动驾驶数据标注」公司需要大规模堆人力的魔咒,正在不断被技术所打破;
通过AI辅助标注算法的升级,减少人力、提升标注效率,是未来数据标注创新的路径之一。
整体而言,年以来这一波借助科技起势的「自动驾驶数据标注」公司,未来仍面临诸多不确定性:未来如果新的算法出现,不需要大量的数据标注时,创业公司该如何是好?是否现在就需要提前谋划在数据标注之外的价值沉淀?
本期入围项目核心看点1.博登智能|未来两到三年,重点发力无监督数据处理方法
.整数智能|持续深化平台的自动化能力,与行业共享数据闭环带来的时间复利
.恺望数据|提供高时效的一站式数据解决方案
4.卓印智能|将工业中「精益管理」模式引入数据标注流程
5.7度数据|主打“高性价比”和“安全”跨领域数据标注平台
创新雷达分析博登智能——自动驾驶数据闭环工具链供应商公司简介:
博登智能成立于年,定位成为自动驾驶数据闭环工具链供应商。今年10月份,其正式对外宣布完成数千万元天使轮融资,投资方为浙江见识创业投资管理有限公司等。
核心产品为智能驾驶数据处理平台,该平台是通过博登自研的数据闭环工具链,结合AI算法的自动标注能力开发完成的,具有完全自主知识产权。该平台可支持覆盖市场上95%以上传感器驱动的数据采集、存储,预处理,标注,模型训练/部署等整套数据处理流水线系统,形成数据闭环。
创始人兼CEO赵捷博士拥有智能机器人专业背景,曾任德国汽车行业Tier1企业核心算法高级工程师,并在智能汽车领域深耕十余年,参与开发多款量产智能驾驶项目(如款宝马5系等);首席科学家赵万磊为厦门大学模式识别实验室教授,拥有多项计算机视觉、图像检索等领域关键科技成果。
潜在价值:
「自动驾驶数据标注」正处于从作坊模式演变为现代化工厂运营模式的进程中,行业对于能够实现“批量生产”的工具和现代化的管理运营体系持续需要,叠加自动驾驶测试环节中的大量需求。博登智能有潜力将数据采集、数据合成、仿真系统等单一工具“串联”成完整的工具链,更深程度的切入自动驾驶行业。
博登智能
在创新维度,由博登自研的BASE标注平台(BASEV4.0版本),已迭代为采用图状态管理模式,引Potree提D点云加载速度。目前,已通过ISO、CMMI认证,已累积获得6项专利和16项软著。
在研发维度,目前博登的软件研发团队成员为5人,均来自院校和海归;研发投入占总成本的0%-40%。在研发资源方面,其与厦门大学有深度的学术合作,并正在与上海某高校规划相关研发实验室的合作。
在成熟维度,博登智能的技术成熟度已达到进入主机厂进行落地合作的程度,目前,该平台已与国内龙头车企等企业达成长期合作,项目估算超两千万。在产品成熟度层面,其系统内的标注工具可通过自主研发的自动识别目标物体、自动跟踪物体、自动D框贴边、D框到D图片映射、D语义分割、D语义分割等技术,在小于1秒的时间内落地实现快速标注多种实例,比人工的效率提高50倍以上。
在价格维度,相较于传统的纯人工标注方式,可以节省0-40%的成本,并提高0%的处理效率。
在产能维度,以D图片为例,其AI全自动标注的日均产能为0K张,比AI辅助标注的日均产能高5K张,比人工标注的日均产能高10K张。
不同标注之间的产能对比
在前景维度,在未来-年的周期中,博登智能将重点发力无监督数据处理方法,建立独有的数据集,以省去部分标注成本;从长期的视角出发,博登智能将持续专注于高附加值、有技术门槛的产品创新,在数据闭环的服务过程中,将深挖在自动驾驶领域中的机会。
整数智能——AI企业的数据合伙人公司简介:
整数智能成立于年,致力于为人工智能领域的企业及科研院所提供一站式的数据管理服务。
其核心产品一为,整数智能自研的「MolarData」数据众包管理平台,能够智能调度全网网民,在平台算法的支持下高质高效地完成人工智能领域的数据需求。目前,在自动驾驶领域可实现图像、文本、音频、视频、D点云等众多类型的标注需求,智能工具组合的支持下标注效率可提升两倍以上,与此同时,可以运用其后台系统成体系化管理任务并进行质量控制;核心产品二为AIPower模块,可提供包括AI预标注、AI审核在内的Al辅助功能,持续助力算法模型迭代。
潜在价值:随着AI预标注、AI审核在内的Al辅助功能业务量增大,将反哺其算法模型的迭代,这将为企业沉淀出优质的算法财富。未来,整数智能持续看到4D标注业务的发展前景,在这个方向叠加自动化标注的技术,将产生巨大前景。
整数智能
在创新维度,整数智能解决方案处于一个比较全面发展的状态,不仅拥有智能算法预处理等AI含量高的方案,也拥有基础数据标注工具。在标注效率、标注质量定制成本等方面均具有优势。与此同时,可支持众包功能和智能标注功能。
整数智能优势
在研发维度,目前整数智能的研发投入已达到千万级别,研发占总成本的70-80%;整体研发人员占总员工比例在50%以上。截至目前,其在申软著数量达到0+,在申专利数量达到5项。
在成熟维度,在技术成熟度上,整数智能的AI算法仍处于持续迭代的路上。在产品成熟度层面,其「MOLARAI数据库服务」通过市场分析,确定客户需求,提供量身定制的采集方案。同时,已采集数据标注将会有内部专业人员验收检验,安全留存后投入使用。目前,整数已制作10万小时音频数据集,覆盖金融地产、智能音箱、银行保险、智能客服等领域;「MOLAR数据生产SaaS平台」,SaaS平台能够给AI工具辅助提效。如:图像拉框辅助,整数研发光流跟踪算法进行逐帧辅助标注节约80%以上的人力标注时间;OCR转写辅助:平台基于CTPN算法构建OCR预标注系统算法完成初步文字检测,节约50%以上人力;ASR辅助音频采集:通过ASR算法对采集到的音频进行自动检验能够节约60%左右的人力复核成本。目前团队自研的0余个AI辅助提效工具大大增加了标注过程中的效率和准确度。目前,其自动驾驶合作方包含主机厂、teir1、自动驾驶公司,合作方数量累计0+。
在价格维度,整体报价与行业平均水平持平。
在产能维度,目前整数智能单月最大产能可实现最大产能万人民币价值的业务量。
在前景维度,未来整数智能也持续看到4D标注业务的发展前景,即基于视觉去重建整个三维空间,起到类似雷达的效果。而在这个方向叠加自动化标注的技术,将产生巨大前景。
恺望数据——自动驾驶的数据快充站公司简介:
恺望数据成立于0年月,是一家为车企与自动驾驶公司提供一站式数据解决方案的公司。针对数据供给不稳定、流程繁杂、工具低效等痛点,恺望致力于让数据生产线从手工作坊向标准化、规模化和自动化转变,提升自动驾驶数据生产效率,保持产能稳定并降低成本,加速自动驾驶落地。
其核心价值在于,综合技术和运营两方面优势,对数据标注生产过程进行原子化拆解,实现数据标注全流程的整体增质与提效;通过超大规模资源聚合,让高门槛的小众供给,变成低门槛的大众参与,缓解自动驾驶数据标注对“人”的专业要求。
潜在价值:通过持续运营“高并发的技术栈+数据驱动的生产线”,未来将可以在自动驾驶数据标注大规模的需求下,保持实时的AI算法迭代。这也将在数据标注全流程中不断降低对人力的依赖,未来有望不断提升标注效率和质量。
恺望数据
在创新维度,恺望数据综合技术和运营两方面优势,对数据标注生产过程进行原子化拆解。通过对数据标注全流程的精细化设计与管理,可提升全流程效率至少0%以上。
恺望数据优势
在研发维度,目前恺望的研发投入占总成本的60%左右,主要围绕底层数据流转,代码管理代码,编排系统流水化作业等方面展开,未来将重点投入在算法研发和技术团队的扩张层面。从团队人员构成看,创始人于旭此前为Uber中国第4号员工、Momenta第号员工、字节跳动AI数据服务资源负责人,拥有平台大规模运营管理和自动驾驶行业经验;运营合伙人任丹丹此前在梅赛德斯-奔驰汽车金融服务,是运营流程管理专家;技术合伙人陈鑫此前在Momenta数据平台TechLead,拥有标注-数据流-训练-仿真平台经验。
在成熟维度,其产品在0年月份已开始冷启动运营,平台预计在0年年底投入规模生产。目前在接的客户有16家,其中包括4家主机厂、8家自动驾驶公司,已全部进入到量产阶段,月度流水已实现小几百万的规模。
在价格维度,其价格比行业均值低10-15%,同时可以为自动驾驶相关客户提供咨询服务等增值服务,帮助机构从0到1快速进入自动驾驶研发。
在产能维度,面对自动驾驶数据标注需求的快速增涨,其平台可支撑万人同时在线。单月最大产能以DD图像标注为例,可实现阅读1万图的产能。同时,面对行业内可能存在的需求“波峰-波谷”问题,其通过平台大规模运营经验和相关技术手段可实现有效缓解压力的效果。
在前景维度,面对汽车智能化产业链从作坊进化到现代企业化管理的过程中,不断去人力化、AI辅助化将会成为未来的发展趋势。科技型数据标注公司,在其中不仅仅可以把握自动化标注带来的需求红利,还可能在数据挖掘等方向上,衍生出更多的产品,这将会激发出恺望更大的潜力。
卓印智能——AI应用开发与落地的加速器公司简介:
卓印智能成立于01年1月,致力于成为AI应用开发与落地的加速器。为机器学习团队提供,AI数据全生命周期的服务,以数据为引擎,加速产业智能化进程,降低AI落地成本。
其数据标注平台,引入工业领域的“精益生产”思路,通过拆分,减少每个环节的需求,理解难度和标注难度,提高倍效率;样例帧优先处理,完成后,其他同场景的数据,参考样例帧进行处理即可,降低了判断难度,提高倍效率;精益流程改进:流程中接入全面
质量管理方法,在样例帧标注和质检时即开始
转载请注明:http://www.0431gb208.com/sjslczl/6603.html