近日,在ICVS中国自动驾驶年会—火山引擎 X NVIDIA云上创新专场上,火山引擎首次面向智驾行业集中展示了AI数据服务的能力。据了解,火山引擎AI数据服务提供高质量的数据采集、标注服务,平均交付准确率已经可以实现99%以上。
对于自动驾驶领域的研发来说,将大量标注过的数据“投喂”给算法,通过训练让模型具备感知能力并达到一定识别准确率的一过程,早已成为“行业标配”。
所谓“数据标注”,是指对未经处理的语音、图片、文本、视频等原始数据进行加工处理, 并转换为机器可识别的信息的过程。不过,随着应用场景的不断丰富,自动驾驶所需标注的数据类型越来越呈现天量、多样化,数据标注的准确性难以保证,且综合成本较高。造成这一结果的原因,除了需求的不确定性、标注标准较为单一化等之外,人力成本和返工成本较高也是很重要的原因。
当前,许多数据标注企业仍停留在劳动密集型产业的定位中,在面对现阶段自动驾驶所需要处理的巨量数据时,就显得捉襟见肘。
从趋势上来看,行业正在向AI辅助+精细化管理的方向转变。通过AI辅助标注算法的升级,减少人力、提升标注效率,是未来数据标注创新的路径之一。需要大规模堆人力的魔咒,正在不断被技术所打破。
据介绍,火山引擎数据标注平台中集成了多种标注模板、预标注与边标边训算法,同时具有保障数据安全、平台操作便捷、可定制化、可与火山引擎云产品打通的特性。通过模版工具丰富多样、人工与算法灵活配合、数据服务专业高效灵活将持续为客户的数据处理工作保驾护航。
图:火山引擎数据标注平台的优势
另外,平台支持系统部署到企业自有服务器上,企业的所有系统数据均在自主管理下,私密数据的安全性有保障。同时还可根据企业自身需求与业务场景,定制个性化产品方案,让产品更好地被企业使用,实现业务发展与标注需求的一比一完美适配。
在标注工具方面,则实现了对各类常见的文本、图像、视频、语音、3D点云数据的自定义处理需求,降低了模板冗余,帮助客户快速获取低成本、高质量的结构化数据。
在算法赋能方面,火山引擎的数据标注平台的AI预标注与边标边训的算法能力,大幅提高了标注效率与准确率,可辅助和代替部分人工操作,并根据项目类型,选择适合的模型能力在相应项目阶段接入。
图:标注平台的模型能力
模型过滤阶段:由模型进行原始数据的分析,过滤掉不需要人工标注的数据,只留下需要人工标注的数据。
模型预标阶段:用模型进行数据的预先标注,标注员只需进行确认或修改。
模型纠错阶段:在标注作业时,模型可以实时进行智能纠错,避免标注员提交低质量任务。
模型质检环节:在质检作业时,模型可以辅助筛选需重点质检任务或直接完成数据的验收。
火山引擎利用边标边训的数据标注模型,智能化地学习作业内容与标注尺度,通过“自学习”方式驱动完成算法迭代,“智能+无感知”地学习人工标注习惯,带来更高的准确率和更好的数据标注体验。
在接到长周期、大批量类型项目时,模型偏向于“特定业务类型”,高准确率带来更高的人效收益;在处理短周期、小批量类型项目时,系统可快速切入并赋能业务,节省前期人工准备的时间。最终可实现30%-100%的效率提升和10%-30%的质量提升。
在业务快速发展的当下,AI数据服务业务对工时精细化管理的需求愈发迫切。
图:工时管理平台
为了更好的服务业务,火山引擎还推出工时管理系平台。该管理平台将实现工时精细化管理,推进工时管理系统化进程,提高工时数据的准确性,为高效实现项目工时管理和人效管理提供有力支持。
AI数据服务负责人金亮表示,“当前,AI算法对训练数据维度和样本复杂性的要求变得越来越高,这对数据标注技术、标注平台能力、数据安全、不同维度数据协同标注等都提出了挑战。火山引擎AI数据服务通过打造智能化数据平台,辅以交互式人工标注和质量控制措施,将有效降低数据标注复杂度,提升整体数据质量,最终解决自动驾驶模型训练的痛点,快速地部署AI。”(作者:冯梅)