数据标注,主要就是对指定的数据做标注,数据分为文本、音频、视频、图片等类型,具体标注又可以根据不同的数据类型分成:
文本:NLP/知识图谱等;
音频:音频转写(ASR)等,将声音数据转写为文本文案;
视频:标注视频中出现的物体等,常见于物体跟踪需求等;
图片:比如2D/3D拉框、多边形拉框、贝塞尔曲线等等。数据标注是对未处理的初级数据, 包括语音、图片、文本、视频等进行加工处理, 并转换为机器可识别信息的过程。原始数据一般通过数据采集获得, 随后的数据标注相当于对数据进行加工, 然后输送到人工智能算法和模型里完成调用。简单来说,数据标注就是数据标注员借助标注工具,对图像、文本、语音、视频等数据进行拉框、描点、转写等操作,产出满足AI机器学习的标注数据集的过程。