首页 > 其他分享> > 炼丹系列之原料储备

炼丹系列之原料储备

2021-02-24 13:03:24 作者：互联网

文章导读

随着人工智能在各行各业的渗透，AI算法越来越受到人们的关注，目前大多数AI算法仍然采用有监督学习的方式进行训练，而数据的质量就成了算法能力的上限，因此对数据打标签就成了一项至关重要的工作内容。本文针对计算机视觉领域的数据标注类型及一些开源工具进行简要介绍。

数据标注简介

数据标注是对原始数据（图片、视频、语音、文本等）添加一个或多个有意义的信息标签以提供使机器学习模型能够从它进行学习。

随着机器学习等AI算法渗入到各行各业，数据标注工作也在各个领域不断扩散，比如：

计算机视觉（图像/视频）：以关键点、边界框的方式对图像进行标注，以生成训练数据集。

（1）按照生活实际对图片进行分类；对图片中的目标物进行标注（打点、分割）形成数据集。

（2）使用这些训练数据构建计算机视觉模型；该模型自动对图片进行分类、检测对象的位置、识别图片中的目标物。

自然语言处理：以手动方式对文本中的重要部分使用特定标签来标记，以生成训练数据集。

（1）对文本的地点、人名之类的专有名词进行类别分类标注形成数据集。

（2）使用这些训练数据构建模型；该自然语言处理模型用于可用于情感分析、实体名称识别等方向。

语音识别：语音标注声音进行结构化格式处理，以生成训练数据集。

（1）将语音内容手动转录为书面文本；添加标签并对音频进行分类。

（2）使用这些训练数据构建语音识别模型；该模型可用于语音识别，情感识别，角色判断等方向。

视觉标注类型

计算机视觉中，同一份数据针对不同的任务会采用不同的标注形式，如下图所示：

在道路交通场景中，如果做车辆/行人检测，则需要标注2D/3D框；如果做车道线检测，则需要标注点或线；如果做语义分割，则需要标注不规则多边形等。

矩形框标注

矩形框标注是对图像中的目标物进行拉“框”处理。操作相对简单。常见标注目标物主要包括行人、车辆、树木、文字、食物等（人眼可见均可做目标物标注）。

矩形框标注类型可以分为正矩形框和斜矩形框，如下图所示：

正矩形框标注难度较简单，但是背景较多，噪声大；斜矩形框适用于规则目标物，调整一定角度可更完整的贴合目标物。

打点标注

打点标注是对图像目标物中的进行打“点”处理。常见标注目标物包括面部关键点标注、手势关键点标注、骨骼姿势关键点标注等，如下图所示：

以人脸关键点标注为例：关键点标注类型分为5关键点、68关键点、95关键点、106关键点、130关键点等。

人脸关键点数据常被应用在金融、公安、边检、教育、医疗及众多企事业单位等领域。实现多种功能：

1、企业、住宅安全和管理；

2、电子护照及身份证；

3、公安、司法和刑侦；

4、自助服务；

5、信息安全；

拉线标注

拉线标注是对图像中的目标物进行拉“线”处理，常见的标注目标物包括车道线标注、地图标注、缺陷质检等。

以车道线标注为例一般为居中标注车道线和全轮廓标注车道线，如下图所示：

车道线标注数据常用于智能驾驶中做车道线检测算法，配合可行驶区域实现车辆的行驶和变道功能。

语义分割标注

语义分割标注是对图像中的目标物进行“不规则多边形”处理。常见目标物：行人、车辆、树木、家居、食物等（人眼可见均可做目标物标注）。如下图所示：

在无人驾驶的感知算法中，由于道路区域的形状多变，通常用分割算法实现freespace的功能。

伪3D框标注

伪3d框标注是对图像中的目标物以“伪立方体形”处理，即标注出物体的长、宽、高等朝向。常见目标物：车辆、行人、骑行者等物体。如下图所示：

常见标注类型分为两种：正侧2视角立方体和正侧俯3视角立方体：

点云立方体框标注

点云立方体框标注对点云图中的目标物以“立方体”处理，标注出物体的六面贴合、朝向等。常见目标物：车辆、行人、骑行者等物体。

常见标注类型包括3D点云数据标注和2D-3D点云映射标注。如下图所示：

开源标注工具

市面上已经有很多开源标注工具，有些工具的功能非常全面，能够支持：

支持输入图像、视频、点云数据
多任务标注，包括2D/3D检测和分割
支持手动抽帧和自动抽帧
视频自动筛选高质量图像
使用AI技术辅助预标注
支持多种类型标注
支持选择标注类别
支持输出多种格式的标签

下面介绍几种开源的标注工具：

Computer Vision Annotation Tool (CVAT)

基于web
支持图像和视频
可用于检测和分割
支持使用深度学习模型自动标注
支持关键帧之间差值计算bounding boxes
手动、半自动、自动三种模式

微软的VoTT

支持客户端、web端
TypeScript开发
支持图像和视频
适用于检测任务
基于CNTK训练的faster-rcnn模型进行自动标注
使用camshift进行跟踪标注
使用Active Learning来提升模型的性能

LabelMe

基于web
Python和Qt开发
支持图像和视频
适用于检测和分割
只能手动标注
可标注多边形、矩形、圆形、直线、点
支持导出多种格式的标签

标注难点分析

虽然一般标注工具都配套了AI辅助的功能，但是最终还是需要人工的修改和审核，那么就存在主观因素的影响。所以计算机视觉的标注通常存在以下难点：不可见部分；边缘贴合；主观性；合格率。

并且现在算法训练对数据标注的要求越来越高, 数据标注行业也遇见了各类问题：

各行各业应用场景不一，数据集很难做到普适；
标注员主观性区别，较难做到主观性统一；
数据体量越大，生产周期越长；
项目执行中，需求变更；
预算金额。

关注小编公众号，每天分享关于计算机视觉或无人驾驶感知方面的内容。