创建数据集

如果您已经熟悉数据标注工作,可直接跳过次章节,我们已为您准备标注过的数据集。该步骤预计耗时20~50分钟,根据您标记的数据量决定。

安装VoTT客户端

在本章节中,我们将使用 VoTT 进行数据标准。

  1. 下载VoTT v2.2.0客户端。 如您使用 MacOS, 请点击下载 MacOS 客户端, 如您使用 Windows, 请点击下载 Windows 客户端.

  2. 安装VoTT客户端。 如下是MacOS 的安装方式,将左侧图标拖拽至右侧文件夹中,即可完成安装。

下载未标记数据集

  1. 下载一个为标记数据集,该数据集包含数百张含有或不含有人形的图像。点击下载 person.zip

  2. 将压缩包解压到指定的目录。

  3. 创建一个新的目录,用户存储标记后的数据集。

我们亦为您准备了一个未标记的车牌数据集,本实验中,我们将已人形数据集为实验目标。您可以在实验后,尝试使用车牌数据集。

创建项目

  1. 打开VoTT客户端后,窗口中选择【创建项目】

  2. 在项目设置窗口中,输入项目名称(e.g. person)。在 Source Connection 处点击 Add Connection 打开 Connection Settings 窗口。

  3. 在Connection Settings窗口中,输入Connection名称(e.g. person-src)。选择Connection类型为Local File System,这样我们可以利用本地文件开始标注。

  4. 选择 Select Folder 打开本地文件系统,选择需要开始标注的文件夹(e.g. path/to/person),然后点击创建项目窗口中的 Save Connection

  5. Source Connection 处选择刚才创建的 Connection。

  6. Target Connection 处选择 Add Connection

  7. 在弹出的 Connection Settings 窗口中输入项目名称(e.g. person-output)。在 Provider 处选择 Local File System, 并指向新创建的目录(请保持目录下为空)。

  8. 在下方选择 Save Project

标注图片

在没有需要标注的对象的图像中,可直接跳过,不需要增加任何标签。

  1. 在图片右上角点击+号,添加新标签。 输入标签名称(e.g. person),下图以person数据标注为例。

  2. 在图片中围绕需要标注的对象画矩形框,并点击右侧tag列表中对应的标签完成一个物体的标注。

    标记图片时,可以使用键盘输入tag右侧的数字快速为图片提供标签

  3. 如果一个图片中含有多个需要标注的对象,围绕其他对象画矩形框,并完成标注。

  4. 在完成一张图片的标注后,点击标注工具左侧其他图片完成更多图片的标注工作。

为保证训练效果,我们建议您标记30张以上的图片。

导出数据集

  1. 在完成标注后,点击左侧导出设置按钮(如下图红色框图标所示)

  2. 在Provider中选择Pascal VOC

  3. 在Asset State中选择Only tagged Assets

  4. 点击 Save Export Settings 保存导出设置,返回标注页面

  5. 在标注页面中,点击导出图标(如下图红色框所示)将以标注数据导出到Connection Settings中设置的保存路径

将导出的目标检测数据导入S3

在您设置的 VOTT 导出文件夹下,您将找到一个名为 person-PascalVOC-export 的子文件夹。您需要将次文件夹下的内容上传到 ml-bot-exampledata-<aws-account-id> 桶下的一个空白文件夹下。

  1. 登陆 S3 控制台,点击 ml-bot-exampledata-<aws-account-id> 的桶。

  2. 点击创建文件夹, 创建一个子文件夹。 例如,将其命名为 person

  3. 点击进入 person 文件夹,将本地 person-PascalVOC-export 中的所有内容拖拽上传。

  4. 点击 上传

至此,您已经完成了数据标注和上传工作。请记录下您的数据位置,例如 s3://ml-bot-exampledata-<aws-account-id>/person/。您将在后续的实验中使用该数据集。