创建任务

创建任务

任务名称中的字符仅允许包含[a-z][A-Z][0-9]及-字符。

  1. 在 ML Bot 登陆页面,选择 点击开始

  2. 选择 AI 功能页面,选择 命名实体识别

  3. 并且输入任务名称。 这里可以将任务名称设定为bosonnlp-1,并点击创建一个新任务

准备数据

  1. 上传训练源文件中输入目标检测数据在S3存储桶中的URI,例如这里我们输入 s3://ml-bot-exampledata-<aws-account-id>/samples/bosonnlp/train.txt,请将<aws-account-id>替换为您的12位 AWS 账号ID。该文件夹下包含一个以CoNLL-2003格式存储的目标检测数据集。

目前支持2种数据格式:

格式1: BIO2 格式,例如

浙 X X I-PRODUCT
江 X X I-PRODUCT
在 X X I-PRODUCT
线 X X I-PRODUCT
杭 X X I-PRODUCT
州 X X I-PRODUCT
4 X X I-TIME
月 X X I-TIME
2 X X I-TIME
5 X X I-TIME
日 X X I-TIME
讯 X X O
( X X O
记 X X O
者 X X O
_ X X I-PERSON
施 X X I-PERSON
宇 X X I-PERSON
翔 X X I-PERSON
_ X X O
通 X X O
讯 X X O
员 X X O
_ X X O
方 X X I-PERSON
英 X X I-PERSON
) X X O
毒 X X O
贩 X X O
很 X X O
" X X O
时 X X O
髦 X X O
" X X O
, X X O
用 X X O
微 X X I-PRODUCT
信 X X I-PRODUCT
交 X X O
易 X X O
毒 X X O
品 X X O
。 X X O

各个样本之间需要使用空行隔开。

格式2: inline标注格式,例如

{{product:浙江在线杭州}}{{time:4月25日}}讯(记者{{person: 施宇翔}} 通讯员 {{person:方英}})毒贩很“时髦”,用{{product:微信}}交易毒品。
  1. 点击导入数据。 至此,我们导入了一个初具规模的命名实体识别数据集。

训练模型

以本次实验中我们导入的 bosonnlp 数据集的规模为例,训练模型大约需要30分钟。

  1. 当数据导入完毕后,点击开始训练模型

  2. 我们可以在右侧观察到从启动实例模型完成的完整模型训练的进度。

验证模型

  1. 为了快速验证模型训练的推理能力,我们在选择测试文本中输入

    3月23日,亚马逊发布了mlbot,陈良甫很高兴在北京给大家介绍mlbot的主要功能。
    
  2. 在输入完成后,点击运行测试,获取推理结果。

LOCATIONPRODUCTORGTIMECOMPANYPERSON
3月23日亚马逊发布了mlbot陈良甫很高兴在北京给大家介绍mlbot的主要功能。

如您希望下载模型,可以点击下载模型,将模型直接下载到本地。在本实验中,请跳过此步骤。