开源模型训练数据标柱工具label-studio使用介绍
Label Studio是一款开源数据标注工具。它允许您使用简洁直观的用户界面标注音频、文本、图像、视频和时间序列等数据类型,并将标注结果导出为各种模型格式。该工具可用于准备原始数据或优化现有训练数据,以获得更精准的机器学习模型。
以上是github上对·label-studio的介绍,git地址
首先安装label_studio,安装很简单,在python环境中运行以下pip命令就可以
pip install label-studio
需要注意python环境要求必须3.8以上
运行的话也简单,运行以下命令就可以
label-studio
启动后会提示端口8080,在浏览器打开地址就行
打开后首先进入到登录页面
第一次打开需要先注册账号,点击下方的sign up按钮
填写邮箱密码就可以创建,回到登录页面后进行登录
首先创建项目,点击create project按钮,输入项目名称,点击右上角的蓝色save按钮。
我以语音识别模型所需的音频文本标柱为例说明如何进行标柱
点击导入按钮
上传音频文件
点击右上角导入按钮(如果有多个音频,可以一次导入后再点右上角按钮)
接下来需要选择标柱任务,如果没有选择任务,点击列表音频的时候会提示在标柱前需要先进行配置
进入到配置页面后,点击切换模板
选择音频处理下的第二个,按图中选择
左侧配置识别音频的标签,右侧是页面展示,点下面的保存按钮
回到音频列表页面,点需要标柱的音频
选择音频段,点击上面的标签,再点击要标柱的音频段,输入音频对应的文本内容,点添加。
重复以上操作,标柱所有内容,如果中途需要临时保存,点下方的提交按钮,下次可以继续上次的进行标柱。
标柱完成后,可以点列表右上角的导出按钮
导出对应的数据,进行后续模型训练。