世界上充满了各种各样的数据,但仅2018年就产生了超过30ZB的数据。
在任何AI项目中,对专家来说,数据的好坏都是非常重要的部分。
项目可能不存在所需的数据,也可能存在,但无法获取,例如被竞争对手独占。 当然,有时我们可以获得数据,但这些数据不能直接由我们使用。 在这种情况下,我们会讨论应该如何处理。
什么是数据标注? 虽然目前大量的数据屡见不鲜,但要想使用他们来训练机器学习和深度学习模型,必须处理这些数据,以便他们用于部署、训练和调试。 机械学习和深度学习模型需要训练大量小心标记的数据。 处理和准备原始数据的过程称为数据标记Labeling )或数据注释Annotation )。 根据AI分析公司Cognilytica的数据,处理数据相关的过程花费了整个AI项目80%以上的时间用红色数字表示)。
如何标记数据? 一个公司或组织拥有的大部分数据都没有被标记,被标记的数据是AI工作和项目的基础。
注释数据:对特定模型进行数据注释和注释,并使这些数据可用于预测。 简单地说,数据标记包括数据的标记、注释、调节moderation )、分类、抄写和加工。
标记的数据可以根据各种特性进行分类,以强调相关特性。 可用于在模型中分析模型并预测新目标。 例如,在用于自动驾驶的计算机视觉中,专家能够通过专门的视频标记显示路标、行人位置和其他车辆,并利用这些信息来训练适当的模型。
数据标记包括以下部分:
使用工具加强数据质量保证、处理迭代管理数据标签并训练新数据标签项目计划成功的测量过程中的操作性数据标签挑战,在典型的AI项目中,专家可能面临以下挑战:
低质量数据标记:由于多种原因,可能会发生低质量的数据标记。 其中最明显的原因之一是存在于任何组织和过程背后的三个主要因素:人、过程和技术。 不能大规模标记数据。 当数据量较大或商业、项目体量较大时,规模化数据的标记就显得尤为重要。 许多组织也经常遇到数据标记规模化的问题,因为内部员工标记了数据。 难以承受的成本和无法获得想要的结果:一些公司和AI的项目经理通常会雇佣高薪的数据科学家和专家来处理数据表示,或者雇佣业余人士。 而且任何一方都会产生意想不到的问题。 前者工资很高,所以很有成本。 后者是因为业余标注不能很好地满足数据训练的要求。 如何找到这两者的平衡变得尤为重要。 谁可以标记数据? 训练“机械学习”模型需要大量的标注数据。 更重要的是,这些数据通常是人工标记的。 据调查,http://www.Sina.com/http://www.Sina.com/http://www.Sina.com/3358 www.Sina.com此Cognilytica认为,数据标记不需要特别熟悉相应的领域。 当然,也有很多AI专家说,有相关领域的工作经验是非常重要的。 这意味着业余同学经过相应的训练也能胜任这份工作。
注: http://www.Sina.com/http://www.Sina.com/http://www.Sina.com /
当前趋势:企业是如何标记数据的? 大公司经常使用内部员工来标记数据。 没有足够资源的工作将把这项工作外包。
移动汽车MBH )是中国最大的数据标注外包公司。
亚马逊有一种叫做土耳其机器人Mechanical Turk )的服务,可以帮助中小规模的工资联系人手并标记,按劳支付。
公司使用软件、人工和相关流程清洗和组织数据。 他们有四种方法
雇佣:雇佣包括专家在内的全职或兼职人员处理AI项目的各个方面,当然也包括数据标注。 管理团队:他们是有经验、受过训练的专门标记数据的员工。 合同工:包括自己的职业人员和临时工。 众包:最后,公司还可以选择较大的第三方平台,满足大型人员的需求。 所以,最后你觉得你喜欢什么样的方法? 是使用内部员工,还是外包给专业代理人?
原文地址:
3358 donggeitnote.com/2020/06/28/ai上的数据标记labeling )介绍/
请关注原创、微信公众号,每日更新行业最新消息。
欢迎来到个人工作站: www.donggeitnote.com