如何制定数据采集解决方案?
数据采集仍是人工智能(AI)构建团队的主要瓶颈。原因各不相同:用例数据可能不足,深度学习等新机器学习(ML)技术需要更多数据,或者团队并未建立获取所需数据的适当流程。但无论如何,对准确且可扩展数据解决方案的需求在不断增加。

高质量数据采集最佳方法
作为一名AI从业人员,您需要在制定数据采集计划时提出一些正确的问题。
我需要怎样的数据?
您选择解决的问题表明您所需的数据类型。例如,对于语音识别模型,您需要收集能够代表全部期望客户的语音数据。也就是说,语音数据涵盖目标客户的所有语言、口音、年龄和特征。
我可以从哪里获取数据?
首先,了解内部已有哪些可用数据,以及这些数据能否用于解决现有问题。如需更多数据,可以利用一些公开的在线数据集。您也可以与数据伙伴合作,通过众包资源生成数据。还可以创建合成数据填补数据集中的空白。 但请谨记一点,在模型投产后的很长一段时间内,您需要稳定的数据来源,以确保在模型投产后,可以持续为模型优化提供数据。
我需要多少数据?
数据量取决于您想要解决的问题和预算,但通常而言,数据越多越好。刚开始构建机器学习模型时,通常不会有太多数据。您需要确保拥有足够的数据,可以覆盖模型的所有潜在用例(包括边缘用例)。
如何确保我的数据是高质量的?
在使用数据集训练模型前,请先清理数据集。也就是说,第一步是删除不相关或不完整的数据(并检查确认您是否真的不需要这类数据)。接着,就是要准确标注数据。很多公司转向众包来获得大量的标注员;数据标注员越多元化,数据标注的包容性就越高。如果您的数据标注需要特定领域的知识,需要找到该领域的专家来标注您的数据。 明确上述问题的答案后,您可以开始构建数据管道,使您能够高效地收集高质量、准确标注的数据。最后,要确保数据管道的可重复性、一致性,以帮助您进行扩展。
负责任AI的用武之地
您要坚持从负责任AI的视角来采集数据,这是因为构建合乎伦理道德的AI要从数据开始。干净的数据来源应是重中之重,这意味着您需要以合乎道德的方式获取数据。处理安全且机密信息(例如医疗记录或财务状况)时,尤是如此。请遵守您所在地区和行业的数据保护法规,并在选择数据合作伙伴时,确认这些合作伙伴是否也遵守这些法规。您的数据合作伙伴应该和您一起制定安全协议,以确保客户数据得到尊重和负责任的对待。
解决方案与高级研究组副总裁David Brudenell的专业洞察
包容优于偏见
在过去的18个月里,澳鹏发现,客户与澳鹏的互动方式发生了巨大转变。随着AI的不断发展及日益普遍,它在构建方式上的差距也已明显显现。训练数据在减少AI中的偏见方面发挥着重要作用,我们建议客户组织一批具有代表性、有包容性的标注员来采集数据,构建更快、更好、更具经济效益的AI模型。由于几乎所有的训练数据均由人员采集,所以我们建议客户在样品设计时首先注重包容性。这会增加工作量和实验设计次数,但和简单的样品设计相比,投资回报率会显著提高。简言之,您会得到更多样化、更准确的机器学习/人工智能模型,这些模型拥有更具体的人口统计数据,而且从长远来看,这比试图通过消除生产机器学习/人工智能模型中的偏见来“填补空白”要好得多。
优先考虑用户
精心设计的数据采集方案由多个部分组成。虽然一个包容性的样本框架是基础,但是推动生产量和数据质量的关键是,将以用户为中心的方法引入到整个参与过程中:项目邀请、资格鉴定、新用户引导(包括信任和安全)实验体验。很多时候,团队会忘记完成这些项目的人。如果您忘记这一点,则会因为低于平均水平的书面实验和用户体验而导致项目的吸收率和数据不佳。 设计实验和用户流时,问问如果是自己是否愿意进行这项工作。此外,还要确保您始终亲自对实验进行端到端测试。如果您陷入困境或结果不尽如人意,则需做出改进。
互锁配额——从六千到六万
如果您以美国人口普查为例,围绕6个数据点进行实验:年龄、性别、州、种族和手机拥有量,您有超过6万个配额要管理吗? 这是因为受到互锁配额的影响。互锁配额即实验中所需的访谈/参与者数量在要求多个特征的单元格中。以上述美国人口普查为例,有一个单元需要n个用户,具有以下特征:男性,55岁以上,怀俄明州,非裔美国人,拥有2021年一代的Android智能手机。这是个极端的、低发生率的示例,但通过在定价、编写实验或进入现场前,创建自己的互锁矩阵,您可以发现难以组合的特征或无意义的特征组合,这些组合可能会影响项目的成功。
报酬比以往任何时候都重要
最后,也是最重要的就是审查您为用户完成实验而付的报酬。在设计数据采集实验时,衡量商业利益是很常见的事情,但您不能因此削减对用户的激励。用户是团队中最重要的部分,可以为您提供合适的、高质量的数据。如果您选择向用户支付更少报酬,则会导致项目的吸收率较低且数据不佳,从长远来看,您不得不支付更多。 如果预算有限,请寻求有关全球购买力平价(PPP)方面的建议;您的资金能否在世界各地区获得更高的效益?减少您的配额要求——您能把24-40岁的人分成一组而不是两组吗?这些只是您可以采用一些方法,以便为您的项目获得最大的商业价值。
相关文章:
如何制定数据采集解决方案?
数据采集仍是人工智能(AI)构建团队的主要瓶颈。原因各不相同:用例数据可能不足,深度学习等新机器学习(ML)技术需要更多数据,或者团队并未建立获取所需数据的适当流程。但无论如何,对…...
RabbitMQ消息可靠性问题及解决
说明:在RabbitMQ消息传递过程中,有以下问题: 消息没发到交换机 消息没发到队列 MQ宕机,消息在队列中丢失 消息者接收到消息后,未能正常消费(程序报错),此时消息已在队列中移除 …...
2023河南萌新联赛第(三)场:郑州大学(两个题目)
1.入门mex 重点 一些数字的mex是从0往上枚举,第一个没出现的数字。请你回答选最多k个数字,mex最大是多少 既然从0开始枚举,那么应该是最小,那么最大是什么? 经过自己的考虑,给出一个样例,0 1 1…...
学生管理系统-07打包与上线
一、项目架构 vue的项目必须要进行打包,并部署在nginx服务器上的 二、vue的打包 1、修改vue.cofing.js文件 在该文件中添加publicPath属性,值为./ const { defineConfig } require(vue/cli-service) module.exports defineConfig({transpileDepen…...
day31贪心算法 用最少数量的箭引爆气球 和无重叠区间
题目描述 题目分析: x轴向上射箭,12一支,重叠的需要一支,3-8一支,7-16一支 返回2; 就是让重叠的气球尽量在一起,局部最优;用一支弓箭,全局最优就是最少弓箭;…...
AMEYA360报道:手机直连卫星通信发展的三个阶段
卫星通信的发展从过去、现在与规划,可以分为三个阶段。手机卫星通信的第一个阶段中,较为典型的有铱星公司、海事卫星电话、天通卫星通信等,终端设备方面已经可以做到手持设备直接通过自带的天线与卫星进行通信。 包括铱星、天通卫星等&#x…...
redis中缓存雪崩,缓存穿透,缓存击穿的原因以及解决方案
一 redis的缓存雪崩 1.1 缓存雪崩 在redis中,新,旧数据交替时候,旧数据进行了删除,新数据没有更新过来,造成在高并发环境下,大量请求查询redis没有数据,直接查询mysql,造成mysql的…...
ChatGPT火热之下的冷思考
作为一款基于人工智能的自然语言处理(NLP)聊天机器人程序,ChatGPT通过大量来自互联网的文本进行训练,并使用深度学习和机器学习算法来理解用户的问题并提供准确的回答。并且,ChatGPT还内置了情感分析、关键字提取和实体识别等功能&am…...
查看docker容器启动参数
查看docker启动参数 1、查看docker容器的自启动策略2、查看docker容器的日志滚动清理策略 以下配置命令以redis容器为例 1、查看docker容器的自启动策略 docker inspect --format{{json .HostConfig.RestartPolicy}} redis输出的name是always 表示此容器是开机自启动的&#x…...
对Webpack的理解
Webpack是目前比较物流的前端构建工具,它基于入口,用不同的Loader来处理不同的文件 Webpack的核心概念 Entry:入口,Webpack执行构建的第一步将从Entry开始,可抽象成输入。告诉Webpack要使用哪个模块作为构建项目的起…...
使用wxPython和pillow开发拼图小游戏(四)
上一篇介绍了使用本地图片来初始化游戏的方法,通过前边三篇,该小游戏的主要内容差不多介绍完了,最后这一篇来介绍下游戏用时的计算、重置游戏和关闭窗口事件处理 游戏用时的计算 对于游戏用时的记录,看过前几篇的小伙伴可能也发现…...
XGBoost实例——皮马印第安人糖尿病预测和特征筛选
利用皮马印第安人糖尿病数据集来预测皮马印第安人的糖尿病,以下是数据集的信息: Pregnancies:怀孕次数Glucose:葡萄糖BloodPressure:血压 (mm Hg)SkinThickness:皮层厚度 (mm)Insulin:胰岛素 2…...
使用MQ发送对象错误
说明:使用RabbitMQ发送消息,消息是对象,出现下面这样的错误; 错误信息:Caused by: com.fasterxml.jackson.databind.exc.InvalidDefinitionException: Cannot construct instance of com.hmall.item.pojo.Item (no Cr…...
安装和卸载docker,详细教程
安装docker ############################################################################# 安装: 1、Docker要求CentOS系统的内核版本高于 3.10 ,通过 uname -r 命令查看你当前的内核版本是否支持安账docker 2、更新yum包:sudo yum -y up…...
RabbitMQ的确认机制
RabbitMQ的确认机制 生产者确认 public class ProductionMessageConfirm {public static void Send(){ConnectionFactory factory new ConnectionFactory();factory.HostName "localhost";//RabbitMQ服务在本地运行factory.UserName "guest";//用户名…...
java项目之人才公寓管理系统(ssm+mysql+jsp)
风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的人才公寓管理系统。技术交流和部署相关看文章末尾! 开发环境: 后端: 开发语言:Java 框架&…...
git使用记录
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、常用git命令总结 前言 一、常用git命令 git --version # mkdir my-project cd my-project git status # 这一步显然没东西 git init # 创建 git status #…...
Spring MVC异步上传、跨服务器上传和文件下载
一、异步上传 之前的上传方案,在上传成功后都会跳转页面。而在实际开发中,很多情况下上传后不进行跳转,而是进行页面的局部刷新,比如:上传头像成功后将头像显示在网页中。这时候就需要使用异步文件上传。 1.1 JSP页面 …...
性能测试之并发用户数的估计
在计算并发用户数之前,需要先了解2个概念。 并发用户:指的是现实系统中同时操作业务的用户,在性能测试工具中一般称为虚拟用户。并发用户这些用户的最大特征是和服务器产生了交互,这种交互既可以是单向的传输数据,也可…...
【全方位解析】如何获取客户端/服务端真实 IP
一、应用场景 1.比如在投票系统开发中,为了防止刷票,我们需要限制每个 IP 地址只能投票一次 2.当网站受到诸如 DDoS(Distributed Denial of Service,分布式拒绝服务攻击)等攻击时,我们需要快速定位攻击者…...
先整个经典的入门款耶路撒冷十字电阻吸波器玩吧,就冲5.8GHz的WiFi频段调——毕竟现在连吸波材料都得先蹭蹭网络信号的热度才好入门嘛
CST仿真吸波器选5.8GHz有个小小心思:单层电阻超材料的谐振频率一般和单元边长相关,大概是谐振波长的0.2-0.4倍(等效介电常数εr算进去的话还要除以√εr的平方根),用的FR-4基板ε_r4.4、tanδ0.025、厚度1mm࿰…...
Windows下Go-FastDFS对象存储系统:从零搭建到可视化管理的完整指南
1. Go-FastDFS简介与核心优势 Go-FastDFS是一个基于HTTP协议的轻量级分布式文件存储系统,特别适合中小型项目快速搭建文件存储服务。我第一次接触这个系统是在2019年,当时需要一个简单易用的文件存储方案来支撑公司内部的文件共享需求。经过对比多个方案…...
【高通Camera_Tuning】优化树荫下及背景绿植时白平衡偏色问题(一)
参考案例:在室外拍摄时白平衡正常,但遇到树荫下或背景有绿植时出现偏色(偏蓝)问题。可通过修改绿区解决偏色问题。解决方法:1.开启Green zone在3A文件 -- /* Green */ -- /* Green Projection Enable */将/* Green Pr…...
H3六边形层次化地理空间索引:重新定义空间数据处理的颠覆式突破
H3六边形层次化地理空间索引:重新定义空间数据处理的颠覆式突破 【免费下载链接】h3 Hexagonal hierarchical geospatial indexing system 项目地址: https://gitcode.com/gh_mirrors/h3/h3 地理空间数据处理长期面临着精度与效率难以兼顾的困境。传统网格系…...
电子小白之二极管
很多年前我第一次看到电路图上各种二极管符号时,心里只有一个想法:这玩意儿到底干嘛用的?硬件部门同事告诉我一句话,瞬间就通了: 正向导通,反向截止;整流防反,稳压发光。 今天就用最…...
软件测试生命周期全解析:用考试答题逻辑,零基础吃透测试核心
之前我们用考场答题的类比,轻松搞懂了软件开发生命周期,很多初学者恍然大悟:原来编程就是一场有章法的“考试”。但一场考试能不能拿到高分、能不能符合出题人(客户)的要求,光靠埋头答题(开发编…...
超越单一工具:在快马平台探索多模型ai辅助开发的全新工作流
在开发过程中,AI辅助工具已经逐渐成为提升效率的利器。最近我在尝试使用InsCode(快马)平台时,发现它提供的多模型AI辅助开发能力,远比单一工具更加强大和灵活。下面分享一个我实践的综合示例项目,展示如何利用平台的多模型能力优化…...
小型电动助力播种机【设计说明书+CAD图纸+solidworks三维+STEP+IGS】
小型电动助力播种机是针对传统播种作业效率低、劳动强度大的问题设计的农业机械装置,其核心作用在于通过电动助力系统优化播种流程,实现均匀播种与精准控制。该装置采用模块化设计理念,将动力传输、播种控制与行走机构集成于一体,…...
数字减影血管造影系统市场洞察:至2032年将攀升至557.6亿元
据恒州诚思最新调研数据显示,2025年全球数字减影血管造影系统(DSA)市场规模预计达386.7亿元,至2032年将攀升至557.6亿元,2026-2032年复合增长率(CAGR)为5.5%。这一增长受全球老龄化加速、心血管…...
华为MatePad 11鸿蒙2.0平板变身编程本:保姆级AidLux+VSCode配置避坑指南
华为MatePad 11鸿蒙平板编程环境搭建实战:AidLux与VSCode高效配置指南 在移动办公与碎片化学习成为主流的今天,将华为MatePad 11这样的高性能平板转变为便携式编程工作站,正成为越来越多开发者的现实需求。鸿蒙系统2.0的分布式能力与AidLux的…...
