数据来源和搜集
数据搜集
文章目录
- 数据搜集
- 1 数据来源
- 1.1 数据的间接来源
- 1.2 间接数据的评价
- 1.3 数据的直接来源
- 2 调查数据
- 2.1概率抽样
- 2.2 非概率抽样
- 2.3 概率抽样 *vs.*非概率抽样
- 3 搜集数据的方法
- 4 实验数据
- 4.1 实验组与对照组
- 4.2 实验中的若干问题
1 数据来源
所有统计数据都来源于社会调查或试验,但从使用角度看,统计数据来自两条渠道:
- 间接来源,由别人通过调查或试验方式搜集
- 直接来源,由自己通过调查或试验方式搜集
1.1 数据的间接来源
间接数据来源既包括取自系统外部,也包括取自系统内部。外部获取途径包括政府部门定期发行的年鉴、经济信息中心,咨询机构、调查机构、协会或行业的发展的情报;各类报纸、期刊、图书馆文献资料;各种会议、学术研讨会等。内部获取途径,就经济活动来说,包括公司或企业内部业务以及与生产相关的统计报表、财务、会计核算等。
1.2 间接数据的评价
间接数据搜集成本相对较低,搜集难度相对容易。但是,间接数据也存在较大弊端,一是间接数据不是为特点研究而产生的,在做研究时可能并不支持个人的预期结论。另外,间接数据的来源口径也存在差异,数据的准确性需要具体分析。因此,使用间接数据需要对数据的准确性进行评估。评估需要考虑如下问题
- 资料谁搜集的?
- 搜集的目的?
- 如何搜集的?
- 什么时候搜集的?
1.3 数据的直接来源
数据直接来源即通过调查或实验的方法得到的一手资料。调查相对于社会现象而言,调查数据通常取自有限总体。如果对总体进行调查,则为普查。如果总体较大,普查将是一项巨大的工程,时间、精力于与成本的投入可能阻碍了研究工作。因此,如何进行抽样调查成为统计学家需要考虑的一个问题。实验是相对于自然现象而言的,但社会学家也利用实验或准实验的方法来获取数据。
2 调查数据
使用抽样调查数据的方式较多,根据不同方式可分为概率抽样与非概率抽样
2.1概率抽样
概率抽样也称为随机抽样,需要遵循以下原则
- 抽样要按照一定概率以随机方式抽样
- 个体被抽中的概率是已知且可计算的
- 用样本对总体目标进行估计,要考虑到每个样本被抽中的概率
抽样概率的方式包括以下几种:
-
简单随机抽样:从包含N个个体的抽样框中随机地、一个一个地抽取n个样本,每个样本入样地概率相等
-
分层抽样:将抽样单位按照某种特征或某种规则分为不同地层,然后从不同地层随机地抽取样本。
-
整群抽样:将总体若干单位合并为组,这样地组称为群。抽样时直接抽取群,然后选中群中地所有单位全部实施调查。
-
系统抽样:将总体中所有单位按一定顺序排列,在规定地范围内随机抽取一个单位作为初始单位,然后按照事先规定地规则确定其他抽样单位。
2.2 非概率抽样
非随机抽样与随机抽样不同,它是根据数据要求、采取某种方式从总体抽出部分单位进行调查。非概率抽样主要包括以下几种:
- 方便抽样:怎么方便怎么来,带有主观随意性
- 判断抽样:根据样就这自身经验、判断、知识等,有目的地选择一些单位作为样本机械能调查。根据目的不同,又可以分为重点抽样、典型抽样与代表抽样
- 自愿样本:被调查者自愿参与,主动成为样本的一份子。
- 滚雪球抽样:针对于稀少群体的调查。在滚雪球抽样中,首先选择一组单位调查,对其实施调查后,根据被访者提供属于样本总体的调查对象,调查人员根据所提供的线索,进行调查。
- 配额抽样:先将总体按照某一特征进行排序分为若干类,然后再实施方便抽样或判断抽样选取样本。主要运用在市场调查中。
2.3 概率抽样 *vs.*非概率抽样
非概率抽样方便快捷,对统计学的技术要求不高,适合于探索性研究。但是,非概率抽样由于个体的概率分布不确切,无法使用样本结果对总体的相关参数进行推断统计。如果将非概率抽样样本进行参数假设、区间估计、回归分析等,可能与实际情况存在偏误。概率抽样要求研究者有较高的统计技术知识,其调查成本也比非概率抽样高
3 搜集数据的方法
搜集数据的方法主要包括
- 自填式:在没有调查员协助时,被调查者自己填写
- 面访式:在调查现场中与被调查者面对面对交流、询问。
- 电话式:调查者通过打电话方式向被调查者调查
4 实验数据
实验数据是在实验室控制实验对象而搜集到的数据
4.1 实验组与对照组
实验不仅是搜集数据的方法,也是一种研究方法。实验的基本逻辑:
改变某个变量(A)的情况,然后观察另一个变量(B)的变化情况。如果B随着A的变化而变化,则说明A对B有影响。为此,需要将样本一分为二,一个为实验组,另一个为对照组。实验组指随机抽选实验对象的子集,并对这个子集特殊处理;对照组额每个单位不接受某种特殊处理。
4.2 实验中的若干问题
实验虽然逻辑严密、较好证明假设、分析事物之间的因果,但实验过程也存在相关问题:
- 第一,受试者(人)的意愿。每个人都有子集的生活方式与处世原则,被试者未必按照要求行事
- 第二,心里问题。人么对被研究非常敏感,这使得受试者更加注意自我
- 第三,道德问题。道德问题使人与动物的实验过程复杂化。另外,一些的隐私数据可能存在泄露。
参考文献:
贾俊平等. 统计学(第六版) [M]. 中国人民大学出版社,2000
相关文章:
数据来源和搜集
数据搜集 文章目录 数据搜集1 数据来源1.1 数据的间接来源1.2 间接数据的评价1.3 数据的直接来源 2 调查数据2.1概率抽样2.2 非概率抽样2.3 概率抽样 *vs.*非概率抽样 3 搜集数据的方法4 实验数据4.1 实验组与对照组4.2 实验中的若干问题 1 数据来源 所有统计数据都来源于社会…...

Python入门(七)if语句(二)
if语句(二) 1.if语句1.1 简单的if语句1.2 if-else语句1.3 if-elif-else结构1.4 使用多个elif代码块1.5 使用多个elif代码块 2.使用if语句处理列表2.1 检查特殊元素2.2 确定列表不是空的2.3 使用多个列表 作者:xiou 1.if语句 前面我们理解了…...
[元带你学: eMMC完全解读 2] eMMC协议相关术语与定义
声明 主页:元存储的博客_CSDN博客 依公开知识及经验整理,如有误请留言。 个人辛苦整理,付费内容,禁止转载。 所在专栏 《元带你学: eMMC完全解读》 内容摘要 前言 文中列出了常用和不常用的eMMC 术语, 只需要了解常用术语就完全够用, 非常用术语几乎都用不上,只要遇到的…...
预测杭州五一黄金周的旅游出行人数
对于杭州五一黄金周的旅游出行人数的预测,可以从以下几个方面进行考虑。 一、历史数据的分析 杭州作为一个旅游胜地,每年的五一黄金周都吸引了大量的游客前来游玩。历史数据可以为我们提供有用的信息,帮助我们预测今年的旅游出行人数。 1.…...

内防泄密重要,还是外防窃密重要?
内防泄密是组织为防止内部敏感信息未经授权泄露所采取的各种管理与技术措施的总称。它主要针对内部人员的信息访问与操作行为进行管控,减少故意或疏忽泄密事件的发生几率。 内防泄密的工作,通常包括员工管理、权限管控、监控检查、分级保护、离岗管控、技术防护、事…...

ChatGPT:2. 使用OpenAI创建自己的AI网站:1. 初探API
使用OpenAI创建自己的AI网站 如果你还是一个OpenAI的小白,有OpenAI的账号,但想调用OpenAI的API搞一些有意思的事,那么这一系列的教程将仔细的为你讲解如何使用OpenAI的API制作属于自己的AI网站。博主只能利用下班时间更新,进度慢…...
5月17日,今日信息差
1、中老铁路运输货物突破2000万吨。其中,跨境货运量超400万吨,货值达177亿元 2、北京首个5.5G实验基站在昌平区的国际信息港建设开通,5.5G将在速率、时延、连接规模和能耗方面全面超越现有5G,实现下行万兆和上行千兆的峰值速率…...

物联网的体系架构
物联网中常见的计算模式:云计算、边缘计算、雾计算等 云计算:一种利用互联网实现随时随地、按需、便捷地使用共享计算设施、存储设备、应用程序等资源的计算模式。边缘计算:在靠近物或数据源头的网络边缘侧,融合网络、计算、存储…...
Golang交叉编译
Golang交叉编译遇到的问题 交叉编译go支持的平台和版本 交叉编译 go支持的平台和版本 查询命令: go tool dist list显示结果: aix/ppc64android/386android/amd64android/armandroid/arm64darwin/amd64darwin/arm64dragonfly/amd64freebsd/386freebsd/…...

kafka3.x详解
kafka 一、简介1.1、场景选择,与其他mq相比1.2、应用场景1.2.1、流量消峰1.2.2、解耦1.2.3、异步通讯 1.3、消息队列的两种模式1.3.1、点对点模式1.3.2、发布/订阅模式 1.4、Kafka 基础架构 二、安装部署2.1、安装包方式2.2、docker安装方式2.3、docker安装kafka-ma…...

kubectl常用命令|pod生命周期|金丝雀发布|超详细
kubectl常用命令|pod生命周期|金丝雀发布|超详细 一 kubectl常用命令1.1 查看版本信息1.2查看资源对象简写1.3查看集群信息1.4 配置kubectl自动补全1.5node节点查看日志 二 k8s基本信息查看2.1 查看 master 节点状态2.2 查看命令空间2.3 创建和删除命名空间2.4 在命名空间kube-…...

【Linux系统】Linux进程信号详解
Linux进程信号 0 引言1 认识信号1.1 什么是信号1.2 发送信号的本质1.3 信号的处理 2 信号的产生2.1 键盘产生2.2 调用系统函数向进程发送信号2.3 由软件条件产生信号2.4 硬件异常产生信号 3 信号的保存4 信号的处理5 总结 0 引言 本篇文章会从Linux信号的产生到信号的保存&…...

阿里云u1服务器通用算力型CPU处理器性能测评
阿里云服务器u1通用算力型Universal实例高性价比,CPU采用Intel(R) Xeon(R) Platinum,主频是2.5 GHz,云服务器U1实例的基准vCPU算力与5代企业级实例持平,最高vCPU算力与6代企业级实例持平,提供2c-32c规格和1:1/2/4/8丰富…...
hive的详细使用文档和使用案例
目录 Hive 简介安装连接到Hive创建数据库创建表加载数据查询数据修改表删除表 使用案例结论 Hive 简介 Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射到Hadoop HDFS上,并提供SQL查询功能。Hive的设计目标是让那些熟悉SQL语言的用户能够在Ha…...
KL散度
KL散度(Kullback-Leibler divergence),也称为相对熵(relative entropy),是用来衡量两个概率分布之间差异的一种指标。在机器学习中,KL散度常常用于度量两个概率分布之间的相似度或差异性。 具体…...

Java基础学习(16)多线程
Java基础学习多线程 一、多线程1.1 什么是多线程1.2 多线程的两个概念1.2.1 并发 1.3 多线程的实现方式1.4 多线程的成员方法1.5 线程的生命周期 二、线程安全1.6 同步方法1.7 锁lock1.8 死锁1.8 生产者和消费者 (等待唤醒机制)1.9 等待唤醒机制(阻塞队列方式实现)1…...

【一起啃书】《机器学习》第五章 神经网络
文章目录 第五章 神经网络5.1 神经元模型5.2 感知机与多层网络5.3 误差逆传播算法5.4 全局最小与局部极小5.5 其他常见神经网络5.6 深度学习 第五章 神经网络 5.1 神经元模型 神经网络是由具有适应性简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统…...

matlab实验二可视化
学聪明点,自己改,别把我卖了 一、实验目的及要求 要求 1、掌握 MATLAB常用的二维和三维绘图函数 2、掌握MATLAB的图形注释 3、熟悉MATLAB常用的图形修饰 4、熟悉MATLAB的图形动画 实验原理 1、MATLAB二维绘图:plot,fplot,fimplicit…...

(数据结构)栈的实现——再一次保姆级教学
目录 1. 栈 编辑 1.2 栈的实现 2. 代码的实现 2.1 初始化栈和销毁栈 2.2栈顶元素的插入 2.3栈顶元素的删除 栈元素删除 2.4栈顶元素的获取和栈元素的个数 1. 栈 1.1 栈的概念和结构 栈(Stack)是一种线性存储结构,它具有如下特点: ࿰…...

【5G RRC】RSRP、RSRQ以及SINR含义、计算过程详细介绍
博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…...

Linux应用开发之网络套接字编程(实例篇)
服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...

蓝牙 BLE 扫描面试题大全(2):进阶面试题与实战演练
前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1):从基础到实战的深度解析-CSDN博客,但实际面试中,企业更关注候选人对复杂场景的应对能力(如多设备并发扫描、低功耗与高发现率的平衡)和前沿技术的…...

零基础设计模式——行为型模式 - 责任链模式
第四部分:行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习!行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。 核心思想:使多个对象都有机会处…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用
1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

Netty从入门到进阶(二)
二、Netty入门 1. 概述 1.1 Netty是什么 Netty is an asynchronous event-driven network application framework for rapid development of maintainable high performance protocol servers & clients. Netty是一个异步的、基于事件驱动的网络应用框架,用于…...
Java数值运算常见陷阱与规避方法
整数除法中的舍入问题 问题现象 当开发者预期进行浮点除法却误用整数除法时,会出现小数部分被截断的情况。典型错误模式如下: void process(int value) {double half = value / 2; // 整数除法导致截断// 使用half变量 }此时...
MinIO Docker 部署:仅开放一个端口
MinIO Docker 部署:仅开放一个端口 在实际的服务器部署中,出于安全和管理的考虑,我们可能只能开放一个端口。MinIO 是一个高性能的对象存储服务,支持 Docker 部署,但默认情况下它需要两个端口:一个是 API 端口(用于存储和访问数据),另一个是控制台端口(用于管理界面…...

淘宝扭蛋机小程序系统开发:打造互动性强的购物平台
淘宝扭蛋机小程序系统的开发,旨在打造一个互动性强的购物平台,让用户在购物的同时,能够享受到更多的乐趣和惊喜。 淘宝扭蛋机小程序系统拥有丰富的互动功能。用户可以通过虚拟摇杆操作扭蛋机,实现旋转、抽拉等动作,增…...
华为OD最新机试真题-数组组成的最小数字-OD统一考试(B卷)
题目描述 给定一个整型数组,请从该数组中选择3个元素 组成最小数字并输出 (如果数组长度小于3,则选择数组中所有元素来组成最小数字)。 输入描述 行用半角逗号分割的字符串记录的整型数组,0<数组长度<= 100,0<整数的取值范围<= 10000。 输出描述 由3个元素组成…...