当前位置: 首页 > news >正文

数据来源和搜集

数据搜集

文章目录

  • 数据搜集
    • 1 数据来源
      • 1.1 数据的间接来源
      • 1.2 间接数据的评价
      • 1.3 数据的直接来源
    • 2 调查数据
      • 2.1概率抽样
      • 2.2 非概率抽样
      • 2.3 概率抽样 *vs.*非概率抽样
    • 3 搜集数据的方法
    • 4 实验数据
      • 4.1 实验组与对照组
      • 4.2 实验中的若干问题

1 数据来源

所有统计数据都来源于社会调查或试验,但从使用角度看,统计数据来自两条渠道:

  • 间接来源,由别人通过调查或试验方式搜集
  • 直接来源,由自己通过调查或试验方式搜集

1.1 数据的间接来源

间接数据来源既包括取自系统外部,也包括取自系统内部。外部获取途径包括政府部门定期发行的年鉴、经济信息中心,咨询机构、调查机构、协会或行业的发展的情报;各类报纸、期刊、图书馆文献资料;各种会议、学术研讨会等。内部获取途径,就经济活动来说,包括公司或企业内部业务以及与生产相关的统计报表、财务、会计核算等。


1.2 间接数据的评价

间接数据搜集成本相对较低,搜集难度相对容易。但是,间接数据也存在较大弊端,一是间接数据不是为特点研究而产生的,在做研究时可能并不支持个人的预期结论。另外,间接数据的来源口径也存在差异,数据的准确性需要具体分析。因此,使用间接数据需要对数据的准确性进行评估。评估需要考虑如下问题

  • 资料谁搜集的?
  • 搜集的目的?
  • 如何搜集的?
  • 什么时候搜集的?

1.3 数据的直接来源

数据直接来源即通过调查或实验的方法得到的一手资料。调查相对于社会现象而言,调查数据通常取自有限总体。如果对总体进行调查,则为普查。如果总体较大,普查将是一项巨大的工程,时间、精力于与成本的投入可能阻碍了研究工作。因此,如何进行抽样调查成为统计学家需要考虑的一个问题。实验是相对于自然现象而言的,但社会学家也利用实验或准实验的方法来获取数据。


2 调查数据

使用抽样调查数据的方式较多,根据不同方式可分为概率抽样与非概率抽样

2.1概率抽样

概率抽样也称为随机抽样,需要遵循以下原则

  • 抽样要按照一定概率以随机方式抽样
  • 个体被抽中的概率是已知且可计算的
  • 用样本对总体目标进行估计,要考虑到每个样本被抽中的概率

抽样概率的方式包括以下几种:

  • 简单随机抽样:从包含N个个体的抽样框中随机地、一个一个地抽取n个样本,每个样本入样地概率相等

  • 分层抽样:将抽样单位按照某种特征或某种规则分为不同地层,然后从不同地层随机地抽取样本。

  • 整群抽样:将总体若干单位合并为组,这样地组称为群。抽样时直接抽取群,然后选中群中地所有单位全部实施调查。

  • 系统抽样:将总体中所有单位按一定顺序排列,在规定地范围内随机抽取一个单位作为初始单位,然后按照事先规定地规则确定其他抽样单位。


2.2 非概率抽样

非随机抽样与随机抽样不同,它是根据数据要求、采取某种方式从总体抽出部分单位进行调查。非概率抽样主要包括以下几种:

  • 方便抽样:怎么方便怎么来,带有主观随意性
  • 判断抽样:根据样就这自身经验、判断、知识等,有目的地选择一些单位作为样本机械能调查。根据目的不同,又可以分为重点抽样、典型抽样与代表抽样
  • 自愿样本:被调查者自愿参与,主动成为样本的一份子。
  • 滚雪球抽样:针对于稀少群体的调查。在滚雪球抽样中,首先选择一组单位调查,对其实施调查后,根据被访者提供属于样本总体的调查对象,调查人员根据所提供的线索,进行调查。
  • 配额抽样:先将总体按照某一特征进行排序分为若干类,然后再实施方便抽样或判断抽样选取样本。主要运用在市场调查中。

2.3 概率抽样 *vs.*非概率抽样

非概率抽样方便快捷,对统计学的技术要求不高,适合于探索性研究。但是,非概率抽样由于个体的概率分布不确切,无法使用样本结果对总体的相关参数进行推断统计。如果将非概率抽样样本进行参数假设、区间估计、回归分析等,可能与实际情况存在偏误。概率抽样要求研究者有较高的统计技术知识,其调查成本也比非概率抽样高


3 搜集数据的方法

搜集数据的方法主要包括

  • 自填式:在没有调查员协助时,被调查者自己填写
  • 面访式:在调查现场中与被调查者面对面对交流、询问。
  • 电话式:调查者通过打电话方式向被调查者调查

4 实验数据

实验数据是在实验室控制实验对象而搜集到的数据

4.1 实验组与对照组

实验不仅是搜集数据的方法,也是一种研究方法。实验的基本逻辑:

改变某个变量(A)的情况,然后观察另一个变量(B)的变化情况。如果B随着A的变化而变化,则说明A对B有影响。为此,需要将样本一分为二,一个为实验组,另一个为对照组。实验组指随机抽选实验对象的子集,并对这个子集特殊处理;对照组额每个单位不接受某种特殊处理。


4.2 实验中的若干问题

实验虽然逻辑严密、较好证明假设、分析事物之间的因果,但实验过程也存在相关问题:

  • 第一,受试者(人)的意愿。每个人都有子集的生活方式与处世原则,被试者未必按照要求行事
  • 第二,心里问题。人么对被研究非常敏感,这使得受试者更加注意自我
  • 第三,道德问题。道德问题使人与动物的实验过程复杂化。另外,一些的隐私数据可能存在泄露。

-END-

参考文献:

贾俊平等. 统计学(第六版) [M]. 中国人民大学出版社,2000

相关文章:

数据来源和搜集

数据搜集 文章目录 数据搜集1 数据来源1.1 数据的间接来源1.2 间接数据的评价1.3 数据的直接来源 2 调查数据2.1概率抽样2.2 非概率抽样2.3 概率抽样 *vs.*非概率抽样 3 搜集数据的方法4 实验数据4.1 实验组与对照组4.2 实验中的若干问题 1 数据来源 所有统计数据都来源于社会…...

Python入门(七)if语句(二)

if语句(二) 1.if语句1.1 简单的if语句1.2 if-else语句1.3 if-elif-else结构1.4 使用多个elif代码块1.5 使用多个elif代码块 2.使用if语句处理列表2.1 检查特殊元素2.2 确定列表不是空的2.3 使用多个列表 作者:xiou 1.if语句 前面我们理解了…...

[元带你学: eMMC完全解读 2] eMMC协议相关术语与定义

声明 主页:元存储的博客_CSDN博客 依公开知识及经验整理,如有误请留言。 个人辛苦整理,付费内容,禁止转载。 所在专栏 《元带你学: eMMC完全解读》 内容摘要 前言 文中列出了常用和不常用的eMMC 术语, 只需要了解常用术语就完全够用, 非常用术语几乎都用不上,只要遇到的…...

预测杭州五一黄金周的旅游出行人数

对于杭州五一黄金周的旅游出行人数的预测,可以从以下几个方面进行考虑。 一、历史数据的分析 杭州作为一个旅游胜地,每年的五一黄金周都吸引了大量的游客前来游玩。历史数据可以为我们提供有用的信息,帮助我们预测今年的旅游出行人数。 1.…...

内防泄密重要,还是外防窃密重要?

内防泄密是组织为防止内部敏感信息未经授权泄露所采取的各种管理与技术措施的总称。它主要针对内部人员的信息访问与操作行为进行管控,减少故意或疏忽泄密事件的发生几率。 内防泄密的工作,通常包括员工管理、权限管控、监控检查、分级保护、离岗管控、技术防护、事…...

ChatGPT:2. 使用OpenAI创建自己的AI网站:1. 初探API

使用OpenAI创建自己的AI网站 如果你还是一个OpenAI的小白,有OpenAI的账号,但想调用OpenAI的API搞一些有意思的事,那么这一系列的教程将仔细的为你讲解如何使用OpenAI的API制作属于自己的AI网站。博主只能利用下班时间更新,进度慢…...

5月17日,今日信息差

​1、中老铁路运输货物突破2000万吨。其中,跨境货运量超400万吨,货值达177亿元 2、北京首个5.5G实验基站在昌平区的国际信息港建设开通,5.5G将在速率、时延、连接规模和能耗方面全面超越现有5G,实现下行万兆和上行千兆的峰值速率…...

物联网的体系架构

物联网中常见的计算模式:云计算、边缘计算、雾计算等 云计算:一种利用互联网实现随时随地、按需、便捷地使用共享计算设施、存储设备、应用程序等资源的计算模式。边缘计算:在靠近物或数据源头的网络边缘侧,融合网络、计算、存储…...

Golang交叉编译

Golang交叉编译遇到的问题 交叉编译go支持的平台和版本 交叉编译 go支持的平台和版本 查询命令: go tool dist list显示结果: aix/ppc64android/386android/amd64android/armandroid/arm64darwin/amd64darwin/arm64dragonfly/amd64freebsd/386freebsd/…...

kafka3.x详解

kafka 一、简介1.1、场景选择,与其他mq相比1.2、应用场景1.2.1、流量消峰1.2.2、解耦1.2.3、异步通讯 1.3、消息队列的两种模式1.3.1、点对点模式1.3.2、发布/订阅模式 1.4、Kafka 基础架构 二、安装部署2.1、安装包方式2.2、docker安装方式2.3、docker安装kafka-ma…...

kubectl常用命令|pod生命周期|金丝雀发布|超详细

kubectl常用命令|pod生命周期|金丝雀发布|超详细 一 kubectl常用命令1.1 查看版本信息1.2查看资源对象简写1.3查看集群信息1.4 配置kubectl自动补全1.5node节点查看日志 二 k8s基本信息查看2.1 查看 master 节点状态2.2 查看命令空间2.3 创建和删除命名空间2.4 在命名空间kube-…...

【Linux系统】Linux进程信号详解

Linux进程信号 0 引言1 认识信号1.1 什么是信号1.2 发送信号的本质1.3 信号的处理 2 信号的产生2.1 键盘产生2.2 调用系统函数向进程发送信号2.3 由软件条件产生信号2.4 硬件异常产生信号 3 信号的保存4 信号的处理5 总结 0 引言 本篇文章会从Linux信号的产生到信号的保存&…...

阿里云u1服务器通用算力型CPU处理器性能测评

阿里云服务器u1通用算力型Universal实例高性价比,CPU采用Intel(R) Xeon(R) Platinum,主频是2.5 GHz,云服务器U1实例的基准vCPU算力与5代企业级实例持平,最高vCPU算力与6代企业级实例持平,提供2c-32c规格和1:1/2/4/8丰富…...

hive的详细使用文档和使用案例

目录 Hive 简介安装连接到Hive创建数据库创建表加载数据查询数据修改表删除表 使用案例结论 Hive 简介 Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据映射到Hadoop HDFS上,并提供SQL查询功能。Hive的设计目标是让那些熟悉SQL语言的用户能够在Ha…...

KL散度

KL散度(Kullback-Leibler divergence),也称为相对熵(relative entropy),是用来衡量两个概率分布之间差异的一种指标。在机器学习中,KL散度常常用于度量两个概率分布之间的相似度或差异性。 具体…...

Java基础学习(16)多线程

Java基础学习多线程 一、多线程1.1 什么是多线程1.2 多线程的两个概念1.2.1 并发 1.3 多线程的实现方式1.4 多线程的成员方法1.5 线程的生命周期 二、线程安全1.6 同步方法1.7 锁lock1.8 死锁1.8 生产者和消费者 (等待唤醒机制)1.9 等待唤醒机制(阻塞队列方式实现)1…...

【一起啃书】《机器学习》第五章 神经网络

文章目录 第五章 神经网络5.1 神经元模型5.2 感知机与多层网络5.3 误差逆传播算法5.4 全局最小与局部极小5.5 其他常见神经网络5.6 深度学习 第五章 神经网络 5.1 神经元模型 神经网络是由具有适应性简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统…...

matlab实验二可视化

学聪明点,自己改,别把我卖了 一、实验目的及要求 要求 1、掌握 MATLAB常用的二维和三维绘图函数 2、掌握MATLAB的图形注释 3、熟悉MATLAB常用的图形修饰 4、熟悉MATLAB的图形动画 实验原理 1、MATLAB二维绘图:plot,fplot,fimplicit&#xf…...

(数据结构)栈的实现——再一次保姆级教学

目录 1. 栈 ​编辑 1.2 栈的实现 2. 代码的实现 2.1 初始化栈和销毁栈 2.2栈顶元素的插入 2.3栈顶元素的删除 栈元素删除 2.4栈顶元素的获取和栈元素的个数 1. 栈 1.1 栈的概念和结构 栈(Stack)是一种线性存储结构,它具有如下特点: &#xff0…...

【5G RRC】RSRP、RSRQ以及SINR含义、计算过程详细介绍

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…...

pd.to_numeric()实战:从数据清洗到内存优化的类型转换全解析

1. 为什么需要类型转换?从销售数据乱象说起 刚接手一份销售数据时,我经常遇到这样的混乱场景:报表里的"销售额"列竟然显示为object类型,仔细一看发现里面混着"1,200"、"1500"这样的字符串&#xff…...

3步构建智能网络管控:OpenWrt访问控制插件实战指南

3步构建智能网络管控:OpenWrt访问控制插件实战指南 【免费下载链接】luci-access-control OpenWrt internet access scheduler 项目地址: https://gitcode.com/gh_mirrors/lu/luci-access-control 在现代家庭和企业网络中,设备管理已成为网络管理…...

**Rollup方案实战:从零构建高性能Web3前端打包优化体系**在现代前

Rollup方案实战:从零构建高性能Web3前端打包优化体系 在现代前端开发中,尤其是涉及 Web3 应用(如钱包、去中心化交易所) 的场景下,项目体积膨胀、加载慢、链上交互卡顿等问题日益突出。传统 Webpack 打包方式已难以满足…...

Python爬虫实战:手把手教你园林植物百科全自动化采集与结构化工程实践!

㊗️本期内容已收录至专栏《Python爬虫实战》,持续完善知识体系与项目实战,建议先订阅收藏,后续查阅更方便~ ㊙️本期爬虫难度指数:⭐ (基础入门篇) 🉐福利: 一次订阅后,专栏内的所有…...

GLM-OCR模型在操作系统镜像处理中的应用:自动化提取配置信息

GLM-OCR模型在操作系统镜像处理中的应用:自动化提取配置信息 你有没有遇到过这样的麻烦事?接手一批新的服务器或者虚拟机,需要整理它们的配置信息,比如IP地址、主机名、系统版本。你只能一台一台登录,手动把屏幕上的信…...

招投标采购管理系统_采购管理软件_采购系统_招标采购系统源码+数据库BS架构

1. 供应商管理信息全量记录:系统全面留存供应商基础信息,涵盖公司全称、联系方式、主营产品/服务、资质文件等核心内容,实现信息集中管控,避免遗漏。多维综合评估:从资质合规性、过往合作表现、市场信誉度、履约能力等…...

3步实现知网文献批量下载:CNKI-download自动化工具完整指南

3步实现知网文献批量下载:CNKI-download自动化工具完整指南 【免费下载链接】CNKI-download :frog: 知网(CNKI)文献下载及文献速览爬虫 (Web Scraper for Extracting Data) 项目地址: https://gitcode.com/gh_mirrors/cn/CNKI-download 在学术研究的道路上&…...

Golang结构体嵌套怎么用_Golang结构体组合教程【秒懂】

Go结构体匿名嵌套且字段首字母大写才能透出字段,否则需显式路径访问;方法仅一级提升,多层需手动转发;JSON标签不继承,每层须独立标注;深层嵌套推荐用构造函数封装。匿名嵌套才能“透出”字段,小…...

如何快速实现抖音合集批量下载:面向初学者的完整指南

如何快速实现抖音合集批量下载:面向初学者的完整指南 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…...

Krita Vision Tools:3分钟掌握AI智能选区,彻底告别手动抠图

Krita Vision Tools:3分钟掌握AI智能选区,彻底告别手动抠图 【免费下载链接】krita-vision-tools Krita plugin which adds selection tools to mask objects with a single click, or by drawing a bounding box. 项目地址: https://gitcode.com/gh_m…...