TomatoSCI分析日记:数据分析为什么用csv不用excel
其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。
1.csv更干净
csv本质是纯文本,只有你看到的数据,没有花里胡哨的单元格格式、颜色、批注等隐藏信息,不会影响分析读取。当我们把两种文件内的字体颜色改变并保存(图1A,左为excel,右为csv),再打开的时候可以看到csv依然是最简朴的形式(图1B,左为excel,右为csv)。当然这里说的字体颜色只是一个很简单的举例,在实际应用中,你可不知道别人给你的excel埋了多少雷。
2.csv结构更简单
excel文件你建多少个工作表保存的时候就保留多少工作表,csv文件无论你有几个工作表就永远只会保留第一个工作表。很多人觉得 csv 不支持多个工作表是个限制,但在数据分析视角下,它反而是一种强制的规范化。你如果工作表之间来回引用,谁又能保证导入的时候不会出问题呢。
3.csv文件可以用记事本打开
这个点大家可以看看图2自己感受一下多有用。一份人畜无害的数据(图2A),但是分析时就是不停报错,但是把excel/csv文件都翻了给遍都没找到问题,但是这个时候我们用记事本打开csv文件我们可以发现最后两列是空列(图2B),这个时候我们再回头用excel打开把最后两列空列删除即可。而excel文件用记事本打开是乱码的,这个问题就没办法排查了。
4.excel文件转csv文件
很多小伙伴图快直接把.xlsx后缀改为.csv后缀,用记事本打开也是乱码的(图3),这样的文件是不具备可用性的,初学者如果不注意这个问题的话倒腾一天也不知道问题出在哪里,非常浪费时间。正确的方法是在“文件”-“另存为”中导出为csv格式。
TomatoSCI欢迎大家来访!
相关文章:

TomatoSCI分析日记:数据分析为什么用csv不用excel
其实并不是多余,虽然看到的内容是一样的,但是相比excel文件,csv文件没这么多繁文缛节,效率更高。 1.csv更干净 csv本质是纯文本,只有你看到的数据,没有花里胡哨的单元格格式、颜色、批注等隐藏信息&#…...

HTTP协议完全指南:从请求响应到HTTPS安全机制
文章目录 一、HTTP协议中的基本概念1.HTTP协议介绍(1)协议(2)传输(3)超文本 2.统一资源定位符(URL) 二、HTTP协议中的请求和响应1.HTTP客户端请求消息(1)请求…...
[Java 基础]Java 语言的规范
代码格式 缩进:代码的层次感 怎么做: 统一使用 4 个空格进行缩进。不要用 Tab 键,因为不同的编辑器对 Tab 的显示宽度可能不一致,容易造成混乱。 大括号:清晰的代码块边界 风格: 推荐使用 K&R 风格…...
SpringBoot插件化架构的4种实现方案
在复杂业务场景下,传统的单体应用架构往往面临着功能扩展困难、代码耦合严重、迭代效率低下等问题。 插件化架构作为一种模块化设计思想的延伸,能够使系统具备更好的扩展性和灵活性,实现"热插拔"式的功能扩展。 本文将介绍Spring…...

设计模式——状态设计模式(行为型)
摘要 状态设计模式是一种行为型设计模式,核心在于允许对象在内部状态改变时改变行为。它通过状态对象封装不同行为,使状态切换灵活清晰。该模式包含环境类、抽象状态类和具体状态类等角色,具有避免大量分支判断、符合单一职责和开闭原则等特…...
CppCon 2014 学习:Lightning Talk: Writing a Python Interpreter for Fun and Profit
Lightning Talk: Writing a Python Interpreter for Fun and Profit 这段内容在讲的是 Python 的执行模型,尤其是 CPython 的工作流程。下面是逐步解析: Python 是动态类型语言(Dynamically typed) 变量类型在运行时决定。x 4…...

CTFHub-RCE 命令注入-过滤运算符
观察源代码 代码里面可以发现过滤了运算符,我们可以尝试分号; 判断是Windows还是Linux 源代码中有 ping -c 4 说明是Linux 查看有哪些文件 127.0.0.1;ls 打开flag文件 cat这个php文件 127.0.0.1;cat flag_257413168915334.php 可是发现 文本内容显示…...

【音视频】H265 NALU分析
1 H265 概述 H264 与 H265 的区别 传输码率:H264 由于算法优化,可以低于 2Mbps 的速度实现标清数字图像传送;H.265 High Profile 可实现低于 1.5Mbps 的传输带宽下,实现 1080p 全高清视频传输。 编码架构:H.265/HEVC…...

运维 vm 虚拟机ip设置
虚拟网络设置 nat 模式 网卡 主机设置网卡地址 虚拟机绑定网卡...

飞牛fnNAS存储模式RAID 5数据恢复
目录 一、添加硬盘 二、创建RAID 5 存储空间 三、上传测试文件 四、拆除硬盘 五、更换硬盘 六、修复RAID 5 七、验证其内文件 八、NAS系统崩溃后的数据盘 前文《飞牛fnNAS存储空间模式详解》 中介绍了fnNAS存储空间的几个模式,细心的网友应该能感受到,我是非常推崇R…...

论文笔记:DreamDiffusion
【初中生也能看得懂的讲解】 想象一下,我们能不能直接用“脑子想”来画画?比如你想到一只猫,电脑就能画出一只猫。这听起来是不是很酷?科学家们一直在努力实现这个“意念画画”的梦想。 以前,科学家们可能会用一种叫…...
户外摄像头监控如何兼顾安全实时监控
一、技术手段提升隐私安全性 硬件与功能设计 采用支持隐私保护技术的设备,例如带电子开关的摄像头(可远程控制摄像头启闭)3,或搭载本地AI算法的设备,仅识别人形、车辆等目标,减少无关信息采集。 使用安全…...
Neo4j 备份与恢复:原理、技术与最佳实践
在数据驱动的应用中,图数据库Neo4j承载着至关重要的关联数据。确保其数据安全与业务连续性依赖于强大的备份与恢复策略。本文将深入探讨Neo4j备份恢复的核心原理、关键技术、实用技巧及行业最佳实践,内容基于官方最新文档。 构建健壮的 Neo4j 备份恢复体…...

简单实现Ajax基础应用
Ajax不是一种技术,而是一个编程概念。HTML 和 CSS 可以组合使用来标记和设置信息样式。JavaScript 可以修改网页以动态显示,并允许用户与新信息进行交互。内置的 XMLHttpRequest 对象用于在网页上执行 Ajax,允许网站将内容加载到屏幕上而无需…...
关于 java:3. Java 常用类库与数据结构
一、String 1.1 String 是什么? public final class String implements java.io.Serializable, Comparable<String>, CharSequence特点: 是 不可变对象(immutable) 是 final 类,不能被继承 内部使用 字符数组…...

数据挖掘顶刊《IEEE Transactions on Knowledge and Data Engineering》2025年5月研究热点都有些什么?
本推文对2025年5月出版的数据挖掘领域国际顶级期刊《IEEE Transactions on Knowledge and Data Engineering》进行了分析,对收录的62篇论文的关键词与研究主题进行了汇总,并对其中的研究热点进行了深入分析,希望能为相关领域的研究人员提供有…...

LabVIEW双光子显微镜开发
基于LabVIEW 开发高性能双光子显微镜系统,聚焦于生物样本深层成像与纳米材料三维表征。实现了超快激光控制、多维数据采集与实时图像重建。系统采用飞秒激光光源与高精度振镜扫描模块,结合 LabVIEW 的 FPGA 实时控制能力,可对活体组织、荧光纳…...

WordPress 6.5版本带来的新功能
WordPress 6.5正式上线了!WordPress团队再一次为我们带来了许多新的改进。在全球开发者的共同努力下,WordPress推出了许多新的功能,本文将对其进行详细总结。 Hostease的虚拟主机现已支持一键安装最新版本的WordPress。对于想要体验WordPres…...
将材质球中的纹理属性对应的贴图保存至本地
通过Texture2D的EncodeToPNG方法将纹理转为图片形式 material.GetTexture方法通过属性名获取纹理贴图 material.SetTexture方法通过属性名设置纹理贴图 属性名可在shader代码中查看 using UnityEngine; using System.IO;public class TextureSaver : MonoBehaviour {public…...
Linux应用开发之网络套接字编程
套接字(Socket)是计算机网络数据通信的基本概念和编程接口,允许不同主机上的进程(运行中的程序)通过网络进行数据交换。它为应用层软件提供了发送和接收数据的能力,使得开发者可以在不用深入了解底层网络细…...

实现RabbitMQ多节点集群搭建
目录 引言 一、环境准备 二、利用虚拟机搭建 三、镜像集群配置 四、HAProxy实现负载均衡(主用虚拟机操作) 五、测试RabbitMQ集群搭建情况 引言 在现代分布式系统中,消息队列(Message Queue)扮演着至关重要的角色,而 RabbitMQ 作为…...

GLIDE论文阅读笔记与DDPM(Diffusion model)的原理推导
Abstract 扩散模型(Diffusion model)最近被证明可以生成高质量的合成图像,尤其是当它们与某种引导技术结合使用时,可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型,并比…...

机器学习——放回抽样
为了构建树集成模型,需要一种叫做有放回采样的技术。 以4个标记为演示,分别是红色、黄色、绿色和蓝色,用一个黑色的袋子把这四个标记的例子放进去,然后从这个袋子里有放回地抽取四次,抽出一个标记,结果是绿…...
前端内存泄漏:原理、检测与防范实践
一、什么是内存泄漏 内存泄漏(Memory Leak)是指程序中已动态分配的堆内存由于某种原因未能被释放或无法被释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果。 在前端开发中,虽然现代浏览器具备垃…...

Go的隐式接口机制
正确使用Interface 不要照使用C/Java等OOP语言中接口的方式去使用interface。 Go的Interface的抽象不仅可以用于dynamic-dispatch 在工程上、它最大的作用是:隔离实现和抽象、实现完全的dependency inversion 以及interface segregation(SOLID principle中的I和D)。…...
UE音频中间件wwise插件
虚幻引擎用wwise插件有什么用? 没有这个插件不是也能播放声音吗? 为什么要用他? 在Unreal Engine(UE)中使用 Wwise 插件,不是因为 UE 不能做声音,而是因为 Wwise 更强、更专业,适合复杂的音频需求。 🎧 …...
C++.cstring string
C.cstring string 1. C 中的字符串概述1.1 C 中字符串的两种表示方式C 中的 cstring示例代码 C 中的 string示例代码 1.2 C 中字符串的使用场景使用 cstring 的场景使用 string 的场景示例对比使用 cstring 的示例使用 string 的示例 2. C 中的 cstring2.1 cstring 的定义与基本…...
Spring AOP 和 AspectJ 有什么区别
1. 织入方式 Spring AOP: 运行时织入:Spring AOP 使用动态代理技术(如 JDK 动态代理或 CGLIB 代理)在运行时创建代理对象。 依赖 Spring 容器:仅支持 Spring 管理的 Bean。 AspectJ: 编译时织入…...

报表/报告组件(二)-实例与实现解释
上篇《报表/报告组件(一)-指标/属性组件设计》介绍了组件核心指标/属性设计,本文以实例介绍各个特性的实现和效果,实例是多个报告融合,显示所有的特性。 设计 指标/属性组件是报告/报表关键部分,上篇已介绍过,本节回顾…...
linux的实时性
Linux 的实时性取决于其内核配置和使用场景。标准 Linux 内核(非实时内核)在设计上更注重吞吐量和公平调度,而非严格的实时性。但通过以下方式可以显著提升其实时性能: 1. 标准 Linux 内核的实时性 优点: 适用于大多数…...