大数据分析入门概述
大数据分析入门概述
本文旨在为有意向学习数据分析、数据开发等大数据方向的初学者提供一个学习指南,当然如果你希望通过视频课程的方式快速入门,B站UP主戴戴戴师兄的课程质量很高,并且适合初学者快速入门。本文的目的旨在为想要了解大数据但不知道该学习什么内容的初学者介绍大数据相关的各类工具以及各项技能。
后续会按照本文提到的关键字逐条更新更详细的内容以及具体案例。
SQL
SQL(Structured Query Language)是一种标准化的编程语言,用于管理关系数据库管理系统(RDBMS),如MySQL、PostgreSQL、Oracle、SQL Server等。它主要用于执行各种数据库操作,包括数据查询、数据操作、数据定义、数据访问控制和事务管理。以下是SQL的一些核心概念和功能:
-
数据查询:使用
SELECT
语句来检索数据库中的数据。SELECT column1, column2 FROM table_name;
-
数据操作:
INSERT
:向表中插入新数据。UPDATE
:更新表中的数据。DELETE
:从表中删除数据。
INSERT INTO table_name (column1, column2) VALUES (value1, value2); UPDATE table_name SET column1 = value1 WHERE condition; DELETE FROM table_name WHERE condition;
-
数据定义:
CREATE
:创建新的数据库、表、视图或索引。ALTER
:修改现有数据库结构,如添加或删除列。DROP
:删除数据库、表、视图或索引。
CREATE TABLE table_name (column1 datatype, column2 datatype); ALTER TABLE table_name ADD column datatype; DROP TABLE table_name;
-
数据访问控制:
GRANT
:授予用户对数据库对象的特定权限。REVOKE
:撤销用户对数据库对象的权限。
GRANT SELECT ON table_name TO user; REVOKE SELECT ON table_name FROM user;
-
事务管理:
BEGIN
或START TRANSACTION
:开始一个新的事务。COMMIT
:提交当前事务,使之前的更改永久生效。ROLLBACK
:回滚当前事务,撤销之前的更改。
BEGIN; UPDATE accounts SET balance = balance - 100 WHERE id = 1; UPDATE accounts SET balance = balance + 100 WHERE id = 2; COMMIT;
-
连接:
JOIN
:将两个或多个表连接在一起,基于一个共同的字段。
SELECT customers.name, orders.total FROM customers JOIN orders ON customers.id = orders.customer_id;
-
子查询:
- 嵌套在其他查询中的查询,可以作为条件或值使用。
SELECT * FROM table_name WHERE column1 IN (SELECT column1 FROM other_table WHERE condition);
-
聚合函数:
COUNT
、SUM
、AVG
、MIN
、MAX
:对一组值执行计算。
SELECT COUNT(*), AVG(column1) FROM table_name WHERE condition;
-
分组和排序:
GROUP BY
:将结果集分成多个组,每组具有相同的值。ORDER BY
:定义返回记录的排序方式。
SELECT column1, SUM(column2) FROM table_name GROUP BY column1 ORDER BY SUM(column2) DESC;
-
视图:
- 虚拟表,其内容由SQL查询定义。
CREATE VIEW view_name AS SELECT column1, column2 FROM table_name WHERE condition;
-
存储过程:
- 一组为了执行特定任务而预编译的SQL语句。
CREATE PROCEDURE procedure_name() BEGIN-- SQL statements END;
-
触发器:
- 自动执行的SQL语句,当满足特定条件时触发。
CREATE TRIGGER trigger_name BEFORE INSERT ON table_name FOR EACH ROW BEGIN-- SQL statements END;
SQL是一种功能强大且灵活的工具,用于处理和分析存储在关系数据库中的数据。
- SQL分类:
DDL(Data Definition Language):
数据定义语言,用来定义表、列等;
如:创建数据表…创建用户也属于DDL。
DML(Data Manipulation Language):
数据操作语言,用来定义数据库记录(数据);
如:添加数据,修改数据,删除数据
DQL(Data Query Language):
数据查询语言,用来查询记录(数据)。
如:查询数据
DTL (Data Transaction Language):
数据事务语言,用来操作事务。
如:开启事务,提交事务
DCL (Data Control Language):
数据控制语言。用来操作用户和权限
如:授权。(GRANT:授予用户权限,如授予对表的查询、插入、修改等权限。
REVOKE:撤销用户已有的权限。)
Revoke from grant to
Linux
Linux是一个开源的操作系统内核,由Linus Torvalds在1991年首次发布。它遵循类Unix的设计哲学,支持多用户、多任务、多线程和网络功能。Linux内核是许多流行操作系统的核心,包括Ubuntu、Debian、Fedora、CentOS、Red Hat Enterprise Linux等。以下是Linux的一些核心概念和特性:
- 开源:Linux内核的源代码是公开的,任何人都可以查看、修改和分发。
- 多用户:Linux支持多用户同时使用系统,每个用户都有自己的账户和权限。
- 多任务:Linux可以同时运行多个程序,支持后台和前台任务。
- 多线程:Linux支持多线程编程,允许程序并行执行。
- 网络功能:Linux内置了强大的网络功能,支持各种网络协议。
- 安全性:Linux提供了多种安全机制,如SELinux、AppArmor等。
- 稳定性:Linux系统以其稳定性和可靠性而闻名。
- 灵活性:Linux提供了高度的可定制性,用户可以根据自己的需要配置系统。
- 命令行界面:Linux提供了强大的命令行界面(CLI),用户可以通过命令行执行各种操作。
- 图形用户界面:大多数Linux发行版都提供了图形用户界面(GUI),如GNOME、KDE Plasma、XFCE等。
- 软件包管理:Linux有成熟的软件包管理系统,如APT、YUM、DNF等,方便用户安装、更新和卸载软件。
- 文件系统:Linux支持多种文件系统,如ext4、XFS、Btrfs、NTFS等。
- 设备驱动程序:Linux有广泛的硬件支持,通过设备驱动程序与硬件交互。
- 进程管理:Linux提供了丰富的工具来管理进程,如
ps
、top
、htop
、kill
等。 - 权限管理:Linux使用基于用户的权限管理系统,包括用户、组和权限。
- 脚本编程:Linux支持多种脚本语言,如Bash、Perl、Python等。
- 服务和守护进程:Linux可以运行各种服务和守护进程,如Web服务器、数据库服务器等。
- 日志管理:Linux提供了日志管理工具,如
syslog
、journald
等,用于记录系统和应用程序的日志。 - 虚拟化:Linux支持虚拟化技术,可以作为虚拟机的宿主机或客户机。
- 容器技术:Linux支持容器技术,如Docker,用于隔离和部署应用程序。
以下是一些常用的Linux命令:
ls
:列出目录内容cd
:改变当前目录pwd
:显示当前目录mkdir
:创建新目录rmdir
:删除空目录rm
:删除文件或目录cp
:复制文件或目录mv
:移动或重命名文件chmod
:改变文件权限chown
:改变文件所有者useradd
:添加新用户usermod
:修改用户信息userdel
:删除用户groupadd
:添加新组groupmod
:修改组信息groupdel
:删除组passwd
:修改用户密码grep
:搜索文本find
:查找文件tar
:打包和压缩文件wget
:下载文件curl
:传输数据ssh
:远程登录scp
:安全复制文件vi
或vim
:文本编辑器nano
:文本编辑器top
:显示进程信息htop
:显示进程信息(增强版)ps
:显示当前进程kill
:终止进程systemctl
:管理系统服务
Python
Python是一种广泛使用的高级编程语言,它以其可读性强、简洁明了的语法和强大的功能而闻名。Python由Guido van Rossum创建,并在1991年首次发布。以下是Python的一些核心特性和概念:
- 解释型语言:Python代码在运行时会被解释器逐行执行,不需要编译成机器码。
- 动态类型:Python在运行时确定变量的类型,不需要事先声明变量的类型。
- 内存管理:Python有自动内存管理和垃圾回收机制。
- 可移植性:Python代码可以在多种操作系统上运行,如Windows、Linux、macOS等。
- 面向对象:Python支持面向对象编程,允许定义类和对象。
- 丰富的标准库:Python有一个庞大的标准库,提供了各种内置模块和函数,用于文件操作、系统调用、网络通信等。
- 广泛的第三方库:Python有一个活跃的社区,提供了大量的第三方库,如NumPy、Pandas、Django等。
- 交互式解释器:Python提供了一个交互式解释器,可以用于测试和快速原型开发。
- 代码可读性:Python的语法清晰,易于阅读和理解。
- 跨平台:Python代码可以在不同的操作系统和平台上运行,而不需要修改。
- 多范式编程:Python支持多种编程范式,包括面向对象、命令式、函数式和过程式编程。
- 异常处理:Python提供了强大的异常处理机制,可以捕获和处理程序中的错误。
- 装饰器:Python支持装饰器,这是一种特殊类型的函数,用于修改其他函数的行为。
- 生成器:Python提供了生成器,这是一种迭代器,可以惰性地生成值。
- 列表推导式:Python支持列表推导式,这是一种简洁的构建列表的方法。
- Lambda函数:Python支持匿名函数,也称为Lambda函数。
- 虚拟环境:Python支持虚拟环境,用于隔离项目依赖。
- 单元测试:Python内置了
unittest
模块,用于编写和运行单元测试。 - Web框架:Python有许多Web开发框架,如Django、Flask等。
- 科学计算:Python在科学计算和数据分析领域非常流行,有许多相关的库,如SciPy、NumPy、Pandas等。
以下是一些Python的基本语法示例:
-
变量赋值:
python
x = 5 name = "Kimi"
-
数据类型:
python
# 整数 num = 10 # 浮点数 float_num = 10.5 # 字符串 greeting = "Hello, World!" # 列表 my_list = [1, 2, 3] # 字典 my_dict = {"name": "Kimi", "age": 30}
-
控制流:
python
if x > 0:print("Positive number") elif x == 0:print("Zero") else:print("Negative number")for i in range(5):print(i)while x < 10:x += 1
-
函数定义:
python
def greet(name):print(f"Hello, {name}!")greet("Kimi")
-
类和对象:
python
class Dog:def __init__(self, name, age):self.name = nameself.age = agedef bark(self):print("Woof!")my_dog = Dog("Buddy", 3) my_dog.bark()
-
错误和异常处理:
python
try:result = 10 / 0 except ZeroDivisionError:print("You can't divide by zero!")
-
列表推导式:
python
squares = [x**2 for x in range(10)]
-
Lambda函数:
python复制
add = lambda x, y: x + y print(add(5, 3))
BI
商业智能(Business Intelligence,简称BI)是一种数据分析过程,它通过数据仓库、查询报表、数据分析、数据挖掘、数据备份和恢复等组成部分,使企业中的各级决策者获得知识或洞察力(insight),从而做出对企业更有利的决策。
BI的核心价值和功能包括:
- 数据仓库:集成来自不同来源的数据,并为企业提供一个统一的、干净的、集成的数据源。
- 在线分析处理(OLAP):提供多维数据分析,允许用户从多个角度审视数据。
- 数据挖掘:使用统计分析和机器学习技术来发现数据中的模式和趋势。
- 数据可视化:将数据以图形和图表的形式展现出来,提高数据的可读性和易理解性。
- 报告和仪表板:提供预定义的报告和动态仪表板,帮助用户监控关键业务指标。
BI的应用场景广泛,包括但不限于:
- 销售分析:分析销售数据,预测销售趋势,优化销售策略。
- 客户分析:理解客户行为,提升客户满意度和忠诚度。
- 财务分析:监控财务状况,优化资金流,降低成本。
- 供应链管理:优化库存管理,提高物流效率。
BI工具的发展: 随着技术的发展,BI工具也在不断进化。现代BI工具如Tableau、Power BI、Qlik等,提供了更直观的用户界面、自助服务分析、增强的数据分析能力和移动访问支持。例如,HelloFresh通过集中式数字营销报告来提高转化率,通过自动执行报告流程,每天为营销分析团队减轻10-20小时的工作量。
BI的未来趋势:
- AI增强:BI工具将越来越多地集成人工智能技术,以提供更深入的洞察和预测。
- 云服务:随着云计算的普及,BI即服务(BIaaS)将成为主流,提供更灵活的访问和扩展性。
- 嵌入式BI:BI功能将被嵌入到各种业务应用中,使分析更加贴近业务流程。
- 数据可视化和交互性:随着用户对数据的直观理解需求增加,数据可视化和交互性将成为BI工具的关键特性。
中国市场的BI发展: 中国商业智能市场正在迅速增长,预计到2026年市场规模将达到20.2亿元人民币。政策支持、技术进步和企业数字化转型需求是推动这一增长的主要因素。中国BI市场的主要竞争者包括帆软、微软、SAP等。
BI的挑战和机遇: 尽管BI提供了巨大的潜力,但在实施过程中也面临挑战,如数据质量、数据安全、用户接受度等。然而,随着企业对数据驱动决策的需求增加,BI的重要性也在不断提升,为企业提供竞争优势和增长机会
Hdfs & Hive
HDFS(Hadoop Distributed File System)
HDFS是Hadoop项目的核心组件,是一个分布式文件系统,专门设计用于处理存储在成百上千台服务器上的PB级数据。HDFS的设计具有高容错性,并且为了在低成本硬件上运行而优化。它提供高吞吐量的数据访问,非常适合于具有大型数据集的应用程序。
HDFS的架构:
- NameNode:管理文件系统的命名空间和客户端对文件的访问。它维护文件系统的元数据,包括文件到数据块的映射以及数据块的副本存放位置。
- DataNode:负责存储实际的数据块。DataNode与NameNode通信,执行数据块的创建、删除和复制操作。
- SecondaryNameNode:辅助NameNode,定期合并编辑日志和文件系统映像,以防NameNode故障。
HDFS的优点:
- 高容错性
- 流式数据访问
- 支持超大文件
- 高数据吞吐量
HDFS的缺点:
- 高延迟
- 不适合小文件存取
- 不适合并发写入
HDFS的读写流程:
- 写操作:客户端将文件切分成多个数据块,依次上传到不同的DataNode上。
- 读操作:客户端从NameNode获取数据块的位置信息,然后从DataNode上读取数据。
Hive
Hive是建立在Hadoop之上的数据仓库工具,它提供了类似于SQL的查询语言(HiveQL),使得用户可以使用SQL语句来查询和管理存储在HDFS上的大规模数据集。Hive将这些查询转化为MapReduce任务在Hadoop集群上执行。
Hive的架构:
- 元数据存储:Hive的元数据通常存储在关系型数据库中,如MySQL或Derby。
- Hive Server:处理客户端请求,执行HiveQL查询。
- 驱动器:负责将HiveQL语句转化为MapReduce任务。
Hive的优点:
- 易于使用:提供了SQL接口。
- 兼容性:支持标准SQL。
- 扩展性:支持用户自定义函数。
- 与Hadoop生态系统的集成。
Hive的缺点:
- 延迟高:不适合实时查询。
- 表达能力有限:复杂的查询逻辑需要MapReduce支持。
Hive的应用场景:
- 数据分析
- 数据仓库
- ETL(Extract, Transform, Load)
Hive和HDFS经常一起使用,Hive用于查询和分析存储在HDFS上的数据。而HBase则是另一种基于Hadoop的NoSQL数据库,适合于存储非结构化和半结构化数据,提供快速的随机读写能力
ETL
ETL(Extract, Transform, Load)是一种数据集成过程,用于将分散在不同来源的数据整合到一个中央存储库中,如数据仓库或数据湖。这个过程对于数据清洗、转换、增强、以及最终的分析和报告至关重要。
ETL的工作流程通常包括以下三个主要步骤:
- 提取(Extract):从不同的数据源(如关系数据库、文件、Web服务、消息队列等)中提取数据。这些数据可能以结构化或非结构化的形式存在 。
- 转换(Transform):对提取的数据进行清洗、转换和整合,以适应目标系统的数据结构和格式。这个过程可能包括数据清洗、数据规范化、数据合并、数据拆分、数据转换和数据聚合等操作 。
- 加载(Load):将转换后的数据加载到目标系统中,如数据仓库、数据集市或关系数据库等 。
ETL的应用场景非常广泛,包括但不限于:
- 数据仓库构建:从不同数据源提取数据,进行清洗、转换和加载,最终构建数据仓库 。
- 数据集成:整合来自多个不同系统和部门的数据,形成一个完整的数据集 。
- 数据清洗和转换:在数据抽取和加载的过程中对数据进行清洗和转换,提高数据准确性和可靠性 。
- 数据迁移:将数据从一个系统迁移到另一个系统,确保数据的完整性和一致性 。
- 数据分析和报表:对清洗和转换后的数据进行进一步的分析和挖掘,生成可视化的报表和图表 。
随着技术的发展,ETL也在逐渐演变。现代ETL工具更加复杂,能够处理更多类型的数据源和格式,并且与云技术紧密结合。例如,AWS提供了完全托管的ETL服务AWS Glue,它专为大数据和分析工作负载而设计,可以简化ETL过程,并与AWS生态系统集成 。
此外,随着数据量、速度和种类的增长,传统的ETL方法正面临挑战,如实时数据需求、非结构化数据挑战、云技术进步、可扩展性和灵活性、数据的多样性和复杂性等 。为了应对这些挑战,ETL的未来趋势包括数据集成与编排、ETL中的自动化和人工智能、实时ETL处理、云原生ETL、数据治理与安全,以及自助ETL等 。
在工具方面,市场上有许多优秀的ETL工具,包括但不限于IBM DataStage、Oracle Data Integrator、Talend、Informatica PowerCenter、Pentaho、AWS Glue、Azure Data Factory、Google Cloud Dataflow等,它们提供了丰富的功能来支持ETL过程 。
SQL优化
SQL优化是数据库管理中的一个重要环节,它可以显著提升查询效率和数据库性能。以下是SQL优化过程中的一些关键步骤和技巧:
- 分析查询性能:使用
EXPLAIN
或其他数据库提供的工具来分析查询的执行计划,找出性能瓶颈。 - 优化索引:
- 确保索引列的选择能够很好地支持查询条件,遵循最左前缀法则 。
- 避免过度索引,索引虽好,但不是越多越好,因为索引虽然可以加快查询速度,但会减慢更新速度,并且占用额外的磁盘空间 。
- 重写查询语句:
- 避免使用
SELECT *
,只获取必要的列 。 - 使用
JOIN
代替子查询,以减少数据库的查询次数 。 - 使用
IN
代替OR
来过滤多个值,这样通常能够利用索引 。
- 避免使用
- 优化数据类型:
- 选择最合适的数据类型,避免冗余和浪费,比如使用
VARCHAR
代替CHAR
,使用更小的整数类型如SMALLINT
或MEDIUMINT
。
- 选择最合适的数据类型,避免冗余和浪费,比如使用
- 使用临时表:
- 对于复杂的查询,可以使用临时表存储中间结果,以简化查询并提高性能 。
- 避免函数和运算符:
- 在
WHERE
子句中避免对列使用函数,因为这会导致索引失效 。
- 在
- 利用覆盖索引:
- 尽可能使用覆盖索引,即索引中包含查询所需的所有列,这样可以避免回表查询,提高效率 。
- 优化分组和排序:
- 当使用
GROUP BY
或ORDER BY
时,确保对应的列上有索引,并且尽量使用索引的有序性 。
- 当使用
- 分页查询优化:
- 对于分页查询,尤其是页数较大的情况,可以通过记住上一页的最大ID来避免深分页导致的性能问题 。
- 使用批处理:
- 批量插入和更新可以减少数据库的I/O次数,从而提高性能 。
- 避免全表扫描:
- 确保查询能够利用索引,避免不必要的全表扫描。
- 使用分区技术:
- 对于大型表,可以使用分区技术来提高查询效率,例如按日期范围分区 。
- 监控和维护:
- 定期监控查询性能,并根据实际情况调整索引和查询语句。
- 利用数据库特定的优化特性:
- 比如MySQL的索引合并、索引下推等特性 。
相关文章:

大数据分析入门概述
大数据分析入门概述 本文旨在为有意向学习数据分析、数据开发等大数据方向的初学者提供一个学习指南,当然如果你希望通过视频课程的方式快速入门,B站UP主戴戴戴师兄的课程质量很高,并且适合初学者快速入门。本文的目的旨在为想要了解大数据但…...

提示工程、微调和 RAG
自众多大型语言模型(LLM)和高级对话模型发布以来,人们已经运用了各种技术来从这些 AI 系统中提取所需的输出。其中一些方法会改变模型的行为来更好地贴近我们的期望,而另一些方法则侧重于增强我们查询 LLM 的方式,以提…...

自动化测试中如何高效进行元素定位!
前言 在自动化测试中,元素定位是一项非常重要的工作。良好的元素定位可以帮助测试人员处理大量的测试用例,加快测试进度,降低工作负担。但是在实际的测试工作中,我们常常遇到各种各样的定位问题,比如元素定位失败、元…...

UE5数字人制作平台使用及3D模型生成
第10章 数字人制作平台使用及3D模型生成 在数字娱乐、虚拟现实(VR)、增强现实(AR)等领域,高质量的3D模型是数字内容创作的核心。本章将引导你了解如何使用UE5(Unreal Engine 5)虚幻引擎这一强大…...

Linux进程被占用如何杀死进程
文章目录 前言一、根据名称进行查找程序所占用的端口号二、杀死进程总结 前言 由于Linux中,校园网登录的时候容易出现端口被占用,如何快速查找程序所占用的端口号。 提示:以下是本篇文章正文内容,下面案例可供参考 一、根据名称…...

详解Xilinx JESD204B PHY层端口信号含义及动态切换线速率(JESD204B五)
点击进入高速收发器系列文章导航界面 Xilinx官方提供了两个用于开发JESD204B的IP,其中一个完成PHY层设计,另一个完成传输层的逻辑,两个IP必须一起使用才能正常工作。 7系列FPGA只能使用最多12通道的JESD204B协议,线速率为1.0至12.…...

Java面试——场景题
1.如何分批处理数据? 1.使用LIMIT和OFFSET子句: 这是最常用的分批查询方法。例如,你可以使用以下SQL语句来分批查询数据: SELECT * FROM your_table LIMIT 1000 OFFSET 0; 分批查询到的数据在后端进行处理,达到分批…...

xss-labs靶场第一关测试报告
目录 一、测试环境 1、系统环境 2、使用工具/软件 二、测试目的 三、操作过程 1、注入点寻找 2、使用hackbar进行payload测试 3、绕过结果 四、源代码分析 五、结论 一、测试环境 1、系统环境 渗透机:本机(127.0.0.1) 靶 机:本机(127.0.0.…...

微软PowerBI认证!数据分析师入门级证书备考攻略来啦
#微软PowerBI认证!数据分析师入门级证书! 😃Power BI是一种强大的数据可视化和分析工具,学习Power BI,能提高数据的分析能力,将数据转化为有意义的见解,并支持数据驱动的决策制定。 ㅤ ✨微软P…...

上海AI Lab视频生成大模型书生.筑梦环境搭建推理测试
引子 最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。 一、模…...

3D看车如何实现?有哪些功能特点和优势?
3D看车是一种创新的汽车展示方式,它利用三维建模和虚拟现实技术,将汽车以更真实、更立体的形式呈现在消费者面前。 一、3D看车的实现方式 1、三维建模: 通过三维建模技术,按照1:1的比例还原汽车外观,包括车身线条、细…...

Pytorch中不会自动传播梯度的操作有哪些?
在 PyTorch 中,某些生成张量的操作本身不会创建与计算图相关联的梯度信息。这些操作通常用于初始化张量,并且默认情况下不需要进行梯度计算。以下是一些常见的不会自动传播梯度的张量生成操作: 数值初始化操作: torch.linspace():…...

【设计模式】软件设计原则——开闭原则里氏替换单一职责
开闭原则内容引出 开闭原则 定义:一个软件实体,类,函数,模块;对扩展开放,对修改关闭。用抽象构建框架,用实现扩展细节。可以提高软件的可复用性和可维护性。 开发新功能时,尽量不修…...

项目完整开发的流程
流程 1.设计产品 2.写需求文档 2.1需求分析,后端设计数据库,建表,客户沟通,说完签字,留证据,防止后面扯皮,和防止后续变需求重新写业务 3.画原型图,也就是草图,初始的…...

性能测试学习6:jmeter安装与基本配置/元件/线程组介绍
一.JDK安装 官网:https://www.oracle.com/ 二.Jmeter安装 官网:http://jmeter.apache.org/download_jmeter.cgi 下载zip包,zip后缀那个才是Windows系统的jmeter 三.Jmeter工作目录介绍 四.Jmeter功能 1)修改默认配置-汉化 2&am…...

大数据ETL数据提取转换和加载处理
什么是 ETL? 提取转换加载(英语:Extract, transform, load,简称ETL),用来描述将资料从来源端经过抽取、转置、加载至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 ETL&…...

物理与环境安全技术
目录 物理安全 环境安全 物理安全 物理安全是指通过实施一系列的防护措施,以保护人员、设备、设施和信息资源免受物理上的威胁、损坏或非法入侵。 访问控制:限制对数据中心、机房等关键设施的物理访问。通常采用的措施有门禁系统(使用门禁…...

手把手教你如何配置好VS Code的WEB基础开发环境(保姆级)
1. VS Code介绍 微软旗下的多场景开发环境软件,支持JAVA、C、C#、C、WEB、VUE、CSS、HTML、Python等等等 如果你刚刚开始编程或者准备学习WEB,那么我强烈建议你使用这款软件 缺点:(针对初学者) 需要安装各种各样的插…...

高性能、编译器编写语言、编程语言的高低贵贱
高性能 高性能是一个通用名词,可在服务器、客户端甚至浏览器实现高性能。对于大型网站、服务器后端、游戏后端,高性能是一个不可绕过的槛。 高性能技术 池机制 静态分配:就像编译型语言对代码的预处理,不像解释型语言动态解析。可…...

Python安装库时使用国内源pip install -i
普通 安装方式会从国外站点下载, 首先是慢,再有可能会下载失败 所以一般指定国内源 示例 正常情况下,安装pandas这个模块 pip install pandas指定源命令如下: pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pan…...

Linux 再入门整理:详解 /etc/fstab 文件
目录 1. 什么是 /etc/fstab2. /etc/fstab 文件的格式2.1 设备文件 (Device)2.2 挂载点 (Mount Point)2.3 文件系统类型 (File System Type)2.4 挂载选项 (Mount Options)2.5 Backup Operation(dump 参数)2.6 Pass Order (fsck 参数)2.6.1 参数设置2.6.2 …...

2.8 双绞线、同轴电缆、光纤与无线传输介质
传输介质及分类 传输介质也称为传输媒体,它是发送设备和接收设备之间的物理通路。 传输介质可分为导向传输介质和非导向传输介质。在导向传输介质中,电磁波被导向沿着固体媒介(铜线或光纤)传播,而非导向传输介质可以…...

OBOO鸥柏:布局于为无人机展厅行产业提供LCD液晶显示终端
新华网快讯,于10月9日消息,有投资者在互动平台向OBOO鸥柏公司提问:您好!目前有哪些工业/商用显示产品应用于无人机展厅展馆场景?能否着重介绍下贵司屏幕主要应用哪些品牌无人机数字化展厅展馆做保障? 鸥柏…...

win10状态栏中 “音量” 符号丢失,而在“打开或关闭系统图标”中音量开关无法调节的解决方法
最近在使用电脑需要调节音量时,突然发现电脑右下角的音量图标不见了,在网上搜索了,测试了许多种方法,都没有解决这个问题。 后面想想,使用其他途径,或许可以解决了我的这个问题,终于功夫不负有心…...

Mysql 学习——项目实战
MySQL 学习——项目实战 项目出处 博主:Asmywishi Linux-Ubuntu启动Mysql sudo mysqlData preparation Create Database and Table Create database : create database mysql_example1;Start database : use mysql_example1;Create Student table : # 学生表…...

Springboot 整合 logback 日志框架
文章目录 整合 Logback 日志框架第一步:导入依赖第二步:导入配置(logback.xml)详解 使用(记录日志) 遇到问题一解决方案 整合 Logback 日志框架 第一步:导入依赖 (Springboot 会自己…...

Hugging face简要介绍
1.注册使用huggingface 2.在Datasets下可以查看数据集 3.在Models下可以查看模型,左侧是对模型的分类 4.官方文档查看https://huggingface.co/docs 5.主要模型: 自回归:GPT、Transformer-XL、XLNet 自编码:BERT、ALBERT、RoBERT…...

A股知识答题pk小程序怎么做?
A股知识答题pk小程序怎么做?以下是制作A股知识答题PK小程序的一般步骤: 一、 需求分析与规划: 明确目标:确定小程序的主要目标,比如是为了帮助用户学习A股知识、进行趣味竞赛,还是作为金融教育工具等。 …...

单细胞转录组 —— kb-python 原始数据处理
单细胞转录组 —— kb-python 原始数据处理 前言 kallisto|bustools 是一种用于预处理 scRNA-seq 数据的工作流程。 数据预处理步骤包括: 将 reads 与其来源细胞关联起来;根据唯一分子标识符(UMI)对 reads 进行去重࿱…...
全同态加密算法概览
我们前面有谈到《Paillier半同态加密算法》,半同态加密算法除了支持密文加法运算的 Paillier 算法,还有支持密文乘法计算的 RSA 算法,早期的PSI(隐私求交)和PIR(匿踪查询)都有使用基于RSA盲签名技术来实现。今天我们来谈谈能够有效支持任意函…...