当前位置: 首页 > news >正文

【图书介绍】几本适合当教材的大数据技术图书

《Spark SQL大数据分析快速上手》

《Spark SQL大数据分析快速上手(大数据技术丛书)》(迟殿委,王泽慧,黄茵茵)【摘要 书评 试读】- 京东图书

《Spark SQL大数据分析快速上手》内容基于Spark新版本展开,符合企业目前开发需要。《Spark SQL大数据分析快速上手》全面讲解Spark SQL相关知识和实战应用,各章均提供较为丰富的案例及其详细的操作步骤,并配套示例源码、数据集、PPT课件和教学大纲。

《Spark SQL大数据分析快速上手》共10章。第1~3章为Spark SQL的基础准备部分,内容包括Spark SQL的发展和简介、Spark的典型数据容器及关系、Spark概述与环境搭建、Spark典型数据结构RDD;第4~7章为Spark SQL的基础应用部分,内容包括Spark SQL入门实战(包括Scala编程基础)、SQL基础语法、操作多数据源、Spark SQL性能调优等;第8~10章分别通过影评数据分析、商品统计数据分析、咖啡销售数据分析等3个实战项目进行巩固提升。

《R语言医学数据分析实践》

《R语言医学数据分析实践(大数据技术丛书)》(李丹,宋立桓,蔡伟祺)【摘要 书评 试读】- 京东图书

公共医学数据库的应用越来越广泛,利用这些数据库进行论文写作可以显著减少研究成本和时间。《R语言医学数据分析实践》以公共医学数据为例,讲解如何使用R语言进行数据挖掘和统计分析。《R语言医学数据分析实践》通过大量精选的实例,对统计分析方法进行了深入浅出的介绍,旨在帮助读者解决医学数据分析中遇到的实际问题。《R语言医学数据分析实践》配套提供示例源码、PPT课件、作者微信群答疑服务。

《R语言医学数据分析实践》共分为12章,内容包括R语言介绍、R语言基本语法、R语言数据清洗、R语言数据可视化、R语言统计建模分析方法、R语言机器学习实战入门、列线图在预测模型中的应用、临床数据挖掘中的生存分析、NHANES 数据库挖掘实战、GEO数据库挖掘实战、孟德尔随机化分析实战、单细胞测序实战。

《数据资产管理核心技术与应用》

《数据资产管理核心技术与应用(大数据技术丛书)》(张永清,等)【摘要 书评 试读】- 京东图书

《数据资产管理核心技术与应用》深入探讨数据资产管理的核心技术与应用,融入作者在大数据领域多年的丰富经验。《数据资产管理核心技术与应用》为读者提供一套可以落地的数据资产管理框架,并详解两个基于该框架进行数据资产管理的应用案例,使读者能更好地了解数据资产管理底层所涉及的众多核心技术,让数据可以发挥出更大的价值。《数据资产管理核心技术与应用》配套PPT课件、示例源代码、作者微信群答疑服务。

全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

《Spark入门与大数据分析实战》

《Spark入门与大数据分析实战(大数据技术丛书)》(迟殿委,李超)【摘要 书评 试读】- 京东图书

《Spark入门与大数据分析实战》基于Spark 3.3.1框架展开,系统介绍Spark生态系统各组件的操作,以及相应的大数据分析方法。《Spark入门与大数据分析实战》各章节均提供丰富的示例及其详细的操作步骤,并配套示例源码、PPT课件和教学大纲。

《Spark入门与大数据分析实战》共分11章,内容包括Scala编程基础、Spark框架全生态体验、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技术框架和应用,并通过广告点击实时大数据分析和电影影评大数据分析两个综合项目进行实战提升。

《Hive入门与大数据分析实战》

《Hive入门与大数据分析实战》(迟殿委)【摘要 书评 试读】- 京东图书

Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转换、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive能将结构化的数据文件映射为一张数据库表,并能提供SQL查询分析功能,将SQL语句转换成MapReduce任务来执行,从而实现对数据进行分析的目的。本书配套示例源码、PPT课件、教学大纲。本书可作为Hive数据仓库初学者的入门书,也可作为Hive大数据分析与大数据应用开发工程师的指导手册,还可作为高等院校或者高职高专计算机技术、人工智能、大数据技术及相关专业的教材或教学参考书。

《Hive入门与大数据分析实战》共分11章,内容包括数据仓库与Hive、Hive部署与基本操作、Hive语法基础、Hive数据定义、Hive数据操作、Hive查询、Hive函数、Hive数据压缩、Hive调优、基于Hive的网站流量分析项目实战、旅游酒店评价大数据分析项目实战。最后的两个项目实战(均包括SQL和Java编程两种解决方法)帮助读者提高Hive大数据分析的综合实战能力。

《Hadoop+Spark大数据分析实战》

《Hadoop+Spark大数据分析实战(大数据技术丛书)》(迟殿委)【摘要 书评 试读】- 京东图书

本书是Hadoop + Spark大数据分析技术入门书,基于Hadoop和Spark两大框架体系的3.2版本,以通俗易懂的方式介绍Hadoop + Spark原生态组件的原理、集群搭建、实战操作,以及整个Hadoop生态系统主流的大数据分析技术。

本书共分14章。第1章讲解Hadoop框架及新版本特性,并详细讲解大数据分析环境的搭建工作,包括Linux操作系统的安装、SSH工具使用和配置等;第2章讲解Hadoop伪分布式的安装和开发体验,使读者熟悉Hadoop大数据开发两大核心组件,即HDFS和MapReduce;第3~12章讲解Hadoop生态系统各框架HDFS、MapReduce、输入输出、Hadoop集群配置、高可用集群、HBase、Hive、数据实时处理系统Flume,以及Spark框架数据处理、机器学习等实战技术,并通过实际案例加深对各个框架的理解与应用;第13~14章分别通过影评分析、旅游酒店评价分析实战项目来贯穿大数据分析的完整流程。

《Hadoop大数据分析技术》

《Hadoop大数据分析技术(大数据技术丛书)》(迟殿委,陈鹏程)【摘要 书评 试读】- 京东图书

伴随Hadoop的成长,Hadoop不再是一个简单的数据分布式存储平台和工具,已经成长为一个完整的生态圈。本书采用Hadoop 3.2.2版本,系统讲解Hadoop生态系统主流的大数据分析技术。本书配套示例源码、PPT课件、教学大纲与编程环境。

本书共分11章。内容包括Hadoop概述与大数据环境准备、Hadoop伪分布式集群搭建、HDFS分布式存储实战、MapReduce实战、ZooKeeper与高可用集群实战、Hive数据仓库实战、HBase数据库实战、Flume数据采集实战、Kafka实战、影评大数据分析项目实战、旅游酒店评价大数据分析项目实战。

《分布式数据库HBase案例教程》

《分布式数据库HBase案例教程(大数据技术丛书)》(陈建平,陈岸青,李金湖)【摘要 书评 试读】- 京东图书

本书定位是HBase从入门到应用的简明教程,特色是以实战案例为主,内容系统全面,讲解深入浅出,操作步骤清晰明了。本书配套示例源码、PPT课件、开发环境、教学视频、习题及答案以及其他丰富的教学资源。

本书共分为8章,内容包括NoSQL数据库、HBase体系架构、HBase的接口、MapReduce与HBase、HBase表设计、HBase和Hive、HBase深入剖析、论坛日志分析实战。

本书既适合HBase初学者、大数据分析与挖掘初学者阅读,也适合作为高等院校和培训机构人工智能、大数据等相关专业师生的教学参考书。

《Spark 3.0大数据分析与挖掘:基于机器学习》

《Spark 3.0大数据分析与挖掘:基于机器学习(大数据技术丛书)》(王晓华,罗凯靖)【摘要 书评 试读】- 京东图书

Spark作为新兴的、应用范围广泛的大数据处理开源框架,吸引了大量的大数据分析与挖掘从业人员进行相关内容的学习与开发,其中ML是Spark 3.0机器学习框架使用的核心。本书用于Spark 3.0 ML大数据分析与挖掘入门,配套示例源码、PPT课件、数据集、思维导图、开发环境和作者答疑服务。

本书共分13章,从Spark 3.0大数据分析概述、基础安装和配置开始,依次介绍ML的DataFrame、ML的基本概念,以及协同过滤、线性回归、分类、决策树与随机森林、聚类、关联规则、数据降维、特征提取和转换等数据处理方法;最后通过经典的鸢尾花分析实例,回顾前面的学习内容,实现了一个完整的数据分析与挖掘过程。

《Greenplum构建实时数据仓库实践》

《Greenplum构建实时数据仓库实践(大数据技术丛书)》(王雪迎)【摘要 书评 试读】- 京东图书

Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。

本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。

《Flink入门与实战》

《Flink入门与实战/大数据技术丛书》(汪明)【摘要 书评 试读】- 京东图书

Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态的计算,广泛应用于大数据相关的实际业务场景中。本书是一本从零开始讲解Flink的入门教材,学习本书需要有Java编程基础。

本书共分10章,内容包括Flink开发环境搭建、Flink架构和原理、时间和窗口、状态管理和容错机制、数据类型与序列化、DataStream API和DataSet API、Table API和SQL、Flink并行、Flink部署与应用,最后以一个Flink实战项目为例,对Flink相关知识进行综合实践,其中涉及Web页面展示、WebSocket协议和Node.js服务等技术。

相关文章:

【图书介绍】几本适合当教材的大数据技术图书

《Spark SQL大数据分析快速上手》 《Spark SQL大数据分析快速上手(大数据技术丛书)》(迟殿委,王泽慧,黄茵茵)【摘要 书评 试读】- 京东图书 《Spark SQL大数据分析快速上手》内容基于Spark新版本展开,符合企业目前开…...

阴阳师の新手如何速刷5个SP/SSR?!(急速育成)

目标:攒5个SP/SSR式神,参与急速育成,省四个黑蛋(想要快速升级技能而且经常上场的式神在攒够5个式神前先不升级)【理论上组成:10蓝40蓝预约召唤福利20修行or抽卡】 关键点:蓝票,新手…...

unity学习4:git和SVN的使用差别

目录 1 svn 1.1 操作逻辑 1.2 对应工具 1.3 SVN避免冲突的好习惯 2 git 2.1 git的基础操作逻辑 2.1.1 commit时,提交文件之外的其他文件需要pull 2.1.2 commit时,发现要提交的本地文件和服务器的文件冲突了 2.1.3 pull 时 2.2 对应工具 2.3 …...

四大自平衡树对比:AVL树、红黑树、B树与B+树

AVL树、红黑树、B树和B树的对比与应用场景 树系列相关文章(置顶) 1、从链表到平衡树:二叉查找树的退化与优化 2、自平衡二叉查找树:如何让二叉查找树始终保持高效 3、AVL树入门:理解自平衡二叉查找树的基础 4、红黑树全…...

BUUCTF Pwn ciscn_2019_es_2 WP

1.下载 checksec 用IDA32打开 定位main函数 发现了个假的后门函数: 看看vul函数: 使用read读取 想到栈溢出 但是只有48个 只能覆盖EBP和返回地址 长度不够构造 所以使用栈迁移: 栈迁移需要用到leave ret 使用ROPgadget找地址: …...

MongoDb-mongosh-登录

本地登录 mongosh --username root --password xxx 参考:Connect to a Deployment - MongoDB Shell...

C语言day3:shell脚本

一、作业题3 使用数组求出当前目录下.sh文件的个数 二、作业题4 使用数组求家目录下文件的个数 三、思维导图...

微信小程序Uniapp

使用命令行创建项目(vuets) npx degit dcloudio/uni-preset-vue#vite-ts my-vue3-project然后用HBX打开项目 再安装依赖 npm i 再运行开发版本,生成dist目录 pnpm dev:mp-weixin 注意要设置APPid 再用微信小程序打开...

mongoTemplate的复杂组装条件查询

mongoTemplate不像SQL那么灵活,组装条件较为复杂。 如下演示了查询类似于 AND name ‘张三’ OR age 12 NOT birthday > 2024-12-31 这类结构的代码示例。 脑子里的范围图: 所有的AND锁定一个范围,再跟所有的OR组成的范围取并集&#…...

httpslocalhostindex 配置的nginx,一刷新就报404了

当你的Nginx配置导致页面刷新时报404错误时,通常是由于以下几个原因造成的: 静态文件路径配置错误:Nginx没有正确地指向静态文件的目录。前端路由问题:如果是SPA(单页应用),刷新页面时Nginx没有…...

pandas删除值全部为0的整行和整列,还有0.0,0.000000也要删除

在 Pandas 中,如果需要删除全部为 0 的行或列,可以通过 .all() 方法来判断行或列是否所有元素都为 0,然后删除这些行或列。 代码示例 示例数据: import pandas as pd# 示例数据 data {A: [0, 2, 0, 4],B: [0, 0, 0, 0],C: [0, …...

IO Virtualization with Virtio.part 1 [十二]

久等了各位! 本篇开始讲解 IO 虚拟化中的 virtio,我会以 Linux 的 IIC 驱动为例,从 IIC 驱动的非虚拟化实现,到 IIC 驱动的半虚拟化实现,再到最后 X-Hyper 中如何通过 virtio 来实现前后端联系,一步步把 v…...

ShardingSphere-Proxy分表场景:go测试案例

接续上篇文章《ShardingSphere-Proxy分表场景测试案例》 go测试用例: package mainimport ("fmt""math/rand""time""github.com/bwmarrin/snowflake""gorm.io/driver/mysql""gorm.io/gorm""gor…...

OpenStack系列第四篇:云平台基础功能与操作(Dashboard)

文章目录 1. 镜像(Image)添加镜像查看镜像删除镜像 2. 卷(Volume)创建卷查看卷删除卷 3. 网络(虚拟网络)创建网络查看网络删除网络 4. 实例类型创建实例类型查看实例类型删除实例类型 4. 密钥对&#xff08…...

ESP32 I2S音频总线学习笔记(一):初识I2S通信与配置基础

文章目录 简介为什么需要I2S?关于音频信号采样率分辨率音频声道 怎样使用I2S传输音频?位时钟BCLK字时钟WS串行数据SD I2S传输模型I2S通信格式I2S格式左对齐格式右对齐格式 i2s基本配置i2s 底层API加载I2S驱动设置I2S使用的引脚I2S读取数据I2S发送数据卸载…...

25上半年软考高级系统分析师易混淆知识点

第1章 系统工程与信息系统基础 易混淆点1:系统工程生命周期与信息系统的生命周期 1、系统工程生命周期阶段 探索性研究→概念阶段→开发阶段→生产阶段→使用阶段→保障阶段→退役阶段 2、信息系统的生命周期 产生阶段→开发阶段(单个系统开发&…...

采集JSON解析错误的修复

两段采集来的JSON格式: 一: {"hwgOnlineId":"554312", "jiwuChatId":"", "phoneCategoryId":"20006", "cuxiaoSeq":{voucherTitle:1,lh 二: {"pic":&q…...

Java中实现对象的深拷贝(Deep Copy)

在Java中实现对象的深拷贝(Deep Copy)意味着创建一个对象的副本,使得原对象和副本对象完全分离,对副本对象的任何修改都不会影响到原对象。以下是几种实现深拷贝的方法: 1. 手动实现深拷贝 对于自定义类,…...

位置编码-APE

Transformer 中的绝对位置编码 (以下由gpt 生成) Transformer 的绝对位置编码(Absolute Position Encoding, APE)是用于对序列数据中的位置信息进行建模的一种方法。在 Transformer 的架构中,输入数据(如句…...

MySQL有哪些锁?

1.MySQL有哪些锁? 全局锁表级锁 表锁元数据锁意向锁 行级锁 记录锁间隙锁临键锁临时意向锁 我了解的是MySQL的锁可以分为全局锁、表级锁、行级锁。 我比较熟悉的是表级锁和行级锁,如果我们对表结构进行修改时,MySQL就会对这个表结构加一个…...

超短脉冲激光自聚焦效应

前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...

EtherNet/IP转DeviceNet协议网关详解

一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库,而不想手动下载、编译和安装。 可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码 我们将以 fmt 这个流行的格式化库为例,演示如何: 使用 FetchContent 从 GitH…...

微信小程序云开发平台MySQL的连接方式

注:微信小程序云开发平台指的是腾讯云开发 先给结论:微信小程序云开发平台的MySQL,无法通过获取数据库连接信息的方式进行连接,连接只能通过云开发的SDK连接,具体要参考官方文档: 为什么? 因为…...

自然语言处理——循环神经网络

自然语言处理——循环神经网络 循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式 参数学习和长程依赖问题基于门控的循环神经网络门控循环单元(GRU)长短期记忆神经网络(LSTM&#xff09…...

Mac下Android Studio扫描根目录卡死问题记录

环境信息 操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象 在项目开发过程中,提示一个依赖外部头文件的cpp源文件需要同步,点…...

Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)

目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件,所以得把软件用docker打包起来,大部分功能都没问题,出了一个奇怪的事情。同样的代码,在本机上用vscode可以运行起来,但是打包之后在docker里出现了问题。使用的是dialog组件,…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中,科研绘图是必不可少的,一张好看的图形会是文章很大的加分项。 为了便于使用,本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中,获取方式: R 语言科研绘图模板 --- sciRplothttps://mp.…...