当前位置：首页 > article >正文

大数据学习之SparkStreaming、PB级百战出行网约车项目一

article 2026/4/26 19:23:26

一.SparkStreaming

163.SparkStreaming概述

Spark Streaming is an extension of the core Spark API that

enables scalable, high-throughput, fault-tolerant stream

processing of live data streams.

Spark Streaming 是核心 Spark API 的扩展，支持实时数据流的

可扩展、高吞吐量、容错流处理。

Spark Streaming 用于流式数据的处理。 Spark Streaming 支持

的数据输入源很多，例如： Kafka 、 Flume 、 HDFS 、 Kinesis 和 TCP

套接字等等。数据输入后可以用 Spark 的高级函数（如 map 、

reduce 、 join 和 window 等进行运算。而结果也能保存在很多地方，

如 HDFS ，数据库和实时仪表板等。还可以可以在数据流上应用

Spark 的机器学习和图形处理算法。

Spark Streaming 接收实时输入数据流，并将数据分为多个批

次，然后由 Spark 引擎进行处理，以批量生成最终结果流。在内部，

它的工作原理如下：

164.SparkStreaming_架构

背压机制 ( 了解 ) Spark 1.5 以前版本，用户如果要限制 Receiver 的数据接收速

率，可以通过设置静态配制参数

“spark.streaming.receiver.maxRate” 的值来实现，此举虽然可以通

过限制接收速率，来适配当前的处理能力，防止内存溢出，但也会

引入其它问题。比如： producer 数据生产高于 maxRate ，当前集群

处理能力也高于 maxRate ，这就会造成资源利用率下降等问题。

为了更好的协调数据接收速率与资源处理能力， 1.5 版本开始

Spark Streaming 可以动态控制数据接收速率来适配集群数据处理

能力。背压机制（即 Spark Streaming Backpressure ） : 根据

JobScheduler 反馈作业的执行信息来动态调整 Receiver 数据接收

率。

通过属性 “spark.streaming.backpressure.enabled” 来控制是

否启用 backpressure 机制，默认值 false ，即不启用。

165.SparkStreaming_创建项目

<groupId> org.apache.spark </groupId>

<artifactId> spark-core_2.12 </artifactId>

</dependency>

<groupId> org.apache.spark </groupId>

<artifactId> spark

streaming_2.12 </artifactId>

</dependency>

166.SparkStreaming_WORDCOUNT

package com . itbaizhan . streaming

import org . apache . spark . SparkConf

import org . apache . spark . streaming . dstream .

{ DStream , ReceiverInputDStream }

import org . apache . spark . streaming .{ Seconds ,

StreamingContext }

object StreamingWordCount {

def main ( args : Array [ String ]): Unit = {

//1. 初始化 SparkConf 类的对象

val conf : SparkConf = new SparkConf ()

. setMaster ( "local[*]" )

. setAppName ( "StreamingWordCount" )

//2. 创建 StreamingContext 对象

val ssc = new StreamingContext ( conf ,

Seconds ( 5 ))

//3. 通过监控 node1 的 9999 端口创建 DStream 对象

val lines : ReceiverInputDStream [ String ]

7 测试

在 node1 上

在 IDEA 中运行程序

在 node1 上

查看 IDEA 控制台

ssc . socketTextStream ( "node1" , 9999 )

//4. 将每一行数据做切分，形成一个个单词

val wordsDS : DStream [ String ] =

lines . flatMap ( _ . split ( " " ))

//5.word=>(word,1)

val wordOne : DStream [( String , Int )] =

wordsDS . map (( _ , 1 ))

//6. 将相同的 key 的 value 做聚合加

val wordCount : DStream [( String , Int )] =

wordOne . reduceByKey ( _ + _ )

//7. 打印输出

wordCount . print ()

//8. 启动

ssc . start ()

//9. 等待执行停止

ssc . awaitTermination ()

}

167.SparkStreaming_数据抽象

168.SparkStreaming_RDD队列创建DSTREAM

169.SparkStreaming_自定义数据源一

需求：自定义数据源，实现监控指定的端口号，获取该端口号

内容。

需要继承 Receiver ，并实现 onStart 、 onStop 方法来自定义数据源采集。

package com . itbaizhan . streaming

import org . apache . spark . storage . StorageLevel

import

org . apache . spark . streaming . receiver . Receiver

import java . io .{ BufferedReader ,

InputStreamReader }

import java . net . Socket

import java . nio . charset . StandardCharsets

13 class ReceiverCustomer ( host : String , port :

Int ) extends Receiver [ String ]

( StorageLevel . MEMORY_ONLY ) {

// 最初启动的时候，调用该方法

// 作用：读数据并将数据发送给 Spark

override def onStart (): Unit = {

new Thread ( "Socket Receiver" ) {

override def run () {

receive ()

}

}. start ()

}

override def onStop (): Unit = {}

// 读数据并将数据发送给 Spark

def receive (): Unit = {

// 创建一个 Socket

var socket : Socket = new Socket ( host ,

port )

// 定义一个变量，用来接收端口传过来的数据

var input : String = null

// 创建一个 BufferedReader 用于读取端口传来的数

据

val reader = new BufferedReader ( new

InputStreamReader ( socket . getInputStream ,

StandardCharsets . UTF_8 ))

// 读取数据

input = reader . readLine ()

// 当 receiver 没有关闭并且输入数据不为空，则循环

发送数据给 Spark

while ( ! isStopped () && input != null ) {

store ( input )

input = reader . readLine ()

14 使用自定义的数据源采集数据

}

// 跳出循环则关闭资源

reader . close ()

socket . close ()

// 重启任务

restart ( "restart" )

}

170.SparkStreaming_自定义数据源二

package com . itbaizhan . streaming

import org . apache . spark . SparkConf

import org . apache . spark . streaming .{ Seconds ,

StreamingContext }

object CustomerSource {

def main ( args : Array [ String ]): Unit = {

//1. 初始化 Spark 配置信息

val sparkConf = new SparkConf ()

. setMaster ( "local[*]" )

. setAppName ( "CustomerSource" )

//2. 初始化

val ssc = new

StreamingContext ( sparkConf , Seconds ( 5 ))

//3. 创建自定义 receiver 的 Streaming

val lines = ssc . receiverStream ( new

ReceiverCustomer ( "node1" , 9999 ))

lines . print ()

//4. 启动

ssc . start ()

ssc . awaitTermination ()

15 测试

在 node1 上

在 IDEA 中运行程序

在 node1 上

查看 IDEA 控制台

实时效果反馈

1. 关于 SparkStreaming 接收器自定义数据源的描述，错误的

是：

需要继承 Receiver ，并实现 onStart 、 onStop 方法来自定义

数据源采集。

Xxx extends Receiver[String](StorageLevel.MEMORY_ONLY)

接收到数据仅保存在

内存中。

onStart()

最初启动的时候，调用该方法；作用是读数据并将数

据发给 Spark 。

onStop()

不能空实现。

答案：

1=>D 可以空实现

SparkStreaming_DStream 无状态转换

}

[root@node1 ~] # nc -lk 9999

171.SparkStreaming_DSTREAM无状态转换

172.SparkStreaming_DSTREAM无状态转换transform

173.SparkStreaming_DSTREAM有状态转换

174.SparkStreaming_窗口操作reducebykeyandwidow概述

//reduceFunc– 结合和交换 reduce 函数

//windowDuration– 窗口长度；必须是此数据流批处理间

隔的倍数

//slideDuration– 窗口的滑动间隔 , 即新数据流生成 RDD

的间隔

def reduceByKeyAndWindow (

reduceFunc : ( V , V ) => V ,

windowDuration : Duration ,

slideDuration : Duration

): DStream [( K , V )] = ssc . withScope {

//partitioner– 用于控制新数据流中每个 RDD 分区的

分区器

reduceByKeyAndWindow ( reduceFunc ,

windowDuration , slideDuration ,

defaultPartitioner ())

}

175.SparkStreaming_窗口操作reducebykeyandwidow实战

176.SparkStreaming_窗口操作reducebykeyandwidow优化

177.SparkStreaming_窗口操作WINDOW

178.SparkStreaming_输出

179.SparkStreaming_优雅关闭一

流式任务需要 7*24 小时执行，但是有时涉及到升级代码需要主

动停止程序，但是分布式程序，没办法做到一个个进程去杀死，所

以配置优雅的关闭就显得至关重要了。使用外部文件系统来控制内

部程序关闭。

package com . itbaizhan . streaming

import org . apache . spark . SparkConf

import

org . apache . spark . streaming . dstream . ReceiverI

nputDStream

import org . apache . spark . streaming .{ Seconds ,

StreamingContext }

object StreamingStopDemo {

def createSSC (): StreamingContext = {

val sparkConf : SparkConf = new

SparkConf (). setMaster ( "local[*]" ). setAppName

( "StreamingStop" )

// 设置优雅的关闭

sparkConf . set ( "spark.streaming.stopGraceful

lyOnShutdown" , "true" )

val ssc = new

StreamingContext ( sparkConf , Seconds ( 5 ))

ssc . checkpoint ( "./ckp" )

ssc

}

def main ( args : Array [ String ]): Unit = {

val ssc : StreamingContext =

StreamingContext . getActiveOrCreate ( "./ckp" ,

() => createSSC ())

new Thread ( new

StreamingStop ( ssc )). start ()

val line : ReceiverInputDStream [ String ] =

ssc . socketTextStream ( "node1" , 9999 )

line . print ()

ssc . start ()

ssc . awaitTermination ()

}

package com . itbaizhan . streaming

import org . apache . hadoop . conf . Configuration

import org . apache . hadoop . fs .{ FileSystem ,

Path }

import org . apache . spark . streaming .

{ StreamingContext , StreamingContextState }

import java . net . URI

class StreamingStop ( ssc : StreamingContext )

extends Runnable {

override def run (): Unit = {

val fs : FileSystem = FileSystem . get ( new

URI ( "hdfs://node2:9820" ),

new Configuration (), "root" )

35 测试

启动 hadoop 集群

在 node1 上： nc -lk 9999

运行程序

在 node2 ：

在 node1 上：

while ( true ) {

try

Thread . sleep ( 5000 )

catch {

case e : InterruptedException =>

e . printStackTrace ()

}

val state : StreamingContextState =

ssc . getState

if ( state ==

StreamingContextState . ACTIVE ) {

val bool : Boolean = fs . exists ( new

Path ( "hdfs://node2:9820/stopSpark" ))

if ( bool ) {

ssc . stop ( stopSparkContext = true ,

stopGracefully = true )

System . exit ( 0 )

}

180.SparkStreaming_优雅关闭二

181.SparkStreaming_优雅关闭测试

182.SparkStreaming_整合KAFKA模式

183.SparkStreaming_整合kafka开发一

导入依赖：

代码编写：

<groupId> org.apache.spark </groupId>

<artifactId> spark-streaming-kafka-0-

10_2.12 </artifactId>

</dependency>

<groupId> com.fasterxml.jackson.core </groupI

<artifactId> jackson-core </artifactId>

</dependency>

package com . itbaizhan . streaming

import org . apache . kafka . clients . consumer .

{ ConsumerConfig , ConsumerRecord }

import org . apache . spark . SparkConf

import org . apache . spark . streaming . dstream .

{ DStream , InputDStream }

40 import org . apache . spark . streaming . kafka010 .

{ ConsumerStrategies , KafkaUtils ,

LocationStrategies }

import org . apache . spark . streaming .{ Seconds ,

StreamingContext }

object DirectAPIDemo {

def main ( args : Array [ String ]): Unit = {

//1. 创建 SparkConf

val sparkConf : SparkConf = new

SparkConf ()

. setMaster ( "local[*]" )

. setAppName ( "DirectAPIDemo" )

//2. 创建 StreamingContext

val ssc = new

StreamingContext ( sparkConf , Seconds ( 3 ))

//3. 定义 Kafka 参数

val kafkaPara : Map [ String , Object ] =

Map [ String , Object ](

ConsumerConfig . BOOTSTRAP_SERVERS_CONFIG ->

"node2:9092,node3:9092,node4:9092" ,

ConsumerConfig . GROUP_ID_CONFIG ->

"itbaizhan" ,

"key.deserializer" ->

"org.apache.kafka.common.serialization.Strin

gDeserializer" ,

"value.deserializer" ->

"org.apache.kafka.common.serialization.Strin

gDeserializer"

)

//4. 读取 Kafka 数据创建 DStream

41 SparkStreaming_ 整合 Kafka 测试

val kafkaDStream :

InputDStream [ ConsumerRecord [ String , String ]]

KafkaUtils . createDirectStream [ String ,

String ]( ssc ,

// 由框架自动选择位置匹配

LocationStrategies . PreferConsistent ,

// 消费者策略主题： topicKafka,kafka 参

数： kafkaPara

ConsumerStrategies . Subscribe [ String ,

String ]( Set ( "topicKafka" ), kafkaPara ))

//5. 将每条消息的 KV 取出

//val valueDStream: DStream[String] =

kafkaDStream.map(record => record.value())

val valueDStream : DStream [ String ] =

kafkaDStream . map ( _ . value ())

//6. 计算 WordCount

valueDStream . flatMap ( _ . split ( " " ))

. map (( _ , 1 ))

. reduceByKey ( _ + _ )

. print ()

//7. 开启任务

ssc . start ()

ssc . awaitTermination ()

}

184.SparkStreaming_整合kafka开发二

185.SparkStreaming_整合kafka测试

二.PB级百战出行网约车项目一

1.百战出行

2.百战出行架构设计

3.环境搭建_HBASE安装部署

4.环境搭建_HBASE安装部署

5.环境搭建_MYSQL安装部署

6.环境搭建_REDIS安装部署

7.构建父工程

8.订单监控_收集订单数据

9.订单监控_订单数据分析

10.订单监控_存储数据之读取数据

11.订单监控_存储数据之保持数据至MYSQL

12.订单监控_MAXWELL介绍

13.订单监控_MAXWELL安装

14.订单监控_SPARK_STREAMING整合KAFKA_上

15.订单监控_SPARK_STREAMING整合KAFKA_下

16.订单监控_实时统计订单总数之消费订单数据

17.订单监控_实时统计订单总数之构建订单解析器

18.订单监控_实时统计订单总数之解析订单JSON数据

19.订单监控_实时统计订单总数

20.订单监控_实时统计乘车人数统计

大数据学习之SparkStreaming、PB级百战出行网约车项目一

一.SparkStreaming 163.SparkStreaming概述 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. Spark Streaming 是核心 Spark API 的扩展，支持实时数据…...

编程日记 2026/4/11 21:14:45

Ollama部署DeepSeek（windows or ubuntu）

Ollama(官网是https://ollama.com/)是一个专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计的开源框架。它简化了大型语言模型的部署过程，提供了轻量级与可扩展的架构，使得研究人员、开发人员和爱好者能够更加方便地在本地…...

编程日记 2026/4/26 10:17:51

10.代码生成器-树表

1.导入部门表 2.配置生成信息页面生成代码即可使用。...

编程日记 2026/4/11 21:14:46

2050年10月26日，星期四，芜湖

2050年10月26日，星期四，芜湖清晨6:30，阳光透过智能调光窗帘缓缓洒进卧室，没有刺耳的闹钟，取而代之的是模拟自然光线和舒缓的江水声，这是林薇一天美好的开始。她的智能手环早已监测到她已进入浅睡眠状态&a…...

编程日记 2026/3/15 3:37:18

Python的那些事第十六篇：Python的网络爬虫技术

基于Python的网络爬虫技术研究与应用摘要随着互联网的飞速发展，网络爬虫技术在数据采集、信息挖掘等领域发挥着重要作用。本文详细介绍了Python环境下常用的网络爬虫技术，包括Requests库、BeautifulSoup库以及Scrapy框架。通过对这些工具的使用方法、…...

编程日记 2026/4/24 20:53:29

【AIGC】在VSCode中集成 DeepSeek（OPEN AI同理）

在 Visual Studio Code (VSCode) 中集成 AI 编程能力，可以通过安装和配置特定插件来实现。以下是如何通过 Continue 和 Cline 插件集成 DeepSeek： 一、集成 DeepSeek 获取 DeepSeek API 密钥：访问 DeepSeek 官方网站，注册并获取 …...

编程日记 2026/4/25 1:29:22

如何下载CentOS镜像文件

文章目录如何下载CentOS镜像文件如何下载CentOS镜像文件直接前往阿里云官网下载即可。阿里云官网地址：https://www.aliyun.com 进入官网后，鼠标停留在文档与社区位置，找到镜像站，点击进入即可。进入后，我们可以…...

编程日记 2026/4/24 15:06:03

大模型chagpt原理（持续更新）

20250210更新： 根据李宏毅课程可知，大模型chatgpt基本原理分为三步（每一步都是在做文字接龙，但训练资料不同） 一、依赖大量网上文章、维基百科等资料训练对资料进行去重，劣质优质划分，过滤等…...

编程日记 2026/4/23 9:53:15

开启对话式智能分析新纪元——Wyn商业智能 BI 携手Deepseek 驱动数据分析变革

2月18号，Wyn 商业智能 V8.0Update1 版本将重磅推出对话式智能分析，集成Deepseek R1大模型，通过AI技术的深度融合，致力于打造"会思考的BI系统"，让数据价值触手可及，助力企业实现从数据洞察到决策执…...

编程日记 2026/4/25 9:13:43

嵌入式C语言：大小端详解

目录一、大小端的概念 1.1. 大端序（Big-endian） 1.2. 小端序（Little-endian） 二、大小端与硬件体系的关系 2.1. 大小端与处理器架构 2.2. 大小端与网络协议 2.3. 大小端对硬件设计的影响三、判断系统的大小端方式 3.1.…...

编程日记 2026/4/10 23:16:13

Vue事件处理 - 按键修饰符

Vue 渐进式JavaScript 框架基于Vue2的学习笔记 - Vue事件处理 - 按键修饰符目录按键修饰符常见修饰符绑定按键事件绑定事件优化回车修饰符多个按键直接绑定数字总结按键修饰符常见修饰符 .esc .up .down .left .right . space .ctrl .shift .delete 绑定…...

编程日记 2026/4/19 14:57:13

数据中心网络监控

数据中心是全球协作的特定设备网络，用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。对于任何利用IT基础设施的企业来说，数据中心都是运营的核心，它本质上为整个业务网络托管业务应用程序和存储空间。数据中心可以是任…...

编程日记 2026/4/23 17:13:38

基于Kotlin中Flow扩展重试方法

最近项目中统一采用Kotlin的Flow来重构了网络请求相关代码。目前的场景是，接口在请求的时候需要一个accessToken值，因为此值会过期或者不存在，需要刷新，因此最终方案是在使用Flow请求的时候先获取accessToken值然后再进行接口请求…...

编程日记 2026/4/26 14:43:52

oracle如何查询历史最大进程数？

oracle如何查询历史最大进程数？ SQL> desc dba_hist_resource_limitName Null? Type---------------------------------------------------- -------- ------------------------------------SNAP_ID …...

编程日记 2026/4/11 21:14:41

利用HTML和css技术编写学校官网页面

目录一，图例展示二，代码说明 1，html部分： 【第一张图片】【第二张图片】【第三张图片】 2，css部分： 【第一张图片】【第二张图片】【第三张图片】三，程序代码一，…...

编程日记 2026/4/26 8:33:06

PostgreSQL错误: 编码“UTF8“的字符0x0xe9 0x94 0x99在编码“WIN1252“没有相对应值

错误介绍今天遇到一个错误，记录一下 2025-02-10 17:04:35.264 HKT [28816] 错误: 编码"WIN1252"的字符0x0x81在编码"UTF8"没有相对应值 2025-02-10 17:04:35.264 HKT [28816] 错误: 编码"UTF8"的字符0x0xe9 0x94 0x99在编码&quo…...

编程日记 2025/11/16 6:17:37

Flink KafkaConsumer offset是如何提交的

一、fllink 内部配置 client.id.prefix，指定用于 Kafka Consumer 的客户端 ID 前缀partition.discovery.interval.ms，定义 Kafka Source 检查新分区的时间间隔。请参阅下面的动态分区检查一节register.consumer.metrics 指定是否在 Flink 中注册 Kafka…...

编程日记 2026/4/13 18:50:41

拯救者Y9000P双系统ubuntu22.04安装4070显卡驱动

拯救者Y9000P双系统ubuntu22.04安装4070显卡驱动 1. 前情： 1TB的硬盘，分了120G作ubuntu22.04。/boot: 300MB, / : 40GB, /home: 75G, 其余作swap area。 2. 一开始按这个教程：对我无效 https://blog.csdn.net/Eric_xkk/article/details/1…...

编程日记 2026/4/22 5:34:05

Web3 的虚实融合之路：从虚拟交互到元宇宙构建

在这个数字技术日新月异的时代，我们正站在 Web3 的门槛上，见证着互联网的又一次革命。Web3 不仅仅是技术的迭代，它代表了一种全新的交互方式和价值创造模式。本文将探讨 Web3 如何推动虚拟交互的发展，并最终实现元宇宙的构建&…...

编程日记 2026/4/11 22:54:52

QT修仙笔记事件大圆满闹钟大成

学习笔记牛客刷题闹钟时钟显示通过 QTimer 每秒更新一次 QLCDNumber 显示的当前时间，格式为 hh:mm:ss，实现实时时钟显示。闹钟设置使用 QDateTimeEdit 让用户设置闹钟时间，可通过日历选择日期，设置范围为当前时间到未来 …...

编程日记 2026/4/11 21:17:19

变相提高大模型上下文长度-RAG文档压缩-1.常识

前言之前遇到一个问题，公司大模型的长度不长，而且业务需要RAG返回不少的相关内容。通常RAG都是取top-10/15，文档由于长度限制不能太多，加上embedding效果不佳，返回的文档不多也不能保证都相关。我们考虑到返回的文…...

编程日记 2026/3/18 1:18:44

人工智能浪潮下脑力劳动的变革与重塑：挑战、机遇与应对策略

一、引言 1.1 研究背景与意义近年来，人工智能技术发展迅猛，已成为全球科技领域的焦点。从图像识别、语音识别到自然语言处理，从智能家居、智能交通到智能医疗，人工智能技术的应用几乎涵盖了我们生活的方方面面，给人…...

编程日记 2026/3/19 1:41:11

2025 年 2 月 TIOBE 指数

2025 年 2 月 TIOBE 指数二月头条：快，更快，最快！现在，世界需要每秒处理越来越多的数字，而硬件的发展速度却不够快，程序的速度变得越来越重要。话虽如此，快速编程语言在 TIOBE 指数中取得进展也就不足为奇了。编程语言 C++ 最近攀升至第 2 位，Go 已稳居前 10 名，Ru…...

编程日记 2026/4/22 19:06:15

防火墙是什么？详解网络安全的关键守护者

当今信息化时代，企业和个人在享受数字生活带来的便利时，也不可避免地面对各种潜在的风险。防火墙作为网络安全体系中的核心组件，就像一道牢不可破的防线，保护着我们的数据和隐私不受外界威胁的侵害。那么防火墙是什么？…...

编程日记 2026/4/22 2:28:25

【Elasticsearch】cumulative_cardinality

1.定义与用途 cumulative_cardinality是一种父级管道聚合（Parent Pipeline Aggregation），用于在父级直方图（histogram）或日期直方图（date_histogram）聚合中计算累计基数。它主要用于统计在某个…...

编程日记 2026/4/8 5:07:54

【LeetCode 刷题】贪心算法(2)-进阶

此博客为《代码随想录》贪心算法章节的学习笔记，主要内容为贪心算法进阶的相关题目解析。文章目录 135. 分发糖果406. 根据身高重建队列134. 加油站968. 监控二叉树 135. 分发糖果题目链接 class Solution:def candy(self, ratings: List[int]) -> int:n l…...

编程日记 2026/2/18 20:37:24

字体文件子集化（Font Subsetting）及实现代码

字体文件子集化（Font Subsetting）是指从一个完整的字体文件中提取出仅包含特定字符集的子集，以减小字体文件的大小。这在网页设计、移动应用开发和嵌入式系统中非常有用，可以显著减少加载时间和资源占用。 1. 字体子集化的基本原…...

编程日记 2026/4/5 3:25:15

第三篇：半导体“红蓝药丸“——IGBT/SiC器件如何重塑电驱系统

副标题：当黑客帝国遇见800V高压架构，第三代半导体开启能源革命 ▶ 开篇：红蓝药丸的终极抉择黑客帝国隐喻 - 红色药丸（IGBT） ：传统硅基器件构建的"真实世界"——成熟稳定但存在性能天花板…...

编程日记 2026/4/22 0:30:17

3.矩阵分解技术在推荐系统中的应用

接下来我们将深入探讨矩阵分解技术在推荐系统中的应用。矩阵分解是一种强大的技术，可以有效地处理数据稀疏性问题，并提高推荐系统的性能。在这一课中，我们将介绍以下内容： 矩阵分解的基本概念奇异值分解（SVD&#xff…...

编程日记 2026/4/26 3:27:34

VTK编程指南＜十六＞：VTK表面重建之Delaunay三角剖分

1、无边界限制三角剖分是一种应用非常广泛的重建技术。三角剖分将一些散乱的点云数据划分为一系列的三角形网格。最常用的三角剖分技术是Delaunay三角剖分。Delaunay三角剖分具有许多优良的性质，即最大化最小角特性，即所有可能的三角形剖分中&#xff0…...

编程日记 2026/4/22 12:45:08

一.SparkStreaming

163.SparkStreaming概述

164.SparkStreaming_架构

165.SparkStreaming_创建项目

166.SparkStreaming_WORDCOUNT

167.SparkStreaming_数据抽象

168.SparkStreaming_RDD队列创建DSTREAM

169.SparkStreaming_自定义数据源一

170.SparkStreaming_自定义数据源二

171.SparkStreaming_DSTREAM无状态转换

172.SparkStreaming_DSTREAM无状态转换transform

173.SparkStreaming_DSTREAM有状态转换

174.SparkStreaming_窗口操作reducebykeyandwidow概述

175.SparkStreaming_窗口操作reducebykeyandwidow实战

176.SparkStreaming_窗口操作reducebykeyandwidow优化

177.SparkStreaming_窗口操作WINDOW

178.SparkStreaming_输出

179.SparkStreaming_优雅关闭一

180.SparkStreaming_优雅关闭二

181.SparkStreaming_优雅关闭测试

182.SparkStreaming_整合KAFKA模式

183.SparkStreaming_整合kafka开发一

184.SparkStreaming_整合kafka开发二

185.SparkStreaming_整合kafka测试

二.PB级百战出行网约车项目一

1.百战出行

2.百战出行架构设计

3.环境搭建_HBASE安装部署

4.环境搭建_HBASE安装部署

5.环境搭建_MYSQL安装部署

6.环境搭建_REDIS安装部署

7.构建父工程

8.订单监控_收集订单数据

9.订单监控_订单数据分析

10.订单监控_存储数据之读取数据

11.订单监控_存储数据之保持数据至MYSQL

12.订单监控_MAXWELL介绍

13.订单监控_MAXWELL安装

14.订单监控_SPARK_STREAMING整合KAFKA_上

15.订单监控_SPARK_STREAMING整合KAFKA_下

16.订单监控_实时统计订单总数之消费订单数据

17.订单监控_实时统计订单总数之构建订单解析器

18.订单监控_实时统计订单总数之解析订单JSON数据

19.订单监控_实时统计订单总数

20.订单监控_实时统计乘车人数统计

相关文章：