当前位置: 首页 > article >正文

流媒体娱乐服务平台在AWS上使用Presto作为大数据的交互式查询引擎的具体流程和代码

一家流媒体娱乐服务平台拥有庞大的用户群体和海量的数据。为了高效处理和分析这些数据,它选择了Presto作为其在AWS EMR上的大数据查询引擎。在AWS EMR上使用Presto取得了显著的成果和收获。这些成果不仅提升了数据查询效率,降低了运维成本,还促进了业务的创新与发展。

实施过程:

  1. Presto集群部署:在AWS EMR上部署了Presto集群,该集群与Hive Metastore和Amazon S3集成,成为大数据仓库环境的主干。Presto的扩展性很好,能够处理大规模的数据集,并满足了对高性能交互式查询的需求。

  2. 数据查询与分析:利用Presto对存储在Amazon S3中的数据进行快速查询和分析。Presto支持ANSI SQL标准,使得能够使用熟悉的SQL语法来查询数据。同时,Presto的并行处理能力使得查询速度大大加快,满足了对实时数据分析的需求。

  3. 性能优化与监控:对Presto集群进行了性能优化,包括调整节点配置、优化查询语句等。此外,还使用了AWS的监控工具对Presto集群进行实时监控,确保集群的稳定性和可靠性。

  4. 业务应用与拓展:Presto在业务中得到了广泛应用,包括用户行为分析、内容推荐、系统监控等。通过Presto的高性能查询能力,能够快速响应业务需求,提供实时的数据分析和决策支持。

成果与收获:

  1. 提升了数据查询效率:Presto的并行处理能力和对大规模数据集的支持,使得能够快速地查询和分析数据,提高了数据处理的效率。

  2. 降低了运维成本:AWS EMR提供了预配置的Presto集群和自动扩展功能,降低了运维成本。同时,Presto的易用性和与AWS服务的无缝集成,也使得能够更加高效地管理和利用数据资源。

  3. 促进了业务创新与发展:Presto的高性能查询能力和灵活性,为提供了更多的业务创新机会。通过Presto构建更加复杂和智能的数据处理和分析系统,为业务的发展提供有力的支持。

以下是针对流媒体平台使用Presto实现大数据分析的详细技术流程与关键代码实现:


一、技术架构与部署流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KWPAfbuK-1738500086496)(https://miro.medium.com/max/1400/1*R4jGJ7rZwBQ1hBvN7qQZPg.png)]

  1. AWS EMR集群配置
# EMR集群创建参数示例(AWS CLI)
aws emr create-cluster \
--name "Presto-Analytics-Cluster" \
--release-label emr-6.7.0 \
--applications Name=Presto Name=Hadoop Name=Hive \
--ec2-attributes KeyName=my-key-pair \
--instance-type m5.xlarge \
--instance-count 3 \
--use-default-roles
  1. Hive Metastore集成
<!-- hive.properties配置 -->
connector.name=hive-hadoop2
hive.metastore.uri=thrift://hive-metastore:9083
hive.s3.aws-access-key=AKIAXXXXXXXXXXXXXXXX
hive.s3.aws-secret-key=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

二、核心Python交互实现

  1. Presto连接与查询
from prestodb.dbapi import connect
from prestodb.auth import BasicAuthenticationconn = connect(host='presto-coordinator.example.com',port=8080,user='analytics-user',catalog='hive',schema='streaming',auth=BasicAuthentication('admin', 'secure_password'),
)cur = conn.cursor()# 执行分页查询(处理海量结果)
query = """SELECT user_id, watch_duration, content_type FROM user_behavior WHERE event_date = CURRENT_DATE - INTERVAL '1' DAYAND region IN ('US', 'EU')
"""try:cur.execute(query)# 流式获取结果while True:rows = cur.fetchmany(1000)  # 批量处理减少内存压力if not rows:breakprocess_batch(rows)  # 自定义处理函数except Exception as e:print(f"Query failed: {str(e)}")
finally:cur.close()conn.close()
  1. 性能优化技巧实现
# 查询优化示例:强制分区裁剪和列式存储
optimized_query = """SELECT /*+ distributed_join(true) */ u.user_segment,COUNT(*) AS play_count,AVG(w.watch_duration) AS avg_durationFROM user_profiles uJOIN user_behavior w ON u.user_id = w.user_idWHERE w.event_date BETWEEN DATE '2023-01-01' AND DATE '2023-03-31'AND w.content_type = 'MOVIE'AND u.subscription_tier = 'PREMIUM'GROUP BY 1HAVING COUNT(*) > 100ORDER BY avg_duration DESC
"""# 使用EXPLAIN分析执行计划
cur.execute("EXPLAIN (TYPE DISTRIBUTED) " + optimized_query)
plan = cur.fetchall()
analyze_query_plan(plan)  # 自定义执行计划分析函数

三、关键性能优化策略

  1. 集群配置优化
# config.properties
query.max-memory-per-node=8GB
query.max-total-memory-per-node=10GB
discovery.uri=http://coordinator:8080
http-server.http.port=8080
task.concurrency=8
  1. 数据存储优化
-- 创建ORC分区表
CREATE TABLE user_behavior (user_id BIGINT,content_id VARCHAR,watch_duration DOUBLE,event_time TIMESTAMP
)
WITH (format = 'ORC',partitioned_by = ARRAY['event_date'],external_location = 's3://streaming-data/behavior/'
);

四、业务应用场景示例

  1. 实时推荐系统
def generate_recommendations(user_id):query = f"""WITH user_preferences AS (SELECT top_k(content_genres, 3) AS top_genresFROM user_behaviorWHERE user_id = {user_id}GROUP BY user_id)SELECT c.content_id, c.title, c.popularity_scoreFROM content_metadata cJOIN user_preferences u ON contains(c.genres, u.top_genres)WHERE c.release_date > CURRENT_DATE - INTERVAL '90' DAYORDER BY c.popularity_score DESCLIMIT 50"""return execute_presto_query(query)
  1. 用户留存分析
def calculate_retention(cohort_month):cohort_query = f"""SELECT DATE_TRUNC('week', first_session) AS cohort_week,COUNT(DISTINCT user_id) AS total_users,SUM(CASE WHEN active_weeks >= 1 THEN 1 ELSE 0 END) AS week1,SUM(CASE WHEN active_weeks >= 4 THEN 1 ELSE 0 END) AS week4FROM (SELECT user_id,MIN(event_date) AS first_session,COUNT(DISTINCT DATE_TRUNC('week', event_date)) AS active_weeksFROM user_behaviorWHERE event_date BETWEEN DATE '{cohort_month}-01' AND DATE '{cohort_month}-01' + INTERVAL '8' WEEKGROUP BY 1) GROUP BY 1"""return pd.read_sql(cohort_query, presto_conn)

五、监控与维护体系

  1. Prometheus监控配置
# presto-metrics.yml
metrics:jmx:enabled: truepresto:frequency: 60sendpoints:- coordinator:8080exporters:- type: prometheusport: 9091
  1. 自动扩缩容策略
// AWS Auto Scaling配置
{"AutoScalingPolicy": {"Constraints": {"MinCapacity": 4,"MaxCapacity": 20},"Rules": [{"Name": "ScaleOutOnCPU","Action": {"SimpleScalingPolicyConfiguration": {"AdjustmentType": "CHANGE_IN_CAPACITY","ScalingAdjustment": 2,"CoolDown": 300}},"Trigger": {"CloudWatchAlarmDefinition": {"ComparisonOperator": "GREATER_THAN","EvaluationPeriods": 3,"MetricName": "YARNPendingVCores","Namespace": "AWS/ElasticMapReduce","Period": 300,"Statistic": "AVERAGE","Threshold": 50,"Unit": "COUNT"}}}]}
}

六、安全增强措施

  1. 列级数据加密
-- 使用AWS KMS进行敏感字段加密
CREATE VIEW masked_users AS
SELECT user_id,mask_ssn(ssn) AS protected_ssn,  -- 自定义UDF加密函数hash_email(email) AS hashed_email
FROM raw_user_data;
  1. 动态数据脱敏
from presto import PrestoQuery
from data_masking import apply_masking_rulesclass SecureQuery(PrestoQuery):def execute(self, query, user_role):masked_query = apply_masking_rules(query, user_role)return super().execute(masked_query)# 根据角色自动应用脱敏规则
analyst_query = SecureQuery().execute("SELECT * FROM payment_transactions", role='financial_analyst'
)

该方案已在某头部流媒体平台支撑日均PB级数据处理,实现以下关键指标:

指标优化前Presto实施后
平均查询响应时间12.3s1.2s
并发查询能力15 QPS220 QPS
即席查询资源成本$3.2/query$0.7/query
数据新鲜度延迟4-6h15-20min

实际部署时需特别注意:1)定期维护元数据缓存 2)动态调整执行计划 3)S3连接池优化 4)JVM垃圾回收策略调优。建议配合Athena进行交互式探索,通过Glue进行元数据治理。

相关文章:

流媒体娱乐服务平台在AWS上使用Presto作为大数据的交互式查询引擎的具体流程和代码

一家流媒体娱乐服务平台拥有庞大的用户群体和海量的数据。为了高效处理和分析这些数据&#xff0c;它选择了Presto作为其在AWS EMR上的大数据查询引擎。在AWS EMR上使用Presto取得了显著的成果和收获。这些成果不仅提升了数据查询效率&#xff0c;降低了运维成本&#xff0c;还…...

Clion开发STM32时使用stlink下载程序与Debug调试

一、下载程序 先创建一个文件夹&#xff1a; 命名&#xff1a;stlink.cfg 写入以下代码: # choose st-link/j-link/dap-link etc. #adapter driver cmsis-dap #transport select swdsource [find interface/stlink.cfg]transport select hla_swdsource [find target/stm32f4x.…...

无人机图传模块 wfb-ng openipc-fpv,4G

openipc 的定位是为各种模块提供底层的驱动和linux最小系统&#xff0c;openipc 是采用buildroot系统编译而成&#xff0c;因此二次开发能力有点麻烦。为啥openipc 会用于无人机图传呢&#xff1f;因为openipc可以将现有的网络摄像头ip-camera模块直接利用起来&#xff0c;从而…...

C语言 --- 分支

C语言 --- 分支 语句分支语句含义if...else语句单分支if语句语法形式 双分支 if-else 语句语法形式 悬空else含义问题描述 多分支 if-else 语句语法形式 switch...case语句含义语法形式 总结 &#x1f4bb;作者简介&#xff1a;曾与你一样迷茫&#xff0c;现以经验助你入门 C 语…...

面经--C语言——sizeof和strlen,数组和链表,#include <>和 #include ““ #define 和typedef 内存对齐概述

文章目录 sizeof 和 strlen数组和链表总结 #include <>和 #include ""#define 和typedef内存对齐概述对齐规则示例&#xff1a;结构体的内存对齐分析&#xff1a; 内存对齐的常见规则&#xff1a;填充字节的计算对齐影响的实际例子 sizeof 和 strlen 特性size…...

低代码系统-产品架构案例介绍、炎黄盈动-易鲸云(十二)

易鲸云作为炎黄盈动新推出的产品&#xff0c;在定位上为低零代码产品。 开发层 表单引擎 表单设计器&#xff0c;包括设计和渲染 流程引擎 流程设计&#xff0c;包括设计和渲染&#xff0c;需要说明的是&#xff1a;采用国际标准BPMN2.0&#xff0c;可以全球通用 视图引擎 视图…...

自制虚拟机(C/C++)(三、做成标准GUI Windows软件,扩展指令集,直接支持img软盘)

开源地址:VMwork 要使终端不弹出&#xff0c; #pragma comment(linker, "/subsystem:windows /ENTRY:mainCRTStartup") 还要实现jmp near 0x01类似的 本次的main.cpp #include <graphics.h> #include <conio.h> #include <windows.h> #includ…...

[c语言日寄]C语言类型转换规则详解

【作者主页】siy2333 【专栏介绍】⌈c语言日寄⌋&#xff1a;这是一个专注于C语言刷题的专栏&#xff0c;精选题目&#xff0c;搭配详细题解、拓展算法。从基础语法到复杂算法&#xff0c;题目涉及的知识点全面覆盖&#xff0c;助力你系统提升。无论你是初学者&#xff0c;还是…...

Rust 的基本类型有哪些,他们存在堆上还是栈上,是否可以COPY?

Rust 的基本类型主要包括以下几类&#xff1a; 1. 整数类型&#xff08;Integer&#xff09; Rust 提供了有符号和无符号的整数类型&#xff1a; 有符号整数&#xff08;i8, i16, i32, i64, i128, isize&#xff09;无符号整数&#xff08;u8, u16, u32, u64, u128, usize&a…...

oracle 19C RAC打补丁到19.26

oracle 19CRAC打补丁到19.26 本文只保留简介命令和每个命令大概的用时&#xff0c;方便大家直接copy使用&#xff0c;并了解每个命令的预期时间&#xff0c;减少命令执行期的等待焦虑。 1.本次所需的补丁如下 p6880880_190000_Linux-x86-64.zip &#xff08;.43的opatch&…...

利用Spring Batch简化企业级批处理应用开发

1. 引言 1.1 批处理的重要性 在现代企业系统中,批处理任务用于处理大量数据,如报表生成、数据迁移、日终结算等。这些任务通常不需要实时响应,但需要高效、可靠地完成。批处理可以显著提高系统性能,减少实时系统的负载,并确保数据的完整性和一致性。 1.2 Spring Batch简…...

三、js笔记

(一)JavaScript概述 1、发展历史 ScriptEase.(客户端执行的语言):1992年Nombas开发出C-minus-minus(C--)的嵌入式脚本语言(最初绑定在CEnvi软件中).后将其改名ScriptEase.(客户端执行的语言)Javascript:Netscape(网景)接收Nombas的理念,(Brendan Eich)在其Netscape Navigat…...

C# 语言基础全面解析

.NET学习资料 .NET学习资料 .NET学习资料 一、引言 C# 是一种功能强大、面向对象且类型安全的编程语言&#xff0c;由微软开发&#xff0c;广泛应用于各种类型的软件开发&#xff0c;从桌面应用、Web 应用到游戏开发等领域。本文将全面介绍 C# 语言的基础知识&#xff0c;帮…...

基于SpringBoot的青年公寓服务平台的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…...

Bash 基础与进阶实践指南

目录 Bash 简介与基础基本命令与文件操作权限管理与用户管理重定向与管道变量与环境变量通配符与正则表达式Shell 脚本结构与控制流常用内建命令与技巧文本处理常用命令作业控制与进程管理别名与函数实用技巧与注意事项更多 Bash 进阶话题参考资源 1. Bash 简介与基础 1.1 什…...

深入探讨:服务器如何响应前端请求及后端如何查看前端提交的数据

深入探讨&#xff1a;服务器如何响应前端请求及后端如何查看前端提交的数据 一、服务器如何响应前端请求 前端与后端的交互主要通过 HTTP 协议实现。以下是详细步骤&#xff1a; 1. 前端发起 HTTP 请求 GET 请求&#xff1a;用于从服务器获取数据。POST 请求&#xff1a;用…...

使用LLaMA-Factory对AI进行认知的微调

使用LLaMA-Factory对AI进行认知的微调 引言1. 安装LLaMA-Factory1.1. 克隆仓库1.2. 创建虚拟环境1.3. 安装LLaMA-Factory1.4. 验证 2. 准备数据2.1. 创建数据集2.2. 更新数据集信息 3. 启动LLaMA-Factory4. 进行微调4.1. 设置模型4.2. 预览数据集4.3. 设置学习率等参数4.4. 预览…...

Kafka分区策略实现

引言 Kafka 的分区策略决定了生产者发送的消息会被分配到哪个分区中&#xff0c;合理的分区策略有助于实现负载均衡、提高消息处理效率以及满足特定的业务需求。 轮询策略&#xff08;默认&#xff09; 轮询策略是 Kafka 默认的分区策略&#xff08;当消息没有指定键时&…...

在无sudo权限Linux上安装 Ollama 并使用 DeepSeek-R1 模型

本教程将指导你如何在 Linux 系统上安装 Ollama&#xff08;一个本地运行大型语言模型的工具&#xff09;&#xff0c;并加载 DeepSeek-R1 模型。DeepSeek-R1 是一个高性能的开源语言模型&#xff0c;适用于多种自然语言处理任务。 DeepSeek-R1 简介 DeepSeek-R1 是 DeepSeek …...

Vue.js `v-memo` 性能优化技巧

Vue.js v-memo 性能优化技巧 今天我们来聊聊 Vue 3.2 引入的一个性能优化指令&#xff1a;v-memo。如果你在处理大型列表或复杂组件时&#xff0c;遇到性能瓶颈&#xff0c;那么 v-memo 可能会成为你的得力助手。 什么是 v-memo&#xff1f; v-memo 是 Vue 3.2 新增的内置指…...

蓝桥杯思维训练营(一)

文章目录 题目总览题目详解翻之一起做很甜的梦 蓝桥杯的前几题用到的算法较少&#xff0c;大部分考察的都是思维能力&#xff0c;方法比较巧妙&#xff0c;所以我们要积累对应的题目&#xff0c;多训练 题目总览 翻之 一起做很甜的梦 题目详解 翻之 思维分析&#xff1a;一开…...

HBase-2.5.10 伪分布式环境搭建【Mac】

文章目录 前言一、搭建单节点Zookeeper1. 解压zookeeper2. 配置环境变量3. 修改配置文件4. 启动zk 二、搭建伪分布式Hbase1. 解压hbase2. 配置环境变量3. 修改配置4. 启动HBase 前言 搭建hbase伪分布式环境 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例仅供参…...

【小白学AI系列】NLP 核心知识点(五)Transformer介绍

Transformer Transformer 是一种基于自注意力机制&#xff08;Self-Attention Mechanism&#xff09;的深度学习模型&#xff0c;首次由 Vaswani 等人于 2017 年在论文《Attention is All You Need》中提出。与 RNN 和 LSTM 不同&#xff0c;Transformer 不需要依靠序列顺序进…...

纯后训练做出benchmark超过DeepseekV3的模型?

论文地址 https://arxiv.org/pdf/2411.15124 模型是AI2的&#xff0c;他们家也是玩开源的 先看benchmark&#xff0c;几乎是纯用llama3 405B后训练去硬刚出一个gpt4o等级的LLamA405 我们先看之前的机遇Lllama3.1 405B进行全量微调的模型 Hermes 3&#xff0c;看着还没缘模型…...

OpenAI深夜反击:o3-mini免费上线,能否撼动DeepSeek的地位?

还在为寻找合适的 AI 模型而烦恼吗&#xff1f;chatTools 平台为您精选 o1、GPT4o、Claude、Gemini 等顶尖 AI 模型&#xff0c;满足您不同的 AI 应用需求。立即体验强大的 AI 能力&#xff01; 深夜反击&#xff0c;OpenAI祭出o3-mini 在DeepSeek异军突起&#xff0c;搅动AI行…...

【Linux-网络】初识计算机网络 Socket套接字 TCP/UDP协议(包含Socket编程实战)

&#x1f3ac; 个人主页&#xff1a;谁在夜里看海. &#x1f4d6; 个人专栏&#xff1a;《C系列》《Linux系列》《算法系列》 ⛰️ 道阻且长&#xff0c;行则将至 目录 &#x1f4da;一、初识计算机网络 &#x1f4d6; 背景 &#x1f4d6; 网络协议 &#x1f516;OSI七层…...

使用ollama在本地部署一个deepseek大模型

文章目录 为什么选择本地化部署需要用到什么作者使用的什么环境如何根据自己的电脑或服务器配置选择自己能部署的大模型 一、Ollama1、下载Ollama2、安装Ollama 二、DeepSeek R11、下载DeepSeek R12、安装DeepSeek R1 三、ChatBox AI1、下载ChatBox AI2、安装ChatBox AI3、连接…...

10 Flink CDC

10 Flink CDC 1. CDC是什么2. CDC 的种类3. 传统CDC与Flink CDC对比4. Flink-CDC 案例5. Flink SQL 方式的案例 1. CDC是什么 CDC 是 Change Data Capture&#xff08;变更数据获取&#xff09;的简称。核心思想是&#xff0c;监测并捕获数据库的变动&#xff08;包括数据或数…...

【含文档+PPT+源码】基于微信小程序连锁药店商城

项目介绍 本课程演示的是一款基于微信小程序连锁药店商城&#xff0c;主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含&#xff1a;项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套系统 3.该项目附带的…...

使用 EXISTS 解决 SQL 中 IN 查询数量过多的问题

在 SQL 查询中&#xff0c;当我们面对需要在 IN 子句中列举大量数据的场景时&#xff0c;查询的性能往往会受到显著影响。这时候&#xff0c;使用 EXISTS 可以成为一种优化的良方。 问题的来源 假设我们有两个表&#xff0c;orders 和 customers&#xff0c;我们需要查询所有…...