当前位置: 首页 > article >正文

手把手教你用Doris搭建本地数据分析环境(含JDK 17配置)

从零构建Doris单机分析环境JDK 17优化配置全指南在数据驱动的时代能够快速搭建本地分析环境已成为数据工程师的核心竞争力。Apache Doris作为新一代MPP分析型数据库凭借其实时分析能力和易用性正成为越来越多企业的首选。本文将带您从系统准备到完整运行构建一个专为本地开发优化的Doris单机环境特别针对JDK 17进行深度配置调优。1. 环境准备与系统优化搭建高性能的Doris环境始于基础系统配置。不同于普通数据库Doris对内存管理和文件系统有特殊要求正确的初始设置能避免后续90%的性能问题。内存管理优化是首要任务。执行以下命令关闭swap分区# 临时关闭swap sudo swapoff -a # 永久关闭需重启生效 sudo sed -i /swap/s/^/#/ /etc/fstab透明大页(THP)是另一个需要关注的Linux内核特性。虽然THP旨在提升内存访问效率但与Doris的内存管理策略存在冲突echo madvise /sys/kernel/mm/transparent_hugepage/enabled echo madvise /sys/kernel/mm/transparent_hugepage/defrag对于文件系统建议调整以下参数# 增加内存映射区域限制 echo vm.max_map_count2000000 | sudo tee -a /etc/sysctl.conf # 优化网络连接 echo net.core.somaxconn32768 | sudo tee -a /etc/sysctl.conf sudo sysctl -p提示这些优化建议基于8核CPU、16GB内存的测试环境生产环境需根据实际硬件配置调整参数值。2. JDK 17深度配置指南Doris 3.0版本全面支持JDK 17正确配置可提升30%以上的查询性能。以下是专为分析型负载优化的JVM参数# 下载并解压JDK 17 wget https://download.java.net/java/GA/jdk17.0.2/dfd4a8d0985749f896bed50d7138ee7f/8/GPL/openjdk-17.0.2_linux-x64_bin.tar.gz sudo tar -xzf openjdk-17.0.2_linux-x64_bin.tar.gz -C /usr/local/配置JAVA_HOME环境变量echo export JAVA_HOME/usr/local/jdk-17.0.2 | sudo tee -a /etc/profile echo export PATH\$JAVA_HOME/bin:\$PATH | sudo tee -a /etc/profile source /etc/profile为Doris FE/BE进程定制JVM参数适用于16GB内存机器-Xmx12g -Xms12g -XX:UseG1GC -XX:MaxGCPauseMillis200 -XX:G1HeapRegionSize32m -XX:ParallelRefProcEnabled -XX:ConcGCThreads4 -XX:ParallelGCThreads8 -XX:InitiatingHeapOccupancyPercent70关键参数说明参数作用推荐值-Xmx最大堆内存物理内存的70%-XX:MaxGCPauseMillis最大GC停顿目标200ms-XX:ParallelGCThreads并行GC线程数CPU核心数的50%-XX:ConcGCThreads并发GC线程数CPU核心数的25%3. Doris核心组件安装与配置从官网下载最新稳定版Doris当前为3.0.2wget https://apache-doris-releases.oss-accelerate.aliyuncs.com/apache-doris-3.0.2-bin-x64.tar.gz tar -zxvf apache-doris-3.0.2-bin-x64.tar.gz cd apache-doris-3.0.2-bin-x64Frontend(FE)配置重点优化项fe/conf/fe.conf# 网络端口配置 http_port 8030 rpc_port 9020 query_port 9030 # 元数据存储路径建议SSD meta_dir /data/doris/fe/meta # JDK 17专属JVM配置 JAVA_OPTS_FOR_JDK_17-Xmx8g -Xms8g -XX:UseG1GC -XX:MaxGCPauseMillis200 # 查询优化 qe_max_connection 4096 max_mysql_service_task_threads_num 4096Backend(BE)关键配置be/conf/be.conf# 存储路径配置多磁盘可逗号分隔 storage_root_path /data1/doris/be,/data2/doris/be # 资源限制 mem_limit 85% storage_page_cache_limit 40% # 执行引擎优化 enable_vectorized_engine true vectorized_row_batch_size 4096启动顺序与验证# 启动FE ./fe/bin/start_fe.sh --daemon # 启动BE ./be/bin/start_be.sh --daemon # 验证FE curl http://127.0.0.1:8030/api/bootstrap4. 集群初始化与性能测试通过MySQL客户端连接Doris默认无密码mysql -h127.0.0.1 -P9030 -uroot添加BE节点并验证ALTER SYSTEM ADD BACKEND 127.0.0.1:9050; SHOW BACKENDS\G创建测试数据集评估性能CREATE DATABASE perf_test; USE perf_test; -- 创建10亿条测试数据表 CREATE TABLE user_behavior ( user_id BIGINT, item_id BIGINT, category_id INT, behavior_type VARCHAR(10), ts DATETIME ) DUPLICATE KEY(user_id, item_id) PARTITION BY RANGE(ts) ( PARTITION p202301 VALUES LESS THAN (2023-02-01), PARTITION p202302 VALUES LESS THAN (2023-03-01) ) DISTRIBUTED BY HASH(user_id) BUCKETS 32 PROPERTIES (replication_num 1); -- 使用内置数据生成函数插入测试数据 INSERT INTO user_behavior WITH RECURSIVE data_gen AS ( SELECT 1 AS n UNION ALL SELECT n1 FROM data_gen WHERE n 10000000 ) SELECT n%1000000 AS user_id, n%500000 AS item_id, n%100 AS category_id, CASE n%4 WHEN 0 THEN view WHEN 1 THEN cart WHEN 2 THEN fav ELSE buy END AS behavior_type, DATE_ADD(2023-01-01, INTERVAL n%31 DAY) AS ts FROM data_gen;执行典型分析查询验证性能-- 实时分析查询 SELECT behavior_type, COUNT(DISTINCT user_id) AS uv, COUNT(*) AS pv FROM user_behavior WHERE ts BETWEEN 2023-01-15 AND 2023-01-20 GROUP BY behavior_type ORDER BY pv DESC;5. 日常维护与问题排查资源监控命令# 查看BE内存使用 curl http://localhost:8040/api/memory # 检查查询队列 curl http://localhost:8030/api/query/statistic常见问题快速诊断症状检查点解决方案FE启动失败端口冲突netstat -tulnp | grep 8030查询内存不足swap状态free -h导入速度慢磁盘IOiostat -x 1BE注册失败时间同步ntpq -p定期维护建议每周检查元数据备份每月执行COMPACT操作优化存储监控关键指标查询延迟、内存使用率、副本健康度通过本指南配置的环境在16GB内存的笔记本上可轻松支持千万级数据的实时分析。实际项目中根据数据规模和查询复杂度适当调整分区策略和分桶数能获得更优性能。

相关文章:

手把手教你用Doris搭建本地数据分析环境(含JDK 17配置)

从零构建Doris单机分析环境:JDK 17优化配置全指南 在数据驱动的时代,能够快速搭建本地分析环境已成为数据工程师的核心竞争力。Apache Doris作为新一代MPP分析型数据库,凭借其实时分析能力和易用性,正成为越来越多企业的首选。本文…...

立创开源:ESP8266 WiFi联网点阵时钟(Version 1.0)硬件设计与软件实现全解析

手把手教你做一个ESP8266 WiFi联网点阵时钟 最近在抽屉里翻出几块ESP8266开发板,又刚好淘到一些便宜的点阵屏,就想着给自己做个既实用又有科技感的桌面时钟。成品做出来效果不错,有5种表盘风格,还能自动联网对时,断电了…...

Zynq实战:如何用AXI_DMA实现PL到PS的高速数据传输(附Linux驱动调试技巧)

Zynq平台AXI_DMA实战:从PL到PS的高速数据传输与Linux驱动深度优化 在嵌入式系统设计中,Zynq系列SoC的独特价值在于其完美融合了FPGA的硬件可编程性与ARM处理器的软件灵活性。当面临高速数据采集、实时信号处理等场景时,如何高效实现PL&#x…...

LiuJuan Z-Image提示词秘籍:如何写出让AI听懂的人像生成指令

LiuJuan Z-Image提示词秘籍:如何写出让AI听懂的人像生成指令 你是否曾经遇到过这样的情况:明明在提示词中详细描述了想要的人像效果,但AI生成的图片却总是差强人意?要么是人物表情僵硬,要么是构图奇怪,甚至…...

卡证检测模型效果可视化工具开发:基于Web的交互式评测平台

卡证检测模型效果可视化工具开发:基于Web的交互式评测平台 每次训练出一个新的卡证检测模型,最头疼的就是怎么评估它到底好不好用。以前我们团队的做法,是把一堆测试图片扔给模型跑,然后手动一张张去翻结果图,在Excel…...

实战指南:基于claudecode与快马平台,从零构建并部署可离线使用的Markdown笔记应用

最近想自己动手做一个能离线使用的Markdown笔记应用,方便随时随地记录和整理想法。这个需求很明确:一个Web应用,不需要后端服务器,数据存在本地,功能要全,还得好看好用。自己从头写虽然也行,但费…...

快速上手RetinaFace:从环境激活到结果可视化的完整教程

快速上手RetinaFace:从环境激活到结果可视化的完整教程 1. 学习目标与前置准备 如果你正在寻找一个强大且易于使用的人脸检测解决方案,那么RetinaFace绝对值得你花时间了解。这个模型不仅能精准定位图片中的人脸位置,还能同时识别出人脸的五…...

JavaCV中值滤波:图像降噪利器

好的,我们来详细讲解 JavaCV 中的中值滤波技术。中值滤波:提升图像质量的有效方法在图像处理领域,中值滤波是一种常用的非线性滤波技术,主要用于去除图像中的椒盐噪声(一种表现为随机出现的黑白像素点的噪声&#xff0…...

SeqGPT-560M部署教程:CUDA加速推理+Supervisor自动重启配置

SeqGPT-560M部署教程:CUDA加速推理Supervisor自动重启配置 想快速部署一个开箱即用的文本理解模型,但又担心复杂的配置和运维问题?今天介绍的SeqGPT-560M镜像,或许能让你眼前一亮。它预装了阿里达摩院推出的轻量级零样本模型&…...

Maxwell仿真结果不准确?可能是这3个边界条件没设对(附解决方案)

Maxwell仿真精度提升指南:边界条件设置的三大核心误区与实战解决方案 在电磁场仿真领域,Maxwell作为行业标杆工具,其计算结果直接影响产品设计的关键决策。但许多工程师都曾经历过这样的困境:精心搭建的模型,耗时数小时…...

Kettle实战:用Switch/Case和过滤记录实现学生成绩分级处理(附完整流程图)

Kettle实战:用Switch/Case和过滤记录实现学生成绩分级处理 教务管理中最繁琐的工作之一就是期末成绩的批量处理。记得上学期末,我亲眼目睹同事王老师熬夜到凌晨三点,只为手动给500多名学生的各科成绩划分等级。这种重复劳动不仅效率低下&…...

VSCode+LaTeX实战:从安装到配置的完整避坑指南(附SumatraPDF联动技巧)

VSCodeLaTeX实战:从安装到配置的完整避坑指南(附SumatraPDF联动技巧) 对于学术写作和科研工作者来说,LaTeX无疑是排版高质量文档的首选工具。然而,传统的LaTeX编辑器往往界面陈旧、功能单一,难以满足现代工…...

Xshell远程部署Qwen3-ForcedAligner-0.6B全流程详解

Xshell远程部署Qwen3-ForcedAligner-0.6B全流程详解 1. 为什么需要远程部署这个模型 在实际语音处理工作中,我们经常遇到这样的场景:本地电脑性能有限,无法流畅运行大模型;而公司或实验室的GPU服务器资源充足,却分散…...

H5-Dooring低代码可视化编辑器零基础掌握指南

H5-Dooring低代码可视化编辑器零基础掌握指南 【免费下载链接】h5-Dooring MrXujiang/h5-Dooring: h5-Dooring是一个开源的H5可视化编辑器,支持拖拽式生成交互式的H5页面,无需编码即可快速制作丰富的营销页或小程序页面。 项目地址: https://gitcode.c…...

基于Matlab/Simulink的PMSM FOC控制:SVPWM算法实现与仿真优化

1. PMSM FOC控制与SVPWM算法基础 永磁同步电机(PMSM)因其高效率、高功率密度等优点,在工业驱动和电动汽车领域应用广泛。而磁场定向控制(FOC)是目前最主流的PMSM控制策略之一。我第一次接触FOC控制时,被它精…...

告别模糊与粗糙:Tkinter现代化界面与高DPI适配一站式解决方案

1. 为什么你的Tkinter应用在高分屏上惨不忍睹? 最近帮朋友调试一个用Tkinter写的计算器程序,刚打开我就愣住了——界面模糊得像打了马赛克,按钮边缘全是锯齿,整体风格还停留在Windows 95时代。朋友无奈地说:"4K屏…...

【国家级数字农场技术白皮书级实践】:用VSCode 2026插件实现水稻生长模型本地化训练+OTA灌溉策略下发(含源码仓库与土壤数据集)

第一章:VSCode 2026农业物联网插件概述VSCode 2026农业物联网插件是专为智慧农业开发者设计的轻量级集成扩展,面向嵌入式传感器配置、边缘数据流可视化及农田设备远程调试等典型场景。该插件基于 VSCode 1.90 的 Extension API 构建,深度兼容…...

CFD网格质量评估标准:从理论到实践的全面解析

1. CFD网格质量为什么如此重要? 我第一次接触CFD仿真时,以为只要把模型画出来、划分网格就能得到准确结果。直到有次模拟汽车外流场,计算总是发散,折腾了一周才发现是前保险杠附近的网格角度太小导致的。这个教训让我深刻理解到&a…...

从基础到进阶:6个维度解析TikTokDownload抖音去水印批量下载工具

从基础到进阶:6个维度解析TikTokDownload抖音去水印批量下载工具 【免费下载链接】TikTokDownload 抖音去水印批量下载用户主页作品、喜欢、收藏、图文、音频 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokDownload 🔍 工具定位&#xff1…...

2.38 梁山派GD32F470驱动OV2640 200W像素摄像头实战:从SCCB配置到屏幕显示

2.38 梁山派GD32F470驱动OV2640 200W像素摄像头实战:从SCCB配置到屏幕显示 最近有不少朋友在玩梁山派GD32F470开发板,想用它来驱动摄像头做图像识别或者视频监控。我正好用OV2640这个200万像素的摄像头模块做了个项目,今天就把从硬件接线、SC…...

第一批玩OpenClaw的人,已经开始清醒了

最近全网刷屏的龙虾OpenClaw,正在用 AI 智能体重构整个开发行业 ——导致基础Java岗位需求持续收缩。文末可免费领取龙虾Open Clawa超详细安装教程因而掌握“JavaAI”复合型能力的开发者,已成市场争抢的香饽饽。Spring AI的出现,打破Java程序…...

MedGemma X-Ray快速上手:小白也能用的AI影像解读工具

MedGemma X-Ray快速上手:小白也能用的AI影像解读工具 1. 为什么选择MedGemma X-Ray? 1.1 零门槛的医疗AI工具 MedGemma X-Ray不同于传统医疗AI系统,它不需要你具备任何编程知识或深度学习背景。就像使用普通网站一样,打开浏览器…...

YOLO X Layout模型选择指南:Tiny、Quantized、L0.05哪个更适合你?

YOLO X Layout模型选择指南:Tiny、Quantized、L0.05哪个更适合你? 1. 认识YOLO X Layout文档理解模型 YOLO X Layout是一个基于YOLO模型的文档版面分析工具,它能像专业的文档分析师一样,自动识别文档中的各种元素。想象一下&…...

TikTokDownload:自媒体素材管理的无水印视频批量下载高效解决方案

TikTokDownload:自媒体素材管理的无水印视频批量下载高效解决方案 【免费下载链接】TikTokDownload 抖音去水印批量下载用户主页作品、喜欢、收藏、图文、音频 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokDownload TikTokDownload是一款专为自媒体运…...

泰山派RK3566开发板开源共建文档手册与生态资源指南

泰山派RK3566开发板开源共建文档手册与生态资源指南 最近有不少朋友拿到了泰山派RK3566开发板,在群里问:“这板子的资料去哪找啊?”、“有没有详细点的教程?”。确实,对于刚接触一块新开发板的同学来说,第一…...

ESP32 BLE实战:手把手教你用Web蓝牙API控制智能旋钮(附完整代码)

ESP32 BLE实战:手把手教你用Web蓝牙API控制智能旋钮(附完整代码) 在智能家居和物联网设备快速普及的今天,蓝牙低功耗(BLE)技术因其低功耗、低成本的优势,成为连接智能设备的首选方案之一。ESP32…...

Windows 10/11 上 Docker 部署 MiGPT 4.2.0 全流程(含 Ollama 配置避坑指南)

Windows 10/11 上 Docker 部署 MiGPT 4.2.0 全流程(含 Ollama 配置避坑指南) 在本地运行大型语言模型(LLM)正成为开发者探索AI能力的新趋势。对于Windows用户而言,Docker提供了一种相对简单的环境隔离方案,…...

Python实战:基于LDA主题模型与情感分析的新能源汽车论坛口碑深度挖掘与竞品洞察

1. 为什么需要分析新能源汽车论坛数据? 最近两年新能源汽车市场简直像坐上了火箭,各家品牌你追我赶好不热闹。作为数据科学从业者,我经常被问到:"现在消费者到底最关心什么?"、"我们的产品在用户眼中真…...

比迪丽LoRA模型GitHub打不开时的备选方案:镜像站下载与部署

比迪丽LoRA模型GitHub打不开时的备选方案:镜像站下载与部署 最近想玩一下比迪丽LoRA模型,结果第一步就卡住了——GitHub打不开。这应该是很多国内开发者都遇到过的问题,尤其是在需要快速部署一些热门AI项目的时候。别担心,GitHub…...

PDF-Parser-1.0功能实测:公式转LaTeX,表格转JSON,真实好用

PDF-Parser-1.0功能实测:公式转LaTeX,表格转JSON,真实好用 1. 从“头疼”到“真香”:我的PDF处理体验转变 上周,我收到一份30多页的学术论文PDF,里面密密麻麻全是公式和表格。我需要把里面的数据整理出来…...