当前位置: 首页 > news >正文

Carbondata编译适配Spark3

背景

当前carbondata版本2.3.1-rc1中项目源码适配的spark版本最高为3.1,我们需要进行spark3.3版本的编译适配。

原始编译

linux系统下载源码后,安装maven3.6.3,然后执行:

mvn -DskipTests -Pspark-3.1 clean package

会遇到一些网络问题,命令不变继续尝试编译即可:
例如:[INFO] Apache CarbonData :: Flink … FAILURE [09:57 min]

使用上述命令可编译成功。

适配Spark3.3

unzip carbondata-parent-apache-carbondata-2.3.1-rc1-source-release.zip
mv carbondata-parent-apache-carbondata-2.3.1-rc1 carbondata-spark33
cd carbondata-spark33/ # 编辑一下根目录的pom文件,<profile>模块的spark-3.1复制一份修改为spark3.3

继续编译,果不其然报错了很多内容:

使用IDEA打开源码逐个分析怎么解决。

  • error: object CombineLimits is not a member of package org.apache.spark.sql.catalyst.optimizer
  • error: value hints is not a member of org.apache.spark.sql.catalyst.plans.logical.Statistics
  • error: not enough arguments for method apply: (child: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan

分析上下文发现这里应该是编译路径选择了spark2.x版本造成的,查看源码发现mv模块下缺少spark3.3目录及profile。

因此先进行一步简单修改pom试下:

vim ./mv/plan/pom.xml
# 复制spark3.1的相关内容改为3.3,复制比较麻烦也可以直接改

拷贝一份源码:

cd carbondata-spark33/mv/plan/src/main
cp spark3.1 spark3.3

报错:
[INFO] Compiling 24 source files to /opt/qzy/carbondata-spark33/mv/plan/target/classes at 1708917290440
[ERROR] /opt/qzy/carbondata-spark33/mv/plan/src/main/scala/org/apache/carbondata/mv/plans/modular/AggregatePushDown.scala:131: error: wrong number of arguments for pattern org.apache.spark.sql.catalyst.expressions.aggregate.Sum(child:

解决办法:修改AggregatePushDown.scala:131,给SUM加上第二个参数false;

org.apache.spark.sql.catalyst.expressions.Expression,useAnsiAdd: Boolean)
[ERROR] /opt/qzy/carbondata-spark33/mv/plan/src/main/scala/org/apache/carbondata/mv/plans/modular/AggregatePushDown.scala:193: error: wrong number of arguments for pattern org.apache.spark.sql.catalyst.expressions.aggregate.Average(child: org.apache.spark.sql.catalyst.expressions.Expression,useAnsiAdd: Boolean)

解决办法:修改AggregatePushDown.scala:193,给Average加上第二个参数false;
还有更多报错:

终止适配!太多地方要改,入不敷出。

快速测试

https://carbondata.apache.org/quick-start-guide.html

按照官网指导运行本地测试时报错如下:

以Spark local模式打开客户端:

spark-sql --conf spark.sql.extensions=org.apache.spark.sql.CarbonExtensions --jars /usr/hdp/3.0.1.0-187/spark3/carbondata/carbon.jar --master local

sql客户端中执行创建表:

CREATE TABLE IF NOT EXISTS test_carbon (id string,name string,city string,age Int)
STORED AS carbondata;

报错找不到类:
java.lang.ClassNotFoundException: org.apache.carbondata.hive.MapredCarbonInputFormat

jar包是确实存在的,实际需要在spark.sql.hive.metastore.jars所指示的路径添加这个jar才可以本地运行。

官网在后面YARN章节有提到。

If use Spark + Hive 1.1.X, it needs to add carbondata assembly jar and carbondata-hive jar into parameter ‘spark.sql.hive.metastore.jars’ in spark-default.conf file.

创建本地示例数据,后面会用到sample.csv:

cd carbondata
cat > sample.csv << EOF
id,name,city,age
1,david,shenzhen,31
2,eason,shenzhen,27
3,jarry,wuhan,35
EOF

然后可以正常创建表,执行加载数据和查询命令,注意加载数据路径要写file开头的符号。

LOAD DATA INPATH 'file:///usr/hdp/3.0.1.0-187/spark3/carbondata/sample.csv' INTO TABLE test_carbon;SELECT * FROM test_carbon;SELECT city, avg(age), sum(age)
FROM test_carbon
GROUP BY city;

local查询正常,待测yarn模式。

结论

  • Spark3.3接口改变过多,与当前最新2.3.1-rc分支不兼容!
  • Spark3.1 + Carbondata build 初步测试功能正常!

相关文章:

Carbondata编译适配Spark3

背景 当前carbondata版本2.3.1-rc1中项目源码适配的spark版本最高为3.1,我们需要进行spark3.3版本的编译适配。 原始编译 linux系统下载源码后&#xff0c;安装maven3.6.3&#xff0c;然后执行&#xff1a; mvn -DskipTests -Pspark-3.1 clean package会遇到一些网络问题&a…...

数学建模【灰色关联分析】

一、灰色关联分析简介 一般的抽象系统,如社会系统、经济系统、农业系统、生态系统、教育系统等都包含有许多种因素&#xff0c;多种因素共同作用的结果决定了该系统的发展态势。人们常常希望知道在众多的因素中&#xff0c;哪些是主要因素&#xff0c;哪些是次要因素;哪些因素…...

Vue.js的单向数据流:让你的应用更清晰、更可控

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…...

IntelliJ IDEA社区版传统web开发环境搭建

前言 现在主流的开发框架是SpringBoot,使用maven配置的开发环境&#xff0c;网上有很多教程&#xff0c;这里记录一下传统Web开发项目&#xff08;mvc架构的框架&#xff0c;如SSH&#xff09;使用idea社区版的开发环境搭建。防止被人说都2024年了还用eclipse。 一、下载文件…...

arm-linux-gnueabi、arm-linux-gnueabihf 交叉编译器区别

1、arm-linux-gnueabi&#xff1a; 使用软件浮点&#xff08;软浮点&#xff09;。这意味着所有的浮点运算都将由软件库来处理&#xff0c;而不会利用硬件中的浮点运算单元。因此&#xff0c;生成的目标代码包含了对软件浮点库的调用。 2、arm-linux-gnueabihf&#xff1a; 使…...

什么是RS485

RS-485是一种串行通信标准&#xff0c;它是在1980年代由美国电子工业协会&#xff08;EIA&#xff09;制定的。它的全称是“Recommended Standard 485”&#xff0c;通常简称为RS-485。RS-485标准定义了信号的电气特性和信号线的布局&#xff0c;它主要用于工业环境RS-485是一种…...

2024.3.4

报式域套接字 #include<myhead.h> int main(int argc, const char *argv[]) {//创建套接字int sfdsocket(AF_UNIX,SOCK_DGRAM,0);if(sfd-1){perror("socket error");return -1;}printf("sfd%d\n",sfd);//判断套接字文件是否存在&#xff0c;如果存在…...

STM32自学☞AD单通道

程序的最终运行成果: 当转动电位器时&#xff0c;数值和电压值发生变化 ad.c文件 #include "stm32f10x.h" #include "stm32f10x_adc.h" #include "ad.h" #include "stdint.h" void ad_Init(void) { /* 初始化步骤&#xff1a;…...

打家劫舍(java版)

&#x1f4d1;前言 本文主要是【动态规划】——打家劫舍(java版)的文章&#xff0c;如果有什么需要改进的地方还请大佬指出⛺️ &#x1f3ac;作者简介&#xff1a;大家好&#xff0c;我是听风与他&#x1f947; ☁️博客首页&#xff1a;CSDN主页听风与他 &#x1f304;每日一…...

Python函数位置参数(*args)与关键词参数(**kwargs)的用法

两种向python函数传递参数的方式&#xff1a; 位置参数&#xff08;positional argument&#xff09; 关键词参数&#xff08;keyword argument&#xff09; *args与**kwargs的区别 两者都是python中的可变参数&#xff1b; args&#xff1a;表示任何多个无名参数&#xff0c;它…...

Java自学day5

流程控制语句 流程控制语句:通过一些语句,控制程序的执行流程 顺序结构 顺序结构语句是Java程序默认的执行流程,按照代码的先后顺序,从上到下依次执行! package orderdemo;public class OrderDemo {public static void main(String[] args) {System.out.println("…...

IO-DAY1

1.用fprintf将链表数据保存到文件中 2用fscanf将文件中数据写入链表 #include<stdio.h> #include<string.h> #include<stdlib.h> #include<unistd.h> typedef int datatype; typedef struct link_list { union { int len; d…...

英福康INFICON真空计MPG400MPG401使用说明PPT讲解课件

英福康INFICON真空计MPG400MPG401使用说明PPT讲解课件...

【lua】lua内存优化记录

这边有一个Unity项目用的tolua&#xff0c; 游戏运行后手机上lua内存占用 基本要到 189M&#xff0c; 之前峰值有200多。 优化点1 加快gc频度&#xff1a; 用uwa抓取的lua内存&#xff0c; 和unity的mono很像&#xff0c;内存会先涨 然后突然gc一下&#xff0c;降下来。 这样…...

紫光展锐T618_4G安卓核心板方案定制

紫光展锐T618核心板是一款采用纯国产化方案的高性能产品&#xff0c;搭载了开放的智能Android操作系统&#xff0c;并集成了4G网络&#xff0c;支持2.5G5G双频WIFI、蓝牙近距离无线传输技术以及GNSS无线定位技术。 展锐T618核心板应用旗舰级 DynamlQ架构 12nm 制程工艺&#x…...

Redis 群集部署

1.关系型数据库 关系型数据库是一个结构化的数据库&#xff0c;创建在关系模型基础上&#xff0c;-般面向记录。它借助于集合代数等数学概念和方法来处理数据库中的数据。关系模型指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。现实世界中…...

WPF中如何设置自定义控件(二)

前一篇文章中简要讲解了圆角按钮、圆形按钮的使用,以及在windows.resource和app.resource中设置圆角或圆形按钮的样式。 这篇主要讲解Polygon(多边形)、Ellipse(椭圆)、Path(路径)这三个内容。 Polygon 我们先看一下的源码: namespace System.Windows.Shapes { pu…...

【C++】每周一题——2024.3.3

题目 Cpp 【问题描述】 字符环&#xff08;来源&#xff1a;NOI题库&#xff09;。有两个由字符构成的环&#xff0c;请写一个程序&#xff0c;计算这两个字符环上最长公共字符串的长度。例如&#xff0c;字符串“ABCEFAGADEGKABUVKLM”的首尾连在一起&#xff0c;构成一个环&a…...

5G网络架构与组网部署01--5G网络架构的演进趋势

目录 1. 5G网络架构的演进趋势 1.1 5G移动通信系统整体架构 1.2 4G移动通信系统整体架构 1.3 4G与5G移动通信系统整体架构对比 1.4 核心网架构演进 1.5 无线接入网演进 1. 整体架构组成&#xff1a;接入网&#xff0c;核心网 2. 5G网络接入网和核心网对应的网元&#xff…...

2023全球软件开发大会-上海站:探索技术前沿,共筑未来软件生态(附大会核心PPT下载)

随着信息技术的迅猛发展&#xff0c;全球软件开发大会&#xff08;QCon&#xff09;已成为软件行业最具影响力的年度盛会之一。2023年&#xff0c;QCon再次来到上海&#xff0c;汇聚了众多业界精英、技术领袖和开发者&#xff0c;共同探讨软件开发的最新趋势和实践。 一、大会…...

【kafka】Golang实现分布式Masscan任务调度系统

要求&#xff1a; 输出两个程序&#xff0c;一个命令行程序&#xff08;命令行参数用flag&#xff09;和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽&#xff0c;然后将消息推送到kafka里面。 服务端程序&#xff1a; 从kafka消费者接收…...

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来&#xff0c;Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。 同样的技术也是 Power BI 数据…...

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角 要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念 点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

使用 SymPy 进行向量和矩阵的高级操作

在科学计算和工程领域&#xff0c;向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能&#xff0c;能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作&#xff0c;并通过具体…...

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中&#xff0c;从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备&#xff08;如专用硬件设备&#xff09;&#xff0c;从而消除了直接物理连接的需要。USB over IP的…...

HarmonyOS运动开发:如何用mpchart绘制运动配速图表

##鸿蒙核心技术##运动开发##Sensor Service Kit&#xff08;传感器服务&#xff09;# 前言 在运动类应用中&#xff0c;运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据&#xff0c;如配速、距离、卡路里消耗等&#xff0c;用户可以更清晰…...

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币&#xff0c;另给一个整数 amount 表示总金额。 请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额&#xff0c;返回 0 。 假设每一种面额的硬币有无限个。 题目数据保证结果符合 32 位带…...

return this;返回的是谁

一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请&#xff0c;不同级别的经理有不同的审批权限&#xff1a; // 抽象处理者&#xff1a;审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...

【Go语言基础【12】】指针:声明、取地址、解引用

文章目录 零、概述&#xff1a;指针 vs. 引用&#xff08;类比其他语言&#xff09;一、指针基础概念二、指针声明与初始化三、指针操作符1. &&#xff1a;取地址&#xff08;拿到内存地址&#xff09;2. *&#xff1a;解引用&#xff08;拿到值&#xff09; 四、空指针&am…...

面向无人机海岸带生态系统监测的语义分割基准数据集

描述&#xff1a;海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而&#xff0c;目前该领域仍面临一个挑战&#xff0c;即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...