当前位置: 首页 > news >正文

Greenplum实用工具-gpfdist

注:本文翻译自https://docs.vmware.com/en/VMware-Greenplum/7/greenplum-database/utility_guide-ref-gpfdist.html
向Greenplum数据库段提供数据文件或从数据库段写入数据文件。

语法

gpfdist [-d <directory>] [-p <http_port>] [-P <last_http_port>] [-l <log_file>][-t <timeout>] [-S] [-w <time>] [-v | -V] [-s] [-m <max_length>][--ssl <certificate_path> [--sslclean <wait_time>] ][--compress] [--multi_thread <num_threads>][-c <config.yml>]gpfdist -? | --help gpfdist --version

描述

gpfdist是Greenplum数据库并行文件分发程序。它被可读的外部表和gpload使用,以并行地向所有Greenplum数据库段提供外部表文件。可写的外部表使用它来并行地接受来自Greenplum数据库段的输出流,并将它们写入文件。

注:gpfdist和gpload仅与附带它们的Greenplum Database主版本兼容。例如,与Greenplum Database 4一起安装的gpfdist实用程序。不能与Greenplum Database 5.x或6.x一起使用。

为了让外部表使用gpfdist,外部表定义的LOCATION子句必须使用gpfdist://协议指定外部表数据(参见Greenplum数据库命令CREATE external table)。

注:如果指定–ssl选项以启用ssl安全性,则使用gpfdists://协议创建外部表。

使用gpfdist的好处是,在对外部表进行读写操作时,可以保证最大程度的并行性,从而提供最佳性能,并简化对外部表的管理。

对于可读的外部表,当用户从外部表中进行SELECT时,gpfdist将解析数据文件并将其均匀地提供给Greenplum Database系统中的所有段实例。对于可写的外部表,当用户插入到外部表中时,gpfdist接受来自段的并行输出流,并将其写入输出文件。

注:当gpfdist读取数据并遇到数据格式化错误时,错误消息包括一个行号,指示格式化错误的位置。Gpfdist尝试捕获包含错误的行。但是,由于某些格式化错误,gpfdist可能无法捕获准确的行。

对于可读的外部表,如果使用gzip或bzip2压缩加载文件(具有.gz或.bz2文件扩展名),gpfdist会在加载数据时(动态地)解压缩数据。对于可写的外部表,如果目标文件的扩展名为.gz, gpfdist会使用gzip压缩数据。

注:当gpfdist实用程序在Windows平台上运行时,不支持对可读和可写的外部表进行压缩。

当使用gpfdist或gpfdists协议读写数据时,Greenplum Database在HTTP请求头中包含X-GP-PROTO,以表明请求来自Greenplum Database。该实用程序拒绝在请求头中不包含X-GP-PROTO的HTTP请求。

最有可能的是,您希望在您的ETL机器上运行gpfdist,而不是在安装了Greenplum Database的主机上。要在另一台主机上安装gpfdist,只需将该实用程序复制到该主机,并将gpfdist添加到$PATH中。

选项

-d directory
gpfdist将从中为可读的外部表提供文件或为可写的外部表创建输出文件的目录。如果未指定,则默认为当前目录。

-l log_file
将记录标准输出消息的完全限定路径和日志文件名。

-p http_port
gpfdist将在其上提供文件的HTTP端口。默认为8080。

-p last_http_port
HTTP端口号范围(包括http_port到last_http_port)中的最后一个端口号,gpfdist将在该端口号上尝试为文件提供服务。Gpfdist在它成功绑定到的范围内的第一个端口号上提供文件。

-t timeout
设置Greenplum Database与gpfdist进程建立连接所允许的时间。默认为5秒。取值范围为2 ~ 7200秒(2小时)。可能需要在具有大量网络流量的系统上增加。

-m max_length
以字节为单位设置允许的最大数据行长度。默认值是32768。当用户数据包含非常宽的行时(或者当出现行过长的错误消息时)应该使用。不应用于其他用途,因为它增加了资源分配。有效范围是32K到256MB。(Windows系统的上限是1MB。)

-s
启用简化的日志记录。当指定此选项时,只有具有WARN级别及更高级别的消息才会写入gpfdist日志文件。INFO级别的消息不写入日志文件。如果未指定此选项,则将所有gpfdist消息写入日志文件。
您可以指定此选项以减少写入日志文件的信息。

-S(use O_SYNC)
打开带有O_SYNC标志的同步I/O文件。在数据被物理地写入底层硬件之前,对结果文件描述符的任何写操作都将阻塞gpfdist。

-w time
设置Greenplum Database在关闭目标文件(如命名管道)之前延迟的秒数。缺省值为0,无延时。最大值为7200秒(2小时)。
对于具有多个段的Greenplum数据库,在将数据从不同段写入文件时,段之间可能会有延迟。您可以指定Greenplum Database关闭文件之前的等待时间,以确保所有数据都写入该文件。

–ssl certificate_path
对使用gpfdist传输的数据添加SSL加密。在使用——ssl certificate_path选项运行gpfdist之后,从该文件服务器加载数据的唯一方法是使用gpfdist://协议。有关gpfdist://协议的信息,请参见《Greenplum数据库管理员指南》中的“加载和卸载数据”。
“certificate_path”中指定的位置必须包含以下文件:

  • 服务器证书文件server.crt
  • 服务器私钥文件server.key
  • 受信任的证书颁发机构root.crt

根目录(/)不能指定为certificate_path。

–sslclean wait_time
当实用程序使用–ssl选项运行时,设置实用程序在关闭ssl会话之前延迟的秒数,并在完成向Greenplum数据库段写入数据或从数据库段写入数据后清理ssl资源。缺省值为0,无延时。最大值是500秒。如果延迟增加,传输速度降低。
在某些情况下,复制大量数据时可能会出现此错误:gpfdist服务器关闭连接。为了避免这个错误,您可以添加一个延迟,例如–sslclean 5。

–compress
在数据传输过程中启用压缩。当指定时,gpfdist使用Zstandard (zstd)压缩算法。
此选项在Windows平台上不可用。

–multi_threads num_threads
设置gpfdist在数据传输期间使用的最大线程数,并行化操作。当指定时,gpfdist会在传输之前自动压缩数据(也是并行化的)。
Gpfdist最多支持256个线程。
此选项在Windows平台上不可用。

-c config.yaml
指定gpfdist用来在加载或提取数据时选择要应用的转换的规则。gpfdist配置文件是一个YAML 1.1文档。
有关文件格式的信息,请参见《Greenplum数据库管理员指南》中的“配置文件格式”。有关使用gpfdist配置数据转换的信息,请参阅《Greenplum数据库管理员指南》中的使用gpfdist和gpload转换外部数据。
此选项在Windows平台上不可用。

-v(verbose)
详细模式显示进度和状态消息。

-V(very verbose)
详细模式显示此实用程序生成的所有输出消息。

-?(help)
显示联机帮助。

–version
显示此实用程序的版本。

注意

服务器配置参数verify_gpfdists_cert控制当Greenplum Database与gpfdist实用程序通信以从外部数据源读取数据或向外部数据源写入数据时是否启用SSL证书身份验证。您可以将参数值设置为false,以便在测试Greenplum Database外部表与为外部数据提供服务的gpfdist实用程序之间的通信时停用身份验证。如果该值为false,则忽略以下SSL异常:
gpfdist使用的自签名SSL证书不受Greenplum数据库的信任。

SSL证书中包含的主机名与运行gpfdist的主机名不匹配。

您可以设置服务器配置参数gpfdist_retry_timeout,以控制当Greenplum数据库试图将数据写入gpfdist时,如果gpfdist服务器没有响应,那么在返回错误之前,Greenplum数据库等待的时间。默认值为300秒(5分钟)。

如果gpfdist实用程序挂起而没有发生读写活动,则可以在下一次发生挂起时生成核心转储,以帮助调试问题。将环境变量GPFDIST_WATCHDOG_TIMER设置为强制gpfdist退出之前等待无活动的秒数。当设置了环境变量并且gpfdist挂起时,该实用程序将在指定的秒数之后停止,创建一个核心转储,并将相关信息发送到日志文件。

本例在Linux系统上设置环境变量,以便gpfdist在没有活动的300秒(5分钟)后退出。

export GPFDIST_WATCHDOG_TIMER=300

当启用压缩时,gpfdist传输更大量的数据,同时保持较低的网络使用率。请注意,压缩可能是时间密集型的,并且可能会降低传输速度。当您使用多线程执行时,压缩所需的总时间可能会减少,这有助于更快的数据传输,同时保持低网络占用和高速度。

示例

使用端口8081从指定目录提供文件(并在后台启动gpfdist):

gpfdist -d /var/load_files -p 8081 &

要在后台启动gpfdist,并将输出和错误重定向到日志文件:

gpfdist -d /var/load_files -p 8081 -l /home/gpadmin/log &

启用多线程数据传输(隐式压缩)使用四个线程,启动gpfdist如下:

gpfdist -d /var/load_files -p 8081 --multi_thread 4

当gpfdist在后台运行时停止它:
首先找到它的进程id:

ps ax | grep gpfdist

然后停止该进程,例如:

kill 3456

相关文章:

Greenplum实用工具-gpfdist

注&#xff1a;本文翻译自https://docs.vmware.com/en/VMware-Greenplum/7/greenplum-database/utility_guide-ref-gpfdist.html 向Greenplum数据库段提供数据文件或从数据库段写入数据文件。 语法 gpfdist [-d <directory>] [-p <http_port>] [-P <last_http…...

axios和fetch的区别

axios和fetch都是用于发起HTTP请求的工具&#xff0c;但是它们有一些区别&#xff1a; 语法和用法&#xff1a;axios是一个基于Promise的HTTP客户端&#xff0c;具有更简洁和直观的语法&#xff0c;可以方便地发送GET、POST、PUT等各种请求&#xff0c;并提供了更多的请求配置选…...

HTML那些重要的知识点

文章目录 ⭐️写在前面的话⭐️一、HTML1.1 锚点链接跳转到当前页面的指定位置跳转到其他页面的指定位置 1.2 自定义列表1.3 表格的跨行跨列1.4 视频和音频内容1.5 页面结构规范1.6 ifram内联框架1.7 表单1.7.1 form标签1.7.2 原生表单部件1.7.3 下拉框1.7.4 文本域1.7.5 文件域…...

《优化接口设计的思路》系列:第四篇—接口的权限控制

系列文章导航 《优化接口设计的思路》系列&#xff1a;第一篇—接口参数的一些弯弯绕绕 《优化接口设计的思路》系列&#xff1a;第二篇—接口用户上下文的设计与实现 《优化接口设计的思路》系列&#xff1a;第三篇—留下用户调用接口的痕迹 《优化接口设计的思路》系列&#…...

BI系统上的报表怎么导出来?附方法步骤

在BI系统上做好的数据可视化分析报表&#xff0c;怎么导出来给别人看&#xff1f;方法有二&#xff0c;分别是1使用报表分享功能&#xff0c;2使用报表导出功能。下面就以奥威BI系统为例&#xff0c;简明扼要地介绍这两个功能。 1、报表分享功能 作用&#xff1a; 让其他同事…...

电脑WIFI突然消失

文章目录 1. 现象2. 解决办法1&#xff1a;重新启用无线网卡设置3. 解决办法2&#xff1a;更新无线网卡驱动4. 解决办法3&#xff1a;释放静电5. 解决办法4&#xff1a;拆机并重新插拔无线网卡 1. 现象 如下图&#xff1a;电脑在使用过程中WIFI消失 设备管理器中的无线网卡驱…...

http的get与post

get方法&#xff1a; 这个网址可以获取配置信息&#xff08;我把部分位置字符改了&#xff0c;现在打不开了&#xff0c;不然会被追责&#xff09; http://softapi.s103.cn/addons/Kmdsoft/Index/config?productwxdk&partner_id111122&osWindows&os_version11&am…...

MySQL 8 和 MySQL 5.7 在自增计数上的区别

MySQL 8 和 MySQL 5.7 在自增计数上的区别 作者&#xff1a;Arunjith Aravindan 本文来源&#xff1a;Percona 博客&#xff0c;爱可生开源社区翻译。 本文约 900 字&#xff0c;预计阅读需要 2 分钟。 Auto-Increment 自增&#xff08;Auto-Increment&#xff09;计数功能可以…...

Linux系统之links和elinks命令的基本使用

Linux系统之links和elinks命令的基本使用 一、links与elinks命令介绍1. links命令简介2. elinks命令简介 二、links与elinks命令区别三、links命令选项解释四、links命令的基本使用1. links安装2. 查看links版本3. 图形模式打开网址4. 直接使用links命令5. 打印url版本到标准格…...

【00】FISCO BCOS区块链简介

官方文档&#xff1a;https://fisco-bcos-documentation.readthedocs.io/zh_CN/latest/docs/introduction.html FISCO BCOS是由国内企业主导研发、对外开源、安全可控的企业级金融联盟链底层平台&#xff0c;由金链盟开源工作组协作打造&#xff0c;并于2017年正式对外开源。 F…...

NPDP产品经理认证怎么报名?考试难度大吗?

PMDA&#xff08;Product Development and Management Association&#xff09;是美国产品开发与管理协会&#xff0c;在中国由中国人才交流基金会培训中心举办NPDP&#xff08;New Product Development Professional&#xff09;考试&#xff0c;该考试是产品经理国际资格认证…...

免杀技术,你需要学习哪些内容

免杀技术&#xff0c;你需要学习哪些内容&#xff1f; 什么是免杀&#xff1f; 免杀是指通过各种技术手段使恶意软件或病毒能够逃避杀毒软件的检测和阻止&#xff0c;成功地感染目标系统。免杀技术是黑客和恶意软件开发者常用的手段之一&#xff0c;用于隐藏恶意代码并绕过安…...

odoo16 取消“系统各功能状态日报”的邮件

odoo16默认情况下每周都会发送一个“系统各功能状态日报”的邮件&#xff0c;而且是所有人都发&#xff0c; 这个功能在哪配置呢&#xff1f; 今天研究了一下&#xff0c; 线索是“系统各功能状态日报”&#xff0c;先全文检索吧 #. module: digest #: model:digest.digest,na…...

[C++ 网络协议] Windows中的线程同步

目录 1. 用户模式(User mode)和内核模式(Kernal mode) 2. 用户模式的同步(CRITICAL_SECTION) 3. 内核模式同步 3.1 互斥量 3.2 信号量 3.3 事件对象 4. 实现Windows平台的多线程服务器端 1. 用户模式(User mode)和内核模式(Kernal mode) Windows操作系统的运行方式是“…...

JavaScript 基础第三天笔记

JavaScript 基础第三天笔记 if 多分支语句和 switch的区别&#xff1a; 共同点 都能实现多分支选择&#xff0c; 多选1大部分情况下可以互换 区别&#xff1a; switch…case语句通常处理case为比较确定值的情况&#xff0c;而if…else…语句更加灵活&#xff0c;通常用于范围…...

NebulaGraph实战:3-信息抽取构建知识图谱

自动信息抽取发展了几十年&#xff0c;虽然模型很多&#xff0c;但是泛化能力很难用满意来形容&#xff0c;直到LLM的诞生。虽然最终信息抽取质量部分还是需要专家审核&#xff0c;但是已经极大的提高了信息抽取的效率。因为传统方法需要大量时间来完成数据清洗、标注和训练&am…...

一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

一、目的 经过6个月的奋斗&#xff0c;项目的离线数仓部分终于可以上线了&#xff0c;因此整理一下离线数仓的整个流程&#xff0c;既是大家提供一个案例经验&#xff0c;也是对自己近半年的工作进行一个总结。 二、项目背景 项目行业属于交通行业&#xff0c;因此数据具有很…...

工具篇 | H2数据库的使用和入门

引言 1.1 H2数据库概述 1.1.1 定义和特点 H2数据库是一款以 Java编写的轻量级关系型数据库。由于其小巧、灵活并且易于集成&#xff0c;H2经常被用作开发和测试环境中的便利数据库解决方案。除此之外&#xff0c;H2也适合作为生产环境中的嵌入式数据库。它不仅支持标准的SQL…...

PHP脚本导出MySQL数据库

背景&#xff1a;有时候需要同步数据库的表结构和部分数据&#xff0c;同步全表数据非常大&#xff0c;也不适合。还有一个种办法是使用数据库的dump命令执行备份&#xff0c;无法进入服务器&#xff1f;没有权限怎么办&#xff1f; 这里只要能访问服务器中的 information_sch…...

生成随机单据号

背景&#xff1a;全局生成4位字符2222-9ZZ9 实现方式&#xff1a; 使用redis的原子自增 google的retry保证&#xff0c;生成4位数 1、pom <dependency><groupId>com.github.rholder</groupId><artifactId>guava-retrying</artifactId><v…...

Java 语言特性(面试系列2)

一、SQL 基础 1. 复杂查询 &#xff08;1&#xff09;连接查询&#xff08;JOIN&#xff09; 内连接&#xff08;INNER JOIN&#xff09;&#xff1a;返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展&#xff1a;显示创建时间8. 功能扩展&#xff1a;记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

springboot 百货中心供应链管理系统小程序

一、前言 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;百货中心供应链管理系统被用户普遍使用&#xff0c;为方…...

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook&#xff0c;用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途&#xff0c;下面我将全面详细地介绍它的特性和用法。 基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

Opencv中的addweighted函数

一.addweighted函数作用 addweighted&#xff08;&#xff09;是OpenCV库中用于图像处理的函数&#xff0c;主要功能是将两个输入图像&#xff08;尺寸和类型相同&#xff09;按照指定的权重进行加权叠加&#xff08;图像融合&#xff09;&#xff0c;并添加一个标量值&#x…...

《用户共鸣指数(E)驱动品牌大模型种草:如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代&#xff0c;情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现&#xff0c;消费者对内容的“有感”程度&#xff0c;正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

P3 QT项目----记事本(3.8)

3.8 记事本项目总结 项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)

升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点&#xff0c;但无自动故障转移能力&#xff0c;Master宕机后需人工切换&#xff0c;期间消息可能无法读取。Slave仅存储数据&#xff0c;无法主动升级为Master响应请求&#xff…...

关键领域软件测试的突围之路:如何破解安全与效率的平衡难题

在数字化浪潮席卷全球的今天&#xff0c;软件系统已成为国家关键领域的核心战斗力。不同于普通商业软件&#xff0c;这些承载着国家安全使命的软件系统面临着前所未有的质量挑战——如何在确保绝对安全的前提下&#xff0c;实现高效测试与快速迭代&#xff1f;这一命题正考验着…...