gpfdist的工作原理及性能优化

在 《Greenplum数据加载方式(2) – 外部表(gpfdist)》 和 《Greenplum数据加载方式(3) – gpload》 两篇文章中都使用到了gpfdist。本篇文章将详细介绍gpfdist的工作原理;Greenplum主要适用于大数据场景,数量都是TB级别,那么利用gpfdist加载数据必须要高效,因此gpfdist的性能优化也很重要。 一、工作原理 <1>启动gp

Read more

Greenplum数据加载方式(3) – gpload

《Greenplum数据加载方式(1) – insert 和 copy》和 《Greenplum数据加载方式(2) – 外部表(gpfdist)》两篇文章介绍了Greenplum加载数据的三种方式。本篇引入Greenplum的第四种数据加载方式:gpload。 一、gpload原理介绍 gpload是GP使用可读外部表和GP并行文件服务gpfdist装载数据的一个命令包装。其允许通过使用配置文件的

Read more

Greenplum数据加载方式(2) – 外部表(gpfdist)

上篇《Greenplum数据加载方式(1) – insert 和 copy》介绍了Greenplum最普通、低效的数据导入方式:insert和copy。 为了提高数据导入效率,Greenplum引入了外部表。外部表基于gpfdist工具(类似于Oracle的sqlldr工具),其最大的优势是支持数据并发加载。 一、外部表介绍及原理 所谓外部表,就是在数据库中只有表定义、没有数据,数据都存放在数据库

Read more

Greenplum数据加载方式(1) – insert 和 copy

greenplum数据加载主要包括insert、copy、外部表、gpload、web external table等五种方式。 其中insert和copy是串行;外部表gpfdist和gpload工具是并行方式。 1、insert 这种加载方式和其他数据库SQL语法一样,但是效率最差,只适合加载极少数数据。需要通过master节点操作。 <1>直接在plsq客户端中执行insert语

Read more

Greenplum安装(1) – 系统安装部署

一、安装操作系统 SWAP大小不小于内存容量 1、关闭NetworkManager、iptables、selinux 2、配置/etc/sysctl.conf

3、配置/etc/security/limits.conf

4、对于redhat 6.x系统,还需要将/et

Read more