Greenplum数据加载方式(3) – gpload

《Greenplum数据加载方式(1) – insert 和 copy》《Greenplum数据加载方式(2) – 外部表(gpfdist)》两篇文章介绍了Greenplum加载数据的三种方式。本篇引入Greenplum的第四种数据加载方式:gpload。

一、gpload原理介绍

gpload是GP使用可读外部表和GP并行文件服务gpfdist装载数据的一个命令包装。其允许通过使用配置文件的方式设置数据格式等来创建外部表定义。通过按照YAML格式定义的装载说明配置文件,然后执行insert、update、merger操作,将数据装载到目标数据库表中。

二、语法

请参考http://gpdb.docs.pivotal.io/4360/utility_guide/admin_utilities/gpload.html

三、创建YAML格式控制文件

该yaml文件解释:在10.9.15.18服务器上,存放着外部文件/home/gpadmin/script/member.txt。通过gpadmin用户把外部文件insert到到10.9.15.8的testDB的t表中;并把加载的开始和结束时间插入到audit审计表中。

特别提醒:“-”后一定要有空格;“:”后也一定要有空格。

参数说明:

四、使用gpload命令加载数据

上面已经定义好了yaml文件,下面使用gpload加载数据。gpload命令执行期间有执行时间、插入行、更新行、数据错误次数等信息反馈,帮助DBA定位问题。

至此,Greenplum的四种加载方式全部介绍完毕。在生产环境中,大家可以根据不同场景和需求选择合适方式,正确的选择能帮助您高效完成加载任务。

>> 更多关于greenplum安装部署的文章,请点击这里。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注