gpfdist
使用外部表的形式来高速加载数据,避免直接使用copy命令时,只有master节点,在解析、工作。从而提高数据的加载速度。重点掌握该工具,来达到快速的加载数据。
gpfdist基于libevent的高速并行文件加载工具;充分利用多节点优势,并行加载;加载性能非常好;可水平扩展。
实践过程中,利用域名解析,如将运行gpfdist的机器的ip加入到本地域名中etl。好处是:外部表的定义不用更改,可以方便的指向真实ip。
使用外部表的形式来高速加载数据,避免直接使用copy命令时,只有master节点,在解析、工作。从而提高数据的加载速度。重点掌握该工具,来达到快速的加载数据。
gpfdist基于libevent的高速并行文件加载工具;充分利用多节点优势,并行加载;加载性能非常好;可水平扩展。
实践过程中,利用域名解析,如将运行gpfdist的机器的ip加入到本地域名中etl。好处是:外部表的定义不用更改,可以方便的指向真实ip。
本文记录一次真实的取数经历,涉及到多张表的联合表。整体的规模,1个月的数据,最大的表有120亿数据,甚至更多。主表自联2次,订单表30亿(1个月),解析表(10天,10亿),引擎吐出表,2张,10亿或者更多,标记表,(从最近3、4个月,15亿更多的表,需要对同一个订单号、类型分组,并计算出合并的类型),其他小表若干,当然,出重贯穿整个步骤,并最后以主键进行联合。目标数据总量跟主表的总量相近。目前已处理360+个字段,导出数据5000万,数据csv大小120g左右
效果:每日定时跑数,从其他源取数,大概1小时多,脚本运行40分钟,导数3分钟。
本文除了会讲with select,还会讲with delelte等其他,与with有关的语句。
第一次遇到这种情况,需要先判断,联表的字段是哪个,然后再进行联表。初步思考,大概有以下几种方式。
case when计算个人比较推崇方式2。不过还是根据数据量等进行合理的选择。