超凡魔力

君子善思,善假于物,而不物于物。

0%

使用外部表的形式来高速加载数据,避免直接使用copy命令时,只有master节点,在解析、工作。从而提高数据的加载速度。重点掌握该工具,来达到快速的加载数据。

gpfdist基于libevent的高速并行文件加载工具;充分利用多节点优势,并行加载;加载性能非常好;可水平扩展。

实践过程中,利用域名解析,如将运行gpfdist的机器的ip加入到本地域名中etl。好处是:外部表的定义不用更改,可以方便的指向真实ip。

阅读全文 »

本文记录一次真实的取数经历,涉及到多张表的联合表。整体的规模,1个月的数据,最大的表有120亿数据,甚至更多。主表自联2次,订单表30亿(1个月),解析表(10天,10亿),引擎吐出表,2张,10亿或者更多,标记表,(从最近3、4个月,15亿更多的表,需要对同一个订单号、类型分组,并计算出合并的类型),其他小表若干,当然,出重贯穿整个步骤,并最后以主键进行联合。目标数据总量跟主表的总量相近。目前已处理360+个字段,导出数据5000万,数据csv大小120g左右

效果:每日定时跑数,从其他源取数,大概1小时多,脚本运行40分钟,导数3分钟。

阅读全文 »

本文除了会讲with select,还会讲with delelte等其他,与with有关的语句。

阅读全文 »

shell中的算数运算的支持。直接使用两个小括号,里面可以支持四则混合运算。一般情况下,整数,用这种方式就行。遇到小数,使用bc命令来完成即可。

阅读全文 »

第一才接触到ldap,用在公司的soa上。感觉这个东西类似于树形的数据库一样,跟自己平时用到的数据库不太一样。故希望简单的记录一下用法。

连接工具:LdapAdmin.exe

阅读全文 »

第一次遇到这种情况,需要先判断,联表的字段是哪个,然后再进行联表。初步思考,大概有以下几种方式。

  • 1、联表条件使用case计算,计算出联表的字段值。
  • 2、先计算出要联表的主键,放到临时表中。
  • 3、一次联连两张表,谁有要谁的。
  • 4、根据3,进行变种,两次联表。先联一次,有结果后,再联一次。不过每个字段取值,还是要case when计算
  • 5、union方式。分两部计算。然后union在一起。

个人比较推崇方式2。不过还是根据数据量等进行合理的选择。

阅读全文 »

第一次知道syslog这种协议。使用udp的514端口来接收日志文件。内容比较多,但是先简单的记录一下。

使用filebeat貌似也能监听到这个端口。

阅读全文 »

示例

# 服务端
nc -lup 9002
# 客户端
nc -u localhost 9002

效果:

客户端连上服务端后。服务端在终端输出内容,客户端不会有反应。但是,客户端输出内容,服务端会有内容输出。

服务端没有启动时,客户端可在终端上输入内容,但是回车发送的时候,会立即退出。

阅读全文 »

继承表、分区表,不同,但是又有很多相同的地方。

表继承(Table Inheritance)是PostgreSQL的独有特性,很多数据库(如MySQL)是不支持该特性的。SQL:1999及之后的标准定义了类型继承特性,不过PostgreSQL的表继承在很多方面与它有差异。

类似于编程语言中的继承概念。

阅读全文 »