集合运算

发表于 2021-07-29 更新于 2023-01-25

除了我们平时常用的crud查询，sql中的还有集合运算。比如，最近因为，要确定一个id，在另外一个表中是否存在，即用到了该运算。而自己用到的是联表left join运算。貌似直接用expect更方便。

本文部分内容来自转载。

参考资源

https://www.cnblogs.com/kissdodog/p/3152743.html

三种集合运算

三种运算和、差、交。

union 形成并集

Union可以对两个或多个结果集进行连接，形成“并集”。子结果集所有的记录组合在一起形成新的结果集。

1、限定条件

要是用Union来连接结果集，有4个限定条件。

(1)、子结果集要具有相同的结构。

(2)、字结果集的列数必须相同。

(3)、子结果集对应的数据类型必须可以兼容。

(4)、每个子结果集不能包含order by和compute子句。

2、语法形式

select_statement union [all] select_statement

all代表最终的结果集中将包含所有的行，而不能删除重复行。

示例：

SELECT Name FROM Person_1
UNION
SELECT Name FROM Person_2

UNION ALL 与 UNION的不同之处：结果是否出重。

Except形成差集

Except可以对两个或多个结果集进行连接，形成“差集”。返回左边结果集合中已经有的记录，而右边结果集中没有的记录。

1、限定条件：

1、子结果集要具有相同的结构。

2、子结果集的列数必须相同。

3、子结果集对应的数据类型必须可以兼容。

4、每个子结果集不能包含order by 和 compute子句。

2、语法形式：

select_statement except select_statement

自动删除重复行。

示例：

SELECT Name FROM Person_1
EXCEPT
SELECT Name FROM Person_2

InterSect形成交集

InterSect可以对两个或多个结果集进行连接，形成“交集”。返回左边结果集和右边结果集中都有的记录。

1、限定条件　　

要是用Except来连接结果集，有4个限定条件。

(1)、子结果集要具有相同的结构。

(2)、子结果集的列数必须相同。

(3)、子结果集对应的数据类型必须可以兼容。

(4)、每个子结果集不能包含order by或compute子句。

2、语法形式

select_statement intersect select_statement

示例：

SELECT Name FROM Person_1
INTERSECT
SELECT Name FROM Person_2

结果集排序

SELECT Name FROM Person_1
INTERSECT
SELECT Name FROM Person_2
ORDER BY Name DESC　　　　--此处的字段名相同了，如果不同，请切记排序列名，只能够是第一个表的列名

这里只有两点要注意

1.ORDER BY是对整个运算后的结果排序，并不是对单个数据集。

2.ORDER BY后面排序的字段名称是第一个数据集的字段名或者别名。

实例

测试expcept/except all

CREATE TABLE demo1 (
    id int,
    title text
);
CREATE TABLE demo2 (
    id int,
    title text
);

insert into demo1 values
        (1,'测试1'),
		(2,'测试2'),
		(3,'测试3');

insert into demo2 values
        (1,'测试1'),
		(2,'测试2'),
		(3,'测试3');
-- 1、2内容一样，以下结果  无。
SELECT id,title from demo1 EXCEPT All  SELECT id,title from demo2;

insert into demo1 values
    (4,'测试4');
-- 1，新增记录4，故多1条
SELECT id,title from demo1 EXCEPT All  SELECT id,title from demo2;
-- 2更改了内容，
UPDATE demo2 set title = '测试22' where id = 2;
-- 故，又多出1条。
SELECT id,title from demo1 EXCEPT All  SELECT id,title from demo2;

-- 1插入了重复的数据  All 二者有差别了
insert into demo1 values (1,'测试1');
-- 输出3条，有重复的那条
SELECT id,title from demo1 EXCEPT All  SELECT id,title from demo2;
-- 无重复的那条。
SELECT id,title from demo1 EXCEPT SELECT id,title from demo2;

对比计算结果

有这么一种场景，一个复杂的sql输出的结果，重复计算两次，如果比较两次的结果是否完全一致。

比如，修改了某个字段的表达式的值，想跟踪该值的新、旧两次变化情况。这都可以用except表达试来处理。联表，是作为对比，可能联表方式需要写各个字段更麻烦一些，但是对比更清楚。

-- except
select ship_id,exist_zhipao_code from test_data_uniq_20210902_02 Except ALL  select ship_id,exist_zhipao_code from test_data_uniq_20210902

-- except all
select ship_id,exist_zhipao_code from test_data_uniq_20210902_02 Except select ship_id,exist_zhipao_code from test_data_uniq_20210902

-- left join and  compare
select t2.ship_id,t1.exist_zhipao_code  as code1 ,t2.exist_zhipao_code as code2 from test_data_uniq_20210902_02 as t2 left join test_data_uniq_20210902 as t1 on t1.ship_id = t2.ship_id
select count(*) from test_duibi2 where code1 != code2 ;


-- 统计
select count(1) as cnt1,count(ship_id) as cnt2,count(distinct ship_id) as cnt3 from test_duibi;
select count(1) as cnt1,count(ship_id) as cnt2,count(distinct ship_id) as cnt3 from test_duibi1;
select count(1) as cnt1,count(ship_id) as cnt2,count(distinct ship_id) as cnt3 from test_duibi2;

经对比发现，Except All的结果会比Except多。

其他

求差集实践

DROP TABLE IF EXISTS tmp_check_mailno;
CREATE TABLE tmp_check_mailno WITH (
    APPENDONLY = TRUE,
    COMPRESSLEVEL = 5,
    ORIENTATION = COLUMN,
    COMPRESSTYPE = ZLIB
)  AS 



-- 求差集合
select mailno  from bm_order_data_02 where insert_time  >= '2021-8-15' and  insert_time < '2021-8-16' 
except 
select doc_sn as mailno from tu_doc_info where dtime >= '2021-8-15' and dtime < '2021-8-16'


DISTRIBUTED BY (mailno) 
;