HiveSQL核心技能之表连接

目标:
1、掌握HQL中的各种连接及其组合使用;
2、掌握数据分析中业务指标思路转换的技巧;
3、区分好full join 和 union all 的使用场景;
4、在多表连接时,注意各种细节和业务逻辑;
5、复杂表连接要学会分步骤处理

一、基础知识:

1、内连接(inner join,返回两个表的交集)

需注意:
1、表连接时,必须进行重命名;
2、on后面使用的连接条件必须起到唯一键值的作用(有时会有多个字段组合);
3、inner可省略不写,效果是一样的
4、表连接时不能使用 a join b join c这种方式,不然会极度浪费电脑的资源和延长查询时间,要在子查询的表里先做好筛选之后在连接;

1)找出在2019年购买后又退款的用户(记得要去重)

select a.user_name
from 
    (select distinct user_name
    from user_trade where year(dt)='2019') as a
join 
    (select distinct user_name
    from user_refund where year(dt)='2019') as b
on a.user_name=b.user_name

注意:一定要先去重,再做表连接,养成良好的习惯(虽然可以先连接再去重,但是那么做会使执行效率很低)

2)在2017年和2018年都购买的用户

select a.user_name
from
    (select distinct user_name from user_trade where year(dt)=2017) as a
join 
    (select distinct user_name from user_trade where year(dt)=2018) as b
on a.user_name=b.user_name;

3)在2017年、2018年、2019年都有交易的用户

select a.user_name
    from (select distinct user_name from trade_2017)a
    join (select distinct user_name from trade_2018)b
    on a.user_name=b.user_name
 join (select distinct user_name from trade_2019)c
 on a.user_name=c.user_name
注意:要先去重再做表连接

2、左连接(left join,查询在表1但不在表2中的数据经常使用左连接的 is NULL)

进行左连接之后,以左表为全集,返回能够匹配上的右边表的匹配结果,没有匹配上的则显示NULL。

拓展:
right join:以右表为全集,返回能够匹配上的左边表的匹配结果,没有匹配上的则显示NULL,可以由left join改写出同样的结果。

4)在2019年购买,但是没有退款的用户

select a.user_name
from (select distinct user_name 
        from user_trade 
        where year(dt)=2019)a
left join 
    (select distinct user_name 
        from user_refund 
        where year(dt)=2019)b
on a.user_name=b.user_name
where b.user_name is null

5)在2019年由购买的用户的学历分布

extra2["education"]

select b.education,count(a.user_name)
from 
(select distinct user_name
from 
user_trade where year(dt)=2019)a
left join 
(select distinct user_name
    ,extra2["education"] as education
from 
user_info)b
on a.user_name=b.user_name
group by b.education

注意:extra2["education"] 可以换成 get_json_object(extra1,"$.education")

6)在2017年和2018年都购买,但是没有在2019年购买的用户

方法一:

select a.user_name
from 
(select distinct user_name
from user_trade where year(dt)=2017)a
join
(select distinct user_name
from user_trade where year(dt)=2018)b
on a.user_name=b.user_name
left join
(select distinct user_name
from user_trade where year(dt)=2019)c
on a.user_name=c.user_name
where c.user_name is null


方法二:

select a.user_name
from 
    (select distinct user_name
    from trade_2017)a
join
    (select distinct user_name
    from trade_2018)b
on a.user_name=b.user_name
left join
    (select distinct user_name
    from trade_2019)c
on a.user_name=c.user_name
where c.user_name is null

3、全连接(full join,应该在提取全部行名称的场景比较多)

select *
from user_list_1 a
full join user_list_2 b
on a.user_id=b.user_id

查询两个表的所有用户时使用full join是一个比较好的方法(需要用到coalesce函数:

select coalesce(a.user_name,b.user_name)
from user_list_1 a
full join user_list_2 b
on a.user_id=b.user_id

注:coalesce函数,coalesce(expression1,expression2,...,expression n),依次参考各参数表达式,遇到非null值即停止并返回该值,如果所有的表达式都是空值,最终将返回一个空值。

4、表合并(union all,利用占位符来做查询筛选可以很好的提高效率)

注:表合并时字段名称必须一致,字段顺序必须一致,而且不用填写连接条件

7)2017-2019年由交易的所有用户数

写法一:

select count(distinct a.user_name),
        count(a.user_name)
from 
   ( select distinct user_name from trade_2017
    union all
    select distinct user_name from trade_2018
    union all
    select distinct user_name from trade_2019) a

写法二:

select count(distinct a.user_name),
        count(a.user_name)
from 
   ( select user_name from trade_2017
    union 
    select user_name from trade_2018
    union 
    select  user_name from trade_2019) a

union all 和 union 的区别:
union all 不会去重,不会排序,效率较快;union 会去重且排序,效率较慢。
如果表很大时,推荐先去重,再进行 union all ,不能直接对表进行 union all,不然效率很慢。

8)2019年每个用户的支付和退款金额汇总

写法一(少了子查询里的分组计算步骤,执行效率更高一些,拼接的时候可以使用这种方式,表连接的时候不能用这种方式):

select a.user_name,sum(a.pay_amount),sum(a.refund_amount)
from(
    (select user_name,pay_amount,0 as refund_amount
        from user_trade 
        where year(dt)=2019)
union all
    (select user_name,0 as pay_amount,refund_amount
        from user_refund 
        where year(dt)=2019))a
group by a.user_name


写法二:

select a.user_name,sum(a.pay_amount),sum(a.refund_amount)
from(
    select  user_name
            ,sum(pay_amount)as pay_amount
            ,0 as refund_amount
        from user_trade
        where year(dt)=2019
        group by user_name
union all
    select  user_name,
            0 as pay_amount,
            sum(refund_amount) as refund_amount
        from user_refund 
        where year(dt)=2019
        group by user_name)a
group by a.user_name

也可以使用 full join 的方式:

select coalesce(a.user_name,b.user_name)
        ,if(a.payamount is null,0,payamount)
        ,if(b.refundamount is null,0,refundamount)
from 
     (  select user_name,sum(pay_amount) as payamount
        from user_trade 
        where year(dt)=2019
        group by user_name
        ) a
 full join 
      (  select user_name,sum(refund_amount) as refundamount
        from user_refund
        where year(dt)=2019
        group by user_name
        ) b
  on a.user_name=b.user_name

9)2019年每个支付用户的支付金额和退款金额

写法一(错误写法,由于左连接会出现多次连接的情况,因此要先去重(或分组)之后在进行连接,不然会出现重复连接的情况:

select a.user_name,sum(a.pay_amount),sum(b.refund_amount)
from
    (select user_name,pay_amount
        from user_trade 
        where year(dt)=2019)a
left join 
    (select user_name,refund_amount
        from user_refund 
        where year(dt)=2019)b
on  a.user_name=b.user_name
group by a.user_name


写法二:

select a.user_name,a.pay_amount,b.refund_amount
from
    (select user_name,sum(pay_amount)as pay_amount
        from user_trade 
        where year(dt)=2019
        group by user_name)a
left join 
     (select user_name,sum(refund_amount)as refund_amount
        from user_refund
        where year(dt)=2019
        group by user_name)b
on  a.user_name=b.user_name

10)首次激活时间在2017年,但是一直没有支付的用户年龄段分布

    1)
select a.age_type,count(a.user_name)
from
    (select user_name,
            case
            when age<20 then '20岁以下'
            when age<30 then '20-30岁'
            when age<40 then '30-40岁'
            else '40岁以上'
            end as age_type
    from user_info
    where year(firstactivetime)=2017)a
left join
    (select distinct user_name
    from user_trade where dt>0)b
on a.user_name=b.user_name
where b.user_name is null
group by a.age_type

步骤总结:
1、先筛选出年份为2017注册的用户;
2、没有支付的人;
3、年龄段分布
注意:由于age也是在user_info的表格里,第三步用的字段需要在第一步进行预处理,所以在限制时间的时候需要同时对年龄段进行预处理,这样在第三步的时候才会由年龄段这个字段;需要注意对 case when 的字段进行重命名才能进行后续的操作

    2)
select a.age_type,count(distinct a.user_name)
from
    (select distinct user_name,
            case
            when age<20 then '20岁以下'
            when age<30 then '20-30岁'
            when age<40 then '30-40岁'
            else '40岁以上'
            end as age_type
    from user_info
    where year(firstactivetime)=2017
    )a
left join
    (select  distinct user_name
    from user_trade 
    where year(dt) in ('2017','2018','2019')
    )b
on a.user_name=b.user_name
where b.user_name is null
group by a.age_type

11)2018、2019年交易的用户,其激活时间段分布

写法一:

select b.hour,count(a.user_name)
from
   ( select distinct user_name
    from user_trade
    where  year(dt) in(2018,2019)
    )a
left join
   ( select distinct user_name,hour(firstactivetime) as hour
    from user_info
    )b
on a.user_name=b.user_name
group by b.hour


写法二:

select hour(firstactivetime)
        ,count(distinct a.user_name)
from
  ( select distinct user_name
    from trade_2018
union all
    select distinct user_name
    from trade_2019
    ) as a
left join 
    user_info as b
on a.user_name=b.user_name
group by hour(firstactivetime)

步骤总结:
1. 取出2018和2019年所有的交易用户的交集
2. 取出所有用户的激活时间
3. 统计时间分布

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,303评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,478评论 3 415
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 176,230评论 0 373
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,936评论 1 309
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,688评论 6 409
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,174评论 1 323
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,243评论 3 441
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,402评论 0 288
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,932评论 1 334
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,771评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,971评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,514评论 5 359
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,209评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,631评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,863评论 1 283
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,640评论 3 391
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,949评论 2 373