数据仓库:数据仓库概念及技术框架

1. 什么是数据仓库

  • 应用场景:对历史数据进行大规模的决策分析,为上层应用做准备;
  • 数据来源:结构化数据、半结构化数据、非结构化数据;

2. 数据仓库和数据库的区别

数据库 数据仓库
面向事务(OLTP)设计的 面向主题(OLAP)设计的
一般存储在线数据 一般存储历史数据
尽量避免冗余 可以引入冗余设计
为捕获数据而设计 为数据分析而设计

3. 主流数据仓库

  • Oracle Database;
  • TeraData;
  • IBM Red Brick;
  • Netzza TwinFin;
  • Greenplum;

4. 数据仓库三层模型

  • ODS 层(备份),业务数据 \ 日志数据;
  • DW 层,按照主题维度建立数据模型,维 & 事实;
    -- DWD,清洗脏数据;
    -- DDWS,按天统计用户数据;
    -- DWT,统计用户累计数据;
  • ADS,

:主题的各个属性;
事实:对于属性的度量;

  • DM 层,提供数据产品和数据分析使用的数据,一般存放于 ES、MySQL等功线上系统使用,也可能存繁育 hive 或 Druid 中供数据分析和数据挖掘使用,一般常说的宽表就是存放在这里;

5. 数据建模

  • 维度表,
    -- 表示对于分析主题所属类型的描述;
  • 事实表,
    -- 对分析主题的度量,通常表现为数值;
    -- 事实表包含了与各维度表关联的外码,并通过 join 方式与维度表关联;

6. DW 层建模

  • 星型模型,多维对单事实;
  • 雪花模型(不常用),多维对单事实;
  • 星座模型,多维对多事实,业务发展后期绝大部分采用星座模型;

7. 数据来源

  • 爬虫数据
  • 用户行为数据
    -- 多来自日志文件;
  • 业务数据
    -- 业务系统后台,如:MySQL / MongoDB;

8. 数据输出

  • 报表系统
  • 用户画像
  • 推荐系统
  • 机器学习

9. 数据仓库需要的技术框架

  • 采集:Flume / Kafka / Sqoop;
  • 存储:MySQL / Hadoop / HBase;
  • 计算:Hive / Tez;
  • 查询:Presto / Druid / Kylin;
  • 可视化:Superset;
  • 任务调度:Azkaban;
  • 集群监控:Zabbix;
  • 元数据管理:Altas;
  • 脚本:shell;

10. 数据仓库主要工作内容

  • 用户行为数据采集平台
  • 业务数据采集平台搭建
  • 数据仓库维度建模
  • 数据分析
    -- 用户、流量、会员、商品、活动、销售、地区 等主题分析;
  • 即时数据查询 \ 指标分析
  • 集群性能监控
  • 元数据管理
  • 数据质量监控
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,702评论 6 534
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,615评论 3 419
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 176,606评论 0 376
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,044评论 1 314
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,826评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,227评论 1 324
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,307评论 3 442
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,447评论 0 289
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,992评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,807评论 3 355
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,001评论 1 370
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,550评论 5 361
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,243评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,667评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,930评论 1 287
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,709评论 3 393
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,996评论 2 374

推荐阅读更多精彩内容

  • 数据仓库概念汇总 目录 一、术语............................................
    起个什么呢称呢阅读 4,332评论 2 23
  • 目前先只总结部分基础概念,后在陆续整理 数据仓库 是一个面向主题的(Subject Oriented)、集成的(I...
    数据僧阅读 1,997评论 1 5
  • 基本概念 数据仓库总线矩阵 总线矩阵是一个二维表格,每一行对应一个业务线,每一列对应一个维度,每一个交叉点对应了业...
    lsyarn阅读 800评论 0 0
  • 总结: 数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据...
    小小少年Boy阅读 4,501评论 1 1
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,542评论 16 22