数据仓库理论与实战,数据仓库理论与实战应用解析

马肤

温馨提示:这篇文章已超过463天没有更新,请注意相关的内容是否还可用!

摘要:,,本书介绍了数据仓库的理论与实战应用。首先概述了数据仓库的基本概念、架构和设计原则,然后深入探讨了数据仓库的建设过程,包括数据清洗、数据集成、数据建模和数据管理等方面。结合具体案例,详细阐述了数据仓库在业务决策、数据挖掘和分析等方面的实战应用。本书既适合作为初学者入门数据仓库的教材,也适合作为高级数据分析师参考用书。

文章目录

    • 数据仓库理论与实战
      • 1. 数仓建模
      • 2. 运营数据分析模型
      • 3. 数仓工具
        • 1. Hive
        • 高性能查询引擎
          • 1.Spark-SQL
          • 2.Impala
          • 3.Presto
          • 4.Druid
          • 5.Clickhouse
          • Doris
          • 3.数据集成工具
            • sqoop
            • datax
            • Maxwell
            • SeaTunnel
            • Flink CDC
            • dolphinscheduler
            • 4. 数据湖
            • 5. 调度工具
              • 1. 调度工具的使用
              • 2. 调度工具整合
              • 6. 元数据管理工具
              • 7. 监控工具
              • 8. 报表工具
              • 9. 实时数仓
              • 10. 数据资产
              • 4. 数仓实战
                • 1. K12赛道Top公司的数仓建设案例
                • 2. 知名游戏公司的数仓建设案例
                • 3. 大型支付公司实时数仓建设案例
                • 总结

                  数据仓库理论与实战

                  读者交流群已经开通了,有需要的可以私信进入读者交流群

                  数据仓库理论与实战,数据仓库理论与实战应用解析 第1张
                  (图片来源网络,侵删)

                  数据仓库已经是企业的数据竞争的核心了,学好数据仓库对提高自己和找到一份好的工作都至关重要,但是很多人对数仓的印象还是停留在写SQL的层面,其实今天的数仓更像是一个数据平台应用,我们学习的大数据技术其实最终的价值都体现在数据服务上,数仓是数据服务的基石,如果说业界以前还有离线和实时之分的话,那么现在实时数仓的提出与落地,未来数仓将是数据战争的最激烈的战场,一切大数据技术都将为数仓提供服务,也都将在数仓这一环节进行收口。

                  本专栏主要专注于数仓工具学习、数仓建模以及业务建模、SQL 实战和平台建设,最后以3家公司的数仓建建设和实时数仓作为结尾项目,这份教程有以下特点

                  数据仓库理论与实战,数据仓库理论与实战应用解析 第2张
                  (图片来源网络,侵删)
                  1. 知识体系完善,从数仓的概念、建模、数仓工具的使用、数仓的落地实践都有,还会有很多小案例,例如股票的连续涨停天数计算,最大涨停板的概率计算,会话分析,复杂时间序列匹配等
                  2. 使用的技术都是当前企业最常用的技术,版本也是比较新的,不会导致大家看到一个代码,然后一执行发现语法不支持或者废弃掉了
                  3. 后续的更新也会很及时,不会说更新了一段时间断更了,在更新完大纲之后,我也会不断完善该系列,不断添加新的知识点
                  4. 创作团队都是在企业一线员工,实战多于理论,还有很多经典的面试题,例如拉链表的优化、计算连续登陆、连续增长、最大在线用户数

                  适合人群

                  1. 小白对数仓感兴趣同学
                  2. 有数仓经验但是缺乏全面认识的同学

                  1. 数仓建模

                  编号文章
                  1数仓建模—数仓初识
                  2数仓建模—数仓架构发展史
                  3数仓建模—数仓建模方法论
                  4数仓建模—分层建设理论
                  5数仓建模—数据治理
                  6数仓建模—指标体系建设
                  7数仓建模—数据模型
                  8数仓建模—宽表的设计
                  9数仓建模—埋点设计与管理
                  10数仓建模—ID Mapping(上)
                  11数仓建模—ID Mapping(下)
                  12数仓建模—OneID落地实践
                  13数仓建模—数据集成
                  14数仓建模—元数据管理
                  15数仓建模—自助分析
                  16数仓建模—建模工具PDMan(CHINER) 入门介绍
                  17数仓建模—事实表
                  18数仓建模—维度表
                  19数仓建模—数仓建模实战(建模流程/建模工具)
                  20数仓建模—数据集市(DM)
                  21数仓建模—总线矩阵
                  22数仓建模—数据安全
                  23数仓建模—数据域
                  24数仓建模—数据质量
                  25数仓建模—数仓开发规范
                  26数仓建模—实时数仓架构发展史
                  27数仓建模—数据地图
                  28数仓建模—数仓建模和业务建模
                  29数仓建模—雪花模型和星型模型
                  30数仓建模—OneData体系
                  31数仓建模—数据资产管理
                  32数仓建模—事实表和维度表设计规范
                  33数仓建模—表设计规范
                  34数仓建模—数据同步方案设计
                  35数仓建模—美团DB数据同步到数据仓库的架构与实践
                  36数仓建模—数据领域常见概念与职位划分
                  37数仓建模—用户画像
                  38数仓建模—数据驱动业务
                  39数仓建模—主数据管理
                  40数仓建模—数据治理的本质与实践
                  41数仓建模—用户旅程地图
                  42数仓建模—数据仓库即服务
                  43数仓建模—数据安全平台建设实践
                  44数仓建模—数据水印
                  45数仓建模—IOTA架构
                  46数仓建模—美团数据质量监管平台实践
                  47数仓建模—企业数字化转型
                  48数仓建模—主题域和主题
                  49数仓建模—增量数据处理
                  50数仓建模—数据报表体系搭建
                  51数仓建模—什么商业智能BI
                  52数仓建模—数仓建设概论
                  53数仓建模—AI+BI的解决方案
                  54数仓建模—建模方法论之范式建模
                  55数仓建模—数据血缘分析盘活数据资产
                  56数仓建模—数据中台概论
                  57数仓建模—数据网格
                  58数仓建模—建模方法论之实体-关系(Entity-Relationship)建模
                  59建模方法论之Data Vault 建模

                  2. 运营数据分析模型

                  编号文章
                  1指标体系—指标管理
                  2指标体系—北极星指标体系
                  3运营数据分析模型—漏斗分析
                  4运营数据分析模型—用户分层分析
                  5运营数据分析模型—用户画像

                  3. 数仓工具

                  1. Hive
                  编号分类文章
                  1基础篇1. 什么是Hive
                  2基础篇2. Hive的编译安装
                  3基础篇3. Hive表的基础操作
                  4基础篇4.Hive数据的组织管理方式
                  5基础篇5. Hive内部表和外部表
                  6基础篇6. Hive动态分区
                  7基础篇7.Hive命令行
                  8基础篇8. Hive基本数据类型
                  9基础篇9.Hive复合数据类型
                  10基础篇10. Hive Streaming
                  11基础篇11.Hive关键字
                  12基础篇12.Hive函数大全
                  13基础篇13.Hive的架构设计
                  14基础篇14.Hive架构之HiveServer2
                  15基础篇15.Hive的其他语言调用
                  16基础篇16.Hive架构服务
                  17基础篇17.Hive的严格模式和本地模式
                  18基础篇18.Hive的执行引擎
                  19基础篇19.Hive视图和物化视图
                  20基础篇20.Hive UDF
                  21基础篇21.Hive Metastore
                  22基础篇22.MetaStore的standalone模式和高可用
                  23基础篇23.Hive基础之设置变量
                  24基础篇24.报错后退出执行
                  25语法篇1. Json 解析
                  26语法篇2. like rlike regexp
                  27语法篇3. explode 和 lateral view
                  28语法篇4. with as和from
                  29语法篇5.Order by, Sort by ,Dristribute by,Cluster By
                  30语法篇6.grouping sets
                  31语法篇7.cube和rollup
                  32语法篇8.map join、reduce join、smb join
                  33语法篇9.窗口函数初识 max count sum
                  34语法篇10.窗口函数row_number、rank、dense_rank
                  35语法篇11. 窗口函数ntile
                  36语法篇12.窗口函数first_value和last_value
                  37语法篇13.窗口函数lead和lag
                  38语法篇14. 窗口函数cume_dist和 percent_rank
                  39语法篇15. 窗口函数练习和总结
                  40语法篇16. Hive语法之抽样
                  41语法篇17. collect_set 和 collect_list
                  42语法篇18. 行列转换
                  43语法篇19.Hive语法之子查询
                  44语法篇20.Hive语法之物理分组
                  45语法篇21.Hive语法之复杂json解析处理
                  46语法篇22.Hive语法之with扩展
                  47语法篇23.Hive语法之Merge 语句
                  48语法篇24.Hive语法之join 扩展
                  49语法篇25.Hive语法之连续full join主键重复
                  50进阶篇1. Hive进阶之索引
                  51进阶篇2.Hive进阶之事务初识
                  52进阶篇3.Hive进阶之事务深度剖析
                  53进阶篇4.Hive进阶之执行计划
                  54进阶篇5.Hive进阶之数据存储格式
                  55进阶篇6.Hive进阶之数据压缩配置与格式
                  56进阶篇7. Hive进阶之SerDe
                  57进阶篇8. Hive进阶之权限管理
                  58进阶篇10.Hive优化指南
                  59进阶篇11.Hive进阶之优化map任务数量
                  60进阶篇12.Hive进阶之优化reduce任务数量
                  61进阶篇13.Hive进阶之优化小文件问题
                  62进阶篇14.Hive进阶之谓词下推
                  63进阶篇15.Hive进阶之归档
                  64进阶篇16. Hiv进阶之MSCK
                  65进阶篇17.Hive进阶之Hive中的锁
                  66进阶篇18.各种join 的执行计划
                  67进阶篇19. InputFormat 和 OutputFormat
                  68进阶篇20.MultiDelimitSerDe
                  69进阶篇21. 查询最佳实践
                  70进阶篇21. Statistics与Analyze Table命令
                  71进阶篇22. 表设计最佳实践
                  72进阶篇23.性能优化最佳实践
                  73源码篇1.源码环境搭建
                  74源码篇2. cli 模块
                  75源码篇3.CliDriver
                  76源码篇4.Beeline/HiveCli
                  77源码篇5.扩展篇Thrift
                  78源码篇6.SQL 解析
                  79源码篇7.SQL解析之Antlr入门
                  80源码篇8. SQL解析Antlr进阶
                  81源码篇9.SQL解析的应用SQL优化
                  82实战篇1.Hive实战之UDF分词
                  83实战篇2.Hive实战之UDF IP 解析
                  84实战篇3.Hive实战之UDF SQL 解析
                  85实战篇4.Hive实战之拉链表
                  86实战篇5.Hive实战之用户行为记录session分割
                  87实战篇6.Hive实战之最大连续登陆
                  88实战篇7.Hive实战之留存分析
                  89实战篇8.Hive实战之各种join的经典应用
                  90实战篇9.Hive实战之漏斗分析
                  91实战篇10.Hive实战之累计计算
                  92实战篇11.Hive实战之占比同比环比
                  93实战篇12.Hive实战之自关联经典案例
                  94实战篇13.Hive实战之日活跃周活跃月活
                  95实战篇14.Hive实战之full join 经典案例
                  96实战篇15.Hive实战之UDF外部依赖文件找不到
                  97实战篇16.Hive实战之对比分析
                  98实战篇17.Hive实战之事件序列匹配/复杂事件处理
                  99实战篇18.Hive实战之UDF GIS
                  100实战篇19.Hive实战之描述性计算
                  101实战篇20.Hive实战之滑动/滚动时间窗口计算
                  102实战篇21.Hive实战之UDF 复杂JSON 处理
                  103实战篇22.Hive实战之UDF汉字首字母
                  104实战篇23.Hive实战之生成连续序列
                  105集成篇1.Hive集成篇之ES
                  106集成篇2.Hive集成篇之ClickHouse
                  107集成篇3.Hive集成篇之Kafka
                  108集成篇4.Hive集成篇之UDF写ES
                  109优化篇1.用户画像亿级数据表关联
                  110优化篇2.UDAF批量调用外部请求
                  高性能查询引擎
                  1.Spark-SQL

                  1. Spark 初识

                  2. Spark SQL 初识

                  3. 股票数据分析

                  4. 股票打板策略分析

                  2.Impala
                  3.Presto
                  4.Druid
                  5.Clickhouse
                  编号文章
                  1ClickHouse初识
                  2Clickhouse—基础架构
                  3Clickhouse Docker部署
                  4Clickhouse 数据入库
                  5Clickhouse表引擎—MergeTree系列
                  6Clickhouse表引擎—日志系列引擎
                  7Clickhouse引擎—数据库引擎
                  8Clickhouse表引擎—集成系列引擎
                  9ClickHouse—物理机部署
                  10Clickhouse—实用工具
                  11Clickhouse—实用工具obfuscator
                  12Clickhouse—基础数据类型
                  13ClickHouse—复合数据类型
                  14ClickHouse—DML操作
                  15Clickhouse—DDL 操作
                  16Clickhouse—时间函数
                  17Clickhouse—字符串函数
                  18Clickhouse—算数函数/哈希函数/条件函数 运算符
                  19Clickhouse—数组函数
                  20Clickhouse—聚合函数
                  21Clickhouse—聚合函数组合
                  22Clickhouse—其他函数
                  23Clickhouse—时间窗口函数
                  24Clickhouse—数据字典
                  25Clickhouse—MergeTree 数据生命周期
                  Doris

                  Doris基础篇—初识

                  Doris基础篇—安装部署

                  Doris基础篇—使用场景与特性

                  Doris基础篇—数据分布Bucket(Tablet)

                  Doris基础篇—数据分布Partition

                  Doris基础篇—数据模型Duplicate 模型

                  Doris 基础篇—数据模型Unique 模型

                  Doris基础篇—数据模型Aggregate 模型

                  Doris基础篇— 数据丢失

                  Doris基础篇—数据集成 Catalog

                  Doris进阶篇—Flink+Doris 实时数仓

                  Doris进阶篇—Flink CDC 同步数据到Doris

                  Doris案例篇—美团外卖数仓中的应用实践

                  Doris案例篇— 工商信息商业查询平台的湖仓一体建设实践(02)

                  Doris 案例篇—长安汽车基于 Doris 的车联网数据分析平台建设实践

                  Doris 案例篇—Doris 如何基于自增列满足高效字典编码等典型场景需求

                  Doris 案例篇—Doris在日志分析中的应用

                  Doris案例篇—Doris 在思必驰的应用实践

                  3.数据集成工具
                  sqoop

                  Sqoop

                  sqoop 2.x

                  datax

                  DataX 初识

                  DataX部署使用

                  DataX—Web部署使用

                  DataX 源码改造支持Mysql 8.X

                  Maxwell

                  Maxwell 初识

                  Maxwell 实践应用

                  SeaTunnel

                  Apache SeaTunnel 初识

                  Apache SeaTunnel和SeaTunnel Web

                  Flink CDC

                  Flink CDC 初识

                  Flink CDC 同步数据

                  dolphinscheduler

                  dolphinscheduler 的使用

                  dolphinscheduler 安装部署

                  4. 数据湖
                  编号文章
                  1数据湖—数据湖初识
                  2数据湖—数据湖再识
                  3数据湖—Delta Lake 概论
                  4数据湖—Delta lake 与湖仓一体
                  5数据湖—Spark SQL Scala版 使用 Delta Lake
                  6数据湖—Spark SQL Shell 版 使用Delta Lake
                  7数据湖—Spark SQL SQL 版 使用 Delta Lake
                  8数据湖—Spark SQL Python 版 使用 Delta Lake
                  9数据湖—Spark Streaming 使用 Delta Lake
                  10数据湖—Delta Lake 事务日志
                  11数据湖—Delta Lake 事务日志实践
                  12数据湖—Delta Lake 时间旅行
                  13数据湖—Delta Lake 版本管理
                  14数据湖—Delta Lake DML 内部原理
                  15数据湖—Delta Lake 1.0 版本功能预览
                  16数据湖—Delta Lake Schema 约束与演化
                  17数据湖—Delta Lake 并发控制
                  18数据湖—Delta Lake 实践指南
                  19数据湖—Delta Lake与实时计算
                  5. 调度工具
                  1. 调度工具的使用
                  2. 调度工具整合

                  首先我们会创建常用的脚本然后配合配合数仓的SQL 进行数仓的整体的调度,脚本的话我们主要有抽数的脚本、执行SQL的脚本、监控的脚本、发布脚本

                  当然我们还会引入版本管理工具,管理我们的SQL和脚本,然后进行发布

                  6. 元数据管理工具
                  7. 监控工具
                  8. 报表工具
                  9. 实时数仓
                  10. 数据资产

                  4. 数仓实战

                  1. K12赛道Top公司的数仓建设案例
                  2. 知名游戏公司的数仓建设案例
                  3. 大型支付公司实时数仓建设案例

                  总结

                  以hadoop 作为基础生态,从0到进行数仓建设,主要分为基础篇和实战篇两部分,基础篇主要是各种组件的学习和案例,实战篇主要是三家企业的数仓设计案例,最后是扩展篇主要是实时数仓。


0
收藏0
文章版权声明:除非注明,否则均为VPS857原创文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 【研发日记】Matlab/Simulink自动生成代码(二)——五种选择结构实现方法,Matlab/Simulink自动生成代码的五种选择结构实现方法(二),Matlab/Simulink自动生成代码的五种选择结构实现方法详解(二)
  • 超级好用的C++实用库之跨平台实用方法,跨平台实用方法的C++实用库超好用指南,C++跨平台实用库使用指南,超好用实用方法集合,C++跨平台实用库超好用指南,方法与技巧集合
  • 【动态规划】斐波那契数列模型(C++),斐波那契数列模型(C++实现与动态规划解析),斐波那契数列模型解析与C++实现(动态规划)
  • 【C++】,string类底层的模拟实现,C++中string类的模拟底层实现探究
  • uniapp 小程序实现微信授权登录(前端和后端),Uniapp小程序实现微信授权登录全流程(前端后端全攻略),Uniapp小程序微信授权登录全流程攻略,前端后端全指南
  • Vue脚手架的安装(保姆级教程),Vue脚手架保姆级安装教程,Vue脚手架保姆级安装指南,Vue脚手架保姆级安装指南,从零开始教你如何安装Vue脚手架
  • 如何在树莓派 Raspberry Pi中本地部署一个web站点并实现无公网IP远程访问,树莓派上本地部署Web站点及无公网IP远程访问指南,树莓派部署Web站点及无公网IP远程访问指南,本地部署与远程访问实践,树莓派部署Web站点及无公网IP远程访问实践指南,树莓派部署Web站点及无公网IP远程访问实践指南,本地部署与远程访问详解,树莓派部署Web站点及无公网IP远程访问实践详解,本地部署与远程访问指南,树莓派部署Web站点及无公网IP远程访问实践详解,本地部署与远程访问指南。
  • vue2技术栈实现AI问答机器人功能(流式与非流式两种接口方法),Vue2技术栈实现AI问答机器人功能,流式与非流式接口方法探究,Vue2技术栈实现AI问答机器人功能,流式与非流式接口方法详解
  • 发表评论

    快捷回复:表情:
    评论列表 (暂无评论,0人围观)

    还没有评论,来说两句吧...

    目录[+]

    取消
    微信二维码
    微信二维码
    支付宝二维码