ETL开发
数据仓库ODS到DWD的ETL工作流程记录
ETL工作目标
目前我们做销售主题域下的ODS-DWD层的ETL工作,我准备把 工作中遇到的问题和想法记录下来,好的开始我们的主题
ETL工作目的主要有:
1.源系统ERP各城市库的整合
2.每个城市不同规则的统一、数据转换
3.数据缺失值的处理填充的规则怎么定)
4.异常值的处理
5.内容中不该出现或者存在的字符处理寻找我们应用的数据的前端校验设计是否良好)
6.去重处理
还有个问题是 例如 房源表在其他系统中是否存在我们想要的数据
ETL工作流程
- 准备工作-ETL设计-脚本开发-脚本自测
准备工作
1.各城市库整合,按城市分区过程中收集各城市系统存在的数据格式不统一的问题 ETL设计-数据格式需求.doc2.准备好 数据仓库dwd层建表DDL --> 销售主题域DW层定版-20191119.xlsx 其中包含维度表、事实表的数据字典、修改日志、字段的ddl 构成语句 数据仓库数据字典0802.xlsx 为源系统的数据字典3.审核确定事实维度表的加载策略,变更内容、变更记录4.清洗规则说明.doc5.脚本规范说明6.脚本模版说明
ETL开发上线包
主要任务介绍上线包文件组成
ETL开发模版统一和规范
- 统一出事和周期开发脚本模版
- 统一数据处理变更脚本模版
- 统一应用开发脚本模版
- 统一Sql 文件脚本模版
- 统一ETL逻辑设计文档模版
- 规范类型转换
- 规范脚本测试和自测
- 规范自动调度系统配置
ETL设计
- 主要任务:
完成ETL过程设计
数据整合、转换、清洗、数据勘查的设计)- 输出:
数据缺失异常值校验.xlsx
ETL映射表.xlsx
ETL实施方案.xlsx - 此表中包含
ods层到dwd 或者中间表的 映射
ETL工作者归属
每个表的清洗、整合逻辑记录在此表
- 输出:
ETL开发
- 主要任务:
根据ETL设计的逻辑开发脚本- 输入:
数据仓库数据字典0802.xlsx
ETL映射表.xlsx
ETL实施方案.xlsx
销售主题域DW层定版-20191119.xlsx - 输出:
初始化/周期/数据处理/代码表/sql脚本/mapreduceJob/sparkJob
- 输入:
ETL测试
自动调度系统配置
待完善