第五章-标签数据开发.pdf
- 183****7931个人认证 |
- 2021-04-18 发布|
- 2.96 MB|
- 40页
标签数据开发 讲师:watermelon 与数据爱好者共同成长
目录 • 数据仓库基础知识 • 统计类标签开发案例 • 规则类标签开发案例 • 挖掘类标签开发案例 • 流式计算标签开发—kafka • 流式计算标签开发—streaming的Receiver模式与Direct模式 • 流式计算标签开发—记录消费的offset • 流式计算标签开发—SparkStreaming上线工程化
数据仓库基础知识
数据仓库 数据仓库是指一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策的过程 (1 )面向主题
业务数据库中的数据主要针对事物处理任务,各个业务系统之间是各自分离的。而数据仓库中的数据是按照一定的主题进行组织的 (2 )集成
数据仓库中存储的数据是从业务数据库中提取出来的,但并不是原有数据的简单 ,而是经过了抽取、 、转换(ETL )等工作。
业务数据库记录的是每一项业务处理的流水账,这些数据不适合于分析处理,进入数据仓库之前需要经过系列计算,同时抛弃一些分
析处理不需要的数据。 (3 )稳定 操作型数据库系统中一般只存储短期数据,因此其数据是不稳定的,记录的是系统中数据变化的瞬态。 数据仓库中的数据大多表示过去某一时刻的数据,主要用于 、分析,不像业务系统中数据库一样经常修改。一般数据仓库构建 完成,主要用于 业务数据库 数据仓库 抽取某阶段的数据 插入 更新 删除
OLTP和OLAP OLTP 联机事务处理 OLTP是传统关系型数据库的主要应用,主要用于日常事物、交易系统 1、数据量存储相对来说不大 2、实时性要求高,需要支持事物 3、数据一般存储在关系型数据库(oracle或mysql中) OLAP 联机分析处理 OLAP是数据仓库的主要应用,支持复杂的分析 ,侧重决策支持 1、实时性要求不是很高,ETL一般都是T+1的数据; 2、数据量很大;