第五章-标签数据开发.pdf

想预览更多内容,点击预览全文

申明敬告:

本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己完全接受本站规则且自行承担所有风险,本站不退款、不进行额外附加服务;如果您已付费下载过本站文档,您可以点击这里二次下载

文档介绍

标签数据开发 讲师:watermelon 与数据爱好者共同成长

目录 • 数据仓库基础知识 • 统计类标签开发案例 • 规则类标签开发案例 • 挖掘类标签开发案例 • 流式计算标签开发—kafka • 流式计算标签开发—streaming的Receiver模式与Direct模式 • 流式计算标签开发—记录消费的offset • 流式计算标签开发—SparkStreaming上线工程化

数据仓库基础知识

数据仓库 数据仓库是指一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策的过程 (1 )面向主题

业务数据库中的数据主要针对事物处理任务,各个业务系统之间是各自分离的。而数据仓库中的数据是按照一定的主题进行组织的 (2 )集成

数据仓库中存储的数据是从业务数据库中提取出来的,但并不是原有数据的简单 ,而是经过了抽取、 、转换(ETL )等工作。

业务数据库记录的是每一项业务处理的流水账,这些数据不适合于分析处理,进入数据仓库之前需要经过系列计算,同时抛弃一些分

析处理不需要的数据。 (3 )稳定 操作型数据库系统中一般只存储短期数据,因此其数据是不稳定的,记录的是系统中数据变化的瞬态。 数据仓库中的数据大多表示过去某一时刻的数据,主要用于 、分析,不像业务系统中数据库一样经常修改。一般数据仓库构建 完成,主要用于 业务数据库 数据仓库 抽取某阶段的数据 插入 更新 删除

OLTP和OLAP OLTP 联机事务处理 OLTP是传统关系型数据库的主要应用,主要用于日常事物、交易系统 1、数据量存储相对来说不大 2、实时性要求高,需要支持事物 3、数据一般存储在关系型数据库(oracle或mysql中) OLAP 联机分析处理 OLAP是数据仓库的主要应用,支持复杂的分析 ,侧重决策支持 1、实时性要求不是很高,ETL一般都是T+1的数据; 2、数据量很大;

最近下载