本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学...
《大数据研发工程师》课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目,把大数据生态技术知识串连起来,让学员形成自己的技术栈,真正成为企业级的大数据研发工程师!
阶段一:小规模数据处理篇
| 第一单元
| 掌握Python基础语法
| 1. 集合类型 2. 条件,循环 3. 文件操作 4. 函数和函数式编程 5. 面向对象 | 第二单元
| 掌握NumPy进行数据分析
| 1. NumPy基本使用 2. Numpy进阶知识
| 第三单元
| 掌握Pandas进行数据分析
| 1. Pandas基础知识 2. Series数据结构 3. DataFrame数据结构 4. 综合案例演示 |
|
阶段二:中等规模数据处理篇
| 第四单元
| 掌握Elastichsearch核心设计
| 1. Elastichsearch总体架构设计 2. Elastichsearch核心流程分析 3. Elastichsearch核心概念详解
| 第五单元
| 掌握Elastichsearch API使用与调优
| 1. Elastichsearch语法详解 2. Elastichsearch容错原理剖析 3. Elastichsearch性能调优
| 第六单元
| 掌握ELK生态针对中等数据规模的方案实践
| 1. Logstash原理剖析与实战 2. Kibana原理剖析与实战 3. 企业级海量日志分析系统实战 |
|
阶段三:大数据基础平台篇
| 第七单元
| 掌握ZooKeeper核心设计与应用
| 1. ZooKeeper架构设计原理 2. ZooKeeper核心读写流程剖析 3. ZooKeeper企业应用场景实战
| 第八单元
| 掌握HDFS核心架构原理
| 1. 大数据基础知识 2. HDFS架构设计原理
| 第九单元
| 掌握HDFS企业级架构方案设计
| 1. HDFS高可用架构设计 2. HDFS联邦架构设计 3. HDFS企业级集群部署
| 第十单元
| 掌握MapReduce分布式计算模型
| 1. MapReduce核心原理剖析 2. MapReduce Shuffle机制深度剖析 3. MapReduce案例实操
| 第十一单元
| 掌握YARN任务调度模型
| 1. YARN架构设计原理 2. YARN核心运行流程 |
|
阶段四:大数据存储篇
| 第十二单元
| 掌握Hive核心架构设计
| 1. Hive生态体系 2. Hive集群安装 3. HQL语法精讲
| 第十三单元
| 掌握Hive企业实操
| 1. Hive函数精讲 2. Hive执行原理深度剖析
| 第十四单元
| 掌握Hive企业级解决方案
| 1. Hive企业级调优 2. Hive企业高频业务场景剖
| 第十五单元
| 掌握HBase核心架构原理
| 1. HBase架构设计原理剖析 2. HBase数据模型 3. HBase数据模型 4. HBase读写原理剖析 5. HBase企业级集群分布式部署
| 第十六单元
| 握HBase企业设计方案
| 1. HBase表设计 2. HBase RowKey设计 3. HBase二级索引方案实践
| 第十七单元
| 掌握Kafka核心架构设计
| 1. Kafka架构设计原理 2. Kafka核心概念深度剖析
| 第十八单元
| 掌握Kafka架构设计优势与运维
| 1. Kafka架构设计优势 2. Kafka集群部署与运维
| 第十九单元
| 掌握Kafka客户端原理与性能调优
| 1. Kafka生产者原理深度剖析 2. Kafka消费者原理 3. Kafka性能调优 |
|
阶段五:大数据采集篇
| 第二十单元
| 掌握Flume/Sqoop日志采集系统实践
| 1. Sqoop核心原理剖析 2. Sqoop企业案例实操 3. Flume核心原理剖析 4. Flume企业案例实操 |
|
阶段六:任务调度篇
| 第二十一单元
| 掌握Azkaban任务调度实践
| 1. Azkanban架构原理 2. Azkanban企业案例实操 |
|
阶段七:大数据处理篇
| 第二十二单元
| 掌握SparkCore核心原理(上)
| 1. Spark任务运行流程 2. RDD核心原理剖析 3. Spark任务运行模式 4. Spark核心算子案例实践 5. Spark企业级集群分布式部署
| 第二十三单元
| 掌握SparkCore核心原理(下)
| 1. 广播变量与累加变量原理剖析 2. 窄依赖和宽依赖原理剖析 3. Stage划分算法 4. Spark内存模型
| 第二十四单元
| 掌握SparkCore企业级调优
| 1. SparkCore企业级调优实践
| 第二十五单元
| 掌握SparkSQL核心原理与实践
| 1. SparkSQL的前世今生 2. DataFrame核心原理剖析 3. DataSet核心原理剖析 4. UDF/UDAF案例实践
| 第二十六单元
| 掌握SparkStreaming核心原理
| 1. SparkStreaming任务运行流程 2. DStream核心抽象原理剖析
| 第二十七单元
| 掌握SparkStreaming核心API企业实践
| 1. SparkStreaming高阶函数实操 2. SparkStreaming容错分析
| 第二十八单元
| 掌握SparkStreaming企业应用
| 1. SparkStreaming企业级数据令零丢失方案设计 2. SparkStreaming企业级监控告警方案设计
| 第二十九单元
| 掌握Flink任务调度原理与资源分配
| 1. Streaming运行原理 2. 数据传输策略 3. Flink并行度&Task原理剖析 4. Flink资源调度原理剖析 5. Flink集群分布式部署
| 第三十单元
| 掌握Flink-Streaming State核心设计与实践
| 1. State类型深度剖析 2. State核心原理深度剖析 3. Checkpoint & Savepoint企业实践
| 第三十一单元
| 掌握Flink-Streaming WasterMark核心设计与实践
| 1. Time时间类型详解 2. 有序事件与无序事件 3. WaterMark原理剖析与实践
| 第三十二单元
| 掌握Flink-Streaming Window核心设计与实践
| 1. Window原理深度剖析 2. Window触发原理深度剖析与实践
| 第三十三单元
| 掌握Flink-Streaming企业应用
| 1. 综合案例实践
| 第三十四单元
| 掌握Flink SQL企业实践
| 1. 1. Flink SQL编程详解 2. Flink SQL动态表与连续表 3. 表流转模式剖析 4. Flink SQL案例实践
| 第三十五单元
| 掌握Druid架构原理与实践
| 1. Druid架构设计原理 2. Druid案例实践
| 第三十六单元
| 掌握Kylin架构原理与实践
| 1. Kylin架构设计原理 2. Kylin案例实践
| 第三十七单元
| 掌握ClickHouse架构原理与实践
| 1. ClickHouse架构设计原理 2. ClickHouse案例实践 |
|
赠送知识
| 第一单元
| 企业级大数据集群部署和运维篇
| 1.Ambari功能概述 2.Ambari架构设计 3.Ambari基础环境准备 4.企业级集群部署安装 5.企业级集群管理和实践 6.ClouderaManager产生背景 7.ClouderaManager架构设计 8.企业级集群规划 9.ClouderaManager基础环境准备 10.企业级ClouderaManager集群部署安装 11.企业级CDH集群运维管理
| 第二单元
| Java知识准备
| 1.Java基础知识 2.循环语句 3.面向对象 4.Java集合 5.Java多线程 6.Java IO详解 7.Java NIO详解 8.综合案例实践
| 第三单元
| Scala知识准备
| 1.Scala概述和基础环境安装 2.变量 3.数据类型 4.方法和函数 5.数组 6.类的定义 7.构造函数 8.Scala对象 9.Trait 10.Scala模式匹配 11.隐式转换 12.上界和下界 13.Actor 14.综合案例实践
| 第四单元
| Linux/Shell知识准备
| 1.Linux操作系统介绍 2.Vmware安装和介绍 3.Linux命令分类 4.Linux命令详解 5.vi编辑器详解 6.用户和组 7.权限管理 8.crontab管理 9.网络 10文本处理 11.SSH协议 12.Shell编程 |
|
相关课程推荐:
大数据研发工程师
大数据架构师
Java资深研发工程师
P7架构师
百万架构师

领取免费资料,请添加微信公众号或QQ开发者社区交流群