国产自在自线午夜精品视频在 ,一边吃奶一边扎下边爽了

Spark及Hadoop開發(fā)員

課時總數(shù)：24課時

課程介紹

　　學(xué)習(xí)如何使用Hadoop生態(tài)系統(tǒng)關(guān)鍵性技術(shù)來導(dǎo)入并處理數(shù)據(jù)。

　　在為期4天的培訓(xùn)中，學(xué)員將學(xué)習(xí)關(guān)鍵概念和掌握使用新技術(shù)和工具將數(shù)據(jù)采集到Hadoop集群并進(jìn)行處理。通過學(xué)習(xí)掌握諸如Spark（包括SparkStreaming和SparkSQL）、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術(shù)，Hadoop開發(fā)員將具備解決實際大數(shù)據(jù)問題和挑戰(zhàn)的能力。使用Spark，不同行業(yè)的開發(fā)人員可以為不同的商業(yè)應(yīng)用和系統(tǒng)架構(gòu)編寫復(fù)雜的并行應(yīng)用，得以更快速地獲取更優(yōu)的商業(yè)決策，幫助決策人員進(jìn)行及時應(yīng)對。

　　一．培訓(xùn)內(nèi)容

　　    ● 通過講師在課堂上的講解，以及實操練習(xí)，學(xué)員將學(xué)習(xí)以下內(nèi)容：

　　    ● 在Hadoop集群上進(jìn)行分布式存儲和處理數(shù)據(jù)。

　　    ● 通過在Hadoop集群上編寫、配置和部署ApacheSpark應(yīng)用。

　　    ● 使用Sparkshell進(jìn)行交互式數(shù)據(jù)分析。

　　    ● 使用SparkSQL查詢處理結(jié)構(gòu)化數(shù)據(jù)。

　　    ● 使用SparkStreaming處理流式數(shù)據(jù)。

　　    ● 使用Flume和Kafka為SparkStreaming采集流式數(shù)據(jù)。

　　二．培訓(xùn)對象及學(xué)員基礎(chǔ)

　　    ● 本課程適合于具有編程經(jīng)驗的開發(fā)員及工程師。無需ApacheHadoop基礎(chǔ)。

　　    ● 培訓(xùn)內(nèi)容中對ApacheSpark的介紹所涉及的代碼及練習(xí)使用Scala和Python，因此需至少掌握這兩個編程語言中的一種。

　　    ● 需熟練掌握Linux命令行。

　　    ● 對SQL有基本了解。

　　三．課程大綱

　　 1. Hadoop及生態(tài)系統(tǒng)介紹

　　    ● ApacheHadoop概述

　　    ● 數(shù)據(jù)存儲和攝取

　　    ● 數(shù)據(jù)處理

　　    ● 數(shù)據(jù)分析和探索

　　    ● 其他生態(tài)系統(tǒng)工具

　　    ● 練習(xí)環(huán)境及分析應(yīng)用場景介紹

　　 2. ApacheHadoop文件存儲

　　    ● 傳統(tǒng)大規(guī)模系統(tǒng)的問題

　　    ● HDFS體系結(jié)構(gòu)

　　    ● 使用HDFS

　　    ● ApacheHadoop文件格式

　　 3. ApacheHadoop集群上的數(shù)據(jù)處理

　　    ● YARN體系結(jié)構(gòu)

　　    ● 使用YARN

　　 4. 使用ApacheSqoop導(dǎo)入關(guān)系數(shù)據(jù)

　　    ● Sqoop簡介

　　    ● 數(shù)據(jù)導(dǎo)入

　　    ● 導(dǎo)入的文件選項

　　    ● 數(shù)據(jù)導(dǎo)出

　　 5. ApacheSpark基礎(chǔ)

　　    ● 什么是ApacheSpark

　　    ● 使用SparkShell

　　    ● RDDs(可恢復(fù)的分布式數(shù)據(jù)集）

　　    ● Spark里的函數(shù)式編程

　　 6. SparkRDD

　　    ● 創(chuàng)建RDD

　　    ● 其他一般性RDD操作

　　 7. 使用鍵值對RDD

　　    ● 鍵值對RDD

　　    ● MapReduce

　　    ● 其他鍵值對RDD操作

　　 8. 編寫和運(yùn)行ApacheSpark應(yīng)用

　　    ● Spark應(yīng)用對比SparkShell

　　    ● 創(chuàng)建SparkContext

　　    ● 創(chuàng)建Spark應(yīng)用（Scala和Java）

　　    ● 運(yùn)行Spark應(yīng)用

　　    ● Spark應(yīng)用WebUI

　　 9. 配置ApacheSpark應(yīng)用

　　    ● 配置Spark屬性

　　    ● 運(yùn)行日志

　　 10. ApacheSpark的并行處理

　　    ● 回顧：集群環(huán)境里的Spark

　　    ● RDD分區(qū)

　　    ● 基于文件RDD的分區(qū)

　　    ● HDFS和本地化數(shù)據(jù)

　　    ● 執(zhí)行并行操作

　　    ● 執(zhí)行階段及任務(wù)

　　 11. Spark持久化

　　    ● RDD演變族譜

　　    ● RDD持久化簡介

　　    ● 分布式持久化

　　 12. ApacheSpark數(shù)據(jù)處理的常見模式

　　    ● 常見Spark應(yīng)用案例

　　    ● 迭代式算法

　　    ● 機(jī)器學(xué)習(xí)

　　    ● 例子：K－Means

　　 13. DataFrames和SparkSQL

　　    ● ApacheSparkSQL和SQLContext

　　    ● 創(chuàng)建DataFrames

　　    ● 變更及查詢DataFrames

　　    ● 保存DataFrames

　　    ● DataFrames和RDD

　　    ● SparkSQL對比Impala和Hive-on-Spark

　　    ● Spark2.x版本上的ApacheSparkSQL

　　 14. ApacheKafka

　　    ● 什么是ApacheKafka

　　    ● ApacheKafka概述

　　    ● 如何擴(kuò)展ApacheKafka

　　    ● ApacheKafka集群架構(gòu)

　　    ● ApacheKafka命令行工具

　　 15. 使用ApacheFlume采集實時數(shù)據(jù)

　　    ● 什么是ApacheFlume

　　    ● Flume基本體系結(jié)構(gòu)

　　    ● Flume源

　　    ● Flume槽

　　    ● Flume通道

　　    ● Flume配置

　　 16. 集成ApacheFlume和ApacheKafka

　　    ● 概要

　　    ● 應(yīng)用案例

　　    ● 配置

　　 17. ApacheSparkStreaming：DStreams介紹

　　    ● ApacheSparkStreaming概述

　　    ● 例子：Streaming訪問計數(shù)

　　    ● DStreams

　　    ● 開發(fā)Streaming應(yīng)用

　　 18. ApacheSparkStreaming：批處理

　　    ● 批處理操作

　　    ● 時間分片

　　    ● 狀態(tài)操作

　　    ● 滑動窗口操作

　　 19. ApacheSparkStreaming：數(shù)據(jù)源

　　    ● Streaming數(shù)據(jù)源概述

　　    ● ApacheFlume和ApacheKafka數(shù)據(jù)源

　　    ● 例子：使用Direct模式連接Kafka數(shù)據(jù)源

　　 20. 結(jié)論

　　Cloudera大數(shù)據(jù)課程體系