學(xué)習(xí)如何使用Hadoop生態(tài)系統(tǒng)關(guān)鍵性技術(shù)來導(dǎo)入并處理數(shù)據(jù)。
  在為期4天的培訓(xùn)中,學(xué)員將學(xué)習(xí)關(guān)鍵概念和掌握使用新技術(shù)和工具將數(shù)據(jù)采集到Hadoop集群并進(jìn)行處理。通過學(xué)習(xí)掌握諸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術(shù),Hadoop開發(fā)員將具備解決實際大數(shù)據(jù)問題和挑戰(zhàn)的能力。使用Spark,不同行業(yè)的開發(fā)人員可以為不同的商業(yè)應(yīng)用和系統(tǒng)架構(gòu)編寫復(fù)雜的并行應(yīng)用,得以更快速地獲取更優(yōu)的商業(yè)決策,幫助決策人員進(jìn)行及時應(yīng)對。  一.培訓(xùn)內(nèi)容      ●  通過講師在課堂上的講解,以及實操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容:      ●  在Hadoop集群上進(jìn)行分布式存儲和處理數(shù)據(jù)。      ●  通過在Hadoop集群上編寫、配置和部署ApacheSpark應(yīng)用。      ●  使用Sparkshell進(jìn)行交互式數(shù)據(jù)分析。      ●  使用SparkSQL查詢處理結(jié)構(gòu)化數(shù)據(jù)。      ●  使用SparkStreaming處理流式數(shù)據(jù)。      ●  使用Flume和Kafka為SparkStreaming采集流式數(shù)據(jù)。  二.培訓(xùn)對象及學(xué)員基礎(chǔ)      ●  本課程適合于具有編程經(jīng)驗的開發(fā)員及工程師。無需ApacheHadoop基礎(chǔ)。      ●  培訓(xùn)內(nèi)容中對ApacheSpark的介紹所涉及的代碼及練習(xí)使用Scala和Python,因此需至少掌握這兩個編程語言中的一種。      ●  需熟練掌握Linux命令行。      ●  對SQL有基本了解。  三.課程大綱    1.  Hadoop及生態(tài)系統(tǒng)介紹      ●  ApacheHadoop概述      ●  數(shù)據(jù)存儲和攝取      ●  數(shù)據(jù)處理      ●  數(shù)據(jù)分析和探索      ●  其他生態(tài)系統(tǒng)工具      ●  練習(xí)環(huán)境及分析應(yīng)用場景介紹    2.  ApacheHadoop文件存儲      ●  傳統(tǒng)大規(guī)模系統(tǒng)的問題      ●  HDFS體系結(jié)構(gòu)      ●  使用HDFS      ●  ApacheHadoop文件格式    3.  ApacheHadoop集群上的數(shù)據(jù)處理      ●  YARN體系結(jié)構(gòu)      ●  使用YARN    4.  使用ApacheSqoop導(dǎo)入關(guān)系數(shù)據(jù)      ●  Sqoop簡介      ●  數(shù)據(jù)導(dǎo)入      ●  導(dǎo)入的文件選項      ●  數(shù)據(jù)導(dǎo)出    5.  ApacheSpark基礎(chǔ)      ●  什么是ApacheSpark      ●  使用SparkShell      ●  RDDs(可恢復(fù)的分布式數(shù)據(jù)集)      ●  Spark里的函數(shù)式編程    6.  SparkRDD      ●  創(chuàng)建RDD      ●  其他一般性RDD操作    7.  使用鍵值對RDD      ●  鍵值對RDD      ●  MapReduce      ●  其他鍵值對RDD操作    8.  編寫和運(yùn)行ApacheSpark應(yīng)用      ●  Spark應(yīng)用對比SparkShell      ●  創(chuàng)建SparkContext      ●  創(chuàng)建Spark應(yīng)用(Scala和Java)      ●  運(yùn)行Spark應(yīng)用      ●  Spark應(yīng)用WebUI    9.  配置ApacheSpark應(yīng)用      ●  配置Spark屬性      ●  運(yùn)行日志    10.  ApacheSpark的并行處理      ●  回顧:集群環(huán)境里的Spark      ●  RDD分區(qū)      ●  基于文件RDD的分區(qū)      ●  HDFS和本地化數(shù)據(jù)      ●  執(zhí)行并行操作      ●  執(zhí)行階段及任務(wù)    11.  Spark持久化      ●  RDD演變族譜      ●  RDD持久化簡介      ●  分布式持久化    12.  ApacheSpark數(shù)據(jù)處理的常見模式      ●  常見Spark應(yīng)用案例      ●  迭代式算法      ●  機(jī)器學(xué)習(xí)      ●  例子:K-Means    13.  DataFrames和SparkSQL      ●  ApacheSparkSQL和SQLContext      ●  創(chuàng)建DataFrames      ●  變更及查詢DataFrames      ●  保存DataFrames      ●  DataFrames和RDD      ●  SparkSQL對比Impala和Hive-on-Spark      ●  Spark2.x版本上的ApacheSparkSQL    14.  ApacheKafka      ●  什么是ApacheKafka      ●  ApacheKafka概述      ●  如何擴(kuò)展ApacheKafka      ●  ApacheKafka集群架構(gòu)      ●  ApacheKafka命令行工具    15.  使用ApacheFlume采集實時數(shù)據(jù)      ●  什么是ApacheFlume      ●  Flume基本體系結(jié)構(gòu)      ●  Flume源      ●  Flume槽      ●  Flume通道      ●  Flume配置    16.  集成ApacheFlume和ApacheKafka      ●  概要      ●  應(yīng)用案例      ●  配置    17.  ApacheSparkStreaming:DStreams介紹      ●  ApacheSparkStreaming概述      ●  例子:Streaming訪問計數(shù)      ●  DStreams      ●  開發(fā)Streaming應(yīng)用    18.  ApacheSparkStreaming:批處理      ●  批處理操作      ●  時間分片      ●  狀態(tài)操作      ●  滑動窗口操作    19.  ApacheSparkStreaming:數(shù)據(jù)源      ●  Streaming數(shù)據(jù)源概述      ●  ApacheFlume和ApacheKafka數(shù)據(jù)源      ●  例子:使用Direct模式連接Kafka數(shù)據(jù)源    20.  結(jié)論
  Cloudera大數(shù)據(jù)課程體系
