Hadoop 2.x從零基礎到挑戰高薪第一季(全面深入的Hadoop實戰教程)
  完畢
收藏課程
9999+

Hadoop 2.x從零基礎到挑戰高薪第一季(全面深入的Hadoop實戰教程)

鑒于目前大數據Hadoop 2.x被企業廣泛使用,在實際的企業項目中需要更加深入的靈活運用, 并且Hadoop 2.x是大數據平臺處理的框架的基石,尤其在海量...

適合人群:高級
課時數量:66課時
用到技術:Hadoop HDFS MapReduce YARN Shuffle MRUnit
涉及項目:分布式集群部署、TopKey、數據清洗、數據采集、模擬網盤

  • 課程顧問貼心解答

    為你推薦精品課程,無論就業還是升職加薪,毫無壓力。

  • 名企定制緊隨大流

    量身打造緊貼企業需求的實用性課程。

  • 系統教學把控效果

    集學、測、練為一體的學習系統為你科學的安排學習進度,提高效率。

  • 一線大師1對1指導

    課程研發團隊內一線資深講師一對一指導,手把手教學,直到學會。

  • 點播答疑完美結合

    每周2-3次直播解答,保證學員日常學習問題能得到解決。

  • 量身定制學習計劃

    告別雜亂的學習方式,我們會根據你的情況定制學習計劃。

 

 

鑒于目前大數據Hadoop 2。x被企業廣泛使用,在實際的企業項目中需要更加深入的靈活運用,并且Hadoop 2。x是大數據平臺處理的框架的基石,尤其在海量數據的存儲HDFS、分布式資源管理和任務調度YARN及分布式計算框架MapReduce。然而當前眾多書籍和視頻教程資料中,沒有一套完整的、深入淺出的、實戰性操作強的一套資料,一此種情況下,結合鄙人多年實際項目經驗,以項目中使用為主線,編纂籌劃此套Hadoop 2。x從零基礎到項目實戰的課程,帶領大家從零基礎開始上手,到如何理解HDFS、YARN、MapReduce的使用和實際項目的分析。希望新手通過此視頻課程可以快速上手Hadoop 2。x,從環境的搭建、框架的理解使用到MapReduce編程,一步一步成功進階,也希望有基礎的學員通過此套課程視頻,更加深入理解Hadoop 2。x的使用與原理,做到知其然知其所以然。最后預祝每位學員都能在堅持學習的情況下成為大數據Hadoop 2。x高手。

 

 
1.課程研發環境

課程中設計的開發環境

VMWare10

64位CentOS 6.4系統

apache-maven-3。0。5

jdk-7u67-linux-x64

hadoop-2。5。0

 

2.內容簡介
以Apache Hadoop 2。5。0為準,進行深入淺出的講解各個模塊的功能、架構、使用,主要四個方面內容:
模塊一:Hadoop 2.x入門
從如何在虛擬機VMWare中安裝Linux系統,基本命令的使用,如何編譯Hadoop 2。5。0,到搭建的搭建,MapReduce簡單程序的運行,最終分布式集群的安裝部署優化及上線下線節點。
模塊二:分布式文件系統HDFS
由淺入深剖析HDFS文件系統的架構,NameNode啟動原理,HDFS Java API使用,源碼的調試跟蹤以及如何遠程Debug,NameNode和DataNode啟動加載過程。
模塊三:分布式資源管理框架YARN
ARN如何從Hadoop 1。x中的MapReduce衍生,YARN如何管理集群資源,如何為各個應用分配資源。
模塊四:分布式計算框架MapReduce
MapReduce編程模型,運行過程Shuffle,編程模塊,數據類型講解,初級應用案例,Shuffle階段的分區Partitioner、排序Sort、合并Combiner、分組Grouping,以及二次排序和MapReduce常見優化方案(MapReduce參數設置、壓縮、分布式緩存、多任務依賴和Join算法等)。
 
 
 
夢琪:
多年的云計算平臺項目經驗,目前就職于國內某云計算機公司,任云計算項目首席架構師和產品經理。
近些年一直致力于云計算方向研究、開發、及運用,參與和主導多個云計算項目的建設、研發、運營等。
技術實力派教員,講課生動風趣,深得學員喜愛。
 
 
 

模塊一、Hadoop 2。x入門 

001 為什么開設Hadoop 2.x課程以及企業中的應用                             

002 課程大綱介紹、課程學習注意事項                                       

003 安裝Linux虛擬機、基本設置(Ip地址配置、主機名、創建用戶等)                     

004 Linux遠程四大工具使用                                         

005 主機名與IP映射配置、man命令以及如何創建查看文件內容                          

006 Linux系統中文件類型、權限、用戶講解                                  

007 對文件cp、mv命令講解、設置用戶sudo和安裝JDK                           

008 Hadoop 2.x介紹與生態系統重要框架講解                               

009 hadoop 起源、三大版本和下載編譯說明                                 

010 hadoop 2.5.0編譯準備工作(安裝Maven、系統依賴包等)                    

011 對Haodop 2.5.0進行編譯、目錄結構講解以及編譯注意事項                      

012 將hadoop 2.x源碼導入Eclipse中,進行查看和編輯修改                     

013 Hadoop 2.x模塊之HDFS架構概要介紹講解                             

014 Hadoop 2.x模塊之YARN架構和MapReduce on YARN概要介紹講解           

015 Hadoop 2.x安裝部署前的準備                                    

016 在單機模式下運行MapReduce案例和偽分布式安裝配置HDFS                      

017 運行MapReduce程序(輸入輸出數據來源于HDFS)和講解HDFS基本Shell命令操作        

018 偽分布式部署YARN(配置與啟動)和在YARN上運行MapReduce任務                 

019 HDFS權限檢查講解和運行詞頻統計WordCount程序                          

020 MapReduce歷史服務JobHistoryServer講解和啟動Hadoop 2.x服務組件的三種方式 

021 分析三種啟動方式腳本和引出ssh協議作用                                  

022 講解SSH協議和SSH無密鑰登陸原理                                    

023 配置SSH無密鑰、使用start-dfs.sh啟動HDFS所有服務組件和講解Hadoop與Java版本選擇 

024 Hadoop 2.x兩種配置文件講解說明                                  

025 如何配置Hadoop 2.x中各個守護進程運行的主機                            

026 如何配置HDFS相關數據存儲的本地目錄                                   

027 運行在YARN上的MapReduce程序相關日志(應用日志和Container日志)            

028 啟用運行在YARN上應用程序日志聚合功能和MapReduce Uber模式                 

029 Hadoop 2.x分布式安裝部署環境準備之克隆虛擬機和配置主機名與IP地址                

030 Hadoop 2.x分布式安裝部署環境準備之集群hosts映射配置和時間同步配置              

031 Hadoop 2.x分布式集群安裝部署啟動(基于偽分布式進行)                       

032 Hadoop 2.x分布式安裝部署之集群部署的基本測試驗證和基準測試(集群性能和Hadoop 2.x性能) 

033 Hadoop 2.x分布式安裝部署之配置HDFS與YARN的主節點到從節點的SSH無密鑰登陸、解決問題   

034 YARN中的Web Application Proxy講解                         

035 閱讀講解Hadoop 2.x官方文檔集群如何安裝和CLI MiniCluster講解            

036 如何增加和卸載集群節點、卸載HDFS的DataNode節點                         

037 卸載YARN的NodeManager節點和集群增加節點講解                         

038 企業級Hadoop 2。x中HDFS、YRAN的架構設計和MR運行流程圖預覽  

             

模塊二、分布式文件系統HDFS

039 分布式文件系統架構之一設計目標和架構講解一                        

040 分布式文件系統架構之二架構設計NameNode和DataNode詳解           

041 分布式文件系統架構之三塊Block的存放策略和垃圾回收  

042 分布式文件系統架構之四NameNode啟動過程詳解                    

043 分布式文件系統架構之五NameNode啟動過程中安全模式詳解               

044 分布式文件系統架構之六使用oiv和oev查看NameNode的fsimage和edits文件內容 

045 分布式文件系統架構之七SecondaryNameNode功能詳解             

046 分布式文件系統架構之八如何使用SNN恢復NN                       

047 HDFS Shell 命令使用講解                            

048 HDFS 管理命令講解和使用Eclipse創建Maven工程               

049  使用HDFS URL API詳解和查看IOUtils源碼                

050 使用HDFS FS API詳解之一多種方式獲取FileSystem實例          

051 使用HDFS FS API詳解之二偽裝用戶方式操作HDFS和向HDFS上寫文件      

052 使用HDFS FS API詳解之三獲取文件的存儲信息和集群DataNodes信息以及其他操    

053 使用HDFS FS API詳解之四遠程Debug調試跟蹤程序               

054 使用HDFS FS API詳解之五本地文件系統LocalFileSystem講解和百度網盤功能講 

055 深入講解HDFS客戶端配0置和配置信息分類                          

056 HDFS應用案例講解之需求說明分析                             

057 HDFS應用案例講解之編碼實現與測試說明該                         

058 Hadoop 2.x底層通訊協議RPC講解和編程實現遠程過程調用              

059 HDFS各守護進程之間通信的RPC協議和如何調式讀取文件內容                

060 Hadoop 2.x源碼遠程調試兩種方式講解和如何使用打印日志進行調試          

061 使用Eclipse進行對Hadoop 2.x源碼進行遠程調試(查看NameNode啟動過程)

 

模塊三、分布式資源管理框架YARN

062 云計算與大數據Hadoop關系、Hadoop 1.x與Hadoop 2.x比較

063 分布式資源管理框架YARN功能詳解                    

064 YARN架構組件詳解、通信協議講解和以YARN為核心的生態系統      

065 YARN監控界面詳解(YARN如何管理監控集群資源)           

066 企業測試機配置說明、如何對節點資源進行配置管理              

067 YARN對集群資源(內存和CPU)管理與隔離講解             
068 YARN命令使用講解、YARN的工作流程講解   

069 YARN中應用歷史服務TimelineServer配置講解        

070 國內外主要的Hadoop 2.x相關的幾大發行版本講解(CDH,HDP等)

 

模塊四、分布式計算框架MapReduce

071 企業大數據應用和MapReduce編程模型講解                                                        

072 MapReduce思想原理和如何在YARN上運行                                                       

073 分析WordCount程序執行流程以及編寫MapReduce八股文格式                                            

074 以【八股文格式】編寫WordCount程序                                                          

075 優化WordCount程序(實現Tool接口)以及總結如何編寫MapReduce程序                                     

076 MapReduce程序中如何自定義計數器和WordCount程序中優化注意事項                                        

077 MapReduce程序默認情況下如何對輸入文件進行讀取和輸出文件進行寫入                                           

078 在Linux系統下使用Eclipse開發測試MapReduce程序                                              

079 如何編譯Win7下Hadoop 2.x插件和配置運行使用                  

080 不同模式下運行的Counters、如何從YARN監控頁面查詢以運行MapReduce程序及MapReduce Shuffle講解一                                                                                 

081 MapReduce Shuffle畫圖講解二                                                         

082 MapReduce Shuffle講解三                                                           

083 如何在MapReduce程序中設置Shuffle階段的五大要點以及MapReduce程序可以沒有Reduce類測試講解                    

084 如何設置MapReduce Job中Reduce Task數量及總體把握MapReduce 框架運行過程                           

085 通過跟蹤源碼分析MapReduce提交Job的過程

086 MapReduce Job運行時如何計算Map Task個數(計算InputSplit)                                   

087 MapReduce Job提交的兩種運行方式源碼分析及Mapper和Reducer類分析講解                                 

088 依據基類Mapper和Reducer編寫MapReduce編程模板                                              

089 最小配置MapReduce Job、MapReduce的默認配置(源碼分析)和修改優化MapReduce編程模板                       

090 如何依據MapReduce模板編寫Job程序并測試                                                      

091 MapReduce單元測試框架MRUnit基本使用講解                                                    

092 使用MRUnit對Mapper、Reducer進行單元測試                                                  

093 通過MapReduce自定的數據類型源碼分析,如何自定義數據類型                                               

094 在定義Key的數據類型時,如何定義優化比較器Comaprator                                               

095 編寫自定義數據類型Key,實現優化比較器Comparator 

096 自定義數據類型時注意事項及企業大數據中常用的MapReduce應用                                             

097 三大運營商業務需求及手機流量統計需求分析(原數據和業務)                                                  

098 依據業務分析實現手機流量統計MapReduce編碼                                                     

099 編寫MapReduce程序及測試                                                              

100 MapReduce初級應用案例之TopKey講解一                                                     

101 MapReduce初級應用案例之TopKey講解二                                                     

102 源碼分析講解MapReduce輸入格式InputFormat                                                

103 從源碼和應用角度講解常用的InputFormat                                                      

104 SequenceFileInputFormat應用講解和如何自定義InputFormat(解析XML文件)                         

105 通過源碼和對比講解MapReduce輸出格式OutputFormat及常用的OutputFormat解析                          

106 MapReduce輸出多個指定的文件MultipleOutputs使用講解                                         

107 MapReduce Shuffle中分區Partitioner講解(結合實際案例)                                     

108 MapReduce Shuffle中合并Combiner講解(功能、實際應用)                                       

109 MapReduce Shuffle中Key的比較器講解RawComparator以及通過實際應用引出二次排序                        

110 依據需求實現key相同時對value進行排序,使用二次排序實現(自定義數據類型key,分組比較器等)                            

111 二次排序案例的優化(自定義分區和整數字節比較時的注意事項)                                                 

112 MapReduce編程優化之一配置參數的幾種設置方式及優先級                                                

113 MapReduce編程優化之二MapReduce中的Compression                                         

114 MapReduce編程優化之三分布式緩存DistributedCache使用講解一                                     

115 MapReduce編程優化之三分布式緩存DistributedCache使用講解二                                     

116 MapReduce編程優化之四MapReduce 舊API的區別與使用講解                                         

117 MapReduce編程優化之五MapReduce多任務依賴(ControlledJob和JobControl)                       

118 MapReduce編程優化之六鏈式Mapper的使用ChainMapper和ChainReducer                            

119 MapReduce編程優化之七MapReduce Join算法講解一                                            

120 MapReduce編程優化之七MapReduce Join算法講解二                                            

121 MapReduce編程優化之八小文件處理幾種方式講解                                                    

122 MapReduce編程優化之九MapReduce Shuffle階段的配置調優以及Hadoop1.x的MR程序運行在Hadoop 2.x上的注意事項      

                      

   

   

 

 

 

 

 

 

 

亮點一、從零基礎開始講起,包括Linux系統,基本命令

 

亮點二、以企業使用的角度講解Hadoop 2。x的各個知識,抽取案例模型講解

 

亮點三、整套課程以實際操作為主,讓大家對Hadoop 2.x環境、MapReduce編寫深層次的理解掌握 

 

 

1.課程針對人群

Hadoop初學者、具有一定Linux系統、Java使用經驗

系統架構師、系統分析師、高級程序員、資深開發人員。

牽涉到大數據處理的數據中心運行、規劃、設計負責人。

高校、科研院所牽涉到大數據與分布式數據處理的項目負責人。

數據倉庫管理人員、建模人員,分析人員和開發人員、系統管理人員、數據庫管理人員以及對數據倉庫感興趣的其他人員。

 

2.我該怎么學,如何才能學好這門課程,給些建議。

4.1、時間上的安排建議

本課程第一季共66講,如果您時間上充分,建議以每天3-4講的進度往前學習,一定要進行操作,記筆記。

4.2、學習要求

持之以恒,每天都堅持學習(看視頻、實際聯系,多思考),有問題及時溝通交流解決,建議多看官方文檔。

4.3、講師建議

1.最好看完視頻之后,拋開視頻,獨立自己去把上課中的示例寫一遍,看自己是否理解,如果不正確,可以回過頭看再看下視頻,如果反復,達到真正理解和熟練掌握的目的。

2.對于項目實戰部分,一定要自己親自動手做一遍,不要滿足聽完就OK了

3. 建議一般聽視頻,一般拿個紙和筆,做一些記錄和筆記,這是一種非常好的學習習慣。

4。 一定不要過于依賴視頻,要學會看API和使用百度,學會思考,學會舉一反三    

5. 最后祝您學有所成

 

 

課程是屬于某個特定的專業技術,掌握該技術后,你可以從事以下職位的相關工作

1、Hadoop 開發工程師

2、Hadoop 研發工程師

3、Hadoop 運維工程師      

 

qq网赚群都有那些 网赚月入过万是真的吗 六合开奖网址 广东快乐十分 极速快乐8 19年点击网赚 挂机网赚是真的吗 19年自动挂机网赚 深度网赚论坛 百万彩票