Hadoop2.0/YARN深入淺出(Hadoop2.0、Spark、Storm和Tez)
  完成
收藏課程
9999+

Hadoop2.0/YARN深入淺出(Hadoop2.0、Spark、Storm和Tez)

本課程詳細講解了Hadoop 2.0架構、部署以及YARN,并講解了運行在YARN上主要的計算框架,包括Spark、Storm和Tez 1、本課程適合于有一定...

適合人群:初級
課時數量:21課時
用到技術:Hadoop2.0、Spark、Storm和Tez
涉及項目:YARN資源管理系統

  • 課程顧問貼心解答

    為你推薦精品課程,無論就業還是升職加薪,毫無壓力。

  • 名企定制緊隨大流

    量身打造緊貼企業需求的實用性課程。

  • 系統教學把控效果

    集學、測、練為一體的學習系統為你科學的安排學習進度,提高效率。

  • 一線大師1對1指導

    課程研發團隊內一線資深講師一對一指導,手把手教學,直到學會。

  • 點播答疑完美結合

    每周2-3次直播解答,保證學員日常學習問題能得到解決。

  • 量身定制學習計劃

    告別雜亂的學習方式,我們會根據你的情況定制學習計劃。

 

 

隨著云計算、大數據迅速發展,亟需用hadoop解決大數據量高并發訪問的瓶頸。谷歌、淘寶、百度、京東等底層都應用hadoop。越來越多的企 業急需引入hadoop技術人才。由于掌握Hadoop技術的開發人員并不多,直接導致了這幾年hadoop技術的薪水遠高于JavaEE及 Android程序員。

 

Hadoop入門薪資已經達到了 8K 以上,工作1年可達到 1.2W 以上,具有2-3年工作經驗的hadoop人才年薪可以達到 30萬—50萬 。一般需要大數據處理的公司基本上都是大公司,所以學習hadoop技術也是進大公司的捷徑!

 

中關村被稱為中國硅谷,這里有著一群被外界稱之為程序員的IT從業者。但是一眼望去,大多數一線程序員的年齡均在20至30歲左右,40、50歲的人在這個行業內頗為罕見。為什么在國內沒有“老”程序員,而在國外五六十歲仍奮斗在一線崗位的程序員比比皆是?造成這種現象的原因是多方面的。

 

 

 

課程內容簡介

課程背景:

新 Hadoop Yarn 框架原理及運作機制從業界使用分布式系統的變化趨勢和 hadoop 框架的長遠發展來看,MapReduce 的 JobTracker/TaskTracker 機制需要大規模的調整來修復它在可擴展性,內存消耗,線程模型,可靠性和性能上的缺陷。在過去的幾年中,hadoop 開發團隊做了一些 bug 的修復,但是最近這些修復的成本越來越高,這表明對原框架做出改變的難度越來越大。為從根本上解決舊 MapReduce 框架的性能瓶頸,促進 Hadoop 框架的更長遠發展,從 0.23.0 版本開始,Hadoop 的 MapReduce 框架完全重構,發生了根本的變化。新的 Hadoop MapReduce 框架命名為 MapReduceV2 或者叫 Yarn,其架構圖如下圖所示:

 

成熟、通用讓Hadoop深得大數據玩家喜愛,即使是在YARN出現之前,在流處理框架林立下,Hadoop仍然被眾多機構廣泛運用在離線處理之上。借鑒于Mesos,MapReduce獲得新生,YARN提供了更加優秀的資源管理器,讓Storm等流處理框架同樣可以運行在Hadoop集群之上;但是別忘記,Hadoop有著遠比Mesos成熟的社區。從興起到唱衰再到興起,這頭搬運大數據的大象已更加成熟、穩重,同時我們也相信,在未來container等屬性加入后,Hadoop生態系統必將發揚光大。

 

課程介紹

本課程詳細講解了Hadoop 2.0架構、部署以及YARN,并講解了運行在YARN上主要的計算框架,包括Spark、Storm和Tez

 

課程針對人群

1、本課程適合于有一定java基礎知識,對數據庫和sql語句有一定了解,熟練使用linux系統的技術人員,特別適合于想換工作或尋求高薪職業的人士

2、最好有Greenplum Hadoop大數據基礎,學習過北風課程《Greenplum 分布式數據庫開發入門到精通》、《全面深入Greenplum Hadoop大數據分析平臺》為最佳

 

課程大綱

Hadoop 2.0(6課時)

Hadoop 2.0產生背景

Hadoop 2。0基本構成

HDFS 2.0

MapReduce 2.0

Hadoop 2.0安裝配置

集群測試

YARN資源管理系統(4課時)

YARN產生背景

YARN基本設計思想

YARN基本架構

YARN工作流程

YARN通信協議

YARN容錯

YARN資源調度機制

YARN支持的計算框架(Storm,Tez,Spark)(11課時)

以YARN為核心的生態系統

Storm基本概念

Storm流式計算框架

基于YARN的Storm架構

YARN-Storm部署

Storm On YARN服務

Apache Tez介紹

Tez特點

Tez數據處理引擎

DAGAppMaster實現

Tez優化機制

Tez應用場景

Tez部署

什么是Spark

Spark生態系統

Spark的核心--RDD和Lineage

RDD的存儲、容錯機制、內部設計及數據模型

Spark調度框架

Spark的分布式部署方式

基于Mesos的Spark模式

基于YARN的Spark模式

Spark的獨立模式部署

Spark的YARN模式部署

 

 課程總目錄

悟空网赚博客 安徽快3计划 99彩票网址多少 快三娱乐平台 千禧彩票是真的吗 2019年新网赚项目 云南11选5 北京赛车pk10投注 网赚宝盒 内蒙古11选5