基于Hadoop2.0、YARN技術的大數據高階應用實戰(Hadoop2.0\YARN\MapReduce\數據挖掘\項目實戰)
  完成
收藏課程
9999+

基于Hadoop2.0、YARN技術的大數據高階應用實戰(Hadoop2.0\YARN\MapReduce\數據挖掘\項目實戰)

本課程基于《基于Greenplum Hadoop分布式平臺的大數據解決方案》Hadoop部分的基礎課程來進行擴展延伸,主要內容分為以下四部分: 一、對Hado。。。

適合人群:高級
課時數量:81課時
用到技術:基于協同過濾的推薦系統、基于HBase的爬蟲調度庫
涉及項目:銀行人民幣查詢系統、HBase編程實踐及案例分析

  • 課程顧問貼心解答

    為你推薦精品課程,無論就業還是升職加薪,毫無壓力。

  • 名企定制緊隨大流

    量身打造緊貼企業需求的實用性課程。

  • 系統教學把控效果

    集學、測、練為一體的學習系統為你科學的安排學習進度,提高效率。

  • 一線大師1對1指導

    課程研發團隊內一線資深講師一對一指導,手把手教學,直到學會。

  • 點播答疑完美結合

    每周2-3次直播解答,保證學員日常學習問題能得到解決。

  • 量身定制學習計劃

    告別雜亂的學習方式,我們會根據你的情況定制學習計劃。

 

 

Hadoop的前景

隨著云計算、大數據迅速發展,亟需用hadoop解決大數據量高并發訪問的瓶頸。谷歌、淘寶、百度、京東等底層都應用hadoop。越來越多的企 業急需引入hadoop技術人才。由于掌握Hadoop技術的開發人員并不多,直接導致了這幾年hadoop技術的薪水遠高于JavaEE及 Android程序員。

 

Hadoop入門薪資已經達到了8K以上,工作1年可達到1。2W以上,具有2-3年工作經驗的hadoop人才年薪可以達到30萬—50萬。

 

一般需要大數據處理的公司基本上都是大公司,所以學習hadoop技術也是進大公司的捷徑!

 

 

2課程內容簡介

本課程基于《基于Greenplum Hadoop分布式平臺的大數據解決方案》Hadoop部分的基礎課程來進行擴展延伸,主要內容分為以下四部分:

一、對Hadoop最新的2.0系列版本和YARN進行介紹,掌握最前沿的Hadoop技術框架。

二、針對MapReduce和HBase的高階應用做深入的講解和實戰演練。

三、講解之前基礎篇中未涉及的Hadoop子項目,包括Cassandra、Sqoop、Avatar、Mahout、Avro、Flume等

四、Hadoop與R結合應用、Hadoop源代碼導讀基礎及最后的綜合實戰


適合對象:

1、要求具有一定的Linux和Java基礎

2、要求具有一定SQL語言基礎

3、學習完《基于Greenplum Hadoop分布式平臺的大數據解決方案》Hadoop部分的基礎課程

 

 

3課程大綱

Hadoop高階應用課程(81課時)

Hadoop 2.0(6課時)

Hadoop 2。0產生背景

Hadoop 2.0基本構成

HDFS 2.0

MapReduce 2.0

Hadoop 2.0安裝配置

集群測試

YARN資源管理系統(4課時)

YARN產生背景

YARN基本設計思想

YARN基本架構

YARN工作流程

YARN通信協議

YARN容錯

YARN資源調度機制

YARN支持的計算框架(Storm,Tez,Spark)(11課時)

以YARN為核心的生態系統

Storm基本概念

Storm流式計算框架

基于YARN的Storm架構

YARN-Storm部署

Storm On YARN服務

Apache Tez介紹

Tez特點

Tez數據處理引擎

DAGAppMaster實現

Tez優化機制

Tez應用場景

Tez部署

什么是Spark

Spark生態系統

Spark的核心--RDD和Lineage

RDD的存儲、容錯機制、內部設計及數據模型

Spark調度框架

Spark的分布式部署方式

基于Mesos的Spark模式

基于YARN的Spark模式

Spark的獨立模式部署

Spark的YARN模式部署

MapReduce多語言編程(5課時)

MapReduce編程接口

Java編程接口實例解析

Hadoop Streaming實現方式

Hadoop Streaming編程實戰(C++,PHP,PYTHON)

Hadoop Streaming原理剖析

Hadoop Pipes的編程實例

Hadoop Pipes的原理剖析

MapReduce高階實現(14課時)

復雜的MapReduce應用

K-means聚類、貝葉斯分類等

工作流編程實例及原理剖析

JobControl、ChainMapper/ChainReducer

Hadoop工作流引擎

常用MapReduce優化技巧

配置多個reducer

設置Stream的處理格式

控制分片的大小

避免分片

輸入格式:文本輸入、多種類型輸入

輸出控制:多個輸出、延遲輸出

實戰:數據分區

MapReduce高級特性

計數器、內置計數器

實例:用戶自定義計數器

MapReduce部分排序的實現

實例:MapReduce全排序

Terasort算法分析

實例:MapReduce實現二次排序

連接、Map端連接的實現

實例:Reduce端連接

連接類型、連接策略介紹

重分區連接框架的實現

復制連接框架的實現

實例:半連接

全局作業參數/數據文件傳遞

HBase編程實踐及案例分析(10課時)

HBase基礎精講

HBase Java編程實例

HBase多語言編程

Thrift安裝、服務配置

HBase C++編程實例

HBase Python編程實例

HBase MapReduce編程基礎

實戰:HBase MapReduce編程

Hbase案例:OpenTSDB的實現

基于HBase的爬蟲調度庫

基于HBase的爬蟲索引庫

銀行人民幣查詢系統

Sqoop(6課時)

Sqoop產生背景、基本

Sqoop1和Sqoop2架構及特點

Sqoop1安裝配置(版本1.4.4)

Sqoop導入介紹

實戰:從mysql導入數據到HDFS

實戰:從mysql導入數據到Hive

Sqoop導出介紹

實戰:將Hive數據導出到Mysql

Sqoop與Hbase結合

Sqoop作業操作

Sqoop作業安全配置

Sqoop2安裝配置(版本1.99.3)

Sqoop2使用綜合實戰

Flume日志收集系統(7課時)

Flume概念和特點

Flume OG架構、組成、特點、容錯機制設計

日志收集系統綜合比較

Flume NG架構、核心概念

Flume OG的安裝

Flume OG的配置(Web端、Flume shell)

Flume NG的安裝配置、測試

Flume NG模塊配置(Source、Channel、Sink)

Flume NG配置實戰分析

Avro數據序列化系統(1課時)

Avro介紹

Avro特性、主要作用

RPC使用Avro

Avro與其他序列化系統的區別

Mahout數據挖掘工具(10課時)

數據挖掘概念、系統組成

數據挖掘常用方法及算法(回歸分析、分類、聚類等)

數據挖掘分析工具

Mahout支持的算法

Mahout起源和特點

Mahout安裝、配置及測試

實戰:Mahout K-means聚類分析

Mahout實現Canopy算法

Mahout實現分類算法

實戰:Mahout邏輯回歸分類預測

實戰:Mahout樸素貝葉斯分類

推薦系統的概念及分類

協同過濾推薦算法概念、分類及應用

實戰:實現基于Mahout的電影推薦系統

Hadoop綜合實戰-文本挖掘項目(7課時)

文本挖掘的概念及應用場景

項目背景

項目流程

中文分詞技術

庖丁分詞器的使用

MapReduce并行分詞程序的設計與實現

Pig劃分數據集

Mahout構建樸素貝葉斯文本分類器

模型應用-計算用戶偏好類別

网赚平台有真实的吗 关于网赚知识技术 甘肃快3 支付宝网赚是真的吗 红牛彩票开户 千万时网赚平台是骗子吗 中文点击网赚新手入门 创世纪网赚是真的吗 百度网赚平台是真的吗 网赚教程