深入淺出Hadoop Mahout數據挖掘實戰(算法分析、項目實戰、中文分詞技術)
  完成
收藏課程
9999+

深入淺出Hadoop Mahout數據挖掘實戰(算法分析、項目實戰、中文分詞技術)

1、Mahout數據挖掘工具 2、Hadoop實現推薦系統的綜合實戰,涉及到MapReduce、Pig和Mahout的綜合實戰 課程適合于有一定java基...

適合人群:高級
課時數量:17課時
用到技術:MapReduce并行分詞程序 Mahout
涉及項目:Hadoop綜合實戰-文本挖掘項目 Mahout數據挖掘工具

  • 課程顧問貼心解答

    為你推薦精品課程,無論就業還是升職加薪,毫無壓力。

  • 名企定制緊隨大流

    量身打造緊貼企業需求的實用性課程。

  • 系統教學把控效果

    集學、測、練為一體的學習系統為你科學的安排學習進度,提高效率。

  • 一線大師1對1指導

    課程研發團隊內一線資深講師一對一指導,手把手教學,直到學會。

  • 點播答疑完美結合

    每周2-3次直播解答,保證學員日常學習問題能得到解決。

  • 量身定制學習計劃

    告別雜亂的學習方式,我們會根據你的情況定制學習計劃。

 

 

 

隨著云計算、大數據迅速發展,亟需用hadoop解決大數據量高并發訪問的瓶頸。谷歌、淘寶、百度、京東等底層都應用hadoop。越來越多的企 業急需引入hadoop技術人才。由于掌握Hadoop技術的開發人員并不多,直接導致了這幾年hadoop技術的薪水遠高于JavaEE及 Android程序員。

 

Hadoop入門薪資已經達到了 8K 以上,工作1年可達到 1。2W 以上,具有2-3年工作經驗的hadoop人才年薪可以達到 30萬—50萬 。一般需要大數據處理的公司基本上都是大公司,所以學習hadoop技術也是進大公司的捷徑!

 

中關村被稱為中國硅谷,這里有著一群被外界稱之為程序員的IT從業者。但是一眼望去,大多數一線程序員的年齡均在20至30歲左右,40、50歲的人在這個行業內頗為罕見。為什么在國內沒有“老”程序員,而在國外五六十歲仍奮斗在一線崗位的程序員比比皆是?造成這種現象的原因是多方面的。

 

 

 

 

 

課程背景:

Mahout簡介

Mahout 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序

 

Mahout相關資源

Mahout主頁:http://mahout.apache.org/

Mahout 最新版本0。8下載: http://mirrors。hust。edu。cn/apache/mahout/0。8/ 

使用mahout-distribution-0。8。tar。gz可試跑,源碼在mahout-distribution-0。8-src。tar。gz中

Mahout 簡要安裝步驟:

如無需修改源代碼,只是試用試跑,請無需安裝maven(網上許多教程會有這個彎路,請跳過),具體可以參考以下教程

http://www。hadoopor。com/thread-983-1-1。html

如果需要能修改源代碼并重新編譯打包,需要安裝maven,請參考如下圖文教程:http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html

Mahout 專業教程 : Mahout in action http://yunpan。taobao。com/share/link/R56BdLH5O

注: 出版時間2012年, 對應mahout版本0.5, 是目前mahout最新的書籍讀物。目前只有英文版,但是翻了一下,里面詞匯基本都是計算機基礎詞匯,且配圖和源代碼,是適合閱讀的。

IBM mahout簡介: http://www。ibm。com/developerworks/cn/java/j-mahout/

注:中文版, 更新是時間為09年,但是里面對于mahout闡述較全面,推薦閱讀,特別是最后的書籍清單,適合深入了解


課程介紹

本課程主要涉及以下內容的講解:

1、Mahout數據挖掘工具 

2、Hadoop實現推薦系統的綜合實戰,涉及到MapReduce、Pig和Mahout的綜合實戰

 

課程針對人群

1、本課程適合于有一定java基礎知識,對數據庫和sql語句有一定了解,熟練使用linux系統的技術人員,特別適合于想換工作或尋求高薪職業的人士

2、最好有Greenplum Hadoop、Hadoop2.0、YARN、Sqoop、FlumeAvro、 Mahout等大數據基礎,學習過北風課程《Greenplum 分布式數據庫開發入門到精通》、《全面深入Greenplum Hadoop大數據分析平臺》、《Hadoop2.0、YARN深入淺出》、《MapReduce、Hbase進階提升》、《MapReduce、Hbase進階提升》為最佳。


 

課程大綱

Mahout數據挖掘工具(10課時)

數據挖掘概念、系統組成

數據挖掘常用方法及算法(回歸分析、分類、聚類等)

數據挖掘分析工具

Mahout支持的算法

Mahout起源和特點

Mahout安裝、配置及測試

實戰:Mahout K-means聚類分析

Mahout實現Canopy算法

Mahout實現分類算法

實戰:Mahout邏輯回歸分類預測

實戰:Mahout樸素貝葉斯分類

推薦系統的概念及分類

協同過濾推薦算法概念、分類及應用

實戰:實現基于Mahout的電影推薦系統

Hadoop綜合實戰-文本挖掘項目(7課時)

文本挖掘的概念及應用場景

項目背景

項目流程

中文分詞技術

庖丁分詞器的使用

MapReduce并行分詞程序的設計與實現

Pig劃分數據集

Mahout構建樸素貝葉斯文本分類器

模型應用-計算用戶偏好類別

 

 課程總目錄

网赚代理广告词 极速快三 河北快3基本走势 吉林快3 2019网赚新项目 网赚联盟 辽宁11选5 江苏快三质合走势图 一凡网赚是真的假的 网赚项目下载