1. <wbr id="cnjas"><legend id="cnjas"></legend></wbr>

          Linux培訓
          達內IT學院

          400-111-8989

          Hadoop的輝煌還能延續多久?

          • 發布:Linux培訓
          • 來源:網絡
          • 時間:2015-07-03 20:51

          Hadoop技術已經無處不在。不管是好是壞,Hadoop已經成為大數據的代名詞。短短幾年間,Hadoop從一種邊緣技術成為事實上的標準。看來,不僅現在Hadoop是企業大數據的標準,而且在未來,它的地位似乎一時難以動搖。

          谷歌文件系統與MapReduce

          我們先來探討一下Hadoop的靈魂——MapReduce。面對數據的爆炸性增長,谷歌的工程師Jeff Dean和Sanjay Ghemawat架構并發布了兩個開創性的系統:谷歌文件系統(GFS)和谷歌MapReduce(GMR)。前者是一個出色而實用的解決方案-使用常規的硬件擴展并管理數據,后者同樣輝煌,造就了一個適用于大規模并行處理的計算框架。

          谷歌MapReduce(GMR)為普通開發者/用戶進行大數據處理提供了簡易的方式,并使之快速、具備容錯性。谷歌文件系統(GFS)和谷歌MapReduce(GMR)也為谷歌搜索引擎對網頁進行抓取、分析提供了核心動力。

          再回頭看看開源世界中的Hadoop,Apache Hadoop的分布式文件系統(HDFS)和Hadoop MapReduce完全是谷歌文件系統(GFS)和谷歌MapReduce(GMR)的開源實現。Hadoop項目已經發展成為一個生態系統,并觸及了大數據領域的方方面面。但從根本上,它的核心是MapReduce。

          Hadoop是否可以趕超谷歌?

          一個有趣的現象是,MapReduce在谷歌已不再顯赫。當企業矚目MapReduce的時候,谷歌好像早已進入到了下一個時代。事實上,我們談論的這些技術早就不是新技術了,MapReduce也不例外。

          我希望在后Hadoop時代下面這些技術能夠更具競爭性。盡管許多Apache社區的項目和商業化Hadoop項目都非常活躍,并以來自HBase、Hive和下一代MapReduce(YARN)的技術不斷完善著Hadoop體系,我依然認為,Hadoop核心(HDFS和Zookeeper)需要脫離MapReduce并以全新的架構增強自己的競爭力,真正與谷歌技術一較高下。

          過濾不斷增長的索引,分析不斷變化的數據集。Hadoop的偉大之處在于,它一旦開始運行,就會飛速地分析你的數據。盡管如此,在每次分析數據之前,即添加、更改或刪除數據之后,我們都必須將整個數據集進行流式處理。這意味著,隨著數據集的膨脹,分析時間也會隨之增加,且不可預期。

          那么,谷歌又是怎么做到搜索結果越來越實時呈現呢?一個名為Percolator的增量處理引擎取代了谷歌MapReduce(GMR)。通過對新建、更改和已刪除文檔的處理,并使用二級索引進行高效的分類、查詢,谷歌能夠顯著地降低實現其目標的時間。

          Percolator的作者寫道:“將索引系統轉化為一個增量系統……文檔平均處理延遲的因子降低到了現在的100。”這句話的意思是,索引Web上新內容的速度比之前MapReduce系統快了100倍。

          谷歌Dremel即時數據分析解決方案

          谷歌和Hadoop社區曾致力于構建基于MapReduce的易用性即時數據分析工具,如谷歌的并行處理語言Sawzall,Apache Pig和Hive。但對熟知SQL的人們而言,他們忽略了一個基本事實-構建MapReduce的目標就在于管理數據處理工作。它的核心能力在于工作流管理,而不是即時數據分析。

          與之形成鮮明對比的是,很多BI或數據分析查詢基本上都要求即時、交互和低延遲。這意味著,使用Hadoop不僅需要規劃流程圖,而且需要為許多查詢分析裁減不必要的工作流。即便如此,我們也要花費數分鐘等待工作開始,然后花費數小時等待工作流完成,并且這個過程也非常不利于交互式體驗。因此,谷歌研發了Dremel予以應對。Dremel是Google 的“交互式”數據分析系統,可以在幾秒鐘內處理PB級別的數據,并能輕松應對即時查詢。

          Google Dremel的設計特點:

          Dremel是一個可擴展的大型系統。在一個PB級別的數據集上面,將任務縮短到秒級,無疑需要大量的并發。磁盤的順序讀速度在100MB/S上下,那么在1S內處理1TB數據,意味著至少需要有1萬個磁盤的并發讀! Google一向是用廉價機器辦大事的好手。但是機器越多,出問題概率越大,如此大的集群規模,需要有足夠的容錯考慮,保證整個分析的速度不被集群中的個別節點影響。

          Dremel是MapReduce的補充。和MapReduce一樣,Dremel也需要GFS這樣的文件系統作為存儲層。在設計之初,Dremel并非是MapReduce的替代品,它只是可以執行非常快的分析,在使用的時候,常常用它來處理MapReduce的結果集或者用來建立分析原型。

          Dremel的數據模型是嵌套的。互聯網數據常常是非關系型的。Dremel還需要有一個靈活的數據模型,這個數據模型至關重要。Dremel支持一個嵌套的數據模型,類似于JSON。而傳統的關系模型,由于不可避免的有大量的JOIN操作,在處理如此大規模的數據的時候,往往是有心無力的。

          Dremel中的數據是采用列式存儲的。使用列式存儲,分析的時候,可以只掃描需要的那部分數據的時候,減少CPU和磁盤的訪問量。同時列式存儲是壓縮友好的,使用壓縮,可以綜合CPU和磁盤,發揮最大的效能。

          Dremel結合了Web搜索和并行DBMS的技術。Dremel借鑒了Web搜索中的“查詢樹”的概念,將一個相對巨大復雜的查詢,分割成較小較簡單的查詢。大事化小,小事化了,能并發的在大量節點上跑。另外,和并行DBMS類似,Dremel可以提供了一個SQL-like的接口,就像Hive和Pig那樣。

          谷歌的圖數據計算框架Pregel

          谷歌MapReduce是專門為抓取、分析世界上最龐大的圖形架構-internet而設計的,但針對大規模圖算法(如圖遍歷(BFS)、PageRank,最短路徑(SSSP)等)的計算則顯得效率低下。因此,谷歌構建了Pregel。

          Pregel給人的印象非常深刻。Pregel不僅能高效執行SSSP或PageRank算法,更令人驚訝的是,公布的數據顯示Pregel處理一個有著幾十億節點、上萬億條邊的圖,只需數分鐘即可完成,其執行時間隨著圖的大小呈線性增長。

          Pregel基于BSP模型,就是“計算”-“通信”-“同步”的模式:

          輸入輸出為有向圖

          分成超步

          以節點為中心計算,超步內每個節點執行自己的任務,執行節點的順序不確定

          兩個超步之間是通信階段

          在Pregel中,以節點為中心計算。Step 0時每節點都活動著,每個節點主動“給停止投票”進入不活動狀態。如果接收到消息,則激活。沒有活動節點和消息時,整個算法結束。容錯是通過檢查點來做的。在每個超步開始的時候,對主從節點分別備份。

          總結

          盡管當前大數據技術的核心依然是Hadoop,但谷歌卻已經為我們展現了許多更先進的大數據技術。谷歌開發這些技術的本意并不是要立刻拋棄掉MapReduce,但毫無疑問這是未來大數據技術的趨勢。盡管已經出現了上述大數據技術的開源實現,但我們不禁要問,Hadoop的輝煌還能延續多久?

          預約申請免費試聽課

          填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

          上一篇:《Hadoop基礎教程》之初識Hadoop
          下一篇:深入理解Hadoop集群和網絡

          Hadoop元數據合并異常及解決方法

          Hadoop與Spark常用配置參數總結

          Spark和Hadoop作業之間的區別

          深入理解Hadoop集群和網絡

          • 掃碼領取資料

            回復關鍵字:視頻資料

            免費領取 達內課程視頻學習資料

          • 視頻學習QQ群

            添加QQ群:1143617948

            免費領取達內課程視頻學習資料

          Copyright ? 2018 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

          選擇城市和中心
          黑龍江省

          吉林省

          河北省

          湖南省

          貴州省

          云南省

          廣西省

          海南省

          欧美做爰视频免费播放_做暖全过程免费的视频_性爱免费视频 百度 好搜 搜狗
          <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>