1. <wbr id="cnjas"><legend id="cnjas"></legend></wbr>

          Linux培訓
          達內IT學院

          400-111-8989

          Hadoop與Spark常用配置參數總結

          • 發布:Linux培訓
          • 來源:Hadoop大數據
          • 時間:2016-08-12 14:35

          背景

          MapReduce和Spark對外提供了上百個配置參數,用戶可以為作業定制這些參數以更快,更穩定的運行應用程序。本文梳理了最常用的一些MapReduce和Spark配置參數。

          MapReduce重要配置參數

          1. 資源相關參數

          (1) mapreduce.map.memory.mb: 一個Map Task可使用的資源上限(單位:MB),默認為1024。如果Map Task實際使用的資源量超過該值,則會被強制殺死。

          (2) mapreduce.reduce.memory.mb: 一個Reduce Task可使用的資源上限(單位:MB),默認為1024。如果Reduce Task實際使用的資源量超過該值,則會被強制殺死。

          (3) mapreduce.map.java.opts: Map Task的JVM參數,你可以在此配置默認的java heap size等參數, e.g.

          “-Xmx1024m -verbose:gc -Xloggc:/tmp/@taskid@.gc” (@taskid@會被Hadoop框架自動換為相應的taskid), 默認值: “”

          (4) mapreduce.reduce.java.opts: Reduce Task的JVM參數,你可以在此配置默認的java heap size等參數, e.g.

          “-Xmx1024m -verbose:gc -Xloggc:/tmp/@taskid@.gc”, 默認值: “”

          (5) mapreduce.map.cpu.vcores: 每個Map task可使用的最多cpu core數目, 默認值: 1

          (6) mapreduce.map.cpu.vcores: 每個Reduce task可使用的最多cpu core數目, 默認值: 1

          2. 容錯相關參數

          (1) mapreduce.map.maxattempts: 每個Map Task最大重試次數,一旦重試參數超過該值,則認為Map Task運行失敗,默認值:4。

          (2) mapreduce.reduce.maxattempts: 每個Reduce Task最大重試次數,一旦重試參數超過該值,則認為Map Task運行失敗,默認值:4。

          (3) mapreduce.map.failures.maxpercent: 當失敗的Map Task失敗比例超過該值為,整個作業則失敗,默認值為0. 如果你的應用程序允許丟棄部分輸入數據,則該該值設為一個大于0的值,比如5,表示如果有低于5%的Map Task失敗(如果一個Map Task重試次數超過mapreduce.map.maxattempts,則認為這個Map Task失敗,其對應的輸入數據將不會產生任何結果),整個作業扔認為成功。

          (4) mapreduce.reduce.failures.maxpercent: 當失敗的Reduce Task失敗比例超過該值為,整個作業則失敗,默認值為0.

          (5) mapreduce.task.timeout: Task超時時間,經常需要設置的一個參數,該參數表達的意思為:如果一個task在一定時間內沒有任何進入,即不會讀取新的數據,也沒有輸出數據,則認為該task處于block狀態,可能是卡住了,也許永遠會卡主,為了防止因為用戶程序永遠block住不退出,則強制設置了一個該超時時間(單位毫秒),默認是300000。如果你的程序對每條輸入數據的處理時間過長(比如會訪問數據庫,通過網絡拉取數據等),建議將該參數調大,該參數過小常出現的錯誤提示是“AttemptID:attempt_14267829456721_123456_m_000224_0 Timed out after 300 secsContainer killed by the ApplicationMaster.”。

          3. 本地運行mapreduce 作業

          設置以下幾個參數:

          mapreduce.framework.name=local

          mapreduce.jobtracker.address=local

          fs.defaultFS=local

          4. 效率和穩定性相關參數

          (1) mapreduce.map.speculative: 是否為Map Task打開推測執行機制,默認為false

          (2) mapreduce.reduce.speculative: 是否為Reduce Task打開推測執行機制,默認為false

          (3) mapreduce.job.user.classpath.first & mapreduce.task.classpath.user.precedence:當同一個class同時出現在用戶jar包和hadoop jar中時,優先使用哪個jar包中的class,默認為false,表示優先使用hadoop jar中的class。

          (4) mapreduce.input.fileinputformat.split.minsize: 每個Map Task處理的數據量(僅針對基于文件的Inputformat有效,比如TextInputFormat,SequenceFileInputFormat),默認為一個block大小,即 134217728。

          HBase 相關配置參數

          (1) hbase.rpc.timeout:rpc的超時時間,默認60s,不建議修改,避免影響正常的業務,在線上環境剛開始配置的是3秒,運行半天后發現了大量的timeout error,原因是有一個region出現了如下問題阻塞了寫操作:“Blocking updates … memstore size 434.3m is >= than blocking 256.0m size”可見不能太低。

          (2) ipc.socket.timeout:socket建立鏈接的超時時間,應該小于或者等于rpc的超時時間,默認為20s

          (3) hbase.client.retries.number:重試次數,默認為14,可配置為3

          (4) hbase.client.pause:重試的休眠時間,默認為1s,可減少,比如100ms

          (5) hbase.regionserver.lease.period:scan查詢時每次與server交互的超時時間,默認為60s,可不調整。

          Spark 相關配置參數

          1. 效率及穩定性相關參數

          建議打開map(注意,在spark引擎中,也只有map和reduce兩種task,spark叫ShuffleMapTask和ResultTask)中間結果合并及推測執行功能:

          spark.shuffle.consolidateFiles=true

          spark.speculation=trure

          2. 容錯相關參數

          建議將這些值調大,比如:

          spark.task.maxFailures=8

          spark.akka.timeout=300

          spark.network.timeout=300

          spark.yarn.max.executor.failures=100

          預約申請免費試聽課

          填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

          上一篇:Hadoop優化與調整
          下一篇:沒有下一篇了

          Hadoop元數據合并異常及解決方法

          Hadoop與Spark常用配置參數總結

          Spark在Yarn上運行Wordcount程序

          Spark和Hadoop作業之間的區別

          • 掃碼領取資料

            回復關鍵字:視頻資料

            免費領取 達內課程視頻學習資料

          • 視頻學習QQ群

            添加QQ群:1143617948

            免費領取達內課程視頻學習資料

          Copyright ? 2018 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

          選擇城市和中心
          黑龍江省

          吉林省

          河北省

          湖南省

          貴州省

          云南省

          廣西省

          海南省

          欧美做爰视频免费播放_做暖全过程免费的视频_性爱免费视频 百度 好搜 搜狗
          <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>