source: proiecte/HadoopJUnit/hadoop-0.20.1/docs/cn/cluster_setup.html @ 120

Last change on this file since 120 was 120, checked in by (none), 14 years ago

Added the mail files for the Hadoop JUNit Project

  • Property svn:executable set to *
File size: 27.4 KB
Line 
1<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
2<html>
3<head>
4<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
5<meta content="Apache Forrest" name="Generator">
6<meta name="Forrest-version" content="0.8">
7<meta name="Forrest-skin-name" content="pelt">
8<title>Hadoop集矀搭建</title>
9<link type="text/css" href="skin/basic.css" rel="stylesheet">
10<link media="screen" type="text/css" href="skin/screen.css" rel="stylesheet">
11<link media="print" type="text/css" href="skin/print.css" rel="stylesheet">
12<link type="text/css" href="skin/profile.css" rel="stylesheet">
13<script src="skin/getBlank.js" language="javascript" type="text/javascript"></script><script src="skin/getMenu.js" language="javascript" type="text/javascript"></script><script src="skin/fontsize.js" language="javascript" type="text/javascript"></script>
14<link rel="shortcut icon" href="images/favicon.ico">
15</head>
16<body onload="init()">
17<script type="text/javascript">ndeSetTextSize();</script>
18<div id="top">
19<!--+
20    |breadtrail
21    +-->
22<div class="breadtrail">
23<a href="http://www.apache.org/">Apache</a> &gt; <a href="http://hadoop.apache.org/">Hadoop</a> &gt; <a href="http://hadoop.apache.org/core/">Core</a><script src="skin/breadcrumbs.js" language="JavaScript" type="text/javascript"></script>
24</div>
25<!--+
26    |header
27    +-->
28<div class="header">
29<!--+
30    |start group logo
31    +-->
32<div class="grouplogo">
33<a href="http://hadoop.apache.org/"><img class="logoImage" alt="Hadoop" src="images/hadoop-logo.jpg" title="Apache Hadoop"></a>
34</div>
35<!--+
36    |end group logo
37    +-->
38<!--+
39    |start Project Logo
40    +-->
41<div class="projectlogo">
42<a href="http://hadoop.apache.org/core/"><img class="logoImage" alt="Hadoop" src="images/core-logo.gif" title="Scalable Computing Platform"></a>
43</div>
44<!--+
45    |end Project Logo
46    +-->
47<!--+
48    |start Search
49    +-->
50<div class="searchbox">
51<form action="http://www.google.com/search" method="get" class="roundtopsmall">
52<input value="hadoop.apache.org" name="sitesearch" type="hidden"><input onFocus="getBlank (this, 'Search the site with google');" size="25" name="q" id="query" type="text" value="Search the site with google">&nbsp; 
53                    <input name="Search" value="Search" type="submit">
54</form>
55</div>
56<!--+
57    |end search
58    +-->
59<!--+
60    |start Tabs
61    +-->
62<ul id="tabs">
63<li>
64<a class="unselected" href="http://hadoop.apache.org/core/">项目</a>
65</li>
66<li>
67<a class="unselected" href="http://wiki.apache.org/hadoop">绎基</a>
68</li>
69<li class="current">
70<a class="selected" href="index.html">Hadoop 0.18文档</a>
71</li>
72</ul>
73<!--+
74    |end Tabs
75    +-->
76</div>
77</div>
78<div id="main">
79<div id="publishedStrip">
80<!--+
81    |start Subtabs
82    +-->
83<div id="level2tabs"></div>
84<!--+
85    |end Endtabs
86    +-->
87<script type="text/javascript"><!--
88document.write("Last Published: " + document.lastModified);
89//  --></script>
90</div>
91<!--+
92    |breadtrail
93    +-->
94<div class="breadtrail">
95
96             &nbsp;
97           </div>
98<!--+
99    |start Menu, mainarea
100    +-->
101<!--+
102    |start Menu
103    +-->
104<div id="menu">
105<div onclick="SwitchMenu('menu_selected_1.1', 'skin/')" id="menu_selected_1.1Title" class="menutitle" style="background-image: url('skin/images/chapter_open.gif');">文档</div>
106<div id="menu_selected_1.1" class="selectedmenuitemgroup" style="display: block;">
107<div class="menuitem">
108<a href="index.html">抂述</a>
109</div>
110<div class="menuitem">
111<a href="quickstart.html">快速入闚</a>
112</div>
113<div class="menupage">
114<div class="menupagetitle">集矀搭建</div>
115</div>
116<div class="menuitem">
117<a href="hdfs_design.html">HDFS构架讟计</a>
118</div>
119<div class="menuitem">
120<a href="hdfs_user_guide.html">HDFS䜿甚指南</a>
121</div>
122<div class="menuitem">
123<a href="hdfs_permissions_guide.html">HDFS权限指南</a>
124</div>
125<div class="menuitem">
126<a href="hdfs_quota_admin_guide.html">HDFS配额管理指南</a>
127</div>
128<div class="menuitem">
129<a href="commands_manual.html">呜什手册</a>
130</div>
131<div class="menuitem">
132<a href="hdfs_shell.html">FS Shell䜿甚指南</a>
133</div>
134<div class="menuitem">
135<a href="distcp.html">DistCp䜿甚指南</a>
136</div>
137<div class="menuitem">
138<a href="mapred_tutorial.html">Map-Reduce教皋</a>
139</div>
140<div class="menuitem">
141<a href="native_libraries.html">Hadoop本地库</a>
142</div>
143<div class="menuitem">
144<a href="streaming.html">Streaming</a>
145</div>
146<div class="menuitem">
147<a href="hadoop_archives.html">Hadoop Archives</a>
148</div>
149<div class="menuitem">
150<a href="hod.html">Hadoop On Demand</a>
151</div>
152<div class="menuitem">
153<a href="http://hadoop.apache.org/core/docs/r0.18.2/api/index.html">API参考</a>
154</div>
155<div class="menuitem">
156<a href="http://hadoop.apache.org/core/docs/r0.18.2/jdiff/changes.html">API Changes</a>
157</div>
158<div class="menuitem">
159<a href="http://wiki.apache.org/hadoop/">绎基</a>
160</div>
161<div class="menuitem">
162<a href="http://wiki.apache.org/hadoop/FAQ">垞见问题</a>
163</div>
164<div class="menuitem">
165<a href="http://hadoop.apache.org/core/mailing_lists.html">邮件列衚</a>
166</div>
167<div class="menuitem">
168<a href="http://hadoop.apache.org/core/docs/r0.18.2/releasenotes.html">发行诎明</a>
169</div>
170<div class="menuitem">
171<a href="http://hadoop.apache.org/core/docs/r0.18.2/changes.html">变曎日志</a>
172</div>
173</div>
174<div id="credit"></div>
175<div id="roundbottom">
176<img style="display: none" class="corner" height="15" width="15" alt="" src="skin/images/rc-b-l-15-1body-2menu-3menu.png"></div>
177<!--+
178  |alternative credits
179  +-->
180<div id="credit2"></div>
181</div>
182<!--+
183    |end Menu
184    +-->
185<!--+
186    |start content
187    +-->
188<div id="content">
189<div title="Portable Document Format" class="pdflink">
190<a class="dida" href="cluster_setup.pdf"><img alt="PDF -icon" src="skin/images/pdfdoc.gif" class="skin"><br>
191        PDF</a>
192</div>
193<h1>Hadoop集矀搭建</h1>
194<div id="minitoc-area">
195<ul class="minitoc">
196<li>
197<a href="#%E7%9B%AE%E7%9A%84">目的</a>
198</li>
199<li>
200<a href="#%E5%85%88%E5%86%B3%E6%9D%A1%E4%BB%B6">先决条件</a>
201</li>
202<li>
203<a href="#%E5%AE%89%E8%A3%85">安装</a>
204</li>
205<li>
206<a href="#%E9%85%8D%E7%BD%AE">配眮</a>
207<ul class="minitoc">
208<li>
209<a href="#%E9%85%8D%E7%BD%AE%E6%96%87%E4%BB%B6">配眮文件</a>
210</li>
211<li>
212<a href="#%E9%9B%86%E7%BE%A4%E9%85%8D%E7%BD%AE">集矀配眮</a>
213<ul class="minitoc">
214<li>
215<a href="#%E9%85%8D%E7%BD%AEHadoop%E5%AE%88%E6%8A%A4%E8%BF%9B%E7%A8%8B%E7%9A%84%E8%BF%90%E8%A1%8C%E7%8E%AF%E5%A2%83">配眮Hadoop守技进皋的运行环境</a>
216</li>
217<li>
218<a href="#%E9%85%8D%E7%BD%AEHadoop%E5%AE%88%E6%8A%A4%E8%BF%9B%E7%A8%8B%E7%9A%84%E8%BF%90%E8%A1%8C%E5%8F%82%E6%95%B0">配眮Hadoop守技进皋的运行参数</a>
219</li>
220<li>
221<a href="#Slaves">Slaves</a>
222</li>
223<li>
224<a href="#%E6%97%A5%E5%BF%97">日志</a>
225</li>
226</ul>
227</li>
228</ul>
229</li>
230<li>
231<a href="#Hadoop%E7%9A%84%E6%9C%BA%E6%9E%B6%E6%84%9F%E7%9F%A5">Hadoop的机架感知</a>
232</li>
233<li>
234<a href="#%E5%90%AF%E5%8A%A8Hadoop">启劚Hadoop</a>
235</li>
236<li>
237<a href="#%E5%81%9C%E6%AD%A2Hadoop">停止Hadoop</a>
238</li>
239</ul>
240</div>
241 
242   
243<a name="N1000D"></a><a name="%E7%9B%AE%E7%9A%84"></a>
244<h2 class="h3">目的</h2>
245<div class="section">
246<p>本文描述了劂䜕安装、配眮和管理有实际意义的Hadoop集矀其规暡可从几䞪节点的小集矀到几千䞪节点的超倧集矀。</p>
247<p>劂果䜠垌望圚单机䞊安装Hadoop玩玩从<a href="quickstart.html">这里</a>胜扟到盞关细节。</p>
248</div>
249   
250   
251<a name="N1001E"></a><a name="%E5%85%88%E5%86%B3%E6%9D%A1%E4%BB%B6"></a>
252<h2 class="h3">先决条件</h2>
253<div class="section">
254<ol>
255       
256<li>
257          确保圚䜠集矀䞭的每䞪节点䞊郜安装了所有<a href="quickstart.html#PreReqs">必需</a>蜯件。
258        </li>
259       
260<li>
261         
262<a href="quickstart.html#%E4%B8%8B%E8%BD%BD">获取</a>Hadoop蜯件包。
263        </li>
264     
265</ol>
266</div>
267   
268   
269<a name="N10036"></a><a name="%E5%AE%89%E8%A3%85"></a>
270<h2 class="h3">安装</h2>
271<div class="section">
272<p>安装Hadoop集矀通垞芁将安装蜯件解压到集矀内的所有机噚䞊。</p>
273<p>通垞集矀里的䞀台机噚被指定䞺
274         <span class="codefrag">NameNode</span>及䞀台䞍同的机噚被指定䞺<span class="codefrag">JobTracker</span>。这些机噚是<em>masters</em>。䜙䞋的机噚即䜜䞺<span class="codefrag">DataNode</span><em>也</em>䜜䞺<span class="codefrag">TaskTracker</span>。这些机噚是<em>slaves</em>。</p>
275<p>我们甚<span class="codefrag">HADOOP_HOME</span>指代安装的根路埄。通垞集矀里的所有机噚的<span class="codefrag">HADOOP_HOME</span>路埄盞同。</p>
276</div>
277   
278   
279<a name="N10060"></a><a name="%E9%85%8D%E7%BD%AE"></a>
280<h2 class="h3">配眮</h2>
281<div class="section">
282<p>接䞋来的几节描述了劂䜕配眮Hadoop集矀。</p>
283<a name="N10069"></a><a name="%E9%85%8D%E7%BD%AE%E6%96%87%E4%BB%B6"></a>
284<h3 class="h4">配眮文件</h3>
285<p>对Hadoop的配眮通过<span class="codefrag">conf/</span>目圕䞋的䞀䞪重芁配眮文件完成</p>
286<ol>
287         
288<li>
289           
290<a href="http://hadoop.apache.org/core/docs/current/hadoop-default.html">hadoop-default.xml</a> - 只读的默讀配眮。
291          </li>
292         
293<li>
294           
295<em>hadoop-site.xml</em> - 集矀特有的配眮。
296          </li>
297       
298</ol>
299<p>芁了解曎倚关于这些配眮文件劂䜕圱响Hadoop框架的细节请看<a href="http://hadoop.apache.org/core/docs/r0.18.2/api/org/apache/hadoop/conf/Configuration.html">这里</a>。</p>
300<p>歀倖通过讟眮<span class="codefrag">conf/hadoop-env.sh</span>䞭的变量䞺集矀特有的倌䜠可以对<span class="codefrag">bin/</span>目圕䞋的Hadoop脚本进行控制。</p>
301<a name="N10096"></a><a name="%E9%9B%86%E7%BE%A4%E9%85%8D%E7%BD%AE"></a>
302<h3 class="h4">集矀配眮</h3>
303<p>芁配眮Hadoop集矀䜠需芁讟眮Hadoop守技进皋的<em>运行环境</em>和Hadoop守技进皋的<em>运行参数</em>。</p>
304<p>Hadoop守技进皋指<span class="codefrag">NameNode</span>/<span class="codefrag">DataNode</span> 
305        和<span class="codefrag">JobTracker</span>/<span class="codefrag">TaskTracker</span>。</p>
306<a name="N100B4"></a><a name="%E9%85%8D%E7%BD%AEHadoop%E5%AE%88%E6%8A%A4%E8%BF%9B%E7%A8%8B%E7%9A%84%E8%BF%90%E8%A1%8C%E7%8E%AF%E5%A2%83"></a>
307<h4>配眮Hadoop守技进皋的运行环境</h4>
308<p>管理员可圚<span class="codefrag">conf/hadoop-env.sh</span>脚本内对Hadoop守技进皋的运行环境做特别指定。</p>
309<p>至少䜠埗讟定<span class="codefrag">JAVA_HOME</span>䜿之圚每䞀远端节点䞊郜被正确讟眮。</p>
310<p>管理员可以通过配眮选项<span class="codefrag">HADOOP_*_OPTS</span>来分别配眮各䞪守技进皋。
311          䞋衚是可以配眮的选项。
312          </p>
313<table class="ForrestTable" cellspacing="1" cellpadding="4">
314         
315<tr>
316<th colspan="1" rowspan="1">守技进皋</th><th colspan="1" rowspan="1">配眮选项</th>
317</tr>
318         
319<tr>
320<td colspan="1" rowspan="1">NameNode</td><td colspan="1" rowspan="1">HADOOP_NAMENODE_OPTS</td>
321</tr>
322         
323<tr>
324<td colspan="1" rowspan="1">DataNode</td><td colspan="1" rowspan="1">HADOOP_DATANODE_OPTS</td>
325</tr>
326         
327<tr>
328<td colspan="1" rowspan="1">SecondaryNamenode</td>
329              <td colspan="1" rowspan="1">HADOOP_SECONDARYNAMENODE_OPTS</td>
330</tr>
331         
332<tr>
333<td colspan="1" rowspan="1">JobTracker</td><td colspan="1" rowspan="1">HADOOP_JOBTRACKER_OPTS</td>
334</tr>
335         
336<tr>
337<td colspan="1" rowspan="1">TaskTracker</td><td colspan="1" rowspan="1">HADOOP_TASKTRACKER_OPTS</td>
338</tr>
339         
340</table>
341<p>䟋劂配眮Namenode时,䞺了䜿其胜借并行回收垃土parallelGC
342          芁把䞋面的代码加入到<span class="codefrag">hadoop-env.sh</span> :
343          <br>
344<span class="codefrag">
345          export HADOOP_NAMENODE_OPTS="-XX:+UseParallelGC ${HADOOP_NAMENODE_OPTS}"
346          </span>
347<br>
348</p>
349<p>其它可定制的垞甚参数还包括</p>
350<ul>
351           
352<li>
353             
354<span class="codefrag">HADOOP_LOG_DIR</span> - 守技进皋日志文件的存攟目圕。劂果䞍存圚䌚被自劚创建。
355            </li>
356           
357<li>
358             
359<span class="codefrag">HADOOP_HEAPSIZE</span> - 最倧可甚的堆倧小单䜍䞺MB。比劂<span class="codefrag">1000MB</span>。
360              这䞪参数甚于讟眮hadoop守技进皋的堆倧小。猺省倧小是<span class="codefrag">1000MB</span>。
361            </li>
362         
363</ul>
364<a name="N1012F"></a><a name="%E9%85%8D%E7%BD%AEHadoop%E5%AE%88%E6%8A%A4%E8%BF%9B%E7%A8%8B%E7%9A%84%E8%BF%90%E8%A1%8C%E5%8F%82%E6%95%B0"></a>
365<h4>配眮Hadoop守技进皋的运行参数</h4>
366<p>这郚分涉及Hadoop集矀的重芁参数这些参数圚<span class="codefrag">conf/hadoop-site.xml</span>䞭指定。</p>
367<table class="ForrestTable" cellspacing="1" cellpadding="4">
368                   
369<tr>
370                     
371<th colspan="1" rowspan="1">参数</th>
372                      <th colspan="1" rowspan="1">取倌</th> 
373                      <th colspan="1" rowspan="1">倇泚</th>
374                   
375</tr>
376                   
377<tr>
378                     
379<td colspan="1" rowspan="1">fs.default.name</td>
380                       <td colspan="1" rowspan="1"><span class="codefrag">NameNode</span>的URI。</td>
381                       <td colspan="1" rowspan="1"><em>hdfs://䞻机名/</em></td>
382                   
383</tr>
384                   
385<tr>
386                     
387<td colspan="1" rowspan="1">mapred.job.tracker</td>
388                      <td colspan="1" rowspan="1"><span class="codefrag">JobTracker</span>的䞻机或者IP和端口。</td>
389                      <td colspan="1" rowspan="1"><em>䞻机:端口</em>。</td>
390                   
391</tr>
392                   
393<tr>
394                     
395<td colspan="1" rowspan="1">dfs.name.dir</td>
396                      <td colspan="1" rowspan="1">
397                        <span class="codefrag">NameNode</span>持久存傚名字空闎及事务日志的本地文件系统路埄。</td>
398                      <td colspan="1" rowspan="1">圓这䞪倌是䞀䞪逗号分割的目圕列衚时nametable数据将䌚被倍制到所有目圕䞭做冗䜙倇仜。
399                      </td>
400                   
401</tr>
402                   
403<tr>
404                     
405<td colspan="1" rowspan="1">dfs.data.dir</td>
406                      <td colspan="1" rowspan="1"> 
407                        <span class="codefrag">DataNode</span>存攟块数据的本地文件系统路埄逗号分割的列衚。
408                      </td>
409                      <td colspan="1" rowspan="1">
410                        圓这䞪倌是逗号分割的目圕列衚时数据将被存傚圚所有目圕䞋通垞分垃圚䞍同讟倇䞊。
411                      </td>
412                   
413</tr>
414                   
415<tr>
416                     
417<td colspan="1" rowspan="1">mapred.system.dir</td>
418                      <td colspan="1" rowspan="1">Map/Reduce框架存傚系统文件的HDFS路埄。比劂<span class="codefrag">/hadoop/mapred/system/</span>。
419                      </td>
420                      <td colspan="1" rowspan="1">这䞪路埄是默讀文件系统HDFS䞋的路埄 须从服务噚和客户端䞊均可访问。
421                      </td>
422                   
423</tr>
424                   
425<tr>
426                     
427<td colspan="1" rowspan="1">mapred.local.dir</td>
428                      <td colspan="1" rowspan="1">本地文件系统䞋逗号分割的路埄列衚Map/Reduce䞎时数据存攟的地方。
429                      </td>
430                      <td colspan="1" rowspan="1">倚路埄有助于利甚磁盘i/o。</td>
431                   
432</tr>
433                   
434<tr>
435                     
436<td colspan="1" rowspan="1">mapred.tasktracker.{map|reduce}.tasks.maximum</td>
437                      <td colspan="1" rowspan="1">某䞀<span class="codefrag">TaskTracker</span>䞊可运行的最倧Map/Reduce任务数这些任务将同时各自运行。
438                      </td>
439                      <td colspan="1" rowspan="1">
440                        默讀䞺22䞪map和2䞪reduce可䟝据硬件情况曎改。
441                      </td>
442                   
443</tr>
444                   
445<tr>
446                     
447<td colspan="1" rowspan="1">dfs.hosts/dfs.hosts.exclude</td>
448                      <td colspan="1" rowspan="1">讞可/拒绝DataNode列衚。</td>
449                      <td colspan="1" rowspan="1">
450                        劂有必芁甚这䞪文件控制讞可的datanode列衚。
451                      </td>
452                   
453</tr>
454                   
455<tr>
456                     
457<td colspan="1" rowspan="1">mapred.hosts/mapred.hosts.exclude</td>
458                      <td colspan="1" rowspan="1">讞可/拒绝TaskTracker列衚。</td>
459                      <td colspan="1" rowspan="1">
460                        劂有必芁甚这䞪文件控制讞可的TaskTracker列衚。
461                      </td>
462                   
463</tr>
464                 
465</table>
466<p>通垞䞊述参数被标记䞺
467          <a href="http://hadoop.apache.org/core/docs/r0.18.2/api/org/apache/hadoop/conf/Configuration.html#FinalParams">
468          final</a> ä»¥ç¡®ä¿å®ƒä»¬äžè¢«ç”šæˆ·åº”甚曎改。
469          </p>
470<a name="N1020C"></a><a name="%E7%8E%B0%E5%AE%9E%E4%B8%96%E7%95%8C%E7%9A%84%E9%9B%86%E7%BE%A4%E9%85%8D%E7%BD%AE"></a>
471<h5>现实䞖界的集矀配眮</h5>
472<p>这节眗列圚倧规暡集矀䞊运行<em>sort</em>基准测试(benchmark)时䜿甚到的䞀些非猺省配眮。</p>
473<ul>
474             
475<li>
476               
477<p>运行sort900的䞀些非猺省配眮倌sort900即圚900䞪节点的集矀䞊对9TB的数据进行排序</p>
478               
479<table class="ForrestTable" cellspacing="1" cellpadding="4">
480                         
481<tr>
482                           
483<th colspan="1" rowspan="1">参数</th>
484                            <th colspan="1" rowspan="1">取倌</th> 
485                            <th colspan="1" rowspan="1">倇泚</th>
486                         
487</tr>
488                 
489<tr>
490                   
491<td colspan="1" rowspan="1">dfs.block.size</td>
492                    <td colspan="1" rowspan="1">134217728</td>
493                    <td colspan="1" rowspan="1">针对倧文件系统HDFS的块倧小取128MB。</td>
494                 
495</tr>
496                 
497<tr>
498                   
499<td colspan="1" rowspan="1">dfs.namenode.handler.count</td>
500                    <td colspan="1" rowspan="1">40</td>
501                    <td colspan="1" rowspan="1">
502                      启劚曎倚的NameNode服务线皋去倄理来自倧量DataNode的RPC请求。
503                    </td>
504                 
505</tr>
506                 
507<tr>
508                   
509<td colspan="1" rowspan="1">mapred.reduce.parallel.copies</td>
510                    <td colspan="1" rowspan="1">20</td>
511                    <td colspan="1" rowspan="1">
512                        reduce启劚曎倚的并行拷莝噚以获取倧量map的蟓出。
513                    </td>
514                 
515</tr>
516                 
517<tr>
518                   
519<td colspan="1" rowspan="1">mapred.child.java.opts</td>
520                    <td colspan="1" rowspan="1">-Xmx512M</td>
521                    <td colspan="1" rowspan="1">
522                        䞺map/reduce子虚拟机䜿甚曎倧的堆。
523                    </td>
524                 
525</tr>
526                 
527<tr>
528                   
529<td colspan="1" rowspan="1">fs.inmemory.size.mb</td>
530                    <td colspan="1" rowspan="1">200</td>
531                    <td colspan="1" rowspan="1">
532                      䞺reduce阶段合并map蟓出所需的内存文件系统分配曎倚的内存。
533                    </td>
534                 
535</tr>
536                 
537<tr>
538                   
539<td colspan="1" rowspan="1">io.sort.factor</td>
540                    <td colspan="1" rowspan="1">100</td>
541                    <td colspan="1" rowspan="1">文件排序时曎倚的流将同时被園并。</td>
542                 
543</tr>
544                 
545<tr>
546                   
547<td colspan="1" rowspan="1">io.sort.mb</td>
548                    <td colspan="1" rowspan="1">200</td>
549                    <td colspan="1" rowspan="1">提高排序时的内存䞊限。</td>
550                 
551</tr>
552                 
553<tr>
554                   
555<td colspan="1" rowspan="1">io.file.buffer.size</td>
556                    <td colspan="1" rowspan="1">131072</td>
557                    <td colspan="1" rowspan="1">SequenceFile䞭甚到的读/写猓存倧小。</td>
558                 
559</tr>
560               
561</table>
562             
563</li>
564             
565<li>
566               
567<p>运行sort1400和sort2000时需芁曎新的配眮即圚1400䞪节点䞊对14TB的数据进行排序和圚2000䞪节点䞊对20TB的数据进行排序</p>
568               
569<table class="ForrestTable" cellspacing="1" cellpadding="4">
570                         
571<tr>
572                           
573<th colspan="1" rowspan="1">参数</th>
574                            <th colspan="1" rowspan="1">取倌</th> 
575                            <th colspan="1" rowspan="1">倇泚</th>
576                         
577</tr>
578                 
579<tr>
580                   
581<td colspan="1" rowspan="1">mapred.job.tracker.handler.count</td>
582                    <td colspan="1" rowspan="1">60</td>
583                    <td colspan="1" rowspan="1">
584                      启甚曎倚的JobTracker服务线皋去倄理来自倧量TaskTracker的RPC请求。
585                    </td>
586                 
587</tr>
588                 
589<tr>
590                   
591<td colspan="1" rowspan="1">mapred.reduce.parallel.copies</td>
592                    <td colspan="1" rowspan="1">50</td>
593                    <td colspan="1" rowspan="1"></td>
594                 
595</tr>
596                 
597<tr>
598                   
599<td colspan="1" rowspan="1">tasktracker.http.threads</td>
600                    <td colspan="1" rowspan="1">50</td>
601                    <td colspan="1" rowspan="1">
602                      䞺TaskTracker的Http服务启甚曎倚的工䜜线皋。reduce通过Http服务获取map的䞭闎蟓出。
603                    </td>
604                 
605</tr>
606                 
607<tr>
608                   
609<td colspan="1" rowspan="1">mapred.child.java.opts</td>
610                    <td colspan="1" rowspan="1">-Xmx1024M</td>
611                    <td colspan="1" rowspan="1">䜿甚曎倧的堆甚于maps/reduces的子虚拟机</td>
612                 
613</tr>
614               
615</table>
616             
617</li>
618           
619</ul>
620<a name="N1032A"></a><a name="Slaves"></a>
621<h4>Slaves</h4>
622<p>通垞䜠选择集矀䞭的䞀台机噚䜜䞺<span class="codefrag">NameNode</span>及倖䞀台䞍同的机噚䜜䞺<span class="codefrag">JobTracker</span>。䜙䞋的机噚即䜜䞺<span class="codefrag">DataNode</span>又䜜䞺<span class="codefrag">TaskTracker</span>这些被称之䞺<em>slaves</em>。</p>
623<p>圚<span class="codefrag">conf/slaves</span>文件䞭列出所有slave的䞻机名或者IP地址䞀行䞀䞪。</p>
624<a name="N10349"></a><a name="%E6%97%A5%E5%BF%97"></a>
625<h4>日志</h4>
626<p>Hadoop䜿甚<a href="http://logging.apache.org/log4j/">Apache log4j</a>来记圕日志它由<a href="http://commons.apache.org/logging/">Apache Commons Logging</a>框架来实现。猖蟑<span class="codefrag">conf/log4j.properties</span>文件可以改变Hadoop守技进皋的日志配眮日志栌匏等。</p>
627<a name="N1035D"></a><a name="%E5%8E%86%E5%8F%B2%E6%97%A5%E5%BF%97"></a>
628<h5>历史日志</h5>
629<p>䜜䞚的历史文件集䞭存攟圚<span class="codefrag">hadoop.job.history.location</span>这䞪也可以是圚分垃匏文件系统䞋的路埄其默讀倌䞺<span class="codefrag">${HADOOP_LOG_DIR}/history</span>。jobtracker的web UI䞊有历史日志的web UI铟接。</p>
630<p>历史文件圚甚户指定的目圕<span class="codefrag">hadoop.job.history.user.location</span>也䌚记圕䞀仜这䞪配眮的猺省倌䞺䜜䞚的蟓出目圕。这些文件被存攟圚指定路埄䞋的&ldquo;_logs/history/&rdquo;目圕䞭。因歀默讀情况䞋日志文件䌚圚&ldquo;mapred.output.dir/_logs/history/&rdquo;䞋。劂果将<span class="codefrag">hadoop.job.history.user.location</span>指定䞺倌<span class="codefrag">none</span>系统将䞍再记圕歀日志。</p>
631<p>甚户可䜿甚以䞋呜什圚指定路埄䞋查看历史日志汇总<br>
632           
633<span class="codefrag">$ bin/hadoop job -history output-dir</span>
634<br> 
635            这条呜什䌚星瀺䜜䞚的细节信息倱莥和终止的任务细节。 <br>
636            关于䜜䞚的曎倚细节比劂成功的任务以及对每䞪任务的所做的尝试次数等可以甚䞋面的呜什查看<br>
637           
638<span class="codefrag">$ bin/hadoop job -history all output-dir</span>
639<br>
640</p>
641<p>䞀䜆党郚必芁的配眮完成将这些文件分发到所有机噚的<span class="codefrag">HADOOP_CONF_DIR</span>路埄䞋通垞是<span class="codefrag">${HADOOP_HOME}/conf</span>。</p>
642</div>
643   
644   
645<a name="N10395"></a><a name="Hadoop%E7%9A%84%E6%9C%BA%E6%9E%B6%E6%84%9F%E7%9F%A5"></a>
646<h2 class="h3">Hadoop的机架感知</h2>
647<div class="section">
648<p>HDFS和Map/Reduce的组件是胜借感知机架的。</p>
649<p>
650<span class="codefrag">NameNode</span>和<span class="codefrag">JobTracker</span>通过调甚管理员配眮暡块䞭的API<a href="http://hadoop.apache.org/core/docs/r0.18.2/api/org/apache/hadoop/net/DNSToSwitchMapping.html#resolve(java.util.List)">resolve</a>来获取集矀里每䞪slave的<span class="codefrag">机架id</span>。该API将slave的DNS名称或者IP地址蜬换成机架id。䜿甚哪䞪暡块是通过配眮项<span class="codefrag">topology.node.switch.mapping.impl</span>来指定的。暡块的默讀实现䌚调甚<span class="codefrag">topology.script.file.name</span>配眮项指定的䞀䞪的脚本/呜什。 劂果topology.script.file.name未被讟眮对于所有䌠入的IP地址暡块䌚返回<span class="codefrag">/default-rack</span>䜜䞺机架id。圚Map/Reduce郚分还有䞀䞪额倖的配眮项<span class="codefrag">mapred.cache.task.levels</span>该参数决定cache的级数圚眑络拓扑䞭。䟋劂劂果默讀倌是2䌚建立䞀级的cache 䞀级针对䞻机䞻机 -&gt; ä»»åŠ¡çš„映射及䞀级针对机架机架 -&gt; ä»»åŠ¡çš„映射。
651      </p>
652</div>
653   
654   
655<a name="N103BA"></a><a name="%E5%90%AF%E5%8A%A8Hadoop"></a>
656<h2 class="h3">启劚Hadoop</h2>
657<div class="section">
658<p>启劚Hadoop集矀需芁启劚HDFS集矀和Map/Reduce集矀。</p>
659<p>
660        栌匏化䞀䞪新的分垃匏文件系统<br>
661       
662<span class="codefrag">$ bin/hadoop namenode -format</span>
663     
664</p>
665<p>
666        圚分配的<span class="codefrag">NameNode</span>䞊运行䞋面的呜什启劚HDFS<br>
667       
668<span class="codefrag">$ bin/start-dfs.sh</span>
669     
670</p>
671<p>
672<span class="codefrag">bin/start-dfs.sh</span>脚本䌚参照<span class="codefrag">NameNode</span>侊<span class="codefrag">${HADOOP_CONF_DIR}/slaves</span>文件的内容圚所有列出的slave䞊启劚<span class="codefrag">DataNode</span>守技进皋。</p>
673<p>
674        圚分配的<span class="codefrag">JobTracker</span>䞊运行䞋面的呜什启劚Map/Reduce<br>
675       
676<span class="codefrag">$ bin/start-mapred.sh</span>
677     
678</p>
679<p>
680<span class="codefrag">bin/start-mapred.sh</span>脚本䌚参照<span class="codefrag">JobTracker</span>侊<span class="codefrag">${HADOOP_CONF_DIR}/slaves</span>文件的内容圚所有列出的slave䞊启劚<span class="codefrag">TaskTracker</span>守技进皋。</p>
681</div>
682   
683   
684<a name="N103FE"></a><a name="%E5%81%9C%E6%AD%A2Hadoop"></a>
685<h2 class="h3">停止Hadoop</h2>
686<div class="section">
687<p>
688        圚分配的<span class="codefrag">NameNode</span>䞊执行䞋面的呜什停止HDFS<br>
689       
690<span class="codefrag">$ bin/stop-dfs.sh</span>
691     
692</p>
693<p>
694<span class="codefrag">bin/stop-dfs.sh</span>脚本䌚参照<span class="codefrag">NameNode</span>侊<span class="codefrag">${HADOOP_CONF_DIR}/slaves</span>文件的内容圚所有列出的slave䞊停止<span class="codefrag">DataNode</span>守技进皋。</p>
695<p>
696        圚分配的<span class="codefrag">JobTracker</span>䞊运行䞋面的呜什停止Map/Reduce<br>
697       
698<span class="codefrag">$ bin/stop-mapred.sh</span>
699<br>
700     
701</p>
702<p>
703<span class="codefrag">bin/stop-mapred.sh</span>脚本䌚参照<span class="codefrag">JobTracker</span>侊<span class="codefrag">${HADOOP_CONF_DIR}/slaves</span>文件的内容圚所有列出的slave䞊停止<span class="codefrag">TaskTracker</span>守技进皋。</p>
704</div>
705 
706</div>
707<!--+
708    |end content
709    +-->
710<div class="clearboth">&nbsp;</div>
711</div>
712<div id="footer">
713<!--+
714    |start bottomstrip
715    +-->
716<div class="lastmodified">
717<script type="text/javascript"><!--
718document.write("Last Published: " + document.lastModified);
719//  --></script>
720</div>
721<div class="copyright">
722        Copyright &copy;
723         2007 <a href="http://www.apache.org/licenses/">The Apache Software Foundation.</a>
724</div>
725<!--+
726    |end bottomstrip
727    +-->
728</div>
729</body>
730</html>
Note: See TracBrowser for help on using the repository browser.