CentOS 5.5 + Hadoop 0.20

緊接著再來一發舊的,這一篇已經是去年的記錄了,當時是因為公司想要導入Hadoop分析使用者行為,所以我才開始著手研究,就趁這個時候把他整理一下吧,現在的版本都已經不知道升到多少去了。

建立Hadoop基本環境

下載Java JDK並開始安裝,設置Java使用環境必須要1.6以上,並且重新載入。

$ ./jdk-7u21-linux-i586.rpm
find / -name java
/usr/java/jdk1.x.x-xx
$ ln -s /usr/java/jdk1.x.x-xx /usr/java/jdk
$ vim ~/.bashrc
export JAVA_HOME=/usr/java/jdk
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
export HADOOP_HOME=/opt/hadoop
$ source ~/.bashrc

建立hadoop帳號,設定SSH,切換為 hadoop 身分,或直接使用root

$ yum -y install openssh
$ su  hadoop
$ passwd  hadoop
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
Generating public/private dsa key pair.
Enter file in which to save the key (/home/ hadoop/.ssh/id_dsa):
Enter passphrase (empty for no passphrase):   > ~/.ssh/authorized_keys 
$ chmod 600 .ssh/authorized_keys
$ ssh hadoop@localhost

找一個讓Hadoop安身立命的好地方,這邊我是放在opt底下,下載後解壓縮

設置hadoop-env.sh在文件最末端加上

測試一下hadoop可否執行

測試 Local (Standalone) Mode,此模式下每個 Hadoop daemon 執行在一個分離的 Java 程序中。

更改config檔

格式化分散式檔案系統

啟動 hadoop daemons

瀏覽管理介面並開始測試

NameNode:http://localhost:50070/

JobTracker:http://localhost:50030/

複製檔案到分散式檔案系統

執行範例jar檔測試是否正常

從分散式檔案系統拷貝檔案到本機檔案系統檢驗

在分散式檔案系統上檢驗輸出檔案

停止hadoop

發生錯誤

  1. 有關於IP位址的都需要用網域取代否則會讀不到

  2. 若啟動時出現要輸入密碼,是因為沒有authorized_keys

參考教學:

http://sls.weco.net/CollectiveNote20/MR

http://forum.icst.org.tw/phpbb/viewtopic.php?f=10&t=17974

Jun 13th, 2013 11:12:00pm

Last updated

Was this helpful?