Jak nainstalovat Hadoop s konfigurací krok za krokem na Ubuntu

Obsah:

Anonim

V tomto tutoriálu vás provedeme krok za krokem instalací Apache Hadoop na Linux box (Ubuntu). Jedná se o dvoudílný proces

  • Část 1) Stáhněte a nainstalujte Hadoop
  • Část 2) Konfigurace Hadoop

Existují 2 předpoklady

  • Musíte mít nainstalovaný a spuštěný Ubuntu
  • Musíte mít nainstalovanou Javu.

Část 1) Stáhněte a nainstalujte Hadoop

Krok 1) Přidejte uživatele systému Hadoop pomocí níže uvedeného příkazu

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Zadejte své heslo, jméno a další podrobnosti.

POZNÁMKA: V tomto procesu instalace a instalace existuje možnost níže uvedené chyby.

„hduser není v souboru sudoers. Tato událost bude nahlášena.“

Tuto chybu lze vyřešit přihlášením jako uživatel root

Proveďte příkaz

sudo adduser hduser_ sudo

Re-login as hduser_

Krok 2) Nakonfigurujte SSH

Aby bylo možné spravovat uzly v klastru, vyžaduje Hadoop přístup SSH

Nejprve přepněte uživatele, zadejte následující příkaz

su - hduser_

Tento příkaz vytvoří nový klíč.

ssh-keygen -t rsa -P ""

Pomocí tohoto klíče povolte přístup SSH k místnímu počítači.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Nyní otestujte nastavení SSH připojením k localhost jako uživatel 'hduser'.

ssh localhost

Poznámka: Vezměte prosím na vědomí, že pokud uvidíte níže uvedenou chybu v reakci na 'ssh localhost', pak existuje možnost, že SSH není v tomto systému k dispozici -

Chcete-li to vyřešit -

Vyčistit SSH pomocí,

sudo apt-get purge openssh-server

Osvědčeným postupem je čištění před zahájením instalace

Nainstalujte SSH pomocí příkazu-

sudo apt-get install openssh-server

Krok 3) Dalším krokem je stažení Hadoop

Vyberte možnost Stabilní

Vyberte soubor tar.gz (ne soubor se src)

Po dokončení stahování přejděte do adresáře obsahujícího soubor tar

Enter,

sudo tar xzf hadoop-2.2.0.tar.gz

Nyní přejmenujte hadoop-2.2.0 na hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Část 2) Konfigurace Hadoop

Krok 1) Upravte soubor ~ / .bashrc

Přidejte následující řádky na konec souboru ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Nyní vytvořte tuto konfiguraci prostředí pomocí níže uvedeného příkazu

. ~/.bashrc

Krok 2) Konfigurace související s HDFS

Nastavit JAVA_HOME uvnitř souboru $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

S

V $ HADOOP_HOME / etc / hadoop / core-site.xml jsou dva parametry, které je třeba nastavit -

1. „hadoop.tmp.dir“ - Používá se k určení adresáře, který bude Hadoop používat k ukládání svých datových souborů.

2. „fs.default.name“ - Určuje výchozí systém souborů.

Chcete-li nastavit tyto parametry, otevřete core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Zkopírujte pod řádek mezi značky

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Přejděte do adresáře $ HADOOP_HOME / etc / Hadoop

Nyní vytvořte adresář uvedený v souboru core-site.xml

sudo mkdir -p 

Udělte oprávnění adresáři

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Krok 3) Mapa zmenší konfiguraci

Než začnete s těmito konfiguracemi, nastavíme cestu HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

A vstoupit

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Další zadání

sudo chmod +x /etc/profile.d/hadoop.sh

Ukončete terminál a restartujte znovu

Zadejte echo $ HADOOP_HOME. Chcete-li ověřit cestu

Nyní zkopírujte soubory

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Otevřete mapred-site.xml soubor

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Přidejte níže řádky nastavení mezi značky a

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Otevřete $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, jak je uvedeno níže,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Přidejte níže řádky nastavení mezi tagy a

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Vytvořte adresář uvedený ve výše uvedeném nastavení-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Krok 4) Než spustíme Hadoop poprvé, naformátujte HDFS pomocí níže uvedeného příkazu

$HADOOP_HOME/bin/hdfs namenode -format

Krok 5) Spusťte klastr jednoho uzlu Hadoop pomocí níže uvedeného příkazu

$HADOOP_HOME/sbin/start-dfs.sh

Výstup výše uvedeného příkazu

$HADOOP_HOME/sbin/start-yarn.sh

Pomocí nástroje / příkazu „jps“ ověřte, zda jsou spuštěny všechny procesy související s Hadoop.

Pokud byl Hadoop úspěšně spuštěn, měl by výstup souboru jps zobrazit NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Krok 6) Zastavení Hadoop

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh