V tomto tutoriálu vás provedeme krok za krokem instalací Apache Hadoop na Linux box (Ubuntu). Jedná se o dvoudílný proces
- Část 1) Stáhněte a nainstalujte Hadoop
- Část 2) Konfigurace Hadoop
Existují 2 předpoklady
- Musíte mít nainstalovaný a spuštěný Ubuntu
- Musíte mít nainstalovanou Javu.
Část 1) Stáhněte a nainstalujte Hadoop
Krok 1) Přidejte uživatele systému Hadoop pomocí níže uvedeného příkazu
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Zadejte své heslo, jméno a další podrobnosti.
POZNÁMKA: V tomto procesu instalace a instalace existuje možnost níže uvedené chyby.
„hduser není v souboru sudoers. Tato událost bude nahlášena.“
Tuto chybu lze vyřešit přihlášením jako uživatel root
Proveďte příkaz
sudo adduser hduser_ sudo
Re-login as hduser_
Krok 2) Nakonfigurujte SSH
Aby bylo možné spravovat uzly v klastru, vyžaduje Hadoop přístup SSH
Nejprve přepněte uživatele, zadejte následující příkaz
su - hduser_
Tento příkaz vytvoří nový klíč.
ssh-keygen -t rsa -P ""
Pomocí tohoto klíče povolte přístup SSH k místnímu počítači.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Nyní otestujte nastavení SSH připojením k localhost jako uživatel 'hduser'.
ssh localhost
Poznámka: Vezměte prosím na vědomí, že pokud uvidíte níže uvedenou chybu v reakci na 'ssh localhost', pak existuje možnost, že SSH není v tomto systému k dispozici -
Chcete-li to vyřešit -
Vyčistit SSH pomocí,
sudo apt-get purge openssh-server
Osvědčeným postupem je čištění před zahájením instalace
Nainstalujte SSH pomocí příkazu-
sudo apt-get install openssh-server
Krok 3) Dalším krokem je stažení Hadoop
Vyberte možnost Stabilní
Vyberte soubor tar.gz (ne soubor se src)
Po dokončení stahování přejděte do adresáře obsahujícího soubor tar
Enter,
sudo tar xzf hadoop-2.2.0.tar.gz
Nyní přejmenujte hadoop-2.2.0 na hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Část 2) Konfigurace Hadoop
Krok 1) Upravte soubor ~ / .bashrc
Přidejte následující řádky na konec souboru ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Nyní vytvořte tuto konfiguraci prostředí pomocí níže uvedeného příkazu
. ~/.bashrc
Krok 2) Konfigurace související s HDFS
Nastavit JAVA_HOME uvnitř souboru $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
S
V $ HADOOP_HOME / etc / hadoop / core-site.xml jsou dva parametry, které je třeba nastavit -
1. „hadoop.tmp.dir“ - Používá se k určení adresáře, který bude Hadoop používat k ukládání svých datových souborů.
2. „fs.default.name“ - Určuje výchozí systém souborů.
Chcete-li nastavit tyto parametry, otevřete core-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Zkopírujte pod řádek mezi značky
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Přejděte do adresáře $ HADOOP_HOME / etc / Hadoop
Nyní vytvořte adresář uvedený v souboru core-site.xml
sudo mkdir -p
Udělte oprávnění adresáři
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Krok 3) Mapa zmenší konfiguraci
Než začnete s těmito konfiguracemi, nastavíme cestu HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
A vstoupit
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Další zadání
sudo chmod +x /etc/profile.d/hadoop.sh
Ukončete terminál a restartujte znovu
Zadejte echo $ HADOOP_HOME. Chcete-li ověřit cestu
Nyní zkopírujte soubory
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Otevřete mapred-site.xml soubor
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Přidejte níže řádky nastavení mezi značky
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Otevřete $ HADOOP_HOME / etc / hadoop / hdfs-site.xml, jak je uvedeno níže,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Přidejte níže řádky nastavení mezi tagy
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Vytvořte adresář uvedený ve výše uvedeném nastavení-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Krok 4) Než spustíme Hadoop poprvé, naformátujte HDFS pomocí níže uvedeného příkazu
$HADOOP_HOME/bin/hdfs namenode -format
Krok 5) Spusťte klastr jednoho uzlu Hadoop pomocí níže uvedeného příkazu
$HADOOP_HOME/sbin/start-dfs.sh
Výstup výše uvedeného příkazu
$HADOOP_HOME/sbin/start-yarn.sh
Pomocí nástroje / příkazu „jps“ ověřte, zda jsou spuštěny všechny procesy související s Hadoop.
Pokud byl Hadoop úspěšně spuštěn, měl by výstup souboru jps zobrazit NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Krok 6) Zastavení Hadoop
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh