Come installare Hadoop su Linux

hadoop

 

Ecco una piccola guida che riassume i passi più importanti per installare Hadoop (single node) in ambiente pseudo-distribuito, su una macchina linux.

  • Per prima cosa scegliete e scaricate una delle versioni di Hadoop dal sito (http://hadoop.apache.org/releases.html#Download)
  • Installate Java sulla vostra macchina
  • Create una nuova variabile locale chiamata JAVA_HOME nella variabile PATH
  • Installate ssh e create una nuova chiave, successivamente abilitate una connessione senza password verso il localhost 
    • ssh-keygen
    • ssh-copy-id -i .ssh/id_rsa.pub localhost
  • Scompattate la versione di hadoop scaricata all’inizio (create un link. Es: ln -s hadoop-X.X.X hadoop).
  • Aggiungete al vostro PATH la variabile HADOOP_HOME con il path del link creato al passo precedente.
  • Decommentate e modificate la voce export JAVA_HOME in conf/hadoop-env.sh
  • Create una cartella per i file temporanei chiamata tmp.  Aggiungete questa proprietà al file conf/core-site.xml con il path giusto della cartella tmp (questa cartella deve contenere altre due cartelle: dfs/name/)
  • <property>
    <name>hadoop.tmp.dir</name>
      <value>......./tmp</value>
      <description>A base for other temporary directories. 
        Ex.: /opt/hadoop/tmp with subfolders dfs/name/</description>
    </property>
    
    <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:54310</value>
      <description>The name of the default file system.  A URI whose
      scheme and authority determine the FileSystem implementation.  The
      uri's scheme determines the config property (fs.SCHEME.impl) naming
      the FileSystem implementation class.  The uri's authority is used to
      determine the host, port, etc. for a filesystem.</description>
    </property>
  • Aggiungere questa proprietà al file conf/hdsf-site.xml.
  • <property>
      <name>dfs.replication</name>
      <value>1</value>
      <description>Default block replication.
      The actual number of replications can be specified when the file is created.
      The default is used if replication is not specified in create time.
      </description>
    </property>
  • Aggiungere questa proprietà al file conf/mapred-site.xml.
  • <property>
      <name>mapred.job.tracker</name>
      <value>localhost:54311</value>
      <description>The host and port that the MapReduce job tracker runs
      at.  If "local", then jobs are run in-process as a single map
      and reduce task.
      </description>
    </property>
  • Formattiamo hdfs con il comando hadoop namenode -format (assicuratevi di aver impostato correttamente il PATH per hadoop, altrimenti dovrete specificare il percorso per intero).
  • Ora siamo pronti per far partire hdfs e mapreduce (start-dfs.sh e start-mapred-sh).
The following two tabs change content below.
Hello! I am Davide, nice to meet you! Lover of everything related to technology, science, music. I live between Rome, where i study, and Pescara, the place where I grew up. Cheeseburger eater.

Ultimi post di Dvidì (vedi tutti)