Despliegue Hortonworks Docker.
- Requisitos mínimos: 10GB RAM
- Para ejecutar Hortonworks en Docker debemos descargar la imagen de la web Cloudera.
$ cd HDP-<version>
$ ssh docker-deploy-{HDPversion}.sh
El script de despliegue no se logra completar debido a que ejecuta el docker con privilegios (--privileged
). En este punto cierra todas las ventanas y me expulsa de la sesión. Así pues, hay que seguir el script directamente en consola (o dividirlo en dos partes)...
$ docker exec -t sandbox-hdp sh -c "rm -rf /var/run/postgresql/*; systemctl restart postgresql;"
Y nos movemos al directorio del script para seguir ejecutando en consola. En este punto se produce el despliegue del docker sandbox-proxy, el cual gestiona todas las conexiones
$ cd /to/path/docker-deploy
$ sed 's/sandbox-hdp-security/sandbox-hdp/g' assets/generate-proxy-deploy-script.sh > assets/generate-proxy-deploy-script.sh.new
$ mv -f assets/generate-proxy-deploy-script.sh.new assets/generate-proxy-deploy-script.sh
$ chmod +x assets/generate-proxy-deploy-script.sh
$ assets/generate-proxy-deploy-script.sh 2>/dev/null
Hay un apartado que se puede obviar en sistemas linux ya que comprueba si es Windows (cuidado con el if)
if uname | grep MINGW; then
sed -i -e 's/\( \/[a-z]\)/\U\1:/g' sandbox/proxy/proxy-deploy.sh
fi
$ chmod +x sandbox/proxy/proxy-deploy.sh 2>/dev/null
$ sandbox/proxy/proxy-deploy.sh
Finalmente conectamos por navegador a Ambari
http://localhost:8080/
raj_ops /// raj_ops
La mayoría de los archivos de configuración se encuentran en /etc/hadoop/conf
core-site.xml Configuración principal de hadoop.
hdfs-site.xml Configuración HDFS (Namenode, Datanodes, etc).
mapred-site.xml Almacena configuración para ejecutar los procesos Map&Reduce.
yarn-site.xml Configuración de Yarn.
capacity-scheduler.xml Cononfiguración de colas y capacidades.
El directorio de los principales logs es:
/var/log/hadoop/hdfs Namenode y Datanode
/var/log/hadoop-yarn/yarn ResourceManager y NodeManager
/var/log/hive
$ hdp-select # Versión Hortonworks
- Comandos Docker
docker ps -a
docker start sandbox-hdp
docker start sandbox-proxy
docker stop sandbox-hdp
docker stop sandbox-proxy
docker rm sandbox-hdp
docker rm sandbox-proxy
docker rmi hortonworks/sandbox-hdp:{release}
-
Servicios
- Hortonworks
localhost:8888
- Ambari
localhost:8080
con credencialesraj_ops // raj_ops
- HDFS
localhost:50070
- Ranger
localhost:6080
con credencialesadmin // admin
- Zeppelin
localhost:9995/#/
- Jobs
localhost:8088
- Hortonworks
Los servicios se levantan automáticamente. Especial atención con los siguientes puntos:
-
Levantar HDFS: Service Actions/Restart All
-
Si el Secondary Namenode no se arranca, habrá que hacerlo directamente: Hosts/sandbox.hortonworks.com/SNameNode/Start
-
Volvemos al Dashboard (dentro de HDFS) y apagamos modo mantenimiento (Turn of maintenance mode). Debería quedar HDFS en verde.
-
Reiniciamos hbase (si no arranca por defecto): Service Actions/Restart All
-
Apagamos modo mantenimiento para hbase.
-
Tarda un poco pero el Hbase master y los Region Servers deben quedar en verde.
-
Se puede acceder por consola a la sandbox (puerto 2222). La primera vez nos pedirá cambio de contraseña.
$ ssh root@<IP> -p 2222
$ ssh root@localhost -p 2222
root /// hadoop
-
Habrá que instalar ant para compilar nutch posteriormente
$ yum install ant
-
Sigue instalar Apache Nutch... Ver nutch-crawling.md.