Name		Name	Last commit message	Last commit date
parent directory ..
HDP-2.6.5		HDP-2.6.5
HDP-3.0.1		HDP-3.0.1
flume-sqoop		flume-sqoop
yarn		yarn
README.md		README.md
hdfs.md		hdfs.md
nutch-crawling.md		nutch-crawling.md

README.md

Hortonworks

Despliegue Hortonworks Docker.

Requisitos mínimos: 10GB RAM
Para ejecutar Hortonworks en Docker debemos descargar la imagen de la web Cloudera.

Deploy

$ cd HDP-<version>
$ ssh docker-deploy-{HDPversion}.sh

El script de despliegue no se logra completar debido a que ejecuta el docker con privilegios (--privileged). En este punto cierra todas las ventanas y me expulsa de la sesión. Así pues, hay que seguir el script directamente en consola (o dividirlo en dos partes)...

$ docker exec -t sandbox-hdp sh -c "rm -rf /var/run/postgresql/*; systemctl restart postgresql;"

Y nos movemos al directorio del script para seguir ejecutando en consola. En este punto se produce el despliegue del docker sandbox-proxy, el cual gestiona todas las conexiones

$ cd /to/path/docker-deploy
$ sed 's/sandbox-hdp-security/sandbox-hdp/g' assets/generate-proxy-deploy-script.sh > assets/generate-proxy-deploy-script.sh.new
$ mv -f assets/generate-proxy-deploy-script.sh.new assets/generate-proxy-deploy-script.sh
$ chmod +x assets/generate-proxy-deploy-script.sh
$ assets/generate-proxy-deploy-script.sh 2>/dev/null

Hay un apartado que se puede obviar en sistemas linux ya que comprueba si es Windows (cuidado con el if)

if uname | grep MINGW; then
 sed -i -e 's/\( \/[a-z]\)/\U\1:/g' sandbox/proxy/proxy-deploy.sh
fi

$ chmod +x sandbox/proxy/proxy-deploy.sh 2>/dev/null
$ sandbox/proxy/proxy-deploy.sh

Finalmente conectamos por navegador a Ambari

http://localhost:8080/

raj_ops /// raj_ops

La mayoría de los archivos de configuración se encuentran en /etc/hadoop/conf

core-site.xml     Configuración principal de hadoop.
hdfs-site.xml     Configuración HDFS (Namenode, Datanodes, etc).
mapred-site.xml   Almacena configuración para ejecutar los procesos Map&Reduce.
yarn-site.xml     Configuración de Yarn.
capacity-scheduler.xml  Cononfiguración de colas y capacidades.

El directorio de los principales logs es:

/var/log/hadoop/hdfs       Namenode y Datanode
/var/log/hadoop-yarn/yarn  ResourceManager y NodeManager
/var/log/hive

Usage

$ hdp-select # Versión Hortonworks

Comandos Docker

docker ps -a

docker start sandbox-hdp
docker start sandbox-proxy

docker stop sandbox-hdp
docker stop sandbox-proxy

docker rm sandbox-hdp
docker rm sandbox-proxy
docker rmi hortonworks/sandbox-hdp:{release}

Servicios
- Hortonworks localhost:8888
- Ambari localhost:8080 con credenciales raj_ops // raj_ops
- HDFS localhost:50070
- Ranger localhost:6080 con credenciales admin // admin
- Zeppelin localhost:9995/#/
- Jobs localhost:8088

Los servicios se levantan automáticamente. Especial atención con los siguientes puntos:

Levantar HDFS: Service Actions/Restart All
Si el Secondary Namenode no se arranca, habrá que hacerlo directamente: Hosts/sandbox.hortonworks.com/SNameNode/Start
Volvemos al Dashboard (dentro de HDFS) y apagamos modo mantenimiento (Turn of maintenance mode). Debería quedar HDFS en verde.
Reiniciamos hbase (si no arranca por defecto): Service Actions/Restart All
Apagamos modo mantenimiento para hbase.
Tarda un poco pero el Hbase master y los Region Servers deben quedar en verde.
Se puede acceder por consola a la sandbox (puerto 2222). La primera vez nos pedirá cambio de contraseña.

$ ssh root@<IP> -p 2222
$ ssh root@localhost -p 2222

root /// hadoop

Habrá que instalar ant para compilar nutch posteriormente $ yum install ant
Sigue instalar Apache Nutch... Ver nutch-crawling.md.

References

Hortonworks Docker

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

hortonworks

hortonworks

README.md

Hortonworks

Deploy

Usage

References

Files

hortonworks

Directory actions

More options

Directory actions

More options

Latest commit

History

hortonworks

Folders and files

parent directory

README.md

Hortonworks

Deploy

Usage

References