Установка кластера Hadoop (CDH) на Debian часть 2 - установка.

После успешной подготовки нод к установке нужно скачать и запустить  на мастер ноде файл установки cloudera Manager Server installer:
wget http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin

chmod u+x cloudera-manager-installer.bin
sudo ./cloudera-manager-installer.bin
После этого нужно пройти шаги подтверждения лицензий и т.д.
После завершения установки открываем url в браузере по порту 7180. Например  198.0.0.1:7180

После открытия страницы нужно залогиниться с логином admin  и паролем admin.
Вам предложат указать hostname ваших серверов через запятую:

Далее Вы приступите к установке компонентов(JDK и т.д.)
В большинстве случаев нужно оставлять всё по умолчанию.
На шаге "Provide SSH login credentials" нужно выбрать "Another user"  и указать там "hduser" а также указать пароль для этого пользователя.

Возможно возникновение ошибки "Ensure that port 7182 is accessible on the Cloudera Manager Server (check firewall rules)."
И "Check agent logs in /var/log/cloudera-scm-agent/ on the host being added (some of the logs can be found in the installation details)."
Для этого нужно отключить iptables "sudo iptables -F".
Также подробнее об ошибке можно узнать с логов установки "cat /var/log/cloudera-scm-agent/cloudera-scm-agent.log"
К примеру вы можете узнать, что нужно установить python 2.7:
sudo apt-get install python

После того, как все проблемы решены вы должны увидеть сообщение "Installation completed successfully. " напротив всех нод кластера. Далее будет происходить установка всех компонентов кластера hadoop.

Далее Вас попросят сделать выбор сборки. Я выбирал "Core with Spark".


Не забуть после установки проверить ulimit -Hn и ulimit -Sn

vim /etc/security/limits.conf
*               soft     nproc          65535
*               hard     nproc          65535
*               -    nofile          655355
*               soft    nofile          655355
*               hard    nofile          655355

vim /etc/security/limits.d/20-nproc.conf
*          soft     nproc          65535
*          hard     nproc          65535
*          soft     nofile         65535
*          hard     nofile         65535

root       soft    nproc     unlimited


vim /etc/sysctl.conf
fs.file-max = 6553555
sysctl -p

Установить ntp:
yum install ntp vim
timedatectl set-timezone Europe/Moscow
vim /etc/sysconfig/ntpd add SYNC_HWCLOCK=yes
/bin/systemctl start  ntpd.service
systemctl enable ntpd.service

Полезные ссылки:
Install 4 node hadoop cluster-VMWare-CDH5 -Cloudera Manager-part-2
How to Set Up Hadoop Multi-Node Cluster on CentOS 7/6

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Линейная регрессия простыми словами

Исправляем ошибку HDFS Under-Replicated Blocks