Установка кластера Hadoop (CDH) на Debian часть 1 - подготовка.

Настраиваем hostname:
#change file vim /etc/hostname and set hostname for this server
После этого нужно применить изменения:
/etc/init.d/hostname.sh start
Настраиваем файл /etc/hosts:
192.168.0.1 hadoop-master
192.168.0.2 hadoop-slave-1
192.168.0.2 hadoop-slave-2
Отключаем ipv6:
#edit file vim /etc/sysctl.conf

net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
net.ipv6.conf.eth0.disable_ipv6 = 1
После настройки файла sysctl.conf, нужно выполнить команду sysctl -p или перезапустить систему для применения изменений.

chkconfig NetworkManager off
echo never > /sys/kernel/mm/transparent_hugepage/defrag
#add this to the /etc/rc.local
#chack it cat /sys/kernel/mm/transparent_hugepage/defrag

Создаём пользователя:
addgroup hadoop
adduser --ingroup hadoop hduser
adduser hduser sudo

 #Для CentOS нужно выполнить следующие команды:
groupadd hadoop
useradd hduser
passwd hduser
gpasswd -a hduser hadoop
Далее нужно разрешить доступ без пароля к sudo. Для этого нужно добавить пару строк в sudo visudo:
sudo visudo
#после этого добавляем строки что ниже и сохраняемся
hduser ALL=(ALL:ALL) NOPASSWD: ALL
Первый раз может потребоваться ввод пароля от sudo. Также возможно не быть установлен пакет sudo apt-get install sudo

Теперь hduser должен иметь возможность подключится по ssh к другим серверам без использования пароля:
su - hduser
ssh-keygen -t rsa -P ""
Копируем ssh ключи между нодами, подменяя имя ноды, следующей командой:
ssh-copy-id -i $HOME/.ssh/id_rsa.pub hduser@hadoop-node-*
Возможно Вам выдаст ошибку о том, что:
-su: ssh-coppy-id: command not found
Тогда нужно выполнить следующую команду:
export PATH=$PATH:/sbin

Полезные ссылки:
Install a 4 node hadoop cluster-VMWare VMs-CDH5 - Cloudera Manager-pt-1-preparation 
How to Set Up Hadoop Multi-Node Cluster on CentOS 7/6

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark - основные команды

Apache Spark Resource Management и модель приложений от YARN