HBase - краткое описание

На базе Hadoop очень популярны решение для аналитики на базе SQL (Impala, Spark SQL, Hive и т.д.), но они лучше работают с большими сегментами данных(К примеру размер блоков 64mb ). Произвольное чтение и запись отдельных строк для них является проблемой.

Альтернативой выступает HBase, который умеет эффективно обрабатывать случайные чтение и запись.

Это нереляционная распределённая СУБД которая поддерживает версионирование!
Это значит что таблицы в HBase трёхмерные и  мы можем хранить разные версии данных. Это позволяет,к примеру, запросить вчерашнюю версию данных.

Самым привлекательным является то, что HBase позволяет читать  данные в реальном времени. Скорость достигается за счёт буферизирования в памяти данных перед сбрасыванием в HDFS.

Требования к железу:
-больше оперативной памяти
-быстрый  I/O
-Меньше нагрузки на CPU
-Используйте block cache чтобы избежать лишних операций I/O на диске


Полезные сслыки:
HBase wiki

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Линейная регрессия простыми словами

Исправляем ошибку HDFS Under-Replicated Blocks