HBase - краткое описание

вересня 29, 2015

На базе Hadoop очень популярны решение для аналитики на базе SQL (Impala, Spark SQL, Hive и т.д.), но они лучше работают с большими сегментами данных(К примеру размер блоков 64mb ). Произвольное чтение и запись отдельных строк для них является проблемой.

Альтернативой выступает HBase, который умеет эффективно обрабатывать случайные чтение и запись.

Это нереляционная распределённая СУБД которая поддерживает версионирование!
Это значит что таблицы в HBase трёхмерные и мы можем хранить разные версии данных. Это позволяет,к примеру, запросить вчерашнюю версию данных.

Самым привлекательным является то, что HBase позволяет читать данные в реальном времени. Скорость достигается за счёт буферизирования в памяти данных перед сбрасыванием в HDFS.

Требования к железу:
-больше оперативной памяти
-быстрый I/O
-Меньше нагрузки на CPU
-Используйте block cache чтобы избежать лишних операций I/O на диске

Полезные сслыки:
HBase wiki

Big Data

HBase - краткое описание

Коментарі

Дописати коментар

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Исправляем ошибку HDFS Under-Replicated Blocks

Apache Spark Resource Management и модель приложений от YARN