Hive - краткое описание

вересня 29, 2015

Hive был создан в компании Facebook как SQL-подобная надстройка над классическим map/reduce - HiveQL.

Особенности Hive:

Ускорение обработки данных за счёт использования Bitmap index -а
Хранилище данных позволяет значительно уменьшить время выполнения запросов(Можно использовать MySQL, Apache Derby(by default) и т.д.)
Еффективные алгоритмы сжатия для хранения в екосистеме Hadoop(DEFLATE, BWT, snappy, и т.д.)
Умеет работать с множеством форматов. К примеру, загружать текстовые файлы, данные с HDFS, HBase и т.д.
Есть возможность создавать собственные пользовательские функции (UDFs) для обработки данных(агрегация, машинного обучения и т.д.)
SQL-подобный синтаксис на базе созданных таблиц(HiveQL). Hive автоматически конвертирует запрос в задачи map/reduce

К сожалению HiveQL не поддерживает полный стандарт SQL-я. Также классическая парадигма map/reduce Hive-а проигривает по скорости таким решениям как Impala, Spark SQL

Полезные ссылки:

документация

Big Data

Hive - краткое описание

Коментарі

Дописати коментар

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Исправляем ошибку HDFS Under-Replicated Blocks

Apache Spark Resource Management и модель приложений от YARN