Hive - краткое описание

Hive  был создан в компании Facebook как SQL-подобная надстройка над классическим map/reduce - HiveQL. 

Особенности Hive:

  • Ускорение обработки данных за счёт использования Bitmap index -а
  • Хранилище данных позволяет значительно уменьшить время выполнения запросов(Можно использовать MySQL, Apache Derby(by default)  и т.д.)
  • Еффективные алгоритмы сжатия для хранения в екосистеме Hadoop(DEFLATE, BWT, snappy, и т.д.)
  • Умеет работать с множеством форматов. К примеру, загружать текстовые файлы, данные с HDFS, HBase и т.д.
  • Есть возможность создавать собственные пользовательские функции (UDFs) для обработки данных(агрегация, машинного обучения и т.д.)
  • SQL-подобный синтаксис на базе созданных таблиц(HiveQL). Hive автоматически конвертирует запрос в задачи map/reduce 

К сожалению HiveQL не поддерживает полный стандарт SQL-я. Также классическая парадигма map/reduce Hive-а проигривает по скорости таким решениям как Impala, Spark SQL 
Полезные ссылки:

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark - основные команды

Apache Spark Resource Management и модель приложений от YARN