Hive - краткое описание
Hive был создан в компании Facebook как SQL-подобная надстройка над классическим map/reduce - HiveQL.
Особенности Hive:
Особенности Hive:
- Ускорение обработки данных за счёт использования Bitmap index -а
- Хранилище данных позволяет значительно уменьшить время выполнения запросов(Можно использовать MySQL, Apache Derby(by default) и т.д.)
- Еффективные алгоритмы сжатия для хранения в екосистеме Hadoop(DEFLATE, BWT, snappy, и т.д.)
- Умеет работать с множеством форматов. К примеру, загружать текстовые файлы, данные с HDFS, HBase и т.д.
- Есть возможность создавать собственные пользовательские функции (UDFs) для обработки данных(агрегация, машинного обучения и т.д.)
- SQL-подобный синтаксис на базе созданных таблиц(HiveQL). Hive автоматически конвертирует запрос в задачи map/reduce
К сожалению HiveQL не поддерживает полный стандарт SQL-я. Также классическая парадигма map/reduce Hive-а проигривает по скорости таким решениям как Impala, Spark SQL
Полезные ссылки:
Коментарі
Дописати коментар