Cloudera Impala - краткое описание

Cloudera Impala - SQL решения для Big Data. Рассматриваю как наиболее подходящие решения для интеграции с Tableau.

  • Поддерживает хранилища данных в HDFS, HBase, Amazon S3
  • Поддреживает разные кодеки сжатия: Snappy(как баланс между компресией и скоростью декомпресии), Gzip(наилучшее сжатие), Deflate(не поддерживает текстовые файлы), Bzip2, LZO(только для текстовых файлов)
  • Аудит предоставляет Cloudera Manager, который позволяет узнать статистику по запросам и состоянию кластера
  • Хорошо работает в многопользовательской среде с высокой конкуренцией запросов, кеширует часто запрашиваемые данные в памяти, умеет приоретиризировать и управлять очередью запросов.
  • Разрешает внешние джойны и агрегацию с использованием диска;
  • Разрешает подзапросы в WHERE выражении
  • Разрешает инкрементить статистику - запускает статистику только на новых или изменённых данных для ещё быстрого подсчёта статистики
  • Включает несколько OLAP функций(ROLLUP, CUBE, GROUPING SET)
  • Позволяет использователь Impala для вставок и обновлений в HBase
Рекомендуют использовать 128GB оперативной памяти или более, что является относительно большим требованием. Хотя её приемущество в SQL-аналитике для Big Data делает это незаметным на фоне остальных возможностей. Также очень интересует возможность использовать с такими BI-инструментами, как Tableau. 

Полезные ссылки:
Best SQL-on-hadoop tool

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark - основные команды

Apache Spark Resource Management и модель приложений от YARN