Apache Shark(Spark SQL) VS Impala. Сравнение Apache Shark(Spark SQL) с Impala (Cloudera)


Cравнение Impala от компании Cloudera с Apache Shark(Spark SQL)

Отказоустойчивость: Shark разработан как для краткосрочных так и для долгосрочных запросов. Он может востанновить и продолжить выполнение запроса с места падения благодарая особенностям лежащих в основе платформы Spark. Impala более сфокусирована на коротких запросах в моменте и не отказоустойчива. Запросы должны быть перезапущены, если нода упала, что является приемлеммым только для краткосрочных запросов.

Обработка в оперативной памяти: Shark позволяет пользователям явно закешировать данные в оперативную память для повышение скорости выполнения запросов  и использует эффективный сжатый column-oriented формат для этого.  Impala пока не поддерживает in-memory хранилище.

Целевая аудитория: Impala больше сфокусирована на традиционных корпоративных пользователях и OLAP хранилищах. Shark поддерживает традиционный OLAP, но также развивает возможности более комплексного использования(использования Hive, обработка неструктурированных данных и применение расширенной аналитики(машинное обучение Spark ML) ). Долгострочная перспектива Shark-a, это унифицированная система, что поддерживает SQL-подход c  и расширенную аналитику(машинное обучени и т.д.)

Приемуществоми Impala является: 
  • более сильная поддержка многопользовательского использования/нагрузкок, что ,возможно, является наиболее значимым для пользователей, которые ищут инструменты для BI-анилитики. Для большинства инструментов для BI-инструментов
  • Impala поддержует SQL стандарт. Её можно подключить по ODBC драйверу к таким BI-инструментам как Tableau. 
  • Для большинства инструментов ручное написание SQL запросов является очень нежелательным если вообще невозможным тогда как Impala поддержует запросы в формате SQL-89 без каких-либо модификаций. Другие системы требуют значительного переписывания оригинальных запросов.

Рекомендованный обьем оперативной памяти для Impala является 128GB или более... :( Да, это то, что немножно настораживает, но всё равно выглядит настолько "вкусно", что буду пробывать собирать даже на менее производительно железе. Посмотрим, что с этого выйдет...


Полезные сслыки:
Benchmark
Benchmark from Cloudera
Comparative from Cloudera

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark Resource Management и модель приложений от YARN

Apache Spark - основные команды