Apache Shark(Spark SQL) VS Impala. Сравнение Apache Shark(Spark SQL) с Impala (Cloudera)

вересня 21, 2015

Cравнение Impala от компании Cloudera с Apache Shark(Spark SQL)

Отказоустойчивость: Shark разработан как для краткосрочных так и для долгосрочных запросов. Он может востанновить и продолжить выполнение запроса с места падения благодарая особенностям лежащих в основе платформы Spark. Impala более сфокусирована на коротких запросах в моменте и не отказоустойчива. Запросы должны быть перезапущены, если нода упала, что является приемлеммым только для краткосрочных запросов.

Обработка в оперативной памяти: Shark позволяет пользователям явно закешировать данные в оперативную память для повышение скорости выполнения запросов и использует эффективный сжатый column-oriented формат для этого. Impala пока не поддерживает in-memory хранилище.

Целевая аудитория: Impala больше сфокусирована на традиционных корпоративных пользователях и OLAP хранилищах. Shark поддерживает традиционный OLAP, но также развивает возможности более комплексного использования(использования Hive, обработка неструктурированных данных и применение расширенной аналитики(машинное обучение Spark ML) ). Долгострочная перспектива Shark-a, это унифицированная система, что поддерживает SQL-подход c и расширенную аналитику(машинное обучени и т.д.)

Приемуществоми Impala является:

более сильная поддержка многопользовательского использования/нагрузкок, что ,возможно, является наиболее значимым для пользователей, которые ищут инструменты для BI-анилитики. Для большинства инструментов для BI-инструментов
Impala поддержует SQL стандарт. Её можно подключить по ODBC драйверу к таким BI-инструментам как Tableau.
Для большинства инструментов ручное написание SQL запросов является очень нежелательным если вообще невозможным тогда как Impala поддержует запросы в формате SQL-89 без каких-либо модификаций. Другие системы требуют значительного переписывания оригинальных запросов.

Рекомендованный обьем оперативной памяти для Impala является 128GB или более... :( Да, это то, что немножно настораживает, но всё равно выглядит настолько "вкусно", что буду пробывать собирать даже на менее производительно железе. Посмотрим, что с этого выйдет...

Полезные сслыки:
Benchmark
Benchmark from Cloudera
Comparative from Cloudera

Big Data

Apache Shark(Spark SQL) VS Impala. Сравнение Apache Shark(Spark SQL) с Impala (Cloudera)

Коментарі

Дописати коментар

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark - основные команды

як встановити prometheus monitoring стек для k3s(prometheus + grafana)