Apache Oozie - краткое описание
Oozie - это система для планирования выполнения повторяющихся задач в экосистеме Hadoop. В этой системе можно сконфигурировать цыкл задач написаных на Java, Apache Hive, Apache Pig и Apache Sqoop, Apache Spark, UNIX Shell и т.д. Oozie задачи могут быть быть сконфигурированы для регулярного выполнения или для выполнения при возникновении некоторого события.
Задачи, которые должны быть запущены периодично - это задачи типа Oozie coordinator.
Задачи, которые должны быть запущены последовательно - это задачи типа Oozie Workflow.
Задачи, которые вмещают в себе и задачи типа Oozie coordinator и типа Oozie Workflow, называются задачами типа Oozie Bundle и предоставляют возможность мониторить и координировать жизненный цикл всех типов задач в виде одного целого.
Oozie coordinator планирует задачу на основе время начала и частоты выполнения задачи и также когда все необходимые входящие данные доступны. Если же входящие данные не доступны, то запуск таски откладывается.
Задачи, которые должны быть запущены периодично - это задачи типа Oozie coordinator.
Задачи, которые должны быть запущены последовательно - это задачи типа Oozie Workflow.
Задачи, которые вмещают в себе и задачи типа Oozie coordinator и типа Oozie Workflow, называются задачами типа Oozie Bundle и предоставляют возможность мониторить и координировать жизненный цикл всех типов задач в виде одного целого.
Oozie Coordinators
Oozie coordinator планирует задачу на основе время начала и частоты выполнения задачи и также когда все необходимые входящие данные доступны. Если же входящие данные не доступны, то запуск таски откладывается.
Oozie Workflows
Oozie workflow реализует задачи в виде ориентированных ациклических графов, задающих последовательность выполняемых действий. Посредством описания правил начала и окончания потока задач, правил последовательности выполнения задач.
Oozie bundle это коллекция с задач типа coordinator и workflow. Задачи в budle зависят друг от друга. Обычно, исходящие данные, созданные одним задачой являются входящими данными для другой задачи.
JAR файлы, необходимые для выполнения Hadoop задач должны быть определены в classpath. Одним из вариантов может быть размещение JAR файлов в поддиректории "lib/". Все файлы в этой директории будут автоматически включены в classpath. Альтернативой является использование конфигурационного параметра "oozie.libpath".
Полезные ссылки
Oozie Bundles
JAR файлы, необходимые для выполнения Hadoop задач должны быть определены в classpath. Одним из вариантов может быть размещение JAR файлов в поддиректории "lib/". Все файлы в этой директории будут автоматически включены в classpath. Альтернативой является использование конфигурационного параметра "oozie.libpath".
- http://oozie.apache.org/
- https://www.ibm.com/developerworks/ru/library/bd-ooziehadoop/
- http://hortonworks.com/apache/oozie/#section_1
Коментарі
Дописати коментар