Spark MlLib - краткое описание

MLlib это библиотека для машинного обучения от Apache Spark. Ёё цель, это сделать машинное обучение маштабируемым и простым. Она содержит распространенные алгоритмы и утилиты и всего в пару строк позволяет  распаралеливать на кластере алгоритмы машинного обучения (классификация, регрессия, кластеризация и т.д.)

Библиотека Spark MlLib Это по сути замещение Apache Mahaout, только намного серьезнее. Помимо эффективного параллельного машинного обучения (не только средствами RDD, но и дополнительными примитивами) SparkML еще намного качественнее работает с локальными данными, используя пакет нативной линейной алгебры Breeze, который притянет к вам в кластер Фортрановский код. Ну и очень хорошо продуманный API. 

Работает с данными в любом форамате на базе Hadoop(HDFS, HBase, или локальные файлы).

С Hadoop 2 не нужно никакой предварительной установки.

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark - основные команды

Apache Spark Resource Management и модель приложений от YARN