Spark MlLib - краткое описание

вересня 16, 2015

MLlib это библиотека для машинного обучения от Apache Spark. Ёё цель, это сделать машинное обучение маштабируемым и простым. Она содержит распространенные алгоритмы и утилиты и всего в пару строк позволяет распаралеливать на кластере алгоритмы машинного обучения (классификация, регрессия, кластеризация и т.д.)

Библиотека Spark MlLib Это по сути замещение Apache Mahaout, только намного серьезнее. Помимо эффективного параллельного машинного обучения (не только средствами RDD, но и дополнительными примитивами) SparkML еще намного качественнее работает с локальными данными, используя пакет нативной линейной алгебры Breeze, который притянет к вам в кластер Фортрановский код. Ну и очень хорошо продуманный API.

Работает с данными в любом форамате на базе Hadoop(HDFS, HBase, или локальные файлы).

С Hadoop 2 не нужно никакой предварительной установки.

Полезные ссылки:
Обучение на больших данных: Spark MLlib

Документация по библиотеке

Big Data

Spark MlLib - краткое описание

Коментарі

Дописати коментар

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Apache Spark - основные команды

Apache Spark Resource Management и модель приложений от YARN