Spark MlLib - краткое описание
MLlib это библиотека для машинного обучения от Apache Spark. Ёё цель, это сделать машинное обучение маштабируемым и простым. Она содержит распространенные алгоритмы и утилиты и всего в пару строк позволяет распаралеливать на кластере алгоритмы машинного обучения (классификация, регрессия, кластеризация и т.д.)
Библиотека Spark MlLib Это по сути замещение Apache Mahaout, только намного серьезнее. Помимо эффективного параллельного машинного обучения (не только средствами RDD, но и дополнительными примитивами) SparkML еще намного качественнее работает с локальными данными, используя пакет нативной линейной алгебры Breeze, который притянет к вам в кластер Фортрановский код. Ну и очень хорошо продуманный API.
С Hadoop 2 не нужно никакой предварительной установки.
Коментарі
Дописати коментар