Apache Spark - основные команды


Загрузка данных в DataSet RRD (Resilient Distributed Dataset над которым можно делать преобразования):

.parallelize([3,5,6,8,9])
.textFile(path_to_the_source)// указываем хранилище. К примеру hdfs.
 

Трансформация данных:

.map(function) — применяет пользовательскую функцию(function) к каждому элементу датасета

.filter(function) — возвращает только те элементы датасета, для которых пользовательская функция(function) вернула значение true

.distinct([numTasks]) — возвращает датасет,  с уникальных элементо первоначального датасета

.union(otherDataset).intersection(otherDataset).cartesian(otherDataset) — новый датасет содержит в себе всевозможные пары (A,B), где первый элемент принадлежит исходному датасету, а второй — датасету-аргументу
 

Действия над RDD(Сохранить данные или вывести в консоль..):

.saveAsTextFile(path) — сохраняет данные в текстовый файл (в hdfs, на локальную машину или в любую другую поддерживаемую файловую систему — полный список можно посмотреть в документации)

.collect() — возвращает элементы датасета в виде массива для визуализации, или дополнительного анализа, к примеру нужно обработать данные функциями пакета Pandas

.take(n) — возвращает массив из первых n элементов датасета

.count() —  количество элементов в датасете

.top(n) - просмотр первых n элементов датасета

.reduce(function) — знакомая операция для тех, кто знаком с MapReduce. Из механизма этой операции следует, что функция function (которая принимает на вход 2 аргумента возвращает одно значение) должна быть обязательно коммутативной и ассоциативной

Коментарі

Популярні дописи з цього блогу

Минимальные требование для кластера Hadoop(with Spark)

Линейная регрессия простыми словами