Apache Spark - основные команды
Загрузка данных в DataSet RRD (Resilient Distributed Dataset над которым можно делать преобразования):
.parallelize([3,5,6,8,9])
.textFile(path_to_the_source)// указываем хранилище. К примеру hdfs.
Трансформация данных:
.map(function) — применяет пользовательскую функцию(function) к каждому элементу датасета
.filter(function) — возвращает только те элементы датасета, для которых пользовательская функция(function) вернула значение true
.distinct([numTasks]) — возвращает датасет, с уникальных элементо первоначального датасета
.union(otherDataset).intersection(otherDataset).cartesian(otherDataset) — новый датасет содержит в себе всевозможные пары (A,B), где первый элемент принадлежит исходному датасету, а второй — датасету-аргументу
Действия над RDD(Сохранить данные или вывести в консоль..):
.saveAsTextFile(path) — сохраняет данные в текстовый файл (в hdfs, на локальную машину или в любую другую поддерживаемую файловую систему — полный список можно посмотреть в документации)
.collect() — возвращает элементы датасета в виде массива для визуализации, или дополнительного анализа, к примеру нужно обработать данные функциями пакета Pandas
.take(n) — возвращает массив из первых n элементов датасета
.count() — количество элементов в датасете
.top(n) - просмотр первых n элементов датасета
.reduce(function) — знакомая операция для тех, кто знаком с MapReduce. Из механизма этой операции следует, что функция function (которая принимает на вход 2 аргумента возвращает одно значение) должна быть обязательно коммутативной и ассоциативной
Коментарі
Дописати коментар