Результат работы над задачей хакатона по анализу данных от компании BAUM Storage
Со 2 по 8 октбяря проходил хакатон CodeChamps от компании BAUM Storage, в котором я приянл участие в составе команды papandas. К сожалению уже на старте все мои напарники отказались участвовать ввиду высокой занятости, так что я выполнял задание единолично.
Итогом работы стала победа в данной задаче хакатона. Его решение прикрепляю в данном репозитории.
Задание: Разработать алгоритмы фильтрации и сортировки датафрейма объемом 100 миллионов строк с использованием фреймворка Spark, оптимальным образом настроит спарк-сессию