Apache Spark

9 сентября 2014, 18:14

Минск, 30 августа 2014

Егор Пахомов

Программирует на Java и Scala. В течение полутора лет участвовал в разработке поиска на базе Apache Solr для крупного американского e-commerce. Последний год разрабатывал платформу Острова на стеке Scala и Hadoop. В рамках Tolstoy Summer Camp разработал сервис по рекомендации подарков на основе страницы человека в социальной сети.

О докладе

Мы поговорим об Apache Spark — более быстром, универсальном и user friendly аналоге Hadoop как инструменте для batch-обработки больших данных. Рассмотрим архитектуру Spark и его главного строительного блока — RDD. Сравним код в MapReduce и RDD моделях. Обсудим развитие других Apache top-level проектов и плавный отход индустрии от MapReduce модели к Spark.

скачать презентацию, видео