Можно ли работать со Spark dataframes в питоне? Как написать функцию, которая будет обрабатывать все строки Spark dataframe?

ПрограммированиеData science+3

Анонимный вопросData Science

14 сентября 2021 · 1,4 K

старший разработчик в pseven.io · 15 сент 2021

Да, можно. Фреймворк Apache Spark предоставляет программные интерфейсы для языков Java, Scala, Python и R. Интерфейс для Пайтона называется PySpark. DataFrame – это основная абстракция Spark, работа с ней в Пайтоне может выглядеть например так (пример из официальной документации):

# To create DataFrame using SparkSession
people = spark.read.parquet("...")
department = spark.read.parquet("...")

people.filter(people.age > 30).join(department, people.deptId == department¸id) \
  .groupBy(department¸name, "gender").agg({"salary": "avg", "age": "max"})

Стоит отметить, что работая с DataFrame вы выполняете запросы, а не обрабатываете данные императивно в коде. Если нужную вам цель не удаётся достичь с помощью запросов, скорее всего это говорит о том, что вы что-то делаете не так. Остаётся вариант перебирать строки по одной вручную, но лучше пересмотреть подход к решению задачи и оставаться в рамках декларативной парадигмы.

Что-то осталось непонятно? Спроси в нашей группе в Телеграме!

Перейти на t.me/jstsmentor

Первый

миколка рокитний

привет · 24 апр 2023

Да, можно. Фреймворк Apache Spark предоставляет программные интерфейсы для языков Java, Scala, Python и R. Интерфейс для Пайтона называется PySpark. DataFrame – это основная абстракция Spark, работа с ней в Пайтоне может выглядеть например так (пример из официальной документации): # To create DataFrame using SparkSession people = spark.read.parquet("...") department = sp... Читать далее

Евгений Миронов

25 апреля 2023

Почему решили копировать предыдущий ответ?

Теперь Кью работает в режиме чтения

Можно ли работать со Spark dataframes в питоне? Как написать функцию, которая будет обрабатывать все строки Spark dataframe?