Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Можно ли работать со Spark dataframes в питоне? Как написать функцию, которая будет обрабатывать все строки Spark dataframe?

ПрограммированиеData science+3
Анонимный вопрос
Data Science
  · 1,4 K
старший разработчик в pseven.io  · 15 сент 2021
Да, можно. Фреймворк Apache Spark предоставляет программные интерфейсы для языков Java, Scala, Python и R. Интерфейс для Пайтона называется PySpark. DataFrame – это основная абстракция Spark, работа с ней в Пайтоне может выглядеть например так (пример из официальной документации):
# To create DataFrame using SparkSession
people = spark.read.parquet("...")
department = spark.read.parquet("...")

people.filter(people.age > 30).join(department, people.deptId == department¸id) \
  .groupBy(department¸name, "gender").agg({"salary": "avg", "age": "max"})
Стоит отметить, что работая с DataFrame вы выполняете запросы, а не обрабатываете данные императивно в коде. Если нужную вам цель не удаётся достичь с помощью запросов, скорее всего это говорит о том, что вы что-то делаете не так. Остаётся вариант перебирать строки по одной вручную, но лучше пересмотреть подход к решению задачи и оставаться в рамках декларативной парадигмы.
Что-то осталось непонятно? Спроси в нашей группе в Телеграме!Перейти на t.me/jstsmentor
Первый
Да, можно. Фреймворк Apache Spark предоставляет программные интерфейсы для языков Java, Scala, Python и R. Интерфейс для Пайтона называется PySpark. DataFrame – это основная абстракция Spark, работа с ней в Пайтоне может выглядеть например так (пример из официальной документации): # To create DataFrame using SparkSession people = spark.read.parquet("...") department = sp... Читать далее
Почему решили копировать предыдущий ответ?