Да, можно. Фреймворк Apache Spark предоставляет программные интерфейсы для языков Java, Scala, Python и R. Интерфейс для Пайтона называется PySpark. DataFrame – это основная абстракция Spark, работа с ней в Пайтоне может выглядеть например так (пример из
официальной документации):
# To create DataFrame using SparkSession
people = spark.read.parquet("...")
department = spark.read.parquet("...")
people.filter(people.age > 30).join(department, people.deptId == department¸id) \
.groupBy(department¸name, "gender").agg({"salary": "avg", "age": "max"})
Стоит отметить, что работая с DataFrame вы выполняете запросы, а не обрабатываете данные императивно в коде. Если нужную вам цель не удаётся достичь с помощью запросов, скорее всего это говорит о том, что вы что-то делаете не так. Остаётся вариант перебирать строки по одной вручную, но лучше пересмотреть подход к решению задачи и оставаться в рамках декларативной парадигмы.