Skip to main content
 首页 » 编程设计

Python Pyspark 脚本在整个数据集上失败,但在单个文件上有效

2024年11月01日3JustinYoung

我写了一个 python pyspark 脚本,它从数据中提取特定的特征。该脚本在单个 file.json 上运行良好,并返回一个包含我所有功能的数据框作为输出。我的问题是我需要一次在整个数据集(一个包含我的 json 文件的文件夹)上运行脚本。任何人都可以建议一个好方法吗?谢谢

代码示例:

spark= SparkSession.builder.appName('mySparkKPIs').master('local').getOrCreate() 
finalDF = spark.read.json('final.json') 
finalDF.createOrReplaceTempView("final") 
###### 
treatment of different dataframes##" 
F=df1.join(df2, on="num", how="inner")\ 
    .join(df3, on="num", how="inner")\ 
        .join(df4, on="num", how="inner")\ 
            .show() 

请您参考如下方法:

你可以像下面这样使用:

finalDF = spark.read.json('/path/to/json/directory/*.json')