我写了一个 python pyspark 脚本,它从数据中提取特定的特征。该脚本在单个 file.json 上运行良好,并返回一个包含我所有功能的数据框作为输出。我的问题是我需要一次在整个数据集(一个包含我的 json 文件的文件夹)上运行脚本。任何人都可以建议一个好方法吗?谢谢
代码示例:
spark= SparkSession.builder.appName('mySparkKPIs').master('local').getOrCreate()
finalDF = spark.read.json('final.json')
finalDF.createOrReplaceTempView("final")
######
treatment of different dataframes##"
F=df1.join(df2, on="num", how="inner")\
.join(df3, on="num", how="inner")\
.join(df4, on="num", how="inner")\
.show()
请您参考如下方法:
你可以像下面这样使用:
finalDF = spark.read.json('/path/to/json/directory/*.json')