Skip to main content
 首页 » 编程设计

python之如何通过一个数组列展平 pySpark 数据框

2024年10月24日2duanxz

<分区>

我有一个像这样的 spark 数据框:

+------+--------+--------------+--------------------+ 
|   dbn|    boro|total_students|                sBus| 
+------+--------+--------------+--------------------+ 
|17K548|Brooklyn|           399|[B41, B43, B44-SB...| 
|09X543|   Bronx|           378|[Bx13, Bx15, Bx17...| 
|09X327|   Bronx|           543|[Bx1, Bx11, Bx13,...| 
+------+--------+--------------+--------------------+ 

我如何扁平化它以便为 sBus 中的每个元素复制每一行,并且 sBus 将成为一个普通的字符串列?

所以结果是这样的:

+------+--------+--------------+--------------------+ 
|   dbn|    boro|total_students|                sBus| 
+------+--------+--------------+--------------------+ 
|17K548|Brooklyn|           399| B41                | 
|17K548|Brooklyn|           399| B43                | 
|17K548|Brooklyn|           399| B44-SB             | 
+------+--------+--------------+--------------------+ 

等等……