在Python中,使用pandas庫可以輕松地重新索引數據
首先,導入pandas庫并創建一個示例數據集:
import pandas as pd
data = {'A': [1, 2, 3, 4, 5],
'B': [10, 20, 30, 40, 50],
'C': [100, 200, 300, 400, 500]}
df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)
原始數據集如下:
A B C
0 1 10 100
1 2 20 200
2 3 30 300
3 4 40 400
4 5 50 500
現在,我們將創建一個新索引。例如,我們可以使用range()
函數創建一個從1到5的新索引:
new_index = range(1, 6)
要使用新索引重新索引數據集,請使用reindex()
方法:
reindexed_df = df.reindex(new_index)
print("\nReindexed DataFrame:")
print(reindexed_df)
重新索引后的數據集如下:
A B C
1 2 20 200
2 3 30 300
3 4 40 400
4 5 50 500
5 NaN NaN NaN
注意,新索引中的值(1, 2, 3, 4, 5)與原始數據集中的值(0, 1, 2, 3, 4)不匹配的值將被替換為NaN。如果需要,可以使用fill_value
參數填充這些NaN值。例如,使用前一個值填充NaN:
reindexed_df = df.reindex(new_index, fill_value=df.iloc[0])
print("\nReindexed DataFrame with fill value:")
print(reindexed_df)
填充后的數據集如下:
A B C
1 2 20 200
2 3 30 300
3 4 40 400
4 5 50 500
5 1 10 100
這就是如何在Python中使用pandas庫重新索引數據集并創建新索引。