Appearance
索引操作
索引是 Pandas 数据结构的重要组成部分,用于快速访问数据。
索引类型
默认整数索引
python
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df.index) # RangeIndex(start=0, stop=3, step=1)自定义索引
python
df = pd.DataFrame(
{'A': [1, 2, 3], 'B': [4, 5, 6]},
index=['a', 'b', 'c']
)
print(df)索引操作
重置索引
python
df_reset = df.reset_index() # 将当前索引转为列
print(df_reset)
df_reset = df.reset_index(drop=True) # 丢弃原索引
print(df_reset)设置索引
python
df_new = df.set_index('A') # 将列A设为索引
print(df_new)多级索引
python
arrays = [
['A', 'A', 'B', 'B'],
[1, 2, 1, 2]
]
df = pd.DataFrame(
{'值': [10, 20, 30, 40]},
index=pd.MultiIndex.from_arrays(arrays, names=('类别', '编号'))
)
print(df)索引对齐
python
s1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
s2 = pd.Series([4, 5, 6], index=['b', 'c', 'd'])
print(s1 + s2) # 按索引对齐运算,不匹配的位置为NaN常用索引方法
python
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s.index.is_unique) # 索引是否唯一
print(s.index.duplicated()) # 重复索引标记
print(s.reindex(['a', 'b', 'f'])) # 重新索引索引是 Pandas 高效数据处理的基础,合理使用索引可以大幅提升数据操作效率。