Python学习100天(从入门到精通系列文章)
文章目录
- Python学习100天(从入门到精通系列文章)
- 前言
- 一、索引基础回顾
- 1.1 Index 是什么
- 1.2 Index 与 Series 的关系
- 二、范围索引(RangeIndex)
- 2.1 创建范围索引
- 三、分类索引(CategoricalIndex)
- 3.1 什么是分类索引
- 3.2 分组聚合与重排序
- 四、多级索引(MultiIndex)
- 4.1 什么是多级索引
- 4.2 创建多级索引的三种方式
- 4.3 多级索引的实战应用
- 4.4 按层级分组聚合
- 五、间隔索引(IntervalIndex)
- 5.1 创建间隔索引
- 5.2 核心方法:contains 和 overlaps
- 5.3 自定义区间边界行为
- 六、日期时间索引(DatetimeIndex)
- 6.1 创建日期时间索引
- 6.2 时间偏移运算
- 6.3 数据重采样(Resample)
- 6.4 时区处理
- 七、常见错误与避坑指南
- 错误1:混淆 MultiIndex 的 level 编号
- 错误2:asfreq 采样到非交易日导致大量 NaN
- 错误3:忘记对 DatetimeIndex 进行排序
- 错误4:时区转换前未本地化
- 参考链接
- 总结
前言
在之前的文章中,我们学习了 Pandas 的核心数据结构Series和DataFrame,以及数据清洗、分组聚合、透视表和高级分析技巧。但你有没有想过,Pandas 是如何实现高效的数据检索、排序和对齐的?答案就在Index(索引)中。索引是 Pandas 的"骨架",它不仅决定了数据的组织方式,还直接影响查询性能。今天我们将深入剖析 Pandas 中五种重要的索引类型:范围索引、分类索引、多级索引、间隔索引和日期时间索引。掌握这些索引类型,你的数据处理效率将得到质的飞跃。
一、索引基础回顾
1.1 Index 是什么
Index是 Pandas 中为一维数据提供标签的不可变数组。它为Series和DataFrame提供了三大核心能力:
- 数据排序:通过
sort_index()方法按索引排序 - 数据对齐:在运算和合并数据时自动按索引对齐
- 快速检索:基于索引的查找比遍历快得多
import