ICML 2026|武汉大学 悉尼大学: 多模态模型越练越会想?它可能只是越练越会“猜”
2026/5/16 21:05:44
Python的Pandas库是处理Excel文件的强大工具,它提供了简洁高效的接口来读取、处理和分析表格数据。下面将详细介绍使用Pandas操作Excel的核心方法、常见场景及进阶技巧。
使用Pandas处理Excel文件前,需要安装Pandas及相应的引擎库(如openpyxl或xlrd)。可以通过pip命令安装:
pip install pandas openpyxl其中,openpyxl主要用于读写.xlsx格式文件(Excel 2007及以上版本),而xlrd则适用于较旧的.xls格式。
Pandas通过read_excel()函数读取Excel文件,并将其转换为DataFrame对象进行后续操作。
import pandas as pd df = pd.read_excel('data.xlsx') print(df.head())sheet_name参数指定工作表名称或索引。df = pd.read_excel('data.xlsx', sheet_name='Sheet1')dfs = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])usecols参数仅读取需要的列,提升处理效率。df = pd.read_excel('data.xlsx', usecols=['A', 'C'])读取数据后,Pandas提供了丰富的数据处理功能:
dropna()删除含空值的行/列,或fillna()填充空值。df = df.dropna() # 删除空行 df = df.fillna(0) # 用0填充空值drop_duplicates()可移除重复行。astype()方法可调整列的数据类型。df['Age'] = df['Age'].astype(int)filtered_df = df[df['销售额'] > 0] # 过滤 sorted_df = df.sort_values(by='日期', ascending=False) # 排序使用to_excel()方法可将DataFrame写入Excel文件。
df.to_excel('output.xlsx', index=False) # index=False避免写入行索引pd.ExcelWriter实现。with pd.ExcelWriter('output.xlsx') as writer: df1.to_excel(writer, sheet_name='Sheet1', index=False) df2.to_excel(writer, sheet_name='Sheet2', index=False)openpyxl可实现向已存在文件追加数据。from openpyxl import load_workbook book = load_workbook('input.xlsx') with pd.ExcelWriter('input.xlsx', engine='openpyxl', mode='a') as writer: writer.book = book df_new.to_excel(writer, sheet_name='Sheet1', startrow=writer.sheets['Sheet1'].max_row, index=False)os模块遍历文件夹,合并多个Excel文件。import os all_files = [f for f in os.listdir('folder_path') if f.endswith('.xlsx')] combined_df = pd.concat([pd.read_excel(f) for f in all_files])chunksize参数分块读取以减少内存占用。for chunk in pd.read_excel('large_file.xlsx', chunksize=10000): process(chunk)openpyxl或XlsxWriter将图表嵌入Excel。openpyxl或XlsxWriter引擎,可在写入时设置单元格格式(如字体、颜色、列宽)。.xlsx文件的读写。.xlsx文件,支持复杂图表和格式,但不支持读取。.xls格式时考虑,功能较有限。通过上述方法,你可以高效地使用Pandas完成Excel数据的自动化处理。根据具体需求(如数据量、格式复杂度、是否需要图表)选择合适的库和技巧,能显著提升工作效率。