Python 中利用Pandas处理复杂的Excel数据-益强资讯全景

IT科技类资讯: Python 中利用Pandas处理复杂的Excel数据
时间：2010-12-5 17:23:32  作者：人工智能   来源：系统运维  查看：  评论：0
内容摘要：关于Excel数据处理，很多同学可能使用过Pyhton的pandas模块，用它可以轻松地读取和转换Excel数据。但是实际中Excel表格结构可能比较杂乱，数据会分散不同的工作表中，而且在表格中分布很
关于Excel数据处理，中利杂很多同学可能使用过Pyhton的理复pandas模块，用它可以轻松地读取和转换Excel数据。中利杂但是理复实际中Excel表格结构可能比较杂乱，数据会分散不同的中利杂工作表中，而且在表格中分布很乱，理复这种情况下啊直接使用pandas就会非常吃力。中利杂本文虫虫给大家介绍使用pandas和openpyxl读取这样的理复数据的方法。
问题缘起
pandas read_excel函数在读取Excel工作表方面做得很好。中利杂但是理复，如果数据不是中利杂从头开始，不是理复从单元格A1开始的连续表格，则结果会不是中利杂很好。比如下面一个销售表，理复使用read_excel读取：
读取的中利杂结果如下所示：
结果中标题表头变成了Unnamed，而且还会额外增加很多职位NaN列，字段为空的列的值也会被转换为NaN，这显然不是我们所期望的。
header和usecols参数
对这样的亿华云非标准格式的表格，我们可以使用read_excel()的header和usecols参数来控制选择的需要读取的列。
import pandas as pd from pathlib import Path src_file = sales.xlsx
结果的DataFrame包含了我们期望的数据。
代码中使用header和usecols参数设定了用于显示标题的列和需要读取的字段：
header参数为一个整数，从0开始索引，其为选择的行，比如1表示Excel中的第2行。 usecols参数设定选择的Excel列范围范围(A-…)，例如，B:F表示读取B到F列。
在某些情况下，可能希望将列定义为数字列表。比如，可以定义整数列数：
df = pd.read_excel(src_file, header=1, usecols=[1,2,3,4,5])
这对对大型数据集(例如，每3列或仅偶数列)要遵循一定的数字模式，则这个参数方法会很有用。
usecols还可以设定从列名列表读取。比如上面的例子也可以这样写：
df = pd.read_excel( src_file, header=1, usecols=[item_type, order id, order date, state, priority])
列顺序支持自由选择，这种命名列列表的方式实际中很有用。云南idc服务商
usecols支持一个回调函数column_check，可通过该函数对数据进行处理。
下面是一个简单的示例：
def column_check(x):      if unnamed in x.lower():            return False      if priority in x.lower():           return False      if order in x.lower():           return True     return True df = pd.read_excel(src_file, header=1, usecols=column_check)
column_check按名称解析每列，每列通过定义True或False，来选择是否读取。
usecols也可以使用lambda表达式。下面的示例中定义的需要显示的字段列表。为了进行比较，通过将名称转换为小写来规范化。
cols_to_use = [item_type, order id, order date, state, priority] df = pd.read_excel(src_file, header=1, usecols=lambda x: x.lower() in cols_to_use)
回调函数为我们提供了许多灵活性，可以处理Excel文件的实际混乱情况。
关于read_exce函数更多参数可以查看官方文档，下面是一个总结表格：
结合openpyxl
在某些情况下，数据甚至可能在Excel中变得更加复杂。在下面示例中，我们有一个ship_cost要读取的表。如果必须使用这样的文件，那么只用pandas函数和选项也很难做到。在这种情况下，可以直接使用openpyxl解析文件并将数据转换为pandas DataFrame。比如要读取下面示例的数据：
from openpyxl import load_workbook import pandas as pd from pathlib import Path src_file =  sales1.xlsx
加载整个工作簿：
cc = load_workbook(filename = src_file)
查看所有工作表：
cc.sheetnames
[sales, shipping_rates]
要访问特定的工作表：
sheet = cc[shipping_rates]
要查看所有命名表的云服务器列表：
sheet.tables.keys()
dict_keys([ship_cost])
该键对应于Excel中分配给表的名称。这样就可以设定要读取的Excel范围：
lookup_table = sheet.tables[ship_cost] lookup_table.ref
C8:E16
这样就获得了要加载的数据范围。最后将其转换为pandas DataFrame即可。遍历每一行并转换为DataFrame：
data = sheet[lookup_table.ref] rows_list = [] for row in data: cols = [] for col in row: cols.append(col.value) rows_list.append(cols) df = pd.DataFrame(data=rows_list[1:], index=None, columns=rows_list[0])
结果数据框：
总结
在理想情况下，使用的数据将采用简单一致的格式。在本文中，我们介绍了在Pandas下通过参数轻松删除行和列以使其格式更加合理。尤其是结合openpyxl的情况下可以让我们读取Excel数据更加灵活，可以处理比较复杂的表格数据。
当投资者经过第二阶段的认真学习之后又充满了信心，认为自己可以在市场上叱咤风云地大干一场了。但没想到“看花容易绣花难”，由于对理论知识不会灵活运用.从而失去灵活应变的本能，就经常会出现小赢大亏的局面，结果往往仍以失败告终。这使投资者很是困惑和痛苦，不知该如何办，甚至开始怀疑这个市场是不是不适合自己。在这种情况下，有的人选择了放弃，但有的意志坚定者则决定做最后的尝试。
新手可以注册cc域名吗？cc域名有什么特点？

最近更新

2025-10-04 00:49:13
为什么现在中文域名觉得好？使用中文域名有什么好处？
2025-10-04 00:49:13
Python地位不保：Julia正在加速崛起！
2025-10-04 00:49:13
推荐一款专为新手用的Python开发工具
2025-10-04 00:49:13
RocketMQ如何应对每天1500亿条的数据处理？
2025-10-04 00:49:13
a、变更前的公司证件扫描件(代码证或者营业执照)及联系人身份证复印件、变更后的公司证件扫描件(代码证或者营业执照)及新的联系人身份证复印件;身份证复印件需本人签名，公司证件复印件需加盖公章。
2025-10-04 00:49:13
马化腾：明年将推VR版微信正在开发阶段
2025-10-04 00:49:13
jQuery都过时了，那还学它干嘛
2025-10-04 00:49:13
这8个Python小细节，让你在大数据领域如鱼得水

热门排行

2025-10-04 00:49:13
个人域名转为公司需要什么条件？个人域名转为公司该怎么做？
2025-10-04 00:49:13
Swagger中配置了@ApiModelProperty的allowableValues属性但不显示的问题
2025-10-04 00:49:13
挑逗Java程序员的那些Scala绝技
2025-10-04 00:49:13
100行代码爬取全国所有必胜客餐厅信息
2025-10-04 00:49:13
.net 适用于从事Internet相关的网络服务的机构或公司
2025-10-04 00:49:13
使用 VS Code 进行 Python 编程
2025-10-04 00:49:13
如何用Angular 6创建各种动画效果
2025-10-04 00:49:13
超参数搜索不够高效？这几大策略了解一下

友情链接