如何在Pandas中实现类似于SQL查询的数据操作？-益强资讯全景

IT科技: 如何在Pandas中实现类似于SQL查询的数据操作？
时间：2010-12-5 17:23:32  作者：人工智能   来源：系统运维  查看：  评论：0
内容摘要：介绍SQL 的神奇之处在于其易于学习，而它之所以如此容易学习的原因主要是代码语法非常直观。但是，与SQL相比，Pandas 就不那么直观了，尤其是在我们先用的是SQL，再转向 Pandas 时，这种感
介绍
SQL 的中作神奇之处在于其易于学习，而它之所以如此容易学习的实现原因主要是代码语法非常直观。
但是查询，与SQL相比，据操Pandas 就不那么直观了，中作尤其是实现在我们先用的是SQL，再转向 Pandas 时，查询这种感觉尤为强烈。据操
那么，中作我们是实现不是应该思考在 SQL 中进行的数据操作，能不能在 Pandas 实现?查询
基于以上目标，本文可以作为一个在Pandas中编写SQL查询的据操指南。
目录
选择行组合表格筛选表排序值聚合函数
1. 选择行
SELECT * FROM
如果要选择整个表，中作只需调用表的实现名称：
# SQL SELECT * FROM table_df # Pandas table_df
SELECT a, b FROM
如果要从表中选择特定列，请在双括号中列出要的查询列：
# SQL SELECT column_a, column_b FROM table_df # Pandas table_df[[column_a, column_b]]
SELECT DISTINCT
只需使用 .drop\u duplicates()即可获得不同的服务器托管值：
# SQL SELECT DISTINCT column_a FROM table_df # Pandas table_df[column_a].drop_duplicates()
SELECT a as b
如果要重命名列，请使用 .rename()：
# SQL SELECT column_a as Apple, column_b as Banana FROM table_df # Pandas table_df[[column_a, column_b]].rename(columns={ column_a: Apple, column_b:Banana})
SELECT CASE WHEN
对于"SELECT CASE WHEN"的等效项，可以使用 np.select()，其中首先指定每个选项的选择和值。
# SQL SELECT CASE WHEN column_a > 30 THEN "Large"             WHEN column_a <= 30 THEN "Small"             END AS Size FROM table_df # Pandas conditions = [table_df[column_a]>30, table_df[column_b]<=30] choices = [Large, Small] table_df[Size] = np.select(conditions, choices)
2. 组合表格
INNER/LEFT/RIGHT JOIN
只需使用 .merge()来连接表，就可以使用“how”参数指定它是 LEFT、RIGHT、 INNER 或者 OUTER联接。
# SQL SELECT * FROM table_1 t1          LEFT JOIN table_2 t1 on t1.lkey = t2.rkey  # Pandas table_1.merge(table_2, left_on=lkey, right_on=rkey, how=left)
UNION ALL
只需使用 pd.concat()：
# SQL SELECT * FROM table_1 UNION ALL SELECT * FROM table_2 # Pandas final_table = pd.concat([table_1, table_2])
3. 筛选表
SELECT WHERE
在筛选数据帧时，与在 SQL 中使用 WHERE 子句的方式相同时，只需在方括号中定义条件：
# SQL SELECT * FROM table_df WHERE column_a = 1 # Pandas table_df[table_df[column_a] == 1]
SELECT column_a WHERE column_b
如果要从表中选择某个列并筛选其他列，请按照以下格式操作：
# SQL SELECT column_a FROM table_df WHERE column_b = 1 # Pandas table_df[table_df[column_b]==1][column_a]
SELECT WHERE AND
如果要按多个条件进行筛选，只需将每个条件换在括号中，并使用"&"分隔每个条件。
# SQL SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2 # Pandas table_df[(table_df[column_a]==1) & (table_df[column_b]==2)]
SELECT WHERE LIKE
SQL 中的 LIKE 等效项是 .str.contains()。如果要应用大小写不敏感，只需在参数中添加 case=False。
# SQL SELECT * FROM table_df WHERE column_a LIKE %ball% # Pandas table_df[table_df[column_a].str.contains(ball)]
SELECT WHERE column IN()
SQL 中 IN() 的等效项为 .isin()。
# SQL SELECT * FROM table_df WHERE column_a IN(Canada, USA) # Pandas table_df[table_df[column_a].isin([Canada, USA])]
4.排序值
ORDER BY one column
在SQL中，ORDER BY 的源码下载等同于 .sort_values()。使用 ascending 参数指定是按升序还是降序对值排序，默认值与 SQL 一样升序。
# SQL SELECT * FROM table_df ORDER BY column_a DESC # Pandas table_df.sort_values(column_a, ascending=False)
ORDER BY multiple columns
如果要按多个列排序，可以列出括号中的列，并在括号中的 “ascending” 参数中指定排序方向。请确保遵循列出的列的相应顺序。
# SQL SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC # Pandas table_df.sort_values([column_a, column_b], ascending=[False, True])
5.聚合函数
COUNT DISTINCT
聚合函数有一个通用模式。
要复制 COUNT DISTINCT，只需使用 .groupby()和.nunique()。
# SQL SELECT column_a, COUNT DISTINCT(ID)  FROM table_df GROUP BY column_a # Pandas table_df.groupby(column_a)[ID].nunique()
SUM
# SQL SELECT column_a, SUM(revenue)  FROM table_df GROUP BY column_a  # Pandas table_df.groupby([column_a, revenue]).sum()
AVG
# SQL SELECT column_a, AVG(revenue)  FROM table_df GROUP BY column_a # Pandas table_df.groupby(column_a)[revenue].mean()
总结
Pandas无疑是一个强大的Python数据分析库，但是它也不是无所不能，对于某些操作并不具体和方便。
以上的操作可以帮助大家更好地在Pandas中实现一些SQL查询的实用操作，大家赶紧玩起来~
香港云服务器
全球首张！超聚变服务器获TÜV莱茵防泄漏认证证书
 长城汽车选择华为云：走数字化创新出海之路