引言
本文的目的,是向您展示如何使用pandas 來執行一些常見的Excel任務。有些例子比較瑣碎,但我覺得展示這些簡單的東西與那些你可以在其他地方找到的復雜功能同等重要。作為額外的福利,我將會進行一些模糊字符串匹配,以此來展示一些小花樣,以及展示pandas是如何利用完整的Python模塊系統去做一些在Python中是簡單,但在Excel中卻很復雜的事情的。
有道理吧?讓我們開始吧。
為某行添加求和項
我要介紹的第一項任務是把某幾列相加然后添加一個總和欄。
首先我們將excel 數據 導入到pandas數據框架中。
1
2
3
4
|
import pandas as pd import numpy as np df = pd.read_excel( "excel-comp-data.xlsx" ) df.head() |
我們想要添加一個總和欄來顯示Jan、Feb和Mar三個月的銷售總額。
在Excel和pandas中這都是簡單直接的。對于Excel,我在J列中添加了公式sum(G2:I2)。在Excel中看上去是這樣的:
下面,我們是這樣在pandas中操作的:
1
2
|
df[ "total" ] = df[ "Jan" ] + df[ "Feb" ] + df[ "Mar" ] df.head() |
接下來,讓我們對各列計算一些匯總信息以及其他值。如下Excel表所示,我們要做這些工作:
如你所見,我們在表示月份的列的第17行添加了SUM(G2:G16),來取得每月的總和。
進行在pandas中進行列級別的分析很簡單。下面是一些例子:
1
2
3
|
df[ "Jan" ]. sum (), df[ "Jan" ].mean(),df[ "Jan" ]. min (),df[ "Jan" ]. max () ( 1462000 , 97466.666666666672 , 10000 , 162000 ) |
現在我們要把每月的總和相加得到它們的和。這里pandas和Excel有點不同。在Excel的單元格里把每個月的總和相加很簡單。由于pandas需要維護整個DataFrame的完整性,所以需要一些額外的步驟。
首先,建立所有列的總和欄
1
2
3
4
5
6
7
8
|
sum_row = df[[ "Jan" , "Feb" , "Mar" , "total" ]]. sum () sum_row Jan 1462000 Feb 1507000 Mar 717000 total 3686000 dtype: int64 |
這很符合直覺,不過如果你希望將總和值顯示為表格中的單獨一行,你還需要做一些微調。
我們需要把數據進行變換,把這一系列數字轉換為DataFrame,這樣才能更加容易的把它合并進已經存在的數據中。T 函數可以讓我們把按行排列的數據變換為按列排列。
1
2
|
df_sum = pd.DataFrame(data = sum_row).T df_sum |
在計算總和之前我們要做的最后一件事情是添加丟失的列。我們使用reindex來幫助我們完成。技巧是添加全部的列然后讓pandas去添加所有缺失的數據。
1
2
|
df_sum = df_sum.reindex(columns = df.columns) df_sum |
現在我們已經有了一個格式良好的DataFrame,我們可以使用append來把它加入到已有的內容中。
1
2
|
df_final = df.append(df_sum,ignore_index = True ) df_final.tail() |
額外的數據變換
另外一個例子,讓我們嘗試給數據集添加狀態的縮寫。
對于Excel,最簡單的方式是添加一個新的列,對州名使用vlookup函數并填充縮寫欄。
我進行了這樣的操作,下面是其結果的截圖:
你可以注意到,在進行了vlookup后,有一些數值并沒有被正確的取得。這是因為我們拼錯了一些州的名字。在Excel中處理這一問題是一個巨大的挑戰(對于大型數據集而言)
幸運的是,使用pandas我們可以利用強大的python生態系統??紤]如何解決這類麻煩的數據問題,我考慮進行一些模糊文本匹配來決定正確的值。
幸運的是其他人已經做了很多這方面的工作。fuzzy wuzzy庫包含一些非常有用的函數來解決這類問題。首先要確保你安裝了他。
我們需要的另外一段代碼是州名與其縮寫的映射表。而不是親自去輸入它們,谷歌一下你就能找到這段代碼code。
首先導入合適的fuzzywuzzy函數并且定義我們的州名映射表。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
from fuzzywuzzy import fuzz from fuzzywuzzy import process state_to_code = { "VERMONT" : "VT" , "GEORGIA" : "GA" , "IOWA" : "IA" , "Armed Forces Pacific" : "AP" , "GUAM" : "GU" , "KANSAS" : "KS" , "FLORIDA" : "FL" , "AMERICAN SAMOA" : "AS" , "NORTH CAROLINA" : "NC" , "HAWAII" : "HI" , "NEW YORK" : "NY" , "CALIFORNIA" : "CA" , "ALABAMA" : "AL" , "IDAHO" : "ID" , "FEDERATED STATES OF MICRONESIA" : "FM" , "Armed Forces Americas" : "AA" , "DELAWARE" : "DE" , "ALASKA" : "AK" , "ILLINOIS" : "IL" , "Armed Forces Africa" : "AE" , "SOUTH DAKOTA" : "SD" , "CONNECTICUT" : "CT" , "MONTANA" : "MT" , "MASSACHUSETTS" : "MA" , "PUERTO RICO" : "PR" , "Armed Forces Canada" : "AE" , "NEW HAMPSHIRE" : "NH" , "MARYLAND" : "MD" , "NEW MEXICO" : "NM" , "MISSISSIPPI" : "MS" , "TENNESSEE" : "TN" , "PALAU" : "PW" , "COLORADO" : "CO" , "Armed Forces Middle East" : "AE" , "NEW JERSEY" : "NJ" , "UTAH" : "UT" , "MICHIGAN" : "MI" , "WEST VIRGINIA" : "WV" , "WASHINGTON" : "WA" , "MINNESOTA" : "MN" , "OREGON" : "OR" , "VIRGINIA" : "VA" , "VIRGIN ISLANDS" : "VI" , "MARSHALL ISLANDS" : "MH" , "WYOMING" : "WY" , "OHIO" : "OH" , "SOUTH CAROLINA" : "SC" , "INDIANA" : "IN" , "NEVADA" : "NV" , "LOUISIANA" : "LA" , "NORTHERN MARIANA ISLANDS" : "MP" , "NEBRASKA" : "NE" , "ARIZONA" : "AZ" , "WISCONSIN" : "WI" , "NORTH DAKOTA" : "ND" , "Armed Forces Europe" : "AE" , "PENNSYLVANIA" : "PA" , "OKLAHOMA" : "OK" , "KENTUCKY" : "KY" , "RHODE ISLAND" : "RI" , "DISTRICT OF COLUMBIA" : "DC" , "ARKANSAS" : "AR" , "MISSOURI" : "MO" , "TEXAS" : "TX" , "MAINE" : "ME" } |
這里有些介紹模糊文本匹配函數如何工作的例子。
1
2
3
4
5
|
process.extractOne( "Minnesotta" ,choices = state_to_code.keys()) ( 'MINNESOTA' , 95 ) process.extractOne( "AlaBAMMazzz" ,choices = state_to_code.keys(),score_cutoff = 80 ) |
現在我知道它是如何工作的了,我們創建自己的函數來接受州名這一列的數據然后把他轉換為一個有效的縮寫。這里我們使用score_cutoff的值為80。你可以做一些調整,看看哪個值對你的數據來說比較好。你會注意到,返回值要么是一個有效的縮寫,要么是一個np.nan 所以域中會有一些有效的值。
1
2
3
4
5
|
def convert_state(row): abbrev = process.extractOne(row[ "state" ],choices = state_to_code.keys(),score_cutoff = 80 ) if abbrev: return state_to_code[abbrev[ 0 ]] return np.nan |
把這列添加到我們想要填充的單元格,然后用NaN填充它
1
2
|
df_final.insert( 6 , "abbrev" , np.nan) df_final.head() |
我們使用apply 來把縮寫添加到合適的列中。
1
2
|
df_final[ 'abbrev' ] = df_final. apply (convert_state, axis = 1 ) df_final.tail() |
我覺的這很酷。我們已經開發出了一個非常簡單的流程來智能的清理數據。顯然,當你只有15行左右數據的時候這沒什么了不起的。但是如果是15000行呢?在Excel中你就必須進行一些人工清理了。
分類匯總
在本文的最后一節中,讓我們按州來做一些分類匯總(subtotal)。
在Excel中,我們會用subtotal 工具來完成。
輸出如下:
在pandas中創建分類匯總,是使用groupby 來完成的。
1
2
|
df_sub = df_final[[ "abbrev" , "Jan" , "Feb" , "Mar" , "total" ]].groupby( 'abbrev' ). sum () df_sub |
然后,我們想要通過對data frame中所有的值使用 applymap 來把數據單位格式化為貨幣。
1
2
3
4
5
|
def money(x): return "${:,.0f}" . format (x) formatted_df = df_sub.applymap(money) formatted_df |
格式化看上去進行的很順利,現在我們可以像之前那樣獲取總和了。
1
2
|
sum_row = df_sub[[ "Jan" , "Feb" , "Mar" , "total" ]]. sum () sum_row |
1
2
3
4
5
|
Jan 1462000 Feb 1507000 Mar 717000 total 3686000 dtype: int64 |
把值變換為列然后進行格式化。
1
2
3
|
df_sub_sum = pd.DataFrame(data = sum_row).T df_sub_sum = df_sub_sum.applymap(money) df_sub_sum |
最后,把總和添加到DataFrame中。
1
2
|
final_table = formatted_df.append(df_sub_sum) final_table |
你可以注意到總和行的索引號是‘0'。我們想要使用rename 來重命名它。
1
2
|
final_table = final_table.rename(index = { 0 : "Total" }) final_table |
結論
到目前為止,大部分人都已經知道使用pandas可以對數據做很多復雜的操作——就如同Excel一樣。因為我一直在學習pandas,但我發現我還是會嘗試記憶我是如何在Excel中完成這些操作的而不是在pandas中。我意識到把它倆作對比似乎不是很公平——它們是完全不同的工具。但是,我希望能接觸到哪些了解Excel并且想要學習一些可以滿足分析他們數據需求的其他替代工具的那些人。我希望這些例子可以幫助到其他人,讓他們有信心認為他們可以使用pandas來替換他們零碎復雜的Excel,進行數據操作。