在pandas里,DataFrame是最經(jīng)常用的數(shù)據(jù)結(jié)構(gòu),這里總結(jié)生成和添加數(shù)據(jù)的方法:
①、把其他格式的數(shù)據(jù)整理到DataFrame中;
②在已有的DataFrame中插入N列或者N行。
1. 字典類型讀取到DataFrame(dict to DataFrame)
假如我們在做實(shí)驗(yàn)的時(shí)候得到的數(shù)據(jù)是dict類型,為了方便之后的數(shù)據(jù)統(tǒng)計(jì)和計(jì)算,我們想把它轉(zhuǎn)換為DataFrame,存在很多寫法,這里簡單介紹常用的幾種:
方法一:直接使用pd.DataFrame(data=test_dict)
即可,括號中的data=
寫不寫都可以,具體如下:
1
2
3
4
5
|
test_dict = { 'id' :[ 1 , 2 , 3 , 4 , 5 , 6 ], 'name' :[ 'Alice' , 'Bob' , 'Cindy' , 'Eric' , 'Helen' , 'Grace ' ], 'math' :[ 90 , 89 , 99 , 78 , 97 , 93 ], 'english' :[ 89 , 94 , 80 , 94 , 94 , 90 ]} #[1].直接寫入?yún)?shù)test_dict test_dict_df = pd.DataFrame(test_dict) #[2].字典型賦值 test_dict_df = pd.DataFrame(data = test_dict) |
那么,我們就得到了一個(gè)DataFrame,如下:
應(yīng)該就是這個(gè)樣子了。
方法二:使用from_dict
方法:
1
|
test_dict_df = pd.DataFrame.from_dict(test_dict) |
結(jié)果是一樣的,不再重復(fù)貼圖。
其他方法:如果你的dict變量很小,例如{'id':1,'name':'Alice'}
,你想直接寫到括號里:
1
|
test_dict_df = pd.DataFrame({ 'id' : 1 , 'name' : 'Alice' }) # wrong style |
這樣是不行的,會報(bào)錯(cuò)ValueError: If using all scalar values, you must pass an index
,是因?yàn)槿绻闾峁┑氖且粋€(gè)標(biāo)量,必須還得提供一個(gè)索引Index,所以你可以這么寫:
1
|
test_dict_df = pd.DataFrame({ 'id' : 1 , 'name' : 'Alice' },pd.Index( range ( 1 ))) |
后面的可以寫多個(gè)pd.Index(range(3)
,就會生成三行一樣的,是因?yàn)榍懊娴膁ict型變量只有一組值,如果有多個(gè),后面的Index必須跟前面的數(shù)據(jù)組數(shù)一致,否則會報(bào)錯(cuò):
1
|
pd.DataFrame({ 'id' :[ 1 , 2 ], 'name' :[ 'Alice' , 'Bob' ]},pd.Index( range ( 2 ))) #must be 2 in range function. |
關(guān)于選擇列,有些時(shí)候我們只需要選擇dict中部分的鍵當(dāng)做DataFrame的列,那么我們可以使用columns參數(shù),例如我們只選擇'id','name'列:
1
|
test_dict_df = pd.DataFrame(data = test_dict,columns = [ 'id' , 'name' ]) #only choose 'id' and 'name' columns |
這里就不在多寫了,后續(xù)變更顏色添加內(nèi)容。
2. csv文件構(gòu)建DataFrame(csv to DataFrame)
我們實(shí)驗(yàn)的時(shí)候數(shù)據(jù)一般比較大,而csv文件是文本格式的數(shù)據(jù),占用更少的存儲,所以一般數(shù)據(jù)來源是csv文件,從csv文件中如何構(gòu)建DataFrame呢? txt文件一般也能用這種方法。
方法一:最常用的應(yīng)該就是pd.read_csv('filename.csv')
了,用 sep
指定數(shù)據(jù)的分割方式,默認(rèn)的是','
1
|
df = pd.read_csv( './xxx.csv' ) |
如果csv中沒有表頭,就要加入head
參數(shù)
3. 在已有的DataFrame中,增加N列或者N行
加入我們已經(jīng)有了一個(gè)DataFrame,如下圖:
3.1 添加列
此時(shí)我們又有一門新的課physics,我們需要為每個(gè)人添加這門課的分?jǐn)?shù),按照Index的順序,我們可以使用insert方法,如下:
1
2
3
|
new_columns = [ 92 , 94 , 89 , 77 , 87 , 91 ] test_dict_df.insert( 2 , 'pyhsics' ,new_columns) #test_dict_df.insert(2,'pyhsics',new_columns,allow_duplicates=True) |
此時(shí),就得到了添加好的DataFrame,需要注意的是DataFrame默認(rèn)不允許添加重復(fù)的列,但是在insert函數(shù)中有參數(shù)allow_duplicates=True
,設(shè)置為True后,就可以添加重復(fù)的列了,列名也是重復(fù)的:
3.2 添加行
此時(shí)我們又來了一位新的同學(xué)Iric,需要在DataFrame中添加這個(gè)同學(xué)的信息,我們可以使用loc
方法:
1
2
|
new_line = [ 7 , 'Iric' , 99 ] test_dict_df.loc[ 6 ] = new_line |
但是十分注意的是,這樣實(shí)際是改的操作,如果loc[index]中的index已經(jīng)存在,則新的值會覆蓋之前的值。
當(dāng)然也可以把這些新的數(shù)據(jù)構(gòu)建為一個(gè)新的DataFrame,然后兩個(gè)DataFrame拼起來。可以用append方法,不過不太會用,提供一種方法:
1
|
test_dict_df.append(pd.DataFrame([new_line],columns = [ 'id' , 'name' , 'physics' ])) |
本想一口氣把CURD全寫完,沒想到寫到這里就好累。。。其他后續(xù)新開篇章在寫吧。
相關(guān)代碼:(https://github.com/dataSnail/blogCode/blob/master/python_curd/python_curd_create.ipynb)(在DataFrame中刪除N列或者N行)(在DataFrame中查詢某N列或者某N行)(在DataFrame中修改數(shù)據(jù))
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持服務(wù)器之家。
原文鏈接:https://www.cnblogs.com/datasnail/p/9675410.html