本文主要涵蓋數(shù)據(jù)可視化工具主要包括4類:Excel圖表、Python繪圖庫(kù)、Tableau以及網(wǎng)頁(yè)在線工具等。
01 Excel
網(wǎng)傳數(shù)據(jù)分析師必備基礎(chǔ)套餐是ESP,即Excel+SQL+Python,這種說(shuō)法不見(jiàn)得完全正確,但也確有一定道理,其中Excel更是幾乎每名數(shù)據(jù)分析師乃至每名職場(chǎng)人士必備的辦公工具。個(gè)人也習(xí)慣于應(yīng)用Excel,更具體說(shuō)主要是應(yīng)用Excel的三類功能:圖表制作、內(nèi)置函數(shù)以及數(shù)據(jù)透視表。一般而言,當(dāng)數(shù)據(jù)量較小(100以內(nèi))時(shí),個(gè)人非常傾向于用Excel完成圖表插入,不僅簡(jiǎn)潔方便,而且內(nèi)置的多種樣式、豐富的設(shè)置選項(xiàng)以及所見(jiàn)即所得的制圖體驗(yàn),都無(wú)疑是小數(shù)據(jù)量作圖的首選。
Excel內(nèi)置了豐富的圖表類型
Excel支持的圖表類型也極為豐富,除了常規(guī)的條形圖、折線圖、餅圖和散點(diǎn)圖之外,像雷達(dá)圖、旭日?qǐng)D、箱線圖等視覺(jué)效果更好的圖表也是支持的。同時(shí)更是支持了豐富的設(shè)置效果,而且都是極為簡(jiǎn)便易懂的,幾乎不需要教程即可摸索掌握。
02 Python可視化庫(kù)
作為一名數(shù)據(jù)分析師,Python幾乎是必須掌握的;而在Python數(shù)據(jù)分析相關(guān)的眾多第三方包中,可視化庫(kù)又非常強(qiáng)大。在這其中,個(gè)人尤為常用的有5個(gè)相關(guān)庫(kù):
- matplotlib,該庫(kù)與numpy和pandas號(hào)稱Python數(shù)分三劍客,也是當(dāng)初配合numpy和scipy替代Matlab的重要一環(huán),幾乎是Python數(shù)據(jù)分析過(guò)程中必須熟練掌握的繪圖庫(kù)。不過(guò)需要承認(rèn)的是,matplotlib功能強(qiáng)大,但其實(shí)相對(duì)更加偏向底層,提供了大量的參數(shù)和接口來(lái)設(shè)置圖表各種細(xì)節(jié),對(duì)于初學(xué)者來(lái)說(shuō)并不那么友好。但實(shí)話說(shuō),在徹底掌握其核心思想之后,其實(shí)還是比較符合正常思維的。這里,附個(gè)人總結(jié)的matplotlib完整入門教程:python數(shù)據(jù)科學(xué)系列:matplotlib入門詳細(xì)教程
- seaborn,既然matplotlib過(guò)于偏向底層,繪圖也較為繁瑣,那有沒(méi)有簡(jiǎn)單易上手的繪圖庫(kù)呢?seaborn其實(shí)算得上一個(gè),不過(guò)也并不算是matplotlib的升級(jí)或替代品,而只能算是有力補(bǔ)充。相較而言,seaborn基于matplotlib,提供了更為豐富的樣式,具有更加簡(jiǎn)潔的API接口,一兩句代碼就能完成非常強(qiáng)大的圖表繪制。附seaborn入門教程:python數(shù)據(jù)科學(xué)系列:seaborn入門詳細(xì)教程
- pyecharts,相較于matplotlib和seaborn這種更像是python官方繪圖庫(kù),pyecharts屬于純粹的第三方繪圖庫(kù),即pyecharts=python+echarts,即百度echarts與python的結(jié)合體,某種程度上也再次印證了python膠水語(yǔ)言的特性。更重要的是,pyecharts支持動(dòng)態(tài)圖表繪制,支持交互式圖表,除了Web展示,還可通過(guò)一定操作移植到PPT中,這也為數(shù)據(jù)分析師做匯報(bào)添彩不少。pyecharts目前經(jīng)歷了兩個(gè)大的版本,尤其是在0.5升級(jí)到1.x以后,幾乎完全變了繪圖接口,但整體來(lái)說(shuō)是變得更加簡(jiǎn)潔易懂。附pyecharts繪圖簡(jiǎn)潔教程:pyecharts極簡(jiǎn)入門教程
- pandas,與matplotlib同享數(shù)分三劍客的美譽(yù),而且更有瑞士軍刀名號(hào)的pandas,實(shí)際上也是一個(gè)非常便捷的繪圖庫(kù)。更準(zhǔn)確地說(shuō),這是一個(gè)面向dataframe對(duì)象的繪圖接口,通過(guò)調(diào)用plot()接口或者plot屬性,從而可以完成主流matplotlib中圖表的繪制,且?guī)缀趵^承了matplotlib中相應(yīng)圖表的所有參數(shù)設(shè)置,包括設(shè)置多子圖繪制等,簡(jiǎn)直不能更絲滑。近期,隨著版本的升級(jí),pandas繪圖后端更是可以指定其他繪圖底層接口,使用起來(lái)極為方便。想象一下:你在操作著dataframe的各種處理和轉(zhuǎn)換,突然想看看當(dāng)前處理的數(shù)據(jù)什么樣,那么就一言不合就來(lái)個(gè)圖表。簡(jiǎn)單的pandas繪圖方法可查看pandas教程中的最后一部分。
- geopandas,geopandas是一個(gè)繼承自pandas的地理信息數(shù)據(jù)處理庫(kù),其核心數(shù)據(jù)接口geodataframe本質(zhì)上就是在pandas的dataframe數(shù)據(jù)結(jié)構(gòu)上增加一列g(shù)eometry,體現(xiàn)空間信息。除了繼承了pandas的各種數(shù)據(jù)處理接口外,geopandas還增強(qiáng)了畫圖功能,在一個(gè)具有g(shù)eometry列信息的geodataframe中,直接調(diào)用.plot()接口,即可快速查看當(dāng)前地理信息情況。下圖是混用matplotlib和geopandas.plot()的直接繪圖結(jié)果,僅需額外設(shè)置用于標(biāo)識(shí)數(shù)值大小的一列,即可繪制五顏六色的炫麗圖片。(當(dāng)前選用顏色風(fēng)格為rainbow,可明顯看出顏色從深到淺依次為紅橙黃綠青藍(lán)紫)
03 Tableau
曾經(jīng),為了豐富個(gè)人可視化技能、拓寬數(shù)據(jù)分析工具,也專門花了一段時(shí)間學(xué)習(xí)tableau的運(yùn)用,這可能也是商業(yè)數(shù)據(jù)分析師的必備技能之一,不過(guò)個(gè)人目前也僅僅是偶爾用它畫個(gè)圖而已。tableau本身功能還是極其強(qiáng)大的,支持多種數(shù)據(jù)源讀取、內(nèi)置了類SQL的字段處理功能、提供了豐富的圖表庫(kù),工作表->儀表板->故事,三者層層遞進(jìn),對(duì)于大屏展示和快速完成數(shù)據(jù)分析可視化報(bào)表異常高效,尤為擅長(zhǎng)周期性動(dòng)態(tài)監(jiān)管的數(shù)據(jù)指標(biāo)類儀表板。靈活的數(shù)據(jù)加載、強(qiáng)大的數(shù)據(jù)轉(zhuǎn)換、簡(jiǎn)單的字段拖拽即可出圖,這些都保證了快速生成報(bào)表的可能性。附個(gè)人常用的tableau制圖技巧:
- Tableau可視化之多變折線圖
- Tableau可視化之多變條形圖
- Tableau可視化之多變地圖
- Tableau可視化之多變餅圖
- Tableau可視化之其他常用圖表
04 網(wǎng)頁(yè)在線工具
隨著信息技術(shù)的不斷成熟,其實(shí)很多數(shù)據(jù)可視化工作也逐漸搬移到線上輕量級(jí)完成,一些網(wǎng)頁(yè)在線工具專門用于執(zhí)行數(shù)據(jù)可視化,通過(guò)簡(jiǎn)單的灌入數(shù)據(jù),一張張樣式豐富的圖表便很快呈現(xiàn),而且大多都是零門檻易實(shí)現(xiàn)。這里僅列舉兩個(gè):
- 百度Echarts,這真算的上是百度的一個(gè)良心工具了,內(nèi)置了大量的圖表模板,僅需選定樣式->更改數(shù)據(jù)即可輕松實(shí)現(xiàn),而且支持交互。前面介紹的pyecharts其實(shí)就是百度Echarts的Python語(yǔ)言版
- 詞云在線網(wǎng)站。其實(shí)詞云在線網(wǎng)站還是比較多的,這里不具體給出,可參考?xì)v史文章生成詞云的幾種方式查看。值得指出的是,本公眾號(hào)的logo其實(shí)就是基于其中的一個(gè)網(wǎng)站生成的……
05 小結(jié)
數(shù)據(jù)可視化對(duì)于一名數(shù)據(jù)分析師而言確實(shí)很重要,好的可視化效果甚至稱得上是安身立命裝X加薪之本。然而,雖然可視化圖表選擇眾多,但其實(shí)也不能過(guò)于追求標(biāo)新立異,例如桑基圖、瀑布圖、南丁格爾圖等,特定場(chǎng)景下用用可能效果感人,但絕大多數(shù)情況下,Simple is better than complex,折線圖、條形圖、餅圖、散點(diǎn)圖這四大基本圖表類型仍然是樸實(shí)無(wú)華的首選。
原文地址:https://mp.weixin.qq.com/s?__biz=MzU0OTk5MDg3OQ==&mid=2247485359&idx=1&sn=262e44dc4b1bf509dc462816bab1026d&chksm=fba63f1fccd1b60930b6e77787211e72f3b58993c48a2166630b68c029d424f4711ca126593a&mpshare=1&