免费看av大片,在线视频日韩,最新中文在线视频

AutoEDA工具包對于剛剛學習數據分析的小伙伴可以帶來非常大的幫助。

本篇文章我們介紹目前最流行的四大AutoEDA工具包。

D-tale
Pandas-Profiling
Sweetviz
AutoViz

這幾個工具包可以以短短三五行代碼幫新手節省將近一天時間去寫代碼分析，非常建議大家收藏學習，喜歡點贊支持，文末提供技術交流群，盡情暢聊。

介紹

01 D-Tale

Python通過四大 AutoEDA 工具包快速產出完美數據報告

D-Tale是Flask后端和React前端組合的產物，也是一個開源的Python自動可視化庫，可以為我們提供查看和分析Pandas DataFrame的方法，幫助我們獲得非常數據的詳細EDA。

目前D-Tale支持DataFrame、Series、MultiIndex、DatetimeIndex 和 RangeIndex 等 Pandas 對象。

Github 鏈接

https://github.com/man-group/dtale

# pip install dtale
import dtale
import pandas as pd
df = pd.read_csv("./data/titanic.csv")
d = dtale.show(df)
d.open_browser()

Python通過四大 AutoEDA 工具包快速產出完美數據報告

02 Pandas-Profiling

Python通過四大 AutoEDA 工具包快速產出完美數據報告

Pandas-Profiling可以對Pandas DataFrame生成report報告。其中：

pandas_profiling的df.profile_report()擴展了pandas DataFrame以方便進行快速數據分析。

Pandas-Profiling對于每一列特征，特征的統計信息（如果與列類型相關）會顯示在交互式 HTML的report中：

Type：檢測數據列類型；
Essentials：類型、unique值、缺失值
分位數統計，如最小值、Q1、中位數、Q3、最大值、范圍、四分位距
描述性統計數據，如均值、眾數、標準差、總和、中值絕對偏差、變異系數、峰態、偏度
出現最多的值
直方圖
高度相關變量、Spearman、Pearson 和 Kendall 矩陣的相關性突出顯示
缺失值矩陣、計數、熱圖和缺失值樹狀圖
…

Github 鏈接

https://github.com/pandas-profiling/pandas-profiling/

from pandas_profiling import ProfileReport
profile = ProfileReport(df, title="Pandas Profiling Report")
profile

2021-10-30 22:50:43,584 - INFO - Pandas backend loaded 1.2.5
2021-10-30 22:50:43,597 - INFO - Numpy backend loaded 1.19.2
2021-10-30 22:50:43,599 - INFO - Pyspark backend NOT loaded
2021-10-30 22:50:43,600 - INFO - Python backend loaded

一個特征的案例

Python通過四大 AutoEDA 工具包快速產出完美數據報告

03 Sweetviz

Python通過四大 AutoEDA 工具包快速產出完美數據報告

Sweetviz也是一個開源Python庫，Sweetviz可以用簡短幾行代碼生成美觀、高密度的可視化文件，只需兩行代碼即可開啟探索性數據分析并輸出一個完全獨立的 HTML 應用程序。Sweetviz主要包含下面的分析：

數據集概述
變量屬性
類別的關聯性
數值關聯性
數值特征最頻繁值、最小、最大值

Github 鏈接

https://github.com/fbdesignpro/sweetviz

# pip install sweetviz
import sweetviz as sv
sweetviz_report = sv.analyze(df)
sweetviz_report.show_html()

04 AutoViz

Python通過四大 AutoEDA 工具包快速產出完美數據報告

AutoViz可以使用一行自動顯示任何數據集。給出任何輸入文件（CSV、txt或json），AutoViz都可以對其進行可視化。AutoViz的結果會以非常多的圖片都形式存在文件夾下方。

Github 鏈接

https://github.com/AutoViML/AutoViz

# pip install autoviz
from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()
sep = ";"
dft = AV.AutoViz(filename="",sep=sep, depVar="Pclass", dfte=df, header=0, verbose=2,
lowess=False, chart_format="png", max_rows_analyzed=150000, max_cols_analyzed=30)