亚洲男人天堂av,亚洲欧美综合,免费成人午夜

一、模型方法

本工程采用的模型方法為樸素貝葉斯分類算法，它的核心算法思想基于概率論。我們稱之為“樸素”，是因為整個形式化過程只做最原始、最簡單的假設。樸素貝葉斯是貝葉斯決策理論的一部分，所以講述樸素貝葉斯之前有必要快速了解一下貝葉斯決策理論。假設現在我們有一個數據集，它由兩類數據組成，數據分布如下圖所示。

python實現基于樸素貝葉斯的垃圾分類算法

我們現在用p1(x,y)表示數據點(x,y)屬于類別1（圖中用圓點表示的類別）的概率，用p2(x,y)表示數據點(x,y)屬于類別2（圖中用三角形表示的類別）的概率，那么對于一個新數據點(x,y)，可以用下面的規則來判斷它的類別：

如果 p1(x,y) > p2(x,y)，那么類別為1。

如果 p2(x,y) > p1(x,y)，那么類別為2。

也就是說，我們會選擇高概率對應的類別。這就是貝葉斯決策理論的核心思想，即選擇具有最高概率的決策。

在本工程中我們可以使用條件概率來進行分類。其條件概率公式如下：

python實現基于樸素貝葉斯的垃圾分類算法

二、系統設計

python實現基于樸素貝葉斯的垃圾分類算法

數據的收集及保存

郵件的收集來源于網上，保存在email文件夾中。其中email分兩個子文件，一個為ham文件夾（保存非垃圾郵件），另一個為spam文件夾（保存垃圾郵件）。ham與spam中各保存25各郵件，保存格式為x.txt(x為1到25)。

訓練集和測試集的選取

由于收集的郵件個數有限，故選取80%的郵件作為訓練集，其方式為隨機選取。剩余20%郵件作為測試集。

特征向量構建

特征向量的構建分為兩種，一個為對訓練集的特征向量構建。一個為測試集的特征向量構建。對于訓練集特征向量只需要分為兩類，因為郵件只分為垃圾郵件和非垃圾郵件。特征向量分為對訓練集中所有垃圾郵件中構成的特征向量（記做w）和訓練集中所有非垃圾郵件構成特征向量（記做w'）。對于w的計算實際就是統計所有訓練集中垃圾郵件中的每個單詞的出現情況，出現則次數加1。其計數初值為1，按照正常情況應為0，因為用的樸素貝葉斯算法，假設所有詞都互相獨立，就有p(w|ci) = p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)。所以當第i個單詞wi在其特征向量中沒有出現，則有p(wi|ci) =0,這就導致了p(w|ci)導致結果的不正確性。所以我們索性將所有單詞默認出現1遍，所以從1開始計數。對于w'的計算和w的計算方法相同，這里就不在贅述。

對于測試集的特征向量構建就是對每個郵件中單詞出現的次數進行統計，其單詞表可以來源于50個郵件中的所有單詞。對于每一個郵件中單詞如果出現就加1，其計數初值為0。每個測試集的郵件都需構建特征向量。其特征向量在python中可用列表表示。

構建貝葉斯分類器

對于分類器的訓練其目的訓練三個參數為p1Vect(w中每個單詞出現的概率構成的特征向量)、p0Vect(w'中每個單詞出現的概率構成的特征向量)和pAbusive(訓練集中垃圾郵件的概率)。對于p1Vect、p0Vect計算可能會造成下溢出，這是由于太多很小的數相乘造成的。當計算乘積p(w0|ci)p(w1|ci)p(w2|ci)...p(wN|ci)時，由于大部分因子都非常小，所以程序會下溢出或者得到不正確的答案。一種解決辦法是對乘積取自然對數。在代數中有ln(a*b) = ln(a)+ln(b)，于是通過求對數可以避免下溢出或者浮點數舍入導致的錯誤。同時，采用自然對數進行處理不會有任何損失。圖1給出函數f(x)與ln(f(x))的曲線。檢查這兩條曲線，就會發現它們在相同區域內同時增加或者減少，并且在相同點上取到極值。它們的取值雖然不同，但不影響最終結果。

python實現基于樸素貝葉斯的垃圾分類算法