特點
- 這是分類算法貝葉斯算法的較為簡單的一種,整個貝葉斯分類算法的核心就是在求解貝葉斯方程P(y|x)=[P(x|y)P(y)]/P(x)
- 而樸素貝葉斯算法就是在犧牲一定準確率的情況下強制特征x滿足獨立條件,求解P(x|y)就更為方便了
- 但基本上現實生活中,沒有任何關系的兩個特征幾乎是不存在的,故樸素貝葉斯不適合那些關系密切的特征
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
|
from collections import defaultdict import numpy as np from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from loguru import logger class NaiveBayesScratch(): """樸素貝葉斯算法Scratch實現""" def __init__( self ): # 存儲先驗概率 P(Y=ck) self ._prior_prob = defaultdict( float ) # 存儲似然概率 P(X|Y=ck) self ._likelihood = defaultdict(defaultdict) # 存儲每個類別的樣本在訓練集中出現次數 self ._ck_counter = defaultdict( float ) # 存儲每一個特征可能取值的個數 self ._Sj = defaultdict( float ) def fit( self , X, y): """ 模型訓練,參數估計使用貝葉斯估計 X: 訓練集,每一行表示一個樣本,每一列表示一個特征或屬性 y: 訓練集標簽 """ n_sample, n_feature = X.shape # 計算每個類別可能的取值以及每個類別樣本個數 ck, num_ck = np.unique(y, return_counts = True ) self ._ck_counter = dict ( zip (ck, num_ck)) for label, num_label in self ._ck_counter.items(): # 計算先驗概率,做了拉普拉斯平滑處理,即計算P(y) self ._prior_prob[label] = (num_label + 1 ) / (n_sample + ck.shape[ 0 ]) # 記錄每個類別樣本對應的索引 ck_idx = [] for label in ck: label_idx = np.squeeze(np.argwhere(y = = label)) ck_idx.append(label_idx) # 遍歷每個類別 for label, idx in zip (ck, ck_idx): xdata = X[idx] # 記錄該類別所有特征對應的概率 label_likelihood = defaultdict(defaultdict) # 遍歷每個特征 for i in range (n_feature): # 記錄該特征每個取值對應的概率 feature_val_prob = defaultdict( float ) # 獲取該列特征可能的取值和每個取值出現的次數 feature_val, feature_cnt = np.unique(xdata[:, i], return_counts = True ) self ._Sj[i] = feature_val.shape[ 0 ] feature_counter = dict ( zip (feature_val, feature_cnt)) for fea_val, cnt in feature_counter.items(): # 計算該列特征每個取值的概率,做了拉普拉斯平滑,即為了計算P(x|y) feature_val_prob[fea_val] = (cnt + 1 ) / ( self ._ck_counter[label] + self ._Sj[i]) label_likelihood[i] = feature_val_prob self ._likelihood[label] = label_likelihood def predict( self , x): """ 輸入樣本,輸出其類別,本質上是計算后驗概率 **注意計算后驗概率的時候對概率取對數**,概率連乘可能導致浮點數下溢,取對數將連乘轉化為求和 """ # 保存分類到每個類別的后驗概率,即計算P(y|x) post_prob = defaultdict( float ) # 遍歷每個類別計算后驗概率 for label, label_likelihood in self ._likelihood.items(): prob = np.log( self ._prior_prob[label]) # 遍歷樣本每一維特征 for i, fea_val in enumerate (x): feature_val_prob = label_likelihood[i] # 如果該特征值出現在訓練集中則直接獲取概率 if fea_val in feature_val_prob: prob + = np.log(feature_val_prob[fea_val]) else : # 如果該特征沒有出現在訓練集中則采用拉普拉斯平滑計算概率 laplace_prob = 1 / ( self ._ck_counter[label] + self ._Sj[i]) prob + = np.log(laplace_prob) post_prob[label] = prob prob_list = list (post_prob.items()) prob_list.sort(key = lambda v: v[ 1 ], reverse = True ) # 返回后驗概率最大的類別作為預測類別 return prob_list[ 0 ][ 0 ] def main(): X, y = load_iris(return_X_y = True ) xtrain, xtest, ytrain, ytest = train_test_split(X, y, train_size = 0.8 , shuffle = True ) model = NaiveBayesScratch() model.fit(xtrain, ytrain) n_test = xtest.shape[ 0 ] n_right = 0 for i in range (n_test): y_pred = model.predict(xtest[i]) if y_pred = = ytest[i]: n_right + = 1 else : logger.info( "該樣本真實標簽為:{},但是Scratch模型預測標簽為:{}" . format (ytest[i], y_pred)) logger.info( "Scratch模型在測試集上的準確率為:{}%" . format (n_right * 100 / n_test)) if __name__ = = "__main__" : main() |
以上就是python 實現樸素貝葉斯算法的示例的詳細內容,更多關于python實現樸素貝葉斯算法的資料請關注服務器之家其它相關文章!
原文鏈接:https://www.cnblogs.com/xiaolongdejia/p/13715561.html