久久久久免费精品国产,在线视频中文字幕,青娱乐国产

retinaface 人臉檢測算法

甜點

最近一直了解人臉檢測的算法，所以也嘗試學多人臉檢測框架。所以這里將拿出來和大家分享一下

Retinaface 與普通的目標檢測算法類似，在圖片上預先設定好一些先驗框，這些先驗框會分布在整個圖片上，網絡內部結構會對這些先驗框進行判斷看是否包含人臉，同時也會調整位置進行調整并且給每一個先驗框的一個置信度。

在 Retinaface 的先驗框不但要獲得人臉位置，還需要獲得每一個人臉的五個關鍵點位置

接下來我們對 Retinaface 執行過程其實就是在圖片上預先設定好先驗框，網絡的預測結果會判斷先驗框內部是否包含人臉并且對先驗框進行調整獲得預測框和五個人臉關鍵點。

主干特征提取網絡

mobileNet 和 Resnet
在主干網絡(例如 mobileNetv1) 不斷進行特征提取，在特征提取過程就是壓縮長寬到深度(通道擴張)上過程(下采樣)

mobileNet

MobileNet 網絡是由 google 團隊在 2017 年提出的，專注移動端和嵌入式設備中輕量級 CNN 網絡，在大大減少模型參數與運算量下，對于精度只是小幅度下降而已。

加強特征提取網絡 FPN 和 SHH

FPN 構建就是生成特征圖進行融合，通過上采樣然后和上一層的有效特征層進行

SSH 的思想非常簡單，使用了 3 個并行結構，利用 3 x 3 卷積的堆疊代替 5 x 5 與 7 x 7 卷積的效果，

retina head

在主干網絡輸出的相當輸出了不同大小網格，用于檢測不同大小目標，先驗框默認數量為 2，這些先驗框用于檢測目標，然后通過調整得到目標邊界框。

face classification 用于檢測先驗框中是否存在人臉。也就是判斷先驗框內部是否包含目標，利用一個 1 x 1 的卷積，將 SSH 的通道數調整成 num_anchors x 2 ，用于代表每個先驗框內部包含人臉的概率，這里覺得有必要解釋一下 2，通常不就是用一個概率來表示先驗框存在人臉的概率，而在這里用了兩個值來表示人臉是否存在先驗框內的概率。其實在兩個值中，如果第一個值比較大，就表示有人臉，那么如果第二值比較大，表示沒有人臉存在
face box regression 用于調整先驗框的中心和寬高，用四個參數對先驗框進行調整。此時可以利用 1 x 1 的卷積，將 SSH 的通道數調整成 num_anchors x 4 用于表示每個先驗框的調整參數
facial landmark regression 對先驗框進行調整獲得人臉關鍵點，每一個人臉關鍵點需要兩個調整參數，一共有五個人臉關鍵點。此時利用 1 x 1 的卷積，將 SSH 通道調整成為 num_anchor(num_anchors x 5 x 2) 表示每個先驗框的每一個人臉關鍵點的調整，5 就是人臉上 5 個關鍵點，這里 2 表示對人臉中心點進行調整的參數。

FPN

class FPN(nn.Module):

    def __init__(self,in_channels_list,out_channels):

        super(FPN,self).__init__()

        leaky = 0

        if (out_channels <= 64):

            leaky = 0.1



        # 利用 1x1 卷積對獲得的3有效特征層進行通道數的調整，輸出通道數都為 64

        self.output1 = conv_bn1X1(in_channels_list[0], out_channels, stride = 1, leaky = leaky)

        self.output2 = conv_bn1X1(in_channels_list[1], out_channels, stride = 1, leaky = leaky)

        self.output3 = conv_bn1X1(in_channels_list[2], out_channels, stride = 1, leaky = leaky)

        self.merge1 = conv_bn(out_channels, out_channels, leaky = leaky)

        self.merge2 = conv_bn(out_channels, out_channels, leaky = leaky)

    def forward(self, input):

        # names = list(input.keys())

        input = list(input.values())

        #

        output1 = self.output1(input[0])

        output2 = self.output2(input[1])

        output3 = self.output3(input[2])

        # 對于最小特征層進行上采樣來獲得 up3

        up3 = F.interpolate(output3, size=[output2.size(2), output2.size(3)], mode="nearest")

        # 然后將最小特征層經過上采用獲得結果和中間有效特征層進行相加

        output2 = output2 + up3

        # 進行 64 通道卷積進行特征整合

        output2 = self.merge2(output2)

        # 這個步驟和上面類似

        up2 = F.interpolate(output2, size=[output1.size(2), output1.size(3)], mode="nearest")

        output1 = output1 + up2

        output1 = self.merge1(output1)

        out = [output1, output2, output3]

        return out

SSH

class SSH(nn.Module):

    def __init__(self, in_channel, out_channel):

        super(SSH, self).__init__()

        assert out_channel % 4 == 0

        leaky = 0

        if (out_channel <= 64):

            leaky = 0.1

        self.conv3X3 = conv_bn_no_relu(in_channel, out_channel//2, stride=1)

        # 用 2 個 3 x 3 的卷積來代替 5 x 5 的卷積

        self.conv5X5_1 = conv_bn(in_channel, out_channel//4, stride=1, leaky = leaky)

        self.conv5X5_2 = conv_bn_no_relu(out_channel//4, out_channel//4, stride=1)

        # 使用 3 個 3 x 3 的卷積來代替 7 x 7 的卷積

        self.conv7X7_2 = conv_bn(out_channel//4, out_channel//4, stride=1, leaky = leaky)

        self.conv7x7_3 = conv_bn_no_relu(out_channel//4, out_channel//4, stride=1)

    def forward(self, input):

        conv3X3 = self.conv3X3(input)

        conv5X5_1 = self.conv5X5_1(input)

        conv5X5 = self.conv5X5_2(conv5X5_1)

        conv7X7_2 = self.conv7X7_2(conv5X5_1)

        conv7X7 = self.conv7x7_3(conv7X7_2)

        # 堆疊

        out = torch.cat([conv3X3, conv5X5, conv7X7], dim=1)

        out = F.relu(out)

        return out