Faster R-CNN的四個(gè)模塊分別是什么,相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無(wú)策,為此本文總結(jié)了問(wèn)題出現(xiàn)的原因和解決方法,通過(guò)這篇文章希望你能解決這個(gè)問(wèn)題。
為曲陽(yáng)等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及曲陽(yáng)網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都網(wǎng)站設(shè)計(jì)、成都做網(wǎng)站、曲陽(yáng)網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!
Faster R-CNN是目標(biāo)檢測(cè)中較早提出來(lái)的兩階段網(wǎng)絡(luò),其網(wǎng)絡(luò)架構(gòu)如下圖所示:
可以看出可以大體分為四個(gè)部分:
在Conv Layers中,對(duì)輸入的圖片進(jìn)行卷積和池化,用于提取圖片特征,最終希望得到的是feature map。在Faster R-CNN中,先將圖片Resize到固定尺寸,然后使用了VGG16中的13個(gè)卷積層、13個(gè)ReLU層、4個(gè)maxpooling層。(VGG16中進(jìn)行了5次下采樣,這里舍棄了第四次下采樣后的部分,將剩下部分作為Conv Layer提取特征。)
與YOLOv3不同,F(xiàn)aster R-CNN下采樣后的分辨率為原始圖片分辨率的1/16(YOLOv3是變?yōu)樵瓉?lái)的1/32)。feature map的分辨率要比YOLOv3的Backbone得到的分辨率要大,這也可以解釋為何Faster R-CNN在小目標(biāo)上的檢測(cè)效果要優(yōu)于YOLOv3。
簡(jiǎn)稱RPN網(wǎng)絡(luò),用于推薦候選區(qū)域(Region of Interests),接受的輸入為原圖片經(jīng)過(guò)Conv Layer后得到的feature map。
RPN網(wǎng)絡(luò)將feature map作為輸入,然后用了一個(gè)3x3卷積將filter減半為512,然后進(jìn)入兩個(gè)分支:
一個(gè)分支用于計(jì)算對(duì)應(yīng)anchor的foreground和background的概率,目標(biāo)是foreground。
一個(gè)分支用于計(jì)算對(duì)應(yīng)anchor的Bounding box的偏移量,來(lái)獲得其目標(biāo)的定位。
通過(guò)RPN網(wǎng)絡(luò),我們就得到了每個(gè)anchor是否含有目標(biāo)和在含有目標(biāo)情況下目標(biāo)的位置信息。
對(duì)比RPN和YOLOv3:
都說(shuō)YOLOv3借鑒了RPN,這里對(duì)比一下兩者:
RPN:分兩個(gè)分支,一個(gè)分支預(yù)測(cè)目標(biāo)框,一個(gè)分支預(yù)測(cè)前景或者背景。將兩個(gè)工作分開來(lái)做的,并且其中前景背景預(yù)測(cè)分支功能是判斷這個(gè)anchor是否含有目標(biāo),并不會(huì)對(duì)目標(biāo)進(jìn)行分類。另外就是anchor的設(shè)置是通過(guò)先驗(yàn)得到的。
YOLOv3: 將整個(gè)問(wèn)題當(dāng)做回歸問(wèn)題,直接就可以獲取目標(biāo)類別和坐標(biāo)。Anchor是通過(guò)IoU聚類得到的。
區(qū)別:Anchor的設(shè)置,Ground truth和Anchor的匹配細(xì)節(jié)不一樣。
聯(lián)系:兩個(gè)都是在最后的feature map(w/16,h/16或者w/32,h/32)上每個(gè)點(diǎn)都分配了多個(gè)anchor,然后進(jìn)行匹配。雖然具體實(shí)現(xiàn)有較大的差距,但是這個(gè)想法有共同點(diǎn)。
這里看一個(gè)來(lái)自deepsense.ai提供的例子:
RoI Pooling輸入是feature map和RoIs:
假設(shè)feature map是如下內(nèi)容:
RPN提供的其中一個(gè)RoI為:左上角坐標(biāo)(0,3),右下角坐標(biāo)(7,8)
然后將RoI對(duì)應(yīng)到feature map上的部分切割為2x2大小的塊:
將每個(gè)塊做類似maxpooling的操作,得到以下結(jié)果:
以上就是ROI pooling的完整操作,想一想為何要這樣做?
在RPN階段,我們得知了當(dāng)前圖片是否有目標(biāo),在有目標(biāo)情況下目標(biāo)的位置?,F(xiàn)在唯一缺少的信息就是這個(gè)目標(biāo)到底屬于哪個(gè)類別(通過(guò)RPN只能得知這個(gè)目標(biāo)屬于前景,但并不能得到具體類別)。
如果想要得知這個(gè)目標(biāo)屬于哪個(gè)類別,最簡(jiǎn)單的想法就是將得到的框內(nèi)的圖片放入一個(gè)CNN進(jìn)行分類,得到最終類別。這就涉及到最后一個(gè)模塊:classification
ROIPooling后得到的是大小一致的feature,然后分為兩個(gè)分支,靠下的一個(gè)分支去進(jìn)行分類,上一個(gè)分支是用于Bounding box回歸。
分類這個(gè)分支很容易理解,用于計(jì)算到底屬于哪個(gè)類別。Bounding box回歸的分支用于調(diào)整RPN預(yù)測(cè)得到的Bounding box,讓回歸的結(jié)果更加精確。
看完上述內(nèi)容,你們掌握Faster R-CNN的四個(gè)模塊分別是什么的方法了嗎?如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!
本文題目:FasterR-CNN的四個(gè)模塊?分別是什么
文章路徑:http://jinyejixie.com/article14/ppidde.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供小程序開發(fā)、企業(yè)網(wǎng)站制作、做網(wǎng)站、域名注冊(cè)、用戶體驗(yàn)、動(dòng)態(tài)網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)