CNNs
CNN RCNN MaskRCNN
摘自我的毕设论文: 目前实例分割任务的最好效果,是今年年初由何凯明等学者提出的Mask R-CNN网络结构所取得的[1],此项工作也获得了2017年ICCV的最佳论文奖。Mask R-CNN是在物体检测网络Faster R-CNN[2]的基础上将ROIPool网络替换成了RoIAlign网络结构(微调bounding box位置以更好适应语义分割的需要),并且在训练时采用了将像素分割和物体检测两个子任务解耦的策略,即针对每个类别估计一个像素分割的二值掩膜,与分类识别和bounding box框选同时进行。原初的R-CNN[4]网络结构是先用选择性搜索(Selective Search)生成大量不同尺寸的候选bounding box(每张正常尺寸的图片大约2k个bounding box),再由一个预先训练好的AlexNet网络(一种CNN网络)的变体来判别bounding box中是否有物体存在,再通过SVM来对物体进行分类,最后对所有有物体存在的bounding box坐标点做线性回归,聚合成一个最精准的bounding box。而Fast R-CNN[3]则是先用RPN网络结构(Region Proposal Network,也即RoI Pooling)在R-CNN的特征卷积层之上加了一个池化效果,再将经过池化的卷积特征用选择性搜索算法提出候选的bounding box,并进行分类和bounding box回归。这种做法将特征提取过程的效率提高了近两千倍,并将R-CNN的所有操作(CNN特征提取,SVM分类识别,bounding box线性回归)在一个统一的网络框架中实现。而Faster R-CNN则是将R-CNN中用于提出bounding box候选的选择性搜索算法替换成了一层在卷积层之后的全卷积网络,利用卷积层提取的信息来高效地提出bounding box候选(proposal)。以上提到的具体的网络结构(及其演变过程)可见五篇参考文献[1,2,3,4,5]。
Last updated
Was this helpful?