论文部分内容阅读
首先在网络Conv layers层对图片进行特征提取,在RPN层改变Anchors比例(1∶2),再修正Anchors获得精确的Proposals。在Roi Pooling层收集输入图片特征和Proposals,综合以上信息后提取Proposal feature maps。在Classification层计算Proposal的类别,获得检测框最终精确位置,并统计检测框数量,最终确定图片中的人数。