detr
简化了检测流水线,消除了许多手工设置的组件
单阶段目标检测
需要前置的backbone抽取特征
faster_rcnn和yolo都是基于anchor,anchor当作候选框,NMS非极大值抑制
重叠的框只保存一个,效率低
所以detr来了,transformer,既有encoder又有decoder,套一个transformer结构把100个框搞定
encoder就是一个transformer拿过来,得到一推patch特征
decoder:初始化100个向量,利用encoder生成出来的特征,决定每一个向量如何进行重构,每个向量对应一个坐标框分类的结果,一个boundingbox回归,一个cls分类
encoder是一个注意力机制
self-attention:相当于每个100个初始的向量进行任务分配,要的就是一个query,更decoder提供的k,v做一个整合,让我们的query做的更好,通过全连接,一个分类一个回归
传统transformer有mask机制,总之这里没有mask,
匈牙利匹配,按照loss最小的组合,找到哪是目标框,哪是背景
解码器的注意是相当局部的,这意味着它主要关注物体的四肢,我们假设在编码器通过全局注意分离实例后,解码器只需要注意末端就可以提取类和对象边界
人工设置的特征,机器学习算法
深度学习:
基于卷积神经网络cnn的架构(R-cnn,fast R-cnn,faster R-cnn)这些模型通过引入区域提议网络(RPNs)和端到端的训练方式