SCCLIP
2026/6/7 14:52:15 网站建设 项目流程

SCCLIP

动机

“anomaly tokens emerge during the forward pass, drawing excessive attention from normal patch tokens, thereby diminishing spatial awareness” (Bai 等, 2024, p. 1) (pdf) 🔤在前向传递过程中出现异常令牌,引起正常补丁令牌的过度关注,从而削弱空间意识🔤

引入额外骨干的网络往往意味着计算成本高,没有充分发掘CLIP本身的潜质。
中间特征表现出良好的语义一致性,并没有被充分利用。
中间层的特征相似度图表现良好,说明其空间定位能力不错,但中间层特征的语义信息较少

方法

异常token减少

只针对倒数第二层输出检查异常token
根据空间一致性原则,某异常token将会被3X3卷积进行插值,确保语义一致性。

特征聚合

使用中间层的特征增强深层特征。
利用中间层的相似度矩阵来强化深层特征的空间一致性。(强化周围patch的交互)

深层特征作者使用倒数第二层和最后一层
分别使用第9层和第4层作为相似度矩阵用于特征聚合。

作者认为KK这些自注意力激活仍然不够,所以使用中间层的相似度矩阵+KK自注意力作为最后一层的注意力分数

多级特征融合

作者发现直接使用多级中间特征融合不行,原因是与最后一层输出的相似度太低
作者发现使用最后一层的参数就可以很好的避免这一问题。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询