1. 项目概述与核心价值
如果你在过去两年里关注过计算机视觉领域,尤其是骨干网络(Backbone)的演进,那么“视觉Transformer”这个词一定不会陌生。自从ViT(Vision Transformer)在2021年横空出世,证明了纯Transformer架构在图像分类任务上可以匹敌甚至超越CNN以来,整个领域就掀起了一场“Transformer化”的浪潮。然而,直接将NLP领域的Transformer搬到视觉任务上,尤其是像目标检测、语义分割这类需要处理高分辨率特征图的密集预测任务时,问题就来了:计算复杂度太高,对局部信息的建模能力不足,处理变分辨率输入也不够灵活。
这就是PVT(Pyramid Vision Transformer)系列工作的出发点。第一代PVT v1首次将金字塔结构引入视觉Transformer,使其能够像ResNet等CNN骨干一样,输出多尺度特征图,从而无缝适配下游的密集预测任务。但PVT v1仍有其局限,比如计算开销大、局部连续性建模弱。而今天我们要深入拆解的PVT v2,正是针对这些痛点的一次精准“外科手术”。它没有颠覆性的架构革命,而是通过三个看似精巧、实则至关重要的改进——线性空间缩减注意力(Linear SRA)、重叠补丁嵌入(Overlapping Patch Embedding)和卷积前馈网络(Convolutional FFN)——将PVT v1打磨成了一个更强大、更高效的基线模型。
我之所以花时间深入研究PVT v2,是因为在实践项目中,选择一个合适的骨干网络往往是成败的关键。尤其是在资源受限的边缘设备或需要实时处理的应用中,我们既需要模型有强大的特征提取能力,又必须严格控制其计算量和参数量。PVT v2在这两者之间取得了出色的平衡。官方数据显示,其最大的B5版本在ImageNet上达到了83.8%的Top-1准确率,超越了同期著名的Swin Transformer,同时参数量和计算量(GFLOPs)还更少。在COCO目标检测和ADE20K语义分割任务上,PVT v2作为骨干网络,也能显著提升检测器和分割器的性能。这不仅仅是论文里的数字游戏,它意味着在实际部署时,你可以用更少的计算资源获得更好的性能,或者在同等的资源下处理更高分辨率的输入,这对于工业级应用的价值是实实在在的。
2. PVT v1的局限与v2的改进蓝图
在深入PVT v2的三个核心改进之前,我们必须先搞清楚PVT v1到底卡在了哪里。知其然,更要知其所以然,这样才能理解后续每一个改进设计的动机。
2.1 PVT v1面临的三大挑战
PVT v1的核心思想是构建一个四阶段的金字塔结构,每个阶段通过补丁嵌入(Patch Embedding)降低空间分辨率并增加通道数,然后堆叠Transformer编码器层。然而,这套设计在应对密集预测任务时暴露了三个主要问题:
计算复杂度高,尤其是处理高分辨率输入时:这是最头疼的问题。Transformer中自注意力(Self-Attention)的计算复杂度与序列长度的平方成正比。在PVT v1中,为了降低计算量,它引入了空间缩减注意力(Spatial Reduction Attention, SRA)。具体做法是,在计算注意力前,先用一个步长为R的卷积(或类似操作)将特征图的空间尺寸(HxW)缩小到原来的1/R。这样,参与注意力计算的序列长度就从HxW变成了(H/R)x(W/R),复杂度得以降低。但问题在于,这个卷积操作本身也有计算成本。当输入分辨率很大(例如短边800像素以上)时,即使经过缩减,计算量依然可观,限制了模型处理高分辨率图像的能力和速度。
局部连续性信息丢失:ViT和PVT v1都将图像分割成一系列不重叠的(Non-overlapping)图像块(Patch),然后将每个块展平为一个令牌(Token)。这种做法就像用一个个不透明的方形瓦片紧密地铺满图像,瓦片之间的边缘信息被完全割裂了。在自然图像中,物体的边缘、纹理的过渡往往是连续的,这种硬性的分割方式会损失掉块与块之间的局部相关性,不利于模型捕捉细微的、局部的特征模式,而这对于需要精细定位的目标检测和分割任务尤为重要。
固定尺寸的位置编码不够灵活:PVT v1沿用了ViT中的绝对位置编码(或可学习的位置编码),这些编码的长度是固定的,与训练时输入的图像块序列长度绑定。然而,在推理阶段,尤其是密集预测任务中,我们经常需要处理与训练时分辨率不同的图像。此时,固定长度的位置编码就需要进行插值处理,这种插值可能会引入噪声,破坏位置信息的准确性,导致模型性能下降。
2.2 PVT v2的改进思路:融合CNN的智慧
PVT v2的改进思路非常清晰:在保持Transformer全局建模能力优势的同时,巧妙地引入卷积神经网络(CNN)的经典设计思想,来弥补上述不足。这并非简单的“缝合”,而是有针对性的优势互补。
- 针对计算复杂度:用更高效的线性空间缩减注意力(Linear SRA)替换原来的SRA,将计算复杂度从二次方降低到线性,使其增长趋势与CNN骨干(如ResNet)看齐。
- 针对局部连续性:在图像分块的入口(重叠补丁嵌入)和特征变换的中间(卷积前馈网络)引入重叠和卷积操作,让模型能够“看到”块与块之间的信息,增强对局部上下文的感知。
- 针对位置编码:通过上述两个引入卷积/重叠的操作,隐式地赋予了模型感知位置信息的能力(因为卷积操作本身具有平移等变性,且零填充隐含了位置信息),从而可以彻底移除固定的位置编码,使模型能更灵活地处理任意分辨率的输入。
这套组合拳打下来,PVT v2不仅解决了v1的问题,还在性能上实现了全面超越。下面,我们就来逐一拆解这三个核心改进的细节。
3. 核心改进一:线性空间缩减注意力(Linear SRA)
自注意力机制是Transformer的灵魂,但其O(N²)的复杂度(N为序列长度)也是其最大的负担。PVT v1的SRA是一种缓解方案,但PVT v2的Linear SRA将其优化得更彻底。
3.1 从SRA到Linear SRA:计算复杂度的本质降低
我们先回顾一下PVT v1的SRA。假设输入特征图尺寸为H x W x C,它先通过一个空间缩减操作(通常是一个步长为R的卷积)将尺寸缩小为(H/R) x (W/R) x C。然后在这个缩减后的特征图上计算自注意力。其计算复杂度公式(论文中给出)为:Ω(SRA) = 2H²W²C / R² + HWC² / R²这个公式的第一项是注意力权重的计算开销(与序列长度平方相关),第二项是价值(Value)投影等的开销。虽然除以R²后复杂度降低了,但第一项仍然是关于H和W的四次方项,只是系数变小了。当H和W很大时,这项开销依然主导。
PVT v2的Linear SRA则采用了不同的策略。它不再使用卷积进行复杂的下采样,而是直接对输入特征图进行自适应平均池化(Adaptive Average Pooling),将其池化到一个固定的、较小的尺寸P x P(论文中设定P=7)。然后再在这个固定大小的特征图上计算自注意力。其复杂度公式为:Ω(linear SRA) = 2HWP²C这个公式的关键在于,复杂度变成了与输入尺寸H x W成线性关系,而不再是四次方关系。池化操作(P²)的成本是固定的、极低的。
实操心得:这里选择P=7是一个经验值,它平衡了计算效率和特征保留。在代码实现时,
torch.nn.AdaptiveAvgPool2d((P, P))一行代码就能搞定。这个设计非常巧妙,它相当于在计算全局注意力之前,先对特征图进行了一次“抽象摘要”,用固定数量的“代表”来近似整个特征图的信息交互,从而实现了线性复杂度。
3.2 线性复杂度的实际意义
为了直观感受这种改进,我们可以看论文中的图4(虽然这里无法展示,但可以描述)。该图对比了PVT v1-Small、PVT v2-B2-Li和ResNet-50在不同输入尺寸下的GFLOPs(十亿次浮点运算)增长曲线。随着输入边长从224像素增加到800像素,PVT v1的计算量急剧上升,曲线陡峭。而PVT v2-B2-Li和ResNet-50的曲线则平缓得多,增长趋势基本一致。这意味着,PVT v2在处理高分辨率图像(如检测和分割任务中的大图)时,其计算开销是可预测、可承受的,不再是一个令人望而却步的瓶颈。
这对于部署至关重要。在移动端或边缘设备上,内存和算力是硬约束。Linear SRA使得基于Transformer的骨干网络在这些场景下的应用成为可能。在消融实验中,将SRA替换为Linear SRA(LSRA)后,PVT v2-B2模型在ImageNet上的精度仅从82.0%微降到82.1%,但在COCO检测任务上的计算量(GFLOPs)却大幅减少了约22%。这种用极小的精度代价换取巨大的效率提升,在工程上是极其划算的。
4. 核心改进二:重叠补丁嵌入(Overlapping Patch Embedding)
如果说Linear SRA解决了“算不起”的问题,那么重叠补丁嵌入(OPE)则旨在解决“看不细”的问题。
4.1 从“瓦片”到“滑动窗口”
传统的ViT和PVT v1的补丁嵌入,就像用不重叠的方形瓦片切割图像。假设补丁大小为P=4,步长S=4,那么每个4x4的块独立成为一个令牌,块与块之间没有信息交流。PVT v2的OPE改变了这一过程,它让相邻的补丁窗口重叠一半的面积。
具体实现上,它使用一个卷积层来完成这个操作。假设我们希望输出的空间下采样倍数为S(即步长),为了让窗口重叠,卷积核的大小设置为K = 2S - 1,填充大小P = S - 1。例如,当S=4时,卷积核大小K=7,填充P=3。这样一个7x7的卷积核以步长4滑动,相邻窗口就会有3个像素的重叠区域。
技术细节:为什么是
K=2S-1和P=S-1?这确保了输出特征图的空间尺寸正好是输入的1/S。推导一下:输出尺寸 = (输入尺寸 + 2*P - K) / S + 1。代入P=S-1,K=2S-1,可得输出尺寸 = (H + 2(S-1) - (2S-1)) / S + 1 = (H -1) / S + 1。当H能被S整除时,输出尺寸就是 H/S。重叠区域为K - S = S - 1。
4.2 重叠带来的好处
这种重叠设计带来了两个核心优势:
增强局部连续性建模:重叠区域使得每个令牌(Token)在生成时,不仅包含了自身补丁的信息,还“窥见”了相邻补丁边缘部分的信息。这相当于在最早的阶段就引入了局部上下文,让模型能够更好地感知边缘、角落等细微结构。这非常符合人类的视觉感知——我们识别物体时,边界信息至关重要。在消融实验中,仅将原始补丁嵌入(PE)替换为OPE,就使PVT v2-B2在ImageNet上的Top-1准确率从79.8%提升到了81.1%,在COCO检测上的AP从40.4提升到了42.2,提升非常显著。
隐式位置信息:卷积操作本身具有平移等变性(Translation Equivariance),即输入平移,输出也相应平移。这种属性天然地编码了位置信息。同时,零填充(Zero Padding)操作也在特征图边界引入了绝对位置的暗示。因此,通过引入OPE(以及下一节的CFFN),PVT v2可以完全摒弃ViT/PVT v1中需要手动设计、且对分辨率敏感的位置编码,使模型能够更自然地处理任意尺寸的输入,提升了模型的泛化能力和灵活性。
5. 核心改进三:卷积前馈网络(Convolutional FFN)
标准Transformer的前馈网络(FFN)通常由两个全连接层和一个激活函数(如GELU)组成:FFN(x) = FC2(GELU(FC1(x)))。这个结构是位置无关的,对所有令牌进行相同的变换。PVT v2在这里也动了一个小手术,引入了卷积前馈网络(Convolutional FFN, CFFN)。
5.1 在FFN中注入卷积
CFFN的结构是在第一个全连接层(FC1)和GELU激活函数之间,插入一个3x3的深度可分离卷积(Depthwise Convolution),并设置填充(Padding)为1。深度可分离卷积是MobileNet等轻量级网络中的经典组件,它先对每个输入通道单独进行空间卷积(深度卷积),再用1x1卷积(逐点卷积)进行通道混合。在这里,PVT v2主要利用了其深度卷积部分。
所以,CFFN的流程变为:CFFN(x) = FC2( DWConv3x3( GELU( FC1(x) ) ) )。注意,原论文图示和部分描述可能顺序略有不同,但核心思想一致:在特征进行非线性变换和通道升维/降维的过程中,插入一个轻量的空间卷积。
5.2 CFFN的双重作用
这个设计的意图非常明确:
进一步强化局部特征提取:全连接层是全局操作,但缺乏空间归纳偏置。插入一个3x3卷积,相当于在特征图的每个位置,让其与周围的8个邻居进行信息交互。这为FFN注入了强大的局部先验(Local Prior),使其能够更好地建模像素/令牌之间的空间局部关系,与OPE形成呼应,共同增强了模型对局部模式的捕捉能力。
辅助提供位置信息:和OPE中的卷积一样,这个3x3深度卷积(配合零填充)也进一步增强了模型的位置感知能力。它使得模型即使在没有显式位置编码的情况下,也能通过卷积的填充操作感知到特征在空间中的相对和绝对位置。这正是PVT v2能够彻底移除固定位置编码的关键一环。
在消融实验中,在已经使用OPE的基础上加入CFFN,ImageNet精度从81.1%进一步提升到82.0%,COCO检测AP从42.2提升到44.6。这表明,即使在已经有了重叠嵌入的情况下,在更深层的特征变换中继续注入局部性先验,仍然能带来可观的性能增益。
6. PVT v2系列模型配置与实战解析
理解了三大核心改进后,我们来看看PVT v2具体有哪些型号,以及如何在实际项目中选择和运用它们。
6.1 模型规格总览
PVT v2提供了从轻量级到重量级的6个变体:B0, B1, B2, B2-Li, B3, B4, B5。这里的“B”可以理解为“Block”或“Base”的规模。B2-Li是B2的一个特殊版本,使用了Linear SRA(Li即Linear的缩写),其他版本使用原始的SRA。
每个变体都遵循经典的金字塔四阶段设计,每个阶段(Stage)包含一个重叠补丁嵌入层和若干个Transformer编码器层。模型配置的核心超参数包括:
Si: 第i阶段重叠补丁嵌入的步长(控制下采样率)。Ci: 第i阶段输出特征的通道数。Li: 第i阶段堆叠的Transformer编码器层数。Ri: 第i阶段SRA的空间缩减比率(B2-Li等使用Linear SRA的版本,此项被固定池化大小Pi=7替代)。Ni: 第i阶段多头注意力中头的数量。Ei: 第i阶段前馈网络中间层的扩展比率(通常是4或8)。
从B0到B5,模型容量逐渐增大,表现为通道数Ci和层数Li的增加。特别值得注意的是Stage 3,它通常具有最大的计算开销(GFLOPs),因为此时特征图尺寸适中(如输入224x224时,Stage 3为14x14),通道数已经增长,但序列长度还未缩减到最小,是计算和表征的瓶颈阶段,因此B3、B4、B5在这个阶段堆叠了非常多的层数(L3分别为18, 27, 40)。
6.2 如何根据任务选择模型?
选择哪个版本的PVT v2,取决于你的具体任务、可用算力和对精度/速度的权衡。
- 轻量级部署(移动端/边缘计算):PVT v2-B0/B1是首选。B0仅有340万参数和0.6 GFLOPs(224x224输入),在ImageNet上能达到70.5%的Top-1精度,已经超越了ResNet-18。B1参数为1310万,精度达到78.7%,是替代ResNet-50的强力候选。它们非常适合对实时性要求高、资源受限的场景。
- 通用高性能骨干:PVT v2-B2/B2-Li是甜点型号。B2拥有2540万参数,在分类、检测、分割任务上提供了极佳的性价比。B2-Li(2260万参数)通过使用Linear SRA,在精度轻微损失(ImageNet 82.1% vs 82.0%)的情况下,大幅降低了计算复杂度,是追求效率的优选。在COCO检测任务上,基于B2的GFL检测器达到了50.2 AP,显著优于同规模的Swin-T和ResNet-50。
- 追求极致精度:PVT v2-B4/B5瞄准的是SOTA竞赛。B5以8200万参数和11.8 GFLOPs,在ImageNet上取得了83.8%的Top-1准确率,超越了参数量更大的Swin-B和Twins-SVT-L。如果你的任务对精度要求极高,且拥有充足的GPU资源(例如多卡训练),B4/B5将是强大的基础模型。
实操心得:在目标检测和语义分割任务中,Stage 3和Stage 4输出的特征图最为重要。Stage 3(下采样16倍)具有丰富的语义信息和适中的空间分辨率,是检测中小物体和进行精细分割的关键。Stage 4(下采样32倍)语义信息最强,常用于检测大物体或作为分割头的主要输入。因此,在选择模型时,可以重点关注B3/B4/B5在Stage 3的配置(通道数C3和层数L3),这通常决定了模型在密集预测任务上的潜力。
6.3 代码实现与使用要点
PVT v2的官方实现开源在GitHub上(whai362/PVT)。在实际使用时,有以下几个关键点需要注意:
- 位置编码的处理:由于OPE和CFFN已经隐式提供了位置信息,PVT v2的代码中完全移除了可学习的位置编码(pos_embed)。这是与PVT v1/ViT代码的一个主要区别。在加载预训练权重时务必注意,不要错误地初始化或保留位置编码参数。
- 重叠补丁嵌入的实现:在代码中,
OverlapPatchEmbed类通过一个卷积层实现。你需要根据阶段配置正确的kernel_size和padding。例如,对于Stage 1(下采样4倍),通常kernel_size=7, stride=4, padding=3。 - Linear SRA的实现:在
SpatialReductionAttention模块中,如果使用Linear SRA,则会调用nn.AdaptiveAvgPool2d将特征图池化到固定尺寸(如7x7),然后再展平、计算注意力。确保在初始化模型时正确选择sr_ratio(对于Linear SRA,sr_ratio可能被设置为1,而通过一个独立的pool_size参数控制池化大小)。 - 与下游任务头的衔接:PVT v2作为骨干网络,输出的是多尺度特征图(通常是Stage 1到Stage 4的输出)。在接入FPN(特征金字塔网络)、检测头(如RetinaNet Head、FCOS Head)或分割头(如FPN、UPerHead)时,需要根据这些特征图的通道数(C1到C4)来配置对应模块的输入通道。官方代码通常提供了与MMDetection、MMSegmentation等框架集成的示例配置文件,强烈建议参考这些配置进行修改。
7. 实验结果深度解读与横向对比
论文中大量的实验数据是PVT v2实力的最好证明。我们不仅仅要看它超越了谁,更要理解它为什么能超越,以及在不同任务上的表现细节。
7.1 图像分类:效率与精度的新标杆
在ImageNet-1K数据集上,PVT v2系列全面超越了PVT v1和一系列强大的CNN/Transformer基线模型。
- 轻量级战场:PVT v2-B1(13.1M params, 2.1 GFLOPs, 78.7% Acc)以更少的计算量,显著超越了PVT v1-Tiny(75.1% Acc)和经典的ResNet-50(76.1% Acc)。这证明了其改进设计的有效性,即使在小型模型上也能带来巨大增益。
- 主流级对决:PVT v2-B2/B2-Li与Swin-T、Twins-SVT-S等同期优秀Transformer模型展开竞争。PVT v2-B2以25.4M参数取得82.0%的准确率,而B2-Li以更少的22.6M参数和3.9 GFLOPs取得了82.1%的准确率,在效率上优势明显。
- 重量级巅峰:PVT v2-B5以83.8%的Top-1准确率,超越了参数量更大的Swin-B(83.3%)和Twins-SVT-L(83.7%),同时GFLOPs(11.8)还更低。这标志着PVT v2在精度-效率的帕累托前沿上占据了有利位置。
关键启示:PVT v2的成功并非单纯靠堆叠参数。其线性复杂度的注意力、增强的局部建模能力,使得它在相同的计算预算下,能学习到更有效的特征表示。
7.2 目标检测:骨干网络的全面胜利
在COCO 2017 val数据集上,PVT v2作为骨干网络,搭配多种主流检测器(RetinaNet, Mask R-CNN, Cascade R-CNN, ATSS, GFL, Sparse R-CNN)都取得了显著提升。
- 显著提升:以RetinaNet为例,PVT v2-B4达到了46.1 AP,比PVT v1-Large的42.6 AP高出3.5个点。在更先进的检测器如GFL上,PVT v2-B2达到了50.2 AP,比使用Swin-T高出2.6 AP,比使用ResNet50高出5.7 AP。这充分说明PVT v2提取的特征质量更高,更有利于定位和分类。
- 公平比较:为了与Swin Transformer进行公平对比,论文在相同的训练策略(ImageNet预训练、COCO微调)下进行了实验。在ATSS、GFL等检测器上,PVT v2-B2 consistently outperforms Swin-T by a large margin (e.g., +2.7 AP on ATSS)。这强有力地证明了PVT v2架构设计本身的优越性,而非训练技巧的差异。
- 效率优势:PVT v2-B2-Li在检测任务上同样展现了效率优势。在ATSS检测器上,它将计算量从258 GFLOPs降低到194 GFLOPs,而AP仅从49.9下降到48.9,为实时检测应用提供了极具吸引力的选择。
7.3 语义分割:密集预测能力的体现
在ADE20K语义分割数据集上,使用简单的Semantic FPN作为分割头,PVT v2 backbone同样表现出色。
- 全面超越:PVT v2-B1/B2/B3/B4相比对应的PVT v1版本,mIoU提升了至少5.3个百分点。例如,PVT v2-B4达到了47.9 mIoU,而PVT v1-Large为42.1 mIoU。
- 超越强CNN基线:PVT v2-B4(66.3M params, 81.3 GFLOPs, 47.9 mIoU)以更少的计算量,大幅超越了更重型的ResNeXt101-64x4d(86.4M params, 103.9 GFLOPs, 40.2 mIoU)。这再次验证了Transformer架构在捕捉全局上下文信息上的优势,这对于理解整个场景的语义分割任务至关重要。
8. 常见问题、避坑指南与扩展思考
在实际研究和项目中使用PVT v2时,我遇到过一些典型问题,也总结了一些经验。
8.1 训练技巧与调参经验
- 学习率与优化器:论文中使用AdamW优化器,权重衰减为5e-2,初始学习率1e-3,并采用余弦退火调度。这是一个非常稳健的配置。对于你自己的数据集,如果是从头训练(Scratch),可以大致沿用这个配置。如果是微调(Fine-tuning),初始学习率可以设得更小(如1e-4或5e-5)。
- 数据增强:PVT v2的训练采用了DeiT的策略,包括RandAugment、Mixup、CutMix、Random Erasing等。这些强数据增强对于防止Transformer模型过拟合、提升泛化能力至关重要。不要轻易省略或减弱数据增强,尤其是在数据集规模不大的情况下。
- 分辨率适应:由于移除了固定位置编码,PVT v2理论上可以处理任意分辨率的输入。但在实践中,如果微调时输入分辨率与预训练时(通常是224x224)相差过大,可能需要对patch embedding的卷积核进行双线性插值来适应新的步长需求,或者简单地采用适应不同分辨率的positional bias(如果模型有的话)。更好的做法是,在预训练时就采用多尺度训练策略。
8.2 部署与优化注意事项
- 计算图优化:PVT v2中的自适应平均池化(Linear SRA)和深度可分离卷积(CFFN)在现代深度学习框架(PyTorch, TensorFlow)中都有高效实现。但在部署到特定硬件(如NVIDIA TensorRT, 移动端NPU)时,需要确认这些算子是否被良好支持,或者是否有更优的融合实现。
- 模型量化:PVT v2对量化是否友好?从结构上看,其操作以线性层、卷积和注意力为主,属于对量化相对友好的类型。但在实际量化(尤其是INT8量化)时,注意力机制中的Softmax操作和矩阵乘法可能需要特别处理以保持精度。建议使用PyTorch的FX Graph Mode Quantization或TensorRT的QAT工具进行量化感知训练。
- 变体选择:再次强调,PVT v2-B2-Li是平衡精度与效率的绝佳选择。如果你需要更高的精度,再考虑B3/B4。对于移动端,B0/B1是起点。不要盲目追求大模型。
8.3 未来方向与扩展思考
PVT v2的成功给了我们很多启示,也指明了后续工作的可能方向:
- 与其它架构思想的结合:PVT v2证明了将CNN的局部性先验与Transformer的全局注意力相结合是有效的。未来是否可以融入动态卷积、注意力机制中的稀疏性、或更高效的门控机制?例如,能否将Linear SRA中的池化操作替换为可学习的、自适应的特征摘要机制?
- 面向特定任务的定制化:PVT v2是一个通用骨干。在医疗影像、遥感图像、视频理解等特定领域,其补丁嵌入方式、阶段设计、注意力机制是否可以针对领域特点进行定制?例如,在视频中,是否可以设计时空重叠补丁嵌入?
- 无监督/自监督预训练:PVT v2的官方权重是在有监督ImageNet上预训练的。在大规模无标签数据上采用MAE、MoCo v3等自监督方法进行预训练,能否进一步释放其潜力?许多实验表明,Transformer架构尤其受益于大规模自监督预训练。
PVT v2通过一系列深思熟虑的改进,将金字塔视觉Transformer推上了一个新的高度。它没有追求复杂的创新,而是精准地解决了前代模型的痛点,最终呈现出一个强大、高效且实用的基线模型。无论是作为学术研究的起点,还是工业落地的备选,PVT v2都值得我们将其放入工具箱,并深入理解其设计背后的每一个权衡与智慧。