HybridCR: weakly-supervised 3D point cloud semantic segmentation via hybrid contrastive regularization
基于混合对比学习正则化约束的增强方法,Li 等人(2022a)使用极少标注(0. 03%)在室内点云数据集上获得的分割精度为全监督方法的78. 3%。
是第一个利用点一致性并以端到端方式采用对比正则化和伪标签的框架。HybridCR 明确有效地考虑了局部相邻点和 3D 类的全局特征之间的语义相似性。我们进一步设计了一个动态点云增强器来生成多样性和鲁棒性的样本视图,其变换参数与模型训练联合优化。
局部和全局的混合对比正则化。
左:鼓励锚点与匹配的正点及其邻居(绿色圆圈)相似,同时与负点及其邻居(红色圆圈)不相似。
右:鼓励锚点与匹配的正点和属于同一类的其他点(绿色框中)相似,而与不同类的负点(红色框中)不相似。
探索同时利用标签空间和特征空间的一致性和对比性。受最近的 3D PSD [38] 和 2D FixMatch [27] 的启发,我们将伪标签和一致性正则化策略结合在大规模点云的端到端训练方案中。为了更好地利用对比信息,我们重新设计了锚点的正对和负对。一个关键的观察是,高级语义场景理解不仅需要局部几何特征,还需要全局几何特征,使得点云实例对比更加充分。此外,在分类任务中的PointAugment [15]的推动下,我们进一步引入动态点云增强器来提供一致性变换和对比正则化联合优化。
为了实现上述想法,我们提出了一种称为混合对比正则化(HybridCR)的新范式,用于大规模点云上的弱监督语义分割,其中包括局部和全局指导对比学习以及动态点云变换。如图1所示,局部引导对比正则化迫使不同视图的数据样本靠近其邻居,远离其他点。对于全局指导对比正则化,每个样本都被强制接近其类别的原型并远离不同类别的原型。从根本上说,HybridCR 明确有效地考虑了局部相邻点之间的语义相似性和 3D 点云类的全局特征。此外,所提出的动态点云增强器使用多层感知器(MLP)和高斯噪声来丰富上下文位移中的数据多样性,其中增强器的参数可以与模型训练联合优化。大量实验表明,HybridCR 在室内场景(即 S3DIS [1] 和 ScanNet-V2 [6])和室外场景(即 Semantic3D [8] 和 SemanticKITTI [2])上均实现了 SOTA 性能,证明了我们提出的方法的有效性框架。
对比预训练
首先由Xie等人[32]提出,并通过提出点云场景的对比学习框架来启动工作。但它主要关注100%标签的下游任务。 Hou等人[9]利用场景的固有属性来扩展网络的可迁移性。 Li等人[12]提出了引导点对比损失并利用伪标签来学习判别特征。然而它们仅在特征空间中进行点级对比,而忽略了点云的固有属性,即几何结构和类语义。
HybridCR重新设计了大规模点云的局部和全局正负对,并充分探索如何以端到端的方式利用并同时强化一致性和对比属性。
图 2. 原始点云首先被输入动态增强器以生成增强点。然后,原始点和增强点通过 Siamese 网络生成模型对所有点的预测,以及具有高置信度的未标记点的伪标签。点级一致性损失Lcon和对比度损失Lcra用于所有点的预测,而softmax交叉熵损失Lseg则用于标记点的监督。同时,伪标签用于计算每个类的原型。最后,HybridCR从局部和全局角度进行,形成局部和全局指导对比损失(即Llcl和Lgcl),为特征学习提供正则化。通过这种方式,HybridCR服务于端到端训练方案中的弱监督框架
3.1.预备知识
问题设置和符号。
我们设 D 为点云数据集,定义为
其中 N 表示总点数,M 是标记点的数量,Xl 和 Xu 是标记点和未标记点的集合。对于 Xu ,标签不存在,通常被动态生成的伪标签 Y p 替换。因此,Y = Y l ∪ Y p 是弱监督语义分割的整个标签集。请注意,Y l 是固定的,但 Y p 在训练期间会更新。形式上,给定带有一小部分标签的大规模点云作为输入,弱监督语义分割旨在学习函数:f:Xl∪Xu→Y。具体来说,对于1%的设置,标记点的数量为M = 1%N,并且所有标记点都是随机选择的。 1pt 表示每个类别仅标记有一个真实点,因此标记点的数量 M 等于类别 C 的数量。请注意,所有标记点都是随机选择的。
点级一致性和对比度。
点级一致性[33,38]已广泛应用于弱监督点云语义分割,它将具有不同增强的对应点对强制进入孪生网络从而具有相同的特征表示。形式上,点级一致性损失的公式为:
其中 ~yi = f(xi) 和 ^yi = f(^xi) 分别是通过原始分支和数据增强分支的第 i 个点的预测概率。 JS 是 JensenShannon 散度。
自监督学习[32]中的点级对比是由监督密集预测任务促进的,例如,语义分割,它执行密集的每点分类。点级对比度旨在将锚点(点 xi)拉至数据增强点,同时将其推离预测空间中的其他点。因此,点级对比损失公式为:
其中 1[j=i] ∈ {0, 1} 是当且仅当 j = i 时评估为 1 的指示函数, 是温度超参数。请注意等式1 和等式 2 是在所有点上计算的。
伪标签生成和选择。
伪标签[14]使用模型的类别预测作为监督来再次训练,并受益于流行的2D Fixmatch [27]。它通过真实标签 Y l 和生成的伪标签 Y p 估计所有点的概率。令 pi 为网络的概率输出,其中点 xi 的参数为 ,pic 表示类 c 出现在 xi 中的概率。使用这些输出概率,生成 xi 的伪标签 y pic 。生成后,通过获得二元向量 gi 来选择具有高置信度预测的伪标签。令 gi = [gi1, … , giC ] ⊆ {0, 1} C 为选定的伪标签,其获取方式为:
其中,如果选择 y p ic,则 gic = 1,否则 gic = 0。 p 是标签的置信度阈值。当概率分数足够高(pic ≥ p)时,就会选择标签。
高级语义场景理解任务不仅需要局部信息,还需要全局信息,仅在点级别上直接对比 3D 实例是不够的 [17, 32]。因此,这促使我们探索更有效的对比策略,以充分利用点云在几何结构和类语义方面的固有属性。
3.2.混合对比正则化
如图2所示,我们提出了一种用于大规模点云的紧凑的弱监督语义分割框架,其中包含新颖的混合对比正则化策略(HybridCR)和有效的动态点云增强器。原始点云首先被输入动态点云增强器以生成不同的变换。然后,原始输入点和增强点通过 Siamese 网络,利用模型对未标记点的预测生成伪标签。鼓励模型在训练期间通过将 3D 点对与不同的变换进行匹配来学习相似且稳健的特征。同时,生成的伪标签用于计算每个类的原型。最后,HybridCR从局部和全局指导角度进行,以学习未标记点和标记点之间的特征关系,这也利用了具有点级一致性和对比度损失的标记点的传统分割损失。
3.2.1 局部引导对比正则化
局部邻居信息对于点云对象的特征学习至关重要。例如,室内和室外场景中的物体总是存在遮挡和孔洞。如果模型从其他完整物体中学习局部结构信息(球体、角点等),则可以增强模型在训练时对不完整物体的鲁棒性。而点云的局部特征主要来自点及其邻居,这启发我们通过提出的局部引导对比正则化来对点云的局部信息进行建模。
为了实现这一点,我们首先查询邻近点的锚点,然后强制每个点的不同增强视图靠近其邻近点并远离其他点。
给定一个 3D 查询点 xi 及其坐标 xyz,我们通过逐点欧几里德距离搜索其最近的 K 个邻居点,并将它们的编码特征向量聚合以生成均值向量 i ,该向量由
计算。基于此,我们按照 InfoNCE [20] 构建局部引导对比损失 Llcl,将 y~i 拉近 i ,同时将其推离其他点的邻居向量:
事实上,所提出的局部指导对比损失更概括为等式2. 请注意,如果 K 设置为 1,等式 4 退化为等式 2。
3.2.2 全局指导对比正则化
全局信息对于点云对象和场景识别至关重要,来自同一类的对象应该共享相似的语义特征,即使它们在外观上有很大差异。相反,物体属于不同类的在特征空间中应该是可区分的,无论它们看起来多么相似。例如,椅子和桌子外观相似,但属于不同的类别。因此,网络有必要获取关键信息来避免这种陷阱。为此,我们通过提出的全局指导对比正则化来利用类标签的语义信息。为了实现这一点,我们采用标记点的平均嵌入来生成每个类的原型 ,而 ic 是属于第 c 类的第 i 个点的原型。据此,我们通过将 y∼i 拉近 i ,同时将其推离其余类别的原型来构建全局指导对比损失 Lgcl :
其中Ml = M +Mp,Mp是所选伪标签的数量(在方程3中定义),c′是与c类不同的类。因此,负样本来自除第c类之外的C-1类的原型。请注意,如果数据集具有 C 个类别,则这本质上相当于 C − 1 的负大小。在处理具有大量类别的数据集时,这实际上很重要。因此,Lgcl可以保留式2中Lcra的特征学习特性,主要是解决内存瓶颈问题。
3.3.动态点云增强器
数据增强是所提出的 HybridCR 中的重要组成部分,它生成不同的锚点、正例和负例,并通过在输入中添加特定噪声来提取不变表示。受[15]的启发,我们使用MLP和高斯噪声来实现可学习的动态点云增强器,这丰富了上下文位移中的数据多样性,并在同一场景中生成不同的变换。
图 3 展示了所提出的增强器架构。
首先,我们使用渐进维度为 [64, 128, 1024, 512] 的共享 4 层 MLP 来提取 F ∈ R Nd 。
然后,两个单独的线性投影层计算 H 和 G。我们使用架构中的两个单独组件对特定于输入样本 D 的增强函数进行回归:(1) 全局级别回归以产生变换 M ∈ R N服务器托管网N ,以及 (2)上下文回归服务器托管网以产生位移 S ∈ R N3 。特别是,我们引入了基于高斯分布的二维噪声向量,并将它们与 H 和 G 连接起来。然后,我们使用 MLP 来获得 M 和 S。请注意,噪声向量使增强器能够在回归时探索更多样化的选择变换矩阵。然后使用 M 和 S 生成增强样本 D′ = D M+ S。所提出的动态点云增强器与[33,38]中采用的传统增强器相比更加灵活,在训练期间联合优化。
3.4.总体目标。
如上所述,HybridCR 可以作为端到端训练方案中弱监督点云语义分割框架的有效对比正则化策略。网络的总体目标表述为:
其中是平衡参数。 Lseg 是标记点上基于交叉熵的分割损失,其公式为:
其中 yic 表示点 xi 的真实标签。我们还应用等式 7.输入增强数据来学习网络参数。我们通过Adam 优化器解决方程 6 。此外,当扩展到完全监督的方式时,HybridCR 可以作为有效的辅助特征学习损失。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
本节我们讨论IDA的桌面 就是IDA的工作界面 我们先打开一个工作界面 可以看到,在最上面的菜单导航栏,看到主菜单 file选项 常规选项 Edit菜单 终于添加了撤回按钮 jump菜单 search菜单 view菜单 debugger菜单 options菜单…