一、检测相关(6篇)
1.1 UniPose: Detecting Any Keypoints
https://arxiv.org/abs/2310.08530
这项工作提出了一个统一的框架,称为UniPose,以检测任何关节的关键点(例如,人和动物)、刚性和柔软对象,以进行细粒度视觉理解和操纵。关键点是任何对象(尤其是铰接对象)的结构感知、像素级和紧凑表示。现有的细粒度可识别任务主要集中在对象实例的检测和分割上,但往往无法识别图像和实例的细粒度和结构化信息,如眼睛、腿、爪子等。与此同时,基于特征的关键点检测仍处于探索阶段。为了弥补这一差距,我们首次尝试开发一个端到端的基于关键点检测的框架,称为UniPose,以检测任何对象的关键点。由于关键点检测任务在该框架中是统一的,我们可以利用13个关键点检测数据集,其中338个关键点跨越1,237个类别超过40万个实例来训练通用关键点检测模型。基于跨模态对比学习优化目标,UniPose可以有效地对齐文本到关键点和图像到关键点,这是由于文本和视觉提示的相互增强。我们的实验结果表明,UniPose具有很强的细粒度定位和泛化能力,跨图像风格,类别和姿势。基于UniPose作为一个通用的关键点检测服务器托管网器,我们希望它可以服务于细粒度的视觉感知,理解和生成。
1.2 MeanAP-Guided Reinforced Active Learning for Object Detection
MeanAP引导的强化主动学习目标检测
https://arxiv.org/abs/2310.08387
主动学习提供了一种很有前途的途径,可以用最少的标记数据训练高性能模型,通过明智地选择信息量最大的实例进行标记并将其纳入任务学习器来实现。尽管在图像识别的主动学习方面取得了显着的进步,但设计或学习来衡量数据信息增益的指标(对于查询策略设计至关重要)并不总是与任务模型性能指标(例如对象检测任务中的平均精度(MeanAP))保持一致。本文介绍了MeanAP指导的增强主动学习对象检测(MAGRAL),一种新的方法,直接利用任务模型的MeanAP度量设计一个采样策略,采用基于强化学习的采样代理。基于LSTM架构,智能体有效地探索和选择后续的训练实例,并通过策略梯度优化过程,MeanAP作为奖励。认识到MeanAP计算在每一步的时间密集型的性质,我们提出了快速查找表,以加快代理培训。我们评估MAGRAL在流行的基准,PASCAL VOC和MS COCO,利用不同的骨干架构的功效。实证研究结果证实MAGRAL的优越性,最近的国家的最先进的方法,展示了大量的性能增益。MAGRAL为加强主动物体探测建立了一个强大的基线,标志着其在推进该领域的潜力。
1.3 GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object Detection
GraphAlign:基于图匹配的多模式三维目标检测
https://arxiv.org/abs/2310.08261
LiDAR和摄像头是自动驾驶中3D物体检测的互补传感器。然而,探索点云与图像之间的非自然交互是具有挑战性的,关键因素是如何进行异构模态的特征对齐。目前,许多方法仅通过投影校准来实现特征对齐,而没有考虑传感器之间的坐标转换精度误差问题,导致性能次优。在本文中,我们提出了GraphAlign,一个更准确的特征对齐策略,用于通过图匹配进行3D对象检测。具体来说,我们融合图像分支中的语义分割编码器的图像特征和LiDAR分支中的3D稀疏CNN的点云特征。为了节省计算量,我们通过计算划分为点云特征的子空间内的欧氏距离来构建最近邻关系。通过图像与点云之间的投影标定,将点云特征的最近邻投影到图像特征上。然后,通过将具有单个点云的最近邻匹配到多个图像,我们搜索更合适的特征对齐。此外,我们提供了一个自我注意力模块,以提高重要关系的权重,微调异构模态之间的特征对齐。在nuScenes基准上的大量实验证明了我们的GraphAlign的有效性和效率。
1.4 Exploring Large Language Models for Multi-Modal Out-of-Distribution Detection
探索用于多模式失配检测的大服务器托管网型语言模型
https://arxiv.org/abs/2310.08027
分发外(OOD)检测对于可靠和值得信赖的机器学习至关重要。最近的多模态OOD检测利用文本信息的分布(ID)类名称的视觉OOD检测,但它目前忽略了丰富的上下文信息的ID类。大型语言模型(LLM)编码了丰富的世界知识,可以提示为每个类生成描述性特征。不加区别地使用这样的知识会导致灾难性的损害OOD检测由于LLM的幻觉,我们的分析观察到。在本文中,我们建议应用世界知识,以提高OOD检测性能,通过选择性生成LLM。具体来说,我们引入了一个基于一致性的不确定性校准方法来估计每一代的置信度得分。我们进一步从每个图像中提取视觉对象,以充分利用上述世界知识。大量的实验表明,我们的方法始终优于最先进的。
1.5 A Survey of Feature Types and Their Contributions for Camera Tampering Detection
摄像机篡改检测的特征类型及其贡献综述
https://arxiv.org/abs/2310.07886
摄像机篡改检测是通过分析视频来检测监控摄像机中未经授权和无意的更改的能力。摄像头篡改可能是由于自然事件发生,也可能是故意破坏监视。我们铸造篡改检测作为一个变化检测问题,并进行了审查现有的文献,重点是功能类型。我们制定篡改检测作为一个时间序列分析问题,并设计实验来研究各种功能类型的鲁棒性和能力。我们计算了真实世界的监控视频的10个特征,并应用时间序列分析来确定它们的可预测性,以及它们检测篡改的能力。最后,我们量化了各种时间序列模型使用每种特征类型来检测篡改的性能。
1.6 Deep Learning based Systems for Crater Detection: A Review
基于深度学习的陨石坑探测系统综述
https://arxiv.org/abs/2310.07727
陨石坑是行星表面最突出的特征之一,用于年龄估计,危险探测和航天器导航等应用。陨石坑检测是一个具有挑战性的问题,由于各个方面,包括复杂的陨石坑特征,如不同的大小和形状,数据分辨率和行星数据类型。与其他计算机视觉任务类似,近年来,基于深度学习的方法对陨石坑检测的研究产生了重大影响。这项调查旨在通过研究基于深度学习的陨石坑检测算法(CDA)的发展来帮助该领域的研究人员。该综述包括140多项研究工作,涵盖各种陨石坑探测方法,包括行星数据,陨石坑数据库和评估指标。具体来说,我们讨论了由于陨石坑的复杂特性而导致的陨石坑检测的挑战,并通过将其分为三个部分来调查基于DL的CDA:(a)基于语义分割,(b)基于对象检测,以及(c)基于分类。此外,我们还在一个公共数据集上对所有基于语义分割的CDA进行了训练和测试,以评估每个架构在陨石坑检测及其潜在应用中的有效性。最后,我们对未来可能的工作提出了建议。
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
今天来爬爬音乐,一丝丝的无聊 前期准备 软件环境 Python3.8 pycharm 模块 requests、re、os 三个 其中requests是第三方模块需要手动安装一下 re、os都是内置模块,不需要安装 浏览器开发者工具 咱们需要学会如何使用开发者工…