[论文翻译]基于图卷积网络的动态场景理解 摘要—我们提出了一种基于多关系图卷积网络 (Multi-Relational Graph Convolutional Network,MRGCN) 的新框架,用于从移动单目摄像头抓取的时间有序帧序列中建模道路车辆行为。MRGCN的输入是一个多关系图,其中图的节点表示场景中的主动和被动智能体/对象,连接每对节点的双向边是它们的时空关系编码。 由 shadow发布于 2025-06-11 22:44:16 图卷积网络大模型私有大模型 阅读次数 150
[论文翻译]话语加权多膨胀时序卷积网络的单声道语音去混响 语音去混响是许多语音技术应用中的重要环节。近年来,该领域的研究主要由深度神经网络模型主导。时序卷积网络(TCN)是一种深度学习模型,被提出用于语音去混响任务中的序列建模。本研究提出了一种加权多膨胀深度可分离卷积,用于替代TCN模型中的标准深度可分离卷积。这种改进的卷积使TCN能够在网络的每个卷积块中动态调整其感受野内局部信息的关注程度。实验表明,加权多膨胀时序卷积网络(WD-TCN)在各种模型配置下均优于传统TCN,且相比增加卷积块数量,采用WD-TCN模型是更高效的参数利用方式。相较于基线TCN模型,最大性能提升达到0.55 dB尺度不变信噪比(SISDR),最优WD-TCN模型在WHAMR数据集上实现了12.26 dB的SISDR。 由 shadow发布于 2025-05-26 14:33:27 生成对抗网络卷积网络图卷积网络 阅读次数 214
[论文翻译]结合 EfficientNet 和 Vision Transformer 进行视频深度伪造检测 摘要。深度伪造(Deepfakes)是通过数字处理技术生成逼真虚假图像的结果。随着深度生成模型的惊人进步,如今可以使用变分自编码器(VAEs)或生成对抗网络(GANs)来获取伪造图像或视频。这些技术正变得越来越易用且精确,导致生成的伪造视频极难被检测。传统上,卷积神经网络(CNNs)被用于视频深度伪造检测,其中基于EfficientNet B7的方法取得了最佳效果。本研究聚焦于人脸视频深度伪造检测,鉴于大多数方法在生成逼真人脸方面已变得极为精确。具体而言,我们将多种视觉Transformer与作为特征提取器的卷积EfficientNet B0相结合,获得了与近期使用视觉Transformer方法相当的结果。与现有技术方法不同,我们既未使用蒸馏也未采用集成方法。此外,我们提出了一种基于简单投票方案的直接推理流程,用于处理同一视频镜头中的多张人脸。最佳模型取得了0.951的AUC值和88.0%的F1分数,非常接近深度伪造检测挑战赛(DFDC)的最先进水平。重现我们结果的代码已公开在此处:https://github.com/davide-coccomini/ 由 shadow发布于 2025-05-17 10:02:48 卷积网络图卷积网络预训练模型 阅读次数 335
[论文翻译]揭示关键细节以识别差异:基于骨架的动作识别新原型视角 在基于骨架的动作识别中,一个关键挑战是由于骨骼表示缺乏图像级细节,难以区分关节轨迹相似的动作。我们认识到相似动作的区分依赖于特定身体部位的细微运动细节,因此将方法重点放在局部骨架组件的细粒度运动上。为此,我们提出了ProtoGCN——一种基于图卷积网络(GCN)的模型,它将整个骨架序列的动态分解为可学习原型(prototype)的组合,这些原型代表动作单元的核心运动模式。通过对比原型重建,ProtoGCN能有效识别并增强相似动作的判别性表征。在未使用额外技巧的情况下,ProtoGCN在NTU RGB+D、NTU RGB+D 120、Kinetics-Skeleton和FineGYM等多个基准数据集上实现了最先进的性能,证明了该方法的有效性。代码已开源:https://github.com/firework8/ProtoGCN。 由 shadow发布于 2025-05-16 14:10:45 学习原型图像图卷积网络 阅读次数 280