gingo - 文章 | AI千集

[论文翻译]Animate Anyone 角色动画的一致且可控制的图像与视频合成（一张图变视频 2023 阿里版本）

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, Liefeng Bo Institute for Intelligent Computing, Alibaba Group {hooks.hl, zimu.gx, futian.zp, xisheng.sk, zhangbang....

由 gingo发布于 2023-12-06 10:26:28 阅读次数 1660
[论文翻译]用于卡通人脸生成的微调 StyleGAN2

最近的研究表明，在无监督图像到图像 (I2I) 转换方面取得了显着的成功。然而，由于数据的不平衡，学习各个领域的联合分布仍然非常具有挑战性。虽然现有模型可以生成逼真的目标图像，但很难保持源图像的结构。此外，在多个领域的大数据上训练生成模型需要大量的时间和计算机资源。为了解决这些限制，我们提出了一种新颖的图像到图像转换方法，该方法通过微调 stylegan2 预训练模型来生成目标域的图像。stylegan2模型适用于非平衡数据集上的无监督I2I翻译；它高度稳定，产生逼真的图像，当使用简单的微调技术时，甚至可以从有限的数据中正确学习。因此，在本文中，我们提出了保留源图像结构并在目标域中生成逼真图像的新方法。代码和结果可在https://github.com/happy-jihye/Cartoon-StyleGan2

由 gingo发布于 2021-11-18 17:28:29 阅读次数 1999
[论文翻译]关系归纳偏差、深度学习和图网络

人工智能（AI）最近经历了复兴，在视觉、语言、控制和决策等关键领域取得了重大进展。部分原因是廉价的数据和廉价的计算资源符合深度学习的天然优势。然而，在许多不同的压力下发展起来的人类智能的许多定义特征对于当前的方法来说仍然遥不可及。特别是，超越经验的概括——人类从婴儿时期开始的智能的标志——仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件、部分审查和部分统一。我们认为组合泛化必须是人工智能实现类人能力的首要任务，结构化表示和计算是实现这一目标的关键。正如生物学合作利用自然和养育，我们拒绝在“手工工程”和“端到端”学习之间做出错误的选择，而是提倡一种受益于两者互补优势的方法。我们探索在深度学习架构中使用关系归纳偏差如何促进对实体、关系和构成它们的规则的学习。我们为 AI 工具包提供了一个新的构建块，它具有很强的关系归纳偏差——图网络——它概括和扩展了对图进行操作的神经网络的各种方法，并提供了一个简单的界面来操纵结构化知识和产生结构化行为。我们讨论图网络如何支持关系推理和组合泛化，为更复杂、可解释和灵活的推理模式奠定基础。

由 gingo发布于 2021-08-17 10:32:29 阅读次数 1703
[论文翻译]反事实推理和学习系统:计算广告的例子

这项工作展示了如何利用因果推理来理解复杂学习系统与其环境交互的行为，并预测系统变化的后果。这样的预测使得人类和算法都可以选择能够改善系统性能的变化。这项工作是通过与必应搜索引擎相关的广告投放系统的实验来说明的。

由 gingo发布于 2021-08-09 15:12:18 阅读次数 1688
[论文翻译]DoWhy 一个端到端的因果推理库

DoWhy: An End-to-End Library for Causal Inference Amit Sharma, Emre Kıcıman Microsoft Research \addbibresourcebibliografia.bib 1INTRODUCTION Many questions in data science are fundamentally causal questions, such as the impact of a marketing campaign or a ...

由 gingo发布于 2021-08-04 11:05:37 阅读次数 1981
[论文翻译]全帧视频稳定算法

现有的视频稳定方法要么需要积极裁剪帧边界，要么在稳定的帧上产生失真伪影。在这项工作中，我们通过首先估计密集扭曲场来提出一种全帧视频稳定算法。然后可以通过融合来自相邻帧的扭曲内容来合成全帧稳定帧。核心技术创新在于我们基于学习的混合空间融合，它减轻了由光流不准确和快速移动物体引起的伪影。我们在 NUS 和自拍视频数据集上验证了我们的方法的有效性。广泛的实验结果证明了我们的方法优于先前的视频稳定方法。

由 gingo发布于 2021-08-03 16:54:40 阅读次数 2071
[论文翻译]StyleGAN2蒸馏用于前馈图像处理

StyleGAN2是用于生成逼真的图像的先进网络。此外，还对它进行了明确训练，使其在潜在空间中具有纠缠的方向，从而可以通过更改潜在因子来进行有效的图像处理。编辑现有图像需要将给定图像嵌入到StyleGAN2的潜在空间中。通过反向传播进行的潜在代码优化通常用于对真实世界图像进行定性嵌入，尽管对于许多应用程序来说，这样做的速度太慢了。我们提出了一种将StyleGAN2的特定图像处理提炼成以配对方式训练的图像到图像网络的方法。生成的管道是对现有GAN的替代方案，它是针对未配对数据进行训练的。我们提供人脸转换的结果：性别互换，老化/复兴，样式转换和图像变形。

由 gingo发布于 2021-05-25 16:48:31 阅读次数 1952
[论文翻译]BigGAN :用于高保真自然图像合成的大规模GAN训练

尽管在生成图像建模方面取得了最新进展，但是从复杂的数据集（例如ImageNet）成功生成高分辨率，多样的样本仍然是一个遥不可及的目标。为此，我们以尚未尝试的最大规模训练了生成对抗网络，并研究了针对这种规模的不稳定性。我们发现，将正交正则化应用于生成器使其适合于简单的“截断技巧”，从而可以通过截断潜在空间来精确控制样本保真度与变化之间的权衡。我们的修改导致建立了模型，该模型在类条件图像合成中设置了新的技术水平。在ImageNet上于128x128分辨率进行训练，我们的模型（BigGAN）的初始得分（IS）为166.3，弗雷谢特初始距离（FID）为9.6，比之前的最佳IS为52.52和FID为18.65有所提高。

由 gingo发布于 2021-05-11 16:55:21 阅读次数 2041
[论文翻译]Delving Deep into Rectifiers深入研究整流器：在ImageNet分类上超越人类水平的性能

整流的激活单元（整流器）对于最新的神经网络至关重要。在这项工作中，我们从两个方面研究了用于图像分类的整流器神经网络。首先，我们提出了一种参数化线性整流单元（PReLU），该参数化了传统的整流单元。PReLU以几乎为零的额外计算成本和极小的过拟合风险改善了模型拟合。其次，我们得出了一种鲁棒的初始化方法，该方法特别考虑了整流器的非线性。这种方法使我们能够从头开始直接训练极深的整流模型，并研究更深或更广的网络体系结构。基于我们的PReLU网络（PReLU-nets），我们达到了4.94％ImageNet 2012分类数据集中的top-5测试错误。相对于2014年ILSVRC冠军（GoogLeNet，6.66％[ 29 ]），相对改善了26％。据我们所知，我们的结果是在视觉识别挑战上首次超过人类水平的表现（5.1％，[ 22 ]）。

由 gingo发布于 2021-05-07 11:06:26 阅读次数 1828
[论文翻译][部分转载]当SIFT遇上CNN：图像检索任务十年总结 SIFT Meets CNN: A Decade Survey of Instance R

在基于内容的图像检索技术（CBIR）发展早期，研究人员大多基于图像的全局特征进行研究。自2003年开始，由于SIFT特征在图像变换问题中的优异表现，十多年来基于局部描述算子（如SIFT描述算子）的图像检索方法一直被广泛研究。最近，基于卷积神经网络（CNN）的图像表示方法吸引了社区越来越多的关注，同时这种方法也展现出了令人赞叹的性能。我们领域正处于快速发展时期，本文对实例检索近十多年来的进展进行了综合且全面的调查研究，主要展示了基于SIFT和CNN特征的两类主要方法。对SIFT一类的方法，我们根据字典本大小，将相关文献按照字典的大/中/小规模进行组织。对CNN一类的方法，我们主要依据预训练模型，微调模型和混合模型进行分类和讨论。预训练模型和微调模型方法采用了单通道的图像输入方法而混合模型则采用了基于块的特征提取策略。本篇综述选取了在现代实例检索任务中先前的各类工作，展现了该任务中的里程碑时刻，并提出了关于SIFT与CNN的内在联系的见解。在分析与比较了各种方法在几个数据集上的检索性能后，我们分别讨论了通用实例检索和专用实例检索任务未来的发展前景。

由 gingo发布于 2021-04-30 10:57:13 阅读次数 2572
[论文翻译]MIT Mini Cheetah:通过整体脉冲控制和模型预测控制实现的高动态四足运动

由于没有成熟的控制方案可以处理空中相位，短站姿时间和高速腿部摆动，因此动态腿部移动是一个具有挑战性的主题。在本文中，我们提出了一种结合了全身控制（WBC）和模型预测控制（MPC）的控制器。在我们的框架中，MPC使用简单的模型找到了较长时间范围内的最佳反作用力曲线，而WBC根据从MPC计算出的反作用力来计算关节扭矩，位置和速度指令。与现有的WBC试图跟踪命令的身体轨迹不同，我们的控制器更专注于反作用力命令，这使它可以完成具有空中相位的高速动态运动。新设计的WBC与MPC集成在一起，并在Mini-Cheetah四足机器人上进行了测试。3.7 $米/s$。

由 gingo发布于 2021-04-19 16:57:59 阅读次数 3703
[论文翻译]Xception：具有深度可分卷积的深度学习

我们将卷积神经网络中的Inception模块解释为是常规卷积和深度可分离卷积之间的中间步骤运算（先进行深度卷积，再进行点状卷积）。鉴于此，可以将深度方向上可分离的卷积理解为具有最大数量的塔的Inception模块。这一发现使我们提出了一种受Inception启发的新颖的深度卷积神经网络体系结构，其中Inception模块已被深度可分离卷积替代。我们显示，这种被称为Xception的体系结构在ImageNet数据集（Inception V3设计用于）上略胜于Inception V3，在包含3.5亿张图像和17,000个类别的较大图像分类数据集上明显优于Inception V3。由于Xception体系结构具有与Inception V3相同数量的参数，

由 gingo发布于 2021-04-16 11:29:37 阅读次数 1726
[论文翻译]Generative Adversarial Networks 生成对抗网络

我们提出了一个新的框架，用于通过对抗过程估算生成模型，在该框架中，我们同时训练两个模型：生成模型 G 捕获数据分布和判别模型 D估计样本来是否来自训练数据的可能性。G 的训练过程是使 D 犯错误的概率最大化。这个框架相当于最小最大化的双人博弈。在任意函数 G 和 D 的空间中，存在唯一解，其中，G 恢复训练数据分布，D 处在1/2处。在 G 和 D 由多层感知机定义的情况下，整个系统可以通过反向传播进行训练。在训练或者样本生成期间，不需要任何马尔可夫链或展开的近似推理网络。实验通过对生成的样本进行定性和定量评估，证明了该框架的潜力。

由 gingo发布于 2021-04-15 11:34:51 生成对抗网络阅读次数 1810
[论文翻译]MobileNets：用于移动视觉应用的高效卷积神经网络

本文针对嵌入式视觉应用领域，提出一个新颖的MobileNets网络，该网络使用了深度可分离卷积来构建轻量级深度神经网络。我们介绍了两个简单的全局超参数，使得模型可以在速度和准确度之间有效地进行折中。这些超参数允许模型构建器根据问题的约束，为其应用程序选择正确的大小模型。我们对资源和准确性权衡提供了广泛的实验，并与Imagenet分类的其他流行模型相比表现出优异的表现。然后，我们展示了Mobilenets跨各种应用程序的有效性和用例，包括物体检测，FineGrain分类，面部属性和大规模地理定位。

由 gingo发布于 2021-04-14 15:22:37 阅读次数 1785
[论文翻译]ShuffleNet：一种用于移动设备的极其高效的卷积神经网络

我们介绍了一个名为ShuffleNet的高效的CNN架构，其专为具有非常有限的计算能力的移动设备（例如，10-150 MFLOPS）而设计。新架构利用了两个新的操作，逐点分组卷积(pointwise group convolution)和通道混洗(channel shuffle)，与现有先进模型相比在类似的精度下大大降低计算量。 Imagenet分类和MS Coco对象检测的实验证明了ShuffleNet在其结构上的优越性，例如，在40 MFLOPS的计算预算下，ShuffleNet在Imagenet分类任务中达到比MobileNet更低的top1错误率（7.8 ％）。在基于ARM的移动设备上，ShuffleNet在和AlexNet相比，同样精度能够实现13倍加速。

由 gingo发布于 2021-04-14 13:59:58 阅读次数 2049
[论文翻译]基于多阶段动态GAN的延时摄影视频的生成

在外面拍张照片，我们可以预测不久的将来吗，例如，云将如何在天空中移动？我们通过提出基于生成对抗网络（GAN）的两阶段方法来生成高分辨率的逼真的延时视频来解决此问题。给定第一个框架，我们的模型将学习生成长期的未来框架。第一阶段为每个帧生成逼真的内容的视频。第二阶段通过在运动动态方面将其逼近真实视频，从而优化了第一阶段生成的视频。为了进一步鼓励最终生成的视频中的生动运动，采用了Gram矩阵来更精确地对运动进行建模。我们建立了一个大型延时数据集，并在这个新的数据集上测试了我们的方法。使用我们的模型，我们可以生成逼真的视频128×128分辨率为32帧。定量和定性的实验结果证明了我们的模型优于最新模型的优越性。

由 gingo发布于 2021-03-17 16:05:05 阅读次数 1696
[转][论文翻译]InceptionV3：Inception架构的重设计

对许多任务而言，卷积网络是目前最新的计算机视觉解决方案的核心。从2014年开始，深度卷积网络开始变成主流，在各种基准数据集上都取得了实质性成果。对于大多数任务而言，虽然增加的模型大小和计算成本都趋向于转化为直接的质量收益（只要提供足够的标注数据去训练），但计算效率和低参数计数仍是各种应用场景的限制因素，例如移动视觉和大数据场景。目前，我们正在探索增大网络的方法，目标是通过适当的分解卷积和积极的正则化来尽可能地有效利用增加的计算。我们在ILSVRC 2012分类挑战赛的验证集上评估了我们的方法，结果证明我们的方法超过了目前最先进的方法并取得了实质性收益：对于单一框架评估错误率为：`21.2% top-1`和`5.6% top-5`，使用的网络计算代价为每次推断需要进行50亿次乘加运算并使用不到2500万的参数。通过四个模型组合和多次评估，我们报告了`3.5% top-5`和`17.3% top-1`的错误率。

由 gingo发布于 2021-03-11 16:28:34 经典网络阅读次数 1751
[论文翻译]ResNet：图像识别中的深度残差学习

更深的神经网络更难训练。我们提出了一种残差学习框架来减轻网络训练，这些网络比以前使用的网络更深。我们明确地将层变为学习关于层输入的残差函数，而不是学习未参考的函数。我们提供了全面的经验证据说明这些残差网络很容易优化，并可以显著增加深度来提高准确性。在ImageNet数据集上我们评估了深度高达152层的残差网络——比VGG[40]深8倍但仍具有较低的复杂度。这些残差网络的集合在ImageNet测试集上取得了`3.57%`的错误率。这个结果在ILSVRC 2015分类任务上赢得了第一名。我们也在CIFAR-10上分析了100层和1000层的残差网络。

由 gingo发布于 2021-03-09 09:49:29 论文深度学习阅读次数 1992
[转][论文翻译]GoogleNet：更深的卷积神经网络

我们在ImageNet大规模视觉识别挑战赛2014（ILSVRC14）上提出了一种代号为Inception的深度卷积神经网络结构，并在分类和检测上取得了新的最好结果。这个架构的主要特点是提高了网络内部计算资源的利用率。通过精心的手工设计，我们在增加了网络深度和广度的同时保持了计算预算不变。为了优化质量，架构的设计以赫布理论和多尺度处理直觉为基础。我们在ILSVRC14提交中应用的一个特例被称为GoogLeNet，一个22层的深度网络，其质量在分类和检测的背景下进行了评估。

由 gingo发布于 2021-03-05 11:01:58 经典网络阅读次数 1785
[论文翻译]Deep learning Review -深度学习总览

深度学习是指建立多个处理层组成的计算机模型，以多层抽象的方式去学习数据的表达。这些方法使得一些前沿领域诸如语音识别，视觉物体识别，目标检测以及其他：包括药物发现和基因组学等，研究水平都有了极大地发展。深度学习使用反向传播（BP）算法，指出了机器在多层模型中应该如何用上一层参数来计算当前层参数，从而可以构建应对大型数据集中的需要的复杂结构。深度卷积网络给处理图像、视频、语音和音频的领域带来了突破，而递归网络对于连续的数据例如文本和语音有很好的性能。

由 gingo发布于 2021-03-04 17:19:33 深度学习阅读次数 1964