gingo

我在这里，AI在那里。

[论文翻译]Animate Anyone 角色动画的一致且可控制的图像与视频合成（一张图变视频 2023 阿里版本）

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation Li Hu, Xin Gao, Peng Zhang, Ke Sun, Bang Zhang, Liefeng Bo Institute for Intelligent Computing, Alibaba Group {hooks.hl, zimu.gx, futian.zp, xisheng.sk, zhangbang....

由 gingo发布于 2023-12-06 10:26:28 阅读次数 1868
[论文翻译]用于卡通人脸生成的微调 StyleGAN2

最近的研究表明，在无监督图像到图像 (I2I) 转换方面取得了显着的成功。然而，由于数据的不平衡，学习各个领域的联合分布仍然非常具有挑战性。虽然现有模型可以生成逼真的目标图像，但很难保持源图像的结构。此外，在多个领域的大数据上训练生成模型需要大量的时间和计算机资源。为了解决这些限制，我们提出了一种新颖的图像到图像转换方法，该方法通过微调 stylegan2 预训练模型来生成目标域的图像。stylegan2模型适用于非平衡数据集上的无监督I2I翻译；它高度稳定，产生逼真的图像，当使用简单的微调技术时，甚至可以从有限的数据中正确学习。因此，在本文中，我们提出了保留源图像结构并在目标域中生成逼真图像的新方法。代码和结果可在https://github.com/happy-jihye/Cartoon-StyleGan2

由 gingo发布于 2021-11-18 17:28:29 阅读次数 2166
[论文翻译]关系归纳偏差、深度学习和图网络

人工智能（AI）最近经历了复兴，在视觉、语言、控制和决策等关键领域取得了重大进展。部分原因是廉价的数据和廉价的计算资源符合深度学习的天然优势。然而，在许多不同的压力下发展起来的人类智能的许多定义特征对于当前的方法来说仍然遥不可及。特别是，超越经验的概括——人类从婴儿时期开始的智能的标志——仍然是现代人工智能的一项艰巨挑战。以下是部分立场文件、部分审查和部分统一。我们认为组合泛化必须是人工智能实现类人能力的首要任务，结构化表示和计算是实现这一目标的关键。正如生物学合作利用自然和养育，我们拒绝在“手工工程”和“端到端”学习之间做出错误的选择，而是提倡一种受益于两者互补优势的方法。我们探索在深度学习架构中使用关系归纳偏差如何促进对实体、关系和构成它们的规则的学习。我们为 AI 工具包提供了一个新的构建块，它具有很强的关系归纳偏差——图网络——它概括和扩展了对图进行操作的神经网络的各种方法，并提供了一个简单的界面来操纵结构化知识和产生结构化行为。我们讨论图网络如何支持关系推理和组合泛化，为更复杂、可解释和灵活的推理模式奠定基础。

由 gingo发布于 2021-08-17 10:32:29 阅读次数 1913
[论文翻译]反事实推理和学习系统:计算广告的例子

这项工作展示了如何利用因果推理来理解复杂学习系统与其环境交互的行为，并预测系统变化的后果。这样的预测使得人类和算法都可以选择能够改善系统性能的变化。这项工作是通过与必应搜索引擎相关的广告投放系统的实验来说明的。

由 gingo发布于 2021-08-09 15:12:18 阅读次数 2076
[论文翻译]DoWhy 一个端到端的因果推理库

DoWhy: An End-to-End Library for Causal Inference Amit Sharma, Emre Kıcıman Microsoft Research \addbibresourcebibliografia.bib 1INTRODUCTION Many questions in data science are fundamentally causal questions, such as the impact of a marketing campaign or a ...

由 gingo发布于 2021-08-04 11:05:37 阅读次数 2175
[论文翻译]全帧视频稳定算法

现有的视频稳定方法要么需要积极裁剪帧边界，要么在稳定的帧上产生失真伪影。在这项工作中，我们通过首先估计密集扭曲场来提出一种全帧视频稳定算法。然后可以通过融合来自相邻帧的扭曲内容来合成全帧稳定帧。核心技术创新在于我们基于学习的混合空间融合，它减轻了由光流不准确和快速移动物体引起的伪影。我们在 NUS 和自拍视频数据集上验证了我们的方法的有效性。广泛的实验结果证明了我们的方法优于先前的视频稳定方法。

由 gingo发布于 2021-08-03 16:54:40 阅读次数 2423
[论文翻译]StyleGAN2蒸馏用于前馈图像处理

StyleGAN2是用于生成逼真的图像的先进网络。此外，还对它进行了明确训练，使其在潜在空间中具有纠缠的方向，从而可以通过更改潜在因子来进行有效的图像处理。编辑现有图像需要将给定图像嵌入到StyleGAN2的潜在空间中。通过反向传播进行的潜在代码优化通常用于对真实世界图像进行定性嵌入，尽管对于许多应用程序来说，这样做的速度太慢了。我们提出了一种将StyleGAN2的特定图像处理提炼成以配对方式训练的图像到图像网络的方法。生成的管道是对现有GAN的替代方案，它是针对未配对数据进行训练的。我们提供人脸转换的结果：性别互换，老化/复兴，样式转换和图像变形。

由 gingo发布于 2021-05-25 16:48:31 阅读次数 2163
[论文翻译]BigGAN :用于高保真自然图像合成的大规模GAN训练

尽管在生成图像建模方面取得了最新进展，但是从复杂的数据集（例如ImageNet）成功生成高分辨率，多样的样本仍然是一个遥不可及的目标。为此，我们以尚未尝试的最大规模训练了生成对抗网络，并研究了针对这种规模的不稳定性。我们发现，将正交正则化应用于生成器使其适合于简单的“截断技巧”，从而可以通过截断潜在空间来精确控制样本保真度与变化之间的权衡。我们的修改导致建立了模型，该模型在类条件图像合成中设置了新的技术水平。在ImageNet上于128x128分辨率进行训练，我们的模型（BigGAN）的初始得分（IS）为166.3，弗雷谢特初始距离（FID）为9.6，比之前的最佳IS为52.52和FID为18.65有所提高。

由 gingo发布于 2021-05-11 16:55:21 阅读次数 2281
[论文翻译]Delving Deep into Rectifiers深入研究整流器：在ImageNet分类上超越人类水平的性能

整流的激活单元（整流器）对于最新的神经网络至关重要。在这项工作中，我们从两个方面研究了用于图像分类的整流器神经网络。首先，我们提出了一种参数化线性整流单元（PReLU），该参数化了传统的整流单元。PReLU以几乎为零的额外计算成本和极小的过拟合风险改善了模型拟合。其次，我们得出了一种鲁棒的初始化方法，该方法特别考虑了整流器的非线性。这种方法使我们能够从头开始直接训练极深的整流模型，并研究更深或更广的网络体系结构。基于我们的PReLU网络（PReLU-nets），我们达到了4.94％ImageNet 2012分类数据集中的top-5测试错误。相对于2014年ILSVRC冠军（GoogLeNet，6.66％[ 29 ]），相对改善了26％。据我们所知，我们的结果是在视觉识别挑战上首次超过人类水平的表现（5.1％，[ 22 ]）。

由 gingo发布于 2021-05-07 11:06:26 阅读次数 2018
[论文翻译][部分转载]当SIFT遇上CNN：图像检索任务十年总结 SIFT Meets CNN: A Decade Survey of Instance R

在基于内容的图像检索技术（CBIR）发展早期，研究人员大多基于图像的全局特征进行研究。自2003年开始，由于SIFT特征在图像变换问题中的优异表现，十多年来基于局部描述算子（如SIFT描述算子）的图像检索方法一直被广泛研究。最近，基于卷积神经网络（CNN）的图像表示方法吸引了社区越来越多的关注，同时这种方法也展现出了令人赞叹的性能。我们领域正处于快速发展时期，本文对实例检索近十多年来的进展进行了综合且全面的调查研究，主要展示了基于SIFT和CNN特征的两类主要方法。对SIFT一类的方法，我们根据字典本大小，将相关文献按照字典的大/中/小规模进行组织。对CNN一类的方法，我们主要依据预训练模型，微调模型和混合模型进行分类和讨论。预训练模型和微调模型方法采用了单通道的图像输入方法而混合模型则采用了基于块的特征提取策略。本篇综述选取了在现代实例检索任务中先前的各类工作，展现了该任务中的里程碑时刻，并提出了关于SIFT与CNN的内在联系的见解。在分析与比较了各种方法在几个数据集上的检索性能后，我们分别讨论了通用实例检索和专用实例检索任务未来的发展前景。

由 gingo发布于 2021-04-30 10:57:13 阅读次数 2754