weilaiweiding

这家伙很懒，什么都没留下

[论文翻译]Talk-to-Edit: Fine-Grained Facial Editing via Dialog 通过对话框进行细粒度的面部编辑（待校正）

人脸编辑是视觉和图形领域的一项重要任务，具有广泛的应用前景。然而，现有的作品无法提供一个连续的和细粒度的编辑模式(例如，编辑一个微笑的脸大笑)与用户的自然互动。在这项工作中，我们提出了 Talk-to-Edit，一个交互式的面部编辑框架，通过用户和系统之间的对话执行细粒度的属性操作。我们的关键洞察力是模型连续的“语义场”在 GAN 潜在的空间。1)与以往的编辑方法不同的是，这种细粒度的编辑方法是在语义场上寻找一条曲线轨迹，尊重语义场上的细粒度属性。2)每个步骤的曲率是特定于位置的，由输入图像和用户的语言请求决定。3)为了让用户参与到一个有意义的对话中，我们的系统通过考虑用户的请求和语义场的当前状态来生成语言反馈。我们也贡献了 CelebA-Dialog，一个可视化语言的面部编辑数据集，以方便大规模的研究。具体来说，每个图像都有手动注释的细粒度属性注释，以及自然语言中基于模板的文本描述。大量的定量和定性实验证明了该框架在以下方面的优越性: 1)细粒度编辑的流畅性，2)身份/属性的保留，3)视觉照相写实和对话流畅性。值得注意的是，用户研究证明我们的整个系统一直受到大约80% 的参与者的青睐。

由 weilaiweiding发布于 2021-12-13 16:24:15 阅读次数 2044
[论文翻译]分层用户兴趣电商推荐系统

Hierarchical User Profiling for E-commerce Recommender Systems 分层用户兴趣的电商推荐系统 Yulong Gu 顾玉龙 Data Science Lab, JD.com guyulongcs@gmail.com JD.com·guyulongcs@gmail.com数据科学实验室 Shuaiqiang Wang 帅强王 Data Science Lab, JD.com wangshuaiqiang1@jd.com JD.com·wangshuai...

由 weilaiweiding发布于 2021-08-19 16:10:04 阅读次数 1727
[论文翻译]ShuffleNet V2：高效CNN架构设计实用指南

当前，神经网络体系结构设计主要由计算复杂度的间接度量即FLOP指导。但是，直接指标（例如速度）也取决于其他因素，例如内存访问成本和平台特性。因此，这项工作建议评估目标平台上的直接指标，而不仅仅是考虑FLOP。在一系列受控实验的基础上，这项工作得出了一些有效的网络设计实用指南。因此，提出了一种称为ShuffleNet V2的新体系结构。全面的消融实验证明，我们的模型在速度和精度的权衡方面是最先进的。

由 weilaiweiding发布于 2021-05-10 17:34:22 阅读次数 1772
[论文翻译]MLP-Mixer：面向视觉的全MLP架构

卷积神经网络（CNN）是计算机视觉的首选模型。最近，基于注意力的网络（例如Vision Transformer）也变得很流行。在本文中，我们表明，尽管卷积和注意力都足以获得良好的性能，但它们都不是必需的。我们介绍*MLP-Mixer*，一种仅基于多层感知器（MLP）的体系结构。MLP-Mixer包含两种类型的层：一种将MLP独立应用于图像补丁（即“混合”每个位置特征），另一种将MLP应用到各个补丁（即“混合”空间信息）。在大型数据集上进行训练或采用现代正则化方案进行训练时，MLP-Mixer在图像分类基准上获得竞争性得分，其预训练和推理成本可与最新模型相媲美。我们希望这些结果能引发更多的研究，超越成熟的CNN和transformer的领域。

由 weilaiweiding发布于 2021-05-10 17:02:14 阅读次数 1835
[论文翻译]MobileNetV2:残差模块和线性瓶颈

在本文中，我们描述了一种新的移动架构MobileNetV2，该架构提高了移动模型在多个任务和多个基准数据集上以及在不同模型尺寸范围内的最佳性能。我们还描述了在我们称之为SSDLite的新框架中将这些移动模型应用于目标检测的有效方法。此外，我们还演示了如何通过DeepLabv3的简化形式，我们称之为Mobile DeepLabv3来构建移动语义分割模型。 MobileNetV2架构基于倒置的残差结构，其中快捷连接位于窄的瓶颈层之间。中间展开层使用轻量级的深度卷积作为非线性源来过滤特征。此外，我们发现为了保持表示能力，去除窄层中的非线性是非常重要的。我们证实了这可以提高性能并提供了产生此设计的直觉。最后，我们的方法允许将输入/输出域与变换的表现力解耦，这为进一步分析提供了便利的框架。我们在ImageNet分类，COCO目标检测，VOC图像分割上评估了我们的性能。我们评估了在精度、通过乘加（MAdd）度量的操作次数，以及实际的延迟和参数的数量之间的权衡。

由 weilaiweiding发布于 2021-04-17 10:44:00 阅读次数 1868
[论文翻译] 用深度学习进行骨盆分割：大型CT数据集和基线模型

目的：CT中的盆腔骨细分始终是盆腔骨病临床诊断和手术规划的重要步骤。骨盆骨分割的现有方法是手工制作的或半自动，并且在处理由于多站点域移引起的图像外观变化时达到有限的精度，对比血管，共摩尔和木豆，骨折，低剂量，低剂量，金属伪影等由于缺乏带有注释的大规模骨盆CT数据集，无法完全探索深度学习方法。方法：在本文中，我们的目标是通过巩固从多个来源汇总的大型骨盆CT数据集来弥合数据差距，其中包括1,184美元的CT卷，具有各种外观变化。然后我们首次提出，据我们所知，学习深度多级网络，用于分割腰椎，骶骨，左髋关节和右髋，同时获得更有效和坚固的特征代表性。最后，我们基于符号距离函数（SDF）引入后处理器。结果：对我们数据集的广泛实验证明了我们自动方法的有效性，实现了无金属体积的平均骰子为0.987。与传统的后处理器相比，SDF后处理器在Hausdorff距离中降低了15.1 \％。结论：我们认为这一大型数据集将促进整个社区的开发，并在HTTPS://github.com/ict-lab/中开源图像，注释，代码和训练的基线模型CTPELVIC1K。 \关键字{CT数据集\和骨盆分段\和深度学习\和SDF后处理}

由 weilaiweiding发布于 2021-04-15 18:31:45 阅读次数 2548
[论文翻译]深度学习的十大挑战 Deep Learning: A Critical Appraisal

尽管深度学习历史可追溯到几十年前，但这种方法，甚至深度学习一词都只是在 5 年前才刚刚流行，也就是该领域被类似于阿莱克斯·克里泽夫斯基(Alex Krizhevsky)、伊利娅·苏特斯科娃(Ilya Sutskever)r 和杰弗里·辛顿(Geoffrey Hinton)等人合作的论文这样的研究成果重新点燃的时候。他们的论文如今是 ImageNet 上经典的深度网络模型。在随后 5 年中，该领域都发现了什么？在语音识别、图像识别、游戏等领域有可观进步，主流媒体热情高涨的背景下，我提出了对深度学习的十点担忧，且如果我们想要达到通用人工智能，我建议要有其他技术补充深度学习。

由 weilaiweiding发布于 2021-03-15 11:27:28 阅读次数 1848
[论文翻译]ResNet：图像识别的深度残差网络

更深的神经网络更难训练。我们提出了一种残差学习框架来减轻网络训练，这些网络比以前使用的网络更深。我们明确地将层变为学习关于层输入的残差函数，而不是学习未参考的函数。我们提供了全面的经验证据说明这些残差网络很容易优化，并可以显著增加深度来提高准确性。在ImageNet数据集上我们评估了深度高达152层的残差网络——比VGG[40]深8倍但仍具有较低的复杂度。这些残差网络的集合在ImageNet测试集上取得了`3.57%`的错误率。这个结果在ILSVRC 2015分类任务上赢得了第一名。我们也在CIFAR-10上分析了100层和1000层的残差网络。

由 weilaiweiding发布于 2021-03-12 11:15:53 经典网络阅读次数 1695
[论文翻译]MODNet：不用绿幕就能实现的实时精准人像抠图

用于没有绿幕的人为遮罩，现有的工作要么需要获得昂贵的辅助输入，要么使用计算上昂贵的多个模型。因此，它们在实时应用程序中不可用。相比之下，我们提出了一种轻量级的分割目标分解网络（MODNet），该网络可以实时从单个输入图像处理人为分割。MODNet的设计受益于通过显式约束同时优化一系列相关的子目标。此外，由于无Trimap的方法在实践中通常会遇到域偏移问题，因此我们引入（1）基于子目标一致性的自监督策略以使MODNet适应实际数据，以及（2）一帧延迟将MODNet应用于视频人类抠像时，可以使结果平滑的技巧。

由 weilaiweiding发布于 2021-03-12 10:24:52 目标分割阅读次数 2348
[论文翻译]Inception-v4, Inception-ResNet 和残差连接对学习的影响

近年来，超深度卷积网络对于图像识别性能的最大进步至关重要。一个示例是Inception体系结构，该体系已显示出以相对较低的计算成本实现了非常好的性能。最近，在2015年ILSVRC挑战赛中，引入残差连接以及更传统的体系结构带来了最先进的性能Start-of-art；它的性能类似于最新一代的Inception-v3网络。这就提出了一个问题，那就是将Inception体系结构与残差连接结合起来是否有任何好处。在这里，我们提供了充足的实验证据，即使用残差连接进行训练会显着加速Inception网络的训练。还有一些证据表明，残差Inception网络的性能优于类似没有残差连接的更复杂的Inception网络。我们还为残留和非残留Inception网络提供了几种新的简化架构。这些变化大大提高了ILSVRC 2012分类任务的单帧识别性能。我们进一步证明，在保证宽Residual Inception网络的稳定性训练前提下，如何合理的增大每一层的激活值。结合三个残差和一个Inception-v4，我们在ImageNet分类（CLS）的测试集上实现了3.08％的top-5错误。

由 weilaiweiding发布于 2021-03-11 18:12:39 经典网络阅读次数 1908