• 根据人类反馈进行强化学习

    为了使复杂的强化学习 (RL) 系统与现实世界环境进行有效交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了一种新的目标传达方法:使用成对轨迹片段之间(非专家的)人类偏好向智能体表示目标。我们表明,这种方法可以有效地解决包括 Atari 游戏和模拟机器人运动在内的复杂的 RL 任务,无需使用奖励函数,仅需在agent与环境的交互的过程中提供不到 1% 的反馈即可,这大大降低了人工监督的成本,以至于可以实际应用于最先进的 RL 系统。为了证明我们方法的灵活性,我们表明,用大约一个小时的人工时间,就可以成功地训练复杂的新行为,相比过去关于从人类反馈中学习的工作,我们关注的行为和环境要复杂得多。
  • 利用强化学习进行量化投资的尝试

    本文希望通过机器学习算法,设立相应的环境,选取真实的数据,使得程序能够预判风险进行投资,使得投资能够最大化。本文的经济学部分参考了论文:ML-TEA 一套基于机器学习和技术分析的量化投资算法 李斌,主要通过其经济学方面的数据,筛选出了主要的4种状态变量以及经济指标。
  • 给生物学家的机器学习指南

    过去几十年,生物数据集的规模与复杂性大幅增长,这使得机器学习越来越多地用于为潜在生物过程构建信息与预测模型。所有机器学习技术都在让模型与数据相匹配;然而,具体的方法多种多样,乍一看似乎令人眼花缭乱。对于不同类型的生物数据,该如何选择特定的机器学习技术? 2021年9月,发表在Nature Reviews Molecular Cell Biology上的综述文章“给生物学家的机器学习指南”,向读者简要介绍了一些关键的机器学习技术:既包括分类、回归、聚类模型等传统机器学习方法,也包括最近开发和广泛使用的涉及深度神经网络的技术。本文还记录了一些最佳做法与入门要点,并展望了机器学习应用于生物学的一些最令人兴奋的前景。
  • Talk-to-Edit: Fine-Grained Facial Editing via Dialog 通过对话框进行细粒度的面部编辑(待校正)

    人脸编辑是视觉和图形领域的一项重要任务,具有广泛的应用前景。然而,现有的作品无法提供一个连续的和细粒度的编辑模式(例如,编辑一个微笑的脸大笑)与用户的自然互动。在这项工作中,我们提出了 Talk-to-Edit,一个交互式的面部编辑框架,通过用户和系统之间的对话执行细粒度的属性操作。我们的关键洞察力是模型连续的“语义场”在 GAN 潜在的空间。1)与以往的编辑方法不同的是,这种细粒度的编辑方法是在语义场上寻找一条曲线轨迹,尊重语义场上的细粒度属性。2)每个步骤的曲率是特定于位置的,由输入图像和用户的语言请求决定。3)为了让用户参与到一个有意义的对话中,我们的系统通过考虑用户的请求和语义场的当前状态来生成语言反馈。 我们也贡献了 CelebA-Dialog,一个可视化语言的面部编辑数据集,以方便大规模的研究。具体来说,每个图像都有手动注释的细粒度属性注释,以及自然语言中基于模板的文本描述。大量的定量和定性实验证明了该框架在以下方面的优越性: 1)细粒度编辑的流畅性,2)身份/属性的保留,3)视觉照相写实和对话流畅性。值得注意的是,用户研究证明我们的整个系统一直受到大约80% 的参与者的青睐。
  • 用于卡通人脸生成的微调 StyleGAN2

    最近的研究表明,在无监督图像到图像 (I2I) 转换方面取得了显着的成功。然而,由于数据的不平衡,学习各个领域的联合分布仍然非常具有挑战性。虽然现有模型可以生成逼真的目标图像,但很难保持源图像的结构。此外,在多个领域的大数据上训练生成模型需要大量的时间和计算机资源。为了解决这些限制,我们提出了一种新颖的图像到图像转换方法,该方法通过微调 stylegan2 预训练模型来生成目标域的图像。stylegan2模型适用于非平衡数据集上的无监督I2I翻译;它高度稳定,产生逼真的图像,当使用简单的微调技术时,甚至可以从有限的数据中正确学习。因此,在本文中,我们提出了保留源图像结构并在目标域中生成逼真图像的新方法。代码和结果可在https://github.com/happy-jihye/Cartoon-StyleGan2
  • 分层用户兴趣电商推荐系统

    Hierarchical User Profiling for E-commerce Recommender Systems 分层用户兴趣的电商推荐系统 Yulong Gu 顾玉龙 Data Science Lab, JD.com guyulongcs@gmail.com JD.com·guyulongcs@gmail.com数据科学实验室 Shuaiqiang Wang 帅强王 Data Science Lab, JD.com wangshuaiqiang1@jd.com JD.com·wangshuai...
  • 关系归纳偏差、深度学习和图网络

    人工智能(AI)最近经历了复兴,在视觉、语言、控制和决策等关键领域取得了重大进展。部分原因是廉价的数据和廉价的计算资源符合深度学习的天然优势。然而,在许多不同的压力下发展起来的人类智能的许多定义特征对于当前的方法来说仍然遥不可及。特别是,超越经验的概括——人类从婴儿时期开始的智能的标志——仍然是现代人工智能的一项艰巨挑战。 以下是部分立场文件、部分审查和部分统一。我们认为组合泛化必须是人工智能实现类人能力的首要任务,结构化表示和计算是实现这一目标的关键。正如生物学合作利用自然和养育,我们拒绝在“手工工程”和“端到端”学习之间做出错误的选择,而是提倡一种受益于两者互补优势的方法。我们探索在深度学习架构中使用关系归纳偏差如何促进对实体、关系和构成它们的规则的学习。我们为 AI 工具包提供了一个新的构建块,它具有很强的关系归纳偏差——图网络——它概括和扩展了对图进行操作的神经网络的各种方法,并提供了一个简单的界面来操纵结构化知识和产生结构化行为。我们讨论图网络如何支持关系推理和组合泛化,为更复杂、可解释和灵活的推理模式奠定基础。
  • 反事实推理和学习系统:计算广告的例子

    这项工作展示了如何利用因果推理来理解复杂学习系统与其环境交互的行为,并预测系统变化的后果。这样的预测使得人类和算法都可以选择能够改善系统性能的变化。这项工作是通过与必应搜索引擎相关的广告投放系统的实验来说明的。
  • DoWhy 一个端到端的因果推理库

    DoWhy: An End-to-End Library for Causal Inference Amit Sharma, Emre Kıcıman Microsoft Research \addbibresourcebibliografia.bib 1INTRODUCTION Many questions in data science are fundamentally causal questions, such as the impact of a marketing campaign or a ...
  • 全帧视频稳定算法

    现有的视频稳定方法要么需要积极裁剪帧边界,要么在稳定的帧上产生失真伪影。在这项工作中,我们通过首先估计密集扭曲场来提出一种全帧视频稳定算法。然后可以通过融合来自相邻帧的扭曲内容来合成全帧稳定帧。核心技术创新在于我们基于学习的混合空间融合,它减轻了由光流不准确和快速移动物体引起的伪影。我们在 NUS 和自拍视频数据集上验证了我们的方法的有效性。广泛的实验结果证明了我们的方法优于先前的视频稳定方法。
  • StyleGAN2蒸馏用于前馈图像处理

    StyleGAN2是用于生成逼真的图像的先进网络。此外,还对它进行了明确训练,使其在潜在空间中具有纠缠的方向,从而可以通过更改潜在因子来进行有效的图像处理。编辑现有图像需要将给定图像嵌入到StyleGAN2的潜在空间中。通过反向传播进行的潜在代码优化通常用于对真实世界图像进行定性嵌入,尽管对于许多应用程序来说,这样做的速度太慢了。我们提出了一种将StyleGAN2的特定图像处理提炼成以配对方式训练的图像到图像网络的方法。生成的管道是对现有GAN的替代方案,它是针对未配对数据进行训练的。我们提供人脸转换的结果:性别互换,老化/复兴,样式转换和图像变形。
  • [论文翻译]Netadaptv2:高效的神经结构搜索,具有快速超级网络训练和架构优化

    神经体系结构搜索(NAS)通常包括三个主要步骤:训练超级网络,训练和评估采样的深度神经网络(DNN)以及训练发现的DNN。现有的大多数工作都以大大降低其他步骤的速度或牺牲对不可区分搜索指标的支持为代价来加快某些步骤的速度。每步花费时间的不平衡减少限制了总搜索时间的减少,并且无法支持不可区分的搜索指标也限制了发现的DNN的性能。 在本文中,我们为NetAdaptV2提供了三种创新,以更好地平衡每个步骤所花费的时间,同时支持不可区分的搜索指标。首先,我们提出将网络深度和层宽度合并为单个搜索维度的通道级旁路连接,以减少训练和评估采样DNN的时间。其次,提出了有序辍学来在单个前向后向传递中训练多个DNN,以减少训练超级网络的时间。第三,我们提出了多层坐标下降优化器,该优化器在每次优化迭代中考虑多层的相互作用,以提高发现的DNN的性能,同时支持不可区分的搜索指标。通过这些创新,NetAdaptV2将在ImageNet上总搜索时间减少了多达5.8× 和 在NYU Depth V2上为2.4×,同时发现DNN的精确度,延迟/准确性,MAC权衡要比最新的NAS更好。此外,在相同的延迟下,发现的DNN优于NAS发现的MobileNetV3的top-1准确性提高了1.8%。脚注{项目网站:http://netadapt.mit.edu。}
  • BigGAN :用于 高保真自然图像合成的大规模GAN训练

    尽管在生成图像建模方面取得了最新进展,但是从复杂的数据集(例如ImageNet)成功生成高分辨率,多样的样本仍然是一个遥不可及的目标。为此,我们以尚未尝试的最大规模训练了生成对抗网络,并研究了针对这种规模的不稳定性。我们发现,将正交正则化应用于生成器使其适合于简单的“截断技巧”,从而可以通过截断潜在空间来精确控制样本保真度与变化之间的权衡。我们的修改导致建立了模型,该模型在类条件图像合成中设置了新的技术水平。在ImageNet上于128x128分辨率进行训练,我们的模型(BigGAN)的初始得分(IS)为166.3,弗雷谢特初始距离(FID)为9.6,比之前的最佳IS为52.52和FID为18.65有所提高。
  • ShuffleNet V2:高效CNN架构设计实用指南

    当前,神经网络体系结构设计主要由计算复杂度的间接度量即FLOP指导。但是,直接指标(例如速度)也取决于其他因素,例如内存访问成本和平台特性。因此,这项工作建议评估目标平台上的直接指标,而不仅仅是考虑FLOP。在一系列受控实验的基础上,这项工作得出了一些有效的网络设计实用指南。因此,提出了一种称为ShuffleNet V2的新体系结构。全面的消融实验证明,我们的模型在速度和精度的权衡方面是最先进的。
  • [论文翻译]MLP-Mixer:面向视觉的全MLP架构

    卷积神经网络(CNN)是计算机视觉的首选模型。最近,基于注意力的网络(例如Vision Transformer)也变得很流行。在本文中,我们表明,尽管卷积和注意力都足以获得良好的性能,但它们都不是必需的。我们介绍*MLP-Mixer*,一种仅基于多层感知器(MLP)的体系结构。MLP-Mixer包含两种类型的层:一种将MLP独立应用于图像补丁(即“混合”每个位置特征),另一种将MLP应用到各个补丁(即“混合”空间信息)。在大型数据集上进行训练或采用现代正则化方案进行训练时,MLP-Mixer在图像分类基准上获得竞争性得分,其预训练和推理成本可与最新模型相媲美。我们希望这些结果能引发更多的研究,超越成熟的CNN和transformer的领域。
  • Delving Deep into Rectifiers深入研究整流器: 在ImageNet分类上超越人类水平的性能

    整流的激活单元(整流器)对于最新的神经网络至关重要。在这项工作中,我们从两个方面研究了用于图像分类的整流器神经网络。首先,我们提出了一种参数化线性整流单元(PReLU),该参数化了传统的整流单元。PReLU以几乎为零的额外计算成本和极小的过拟合风险改善了模型拟合。其次,我们得出了一种鲁棒的初始化方法,该方法特别考虑了整流器的非线性。这种方法使我们能够从头开始直接训练极深的整流模型,并研究更深或更广的网络体系结构。基于我们的PReLU网络(PReLU-nets),我们达到了4.94%ImageNet 2012分类数据集中的top-5测试错误。相对于2014年ILSVRC冠军(GoogLeNet,6.66%[ 29 ]),相对改善了26%。据我们所知,我们的结果是在视觉识别挑战上首次超过人类水平的表现(5.1%,[ 22 ])。
  • [论文翻译] SOON: Scenario Oriented Object Navigation with Graph-based Exploration 基于图探索的面向场景的目标导航

    在3D体现环境中从任何地方像人类一样导航到语言指导目标的能力是智能机器人的“圣杯”目标之一。但是,大多数可视化导航基准测试都集中于在固定的起点上朝目标进行导航,并遵循一组详尽的说明(逐步描述)。这种方法与现实世界中的问题有所不同,在现实世界中,人为描述对象及其周围环境是什么样的,并要求机器人从任何地方开始导航。因此,在本文中,我们介绍了一种面向场景的对象导航(SOON)任务。在此任务中,需要代理从3D体现环境中的任意位置导航以按照场景描述来定位目标。为了给解决这个问题提供一个有希望的方向,我们提出了一种新颖的基于图的探索(GBE)方法,该方法将导航状态建模为一个图,并介绍了一种新颖的基于图的探索方法,以便从图中学习知识并通过学习次优轨迹来稳定训练。我们还提出了一个新的大规模基准测试,名为“从任何地方到对象(FAO)”数据集。为避免目标含糊不清,粮农组织中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。该模型将导航状态建模为图形,并引入了一种新颖的基于图形的探索方法,可以从图形中学习知识并通过学习次优轨迹来稳定训练。我们还提出了一个新的大规模基准测试,名为“从任何地方到对象(FAO)”数据集。为避免目标含糊不清,粮农组织中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。该模型将导航状态建模为图形,并引入了一种新颖的基于图形的探索方法,可以从图形中学习知识并通过学习次优轨迹来稳定训练。我们还提出了一个新的大规模基准测试,名为“从任何地方到对象(FAO)”数据集。为避免目标含糊不清,粮农组织中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。FAO中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。FAO中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。
  • [论文翻译][部分转载]当SIFT遇上CNN:图像检索任务十年总结 SIFT Meets CNN: A Decade Survey of Instance R

    在基于内容的图像检索技术(CBIR)发展早期,研究人员大多基于图像的全局特征进行研究。自2003年开始,由于SIFT特征在图像变换问题中的优异表现,十多年来基于局部描述算子(如SIFT描述算子)的图像检索方法一直被广泛研究。最近,基于卷积神经网络(CNN)的图像表示方法吸引了社区越来越多的关注,同时这种方法也展现出了令人赞叹的性能。我们领域正处于快速发展时期,本文对实例检索近十多年来的进展进行了综合且全面的调查研究,主要展示了基于SIFT和CNN特征的两类主要方法。对SIFT一类的方法,我们根据字典本大小,将相关文献按照字典的大/中/小规模进行组织。对CNN一类的方法,我们主要依据预训练模型,微调模型和混合模型进行分类和讨论。预训练模型和微调模型方法采用了单通道的图像输入方法而混合模型则采用了基于块的特征提取策略。本篇综述选取了在现代实例检索任务中先前的各类工作,展现了该任务中的里程碑时刻,并提出了关于SIFT与CNN的内在联系的见解。在分析与比较了各种方法在几个数据集上的检索性能后,我们分别讨论了通用实例检索和专用实例检索任务未来的发展前景。
公告

AI千集是一个AIGC代码和笔记平台
你可以发布你的AI代码和文章
记录你的AI学习过程
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,让你的AIGC成长更有意义
扫一扫,加入我们
公众号

题灵是连通AI学研和就业的桥梁
登陆小程序
获取千集AI课程和论文
挑战万道AI面试题

题灵

码涯是学习代码基础知识的开源书库
登陆小程序
一键开启免费学习代码编程之旅

码涯