openoker

代码改变世界!

  • 根据人类反馈进行强化学习

    为了使复杂的强化学习 (RL) 系统与现实世界环境进行有效交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了一种新的目标传达方法:使用成对轨迹片段之间(非专家的)人类偏好向智能体表示目标。我们表明,这种方法可以有效地解决包括 Atari 游戏和模拟机器人运动在内的复杂的 RL 任务,无需使用奖励函数,仅需在agent与环境的交互的过程中提供不到 1% 的反馈即可,这大大降低了人工监督的成本,以至于可以实际应用于最先进的 RL 系统。为了证明我们方法的灵活性,我们表明,用大约一个小时的人工时间,就可以成功地训练复杂的新行为,相比过去关于从人类反馈中学习的工作,我们关注的行为和环境要复杂得多。
  • 利用强化学习进行量化投资的尝试

    本文希望通过机器学习算法,设立相应的环境,选取真实的数据,使得程序能够预判风险进行投资,使得投资能够最大化。本文的经济学部分参考了论文:ML-TEA 一套基于机器学习和技术分析的量化投资算法 李斌,主要通过其经济学方面的数据,筛选出了主要的4种状态变量以及经济指标。
  • 给生物学家的机器学习指南

    过去几十年,生物数据集的规模与复杂性大幅增长,这使得机器学习越来越多地用于为潜在生物过程构建信息与预测模型。所有机器学习技术都在让模型与数据相匹配;然而,具体的方法多种多样,乍一看似乎令人眼花缭乱。对于不同类型的生物数据,该如何选择特定的机器学习技术? 2021年9月,发表在Nature Reviews Molecular Cell Biology上的综述文章“给生物学家的机器学习指南”,向读者简要介绍了一些关键的机器学习技术:既包括分类、回归、聚类模型等传统机器学习方法,也包括最近开发和广泛使用的涉及深度神经网络的技术。本文还记录了一些最佳做法与入门要点,并展望了机器学习应用于生物学的一些最令人兴奋的前景。
  • [论文翻译]使用DAC-ML对样本有效的政策学习

    人工智能的样本效率问题是指当前的深度加强学习模型无法优化少数集中的行动政策。最近的研究已经尝试通过添加内存系统和架构偏差来提高学习速度,例如在焦化加强学习中来克服这种限制。但是,尽管实现了增量的改进,但它们的表现仍然没有与人类学习行为政策的表现。在本文中,我们利用了分布式自适应控制(DAC)理论的设计原则,以建立一种新的认知架构(DAC-ML),即通过纳入海马启发的顺序存储器系统,可以迅速收敛到在充满挑战的觅食任务中最大化奖励收购的有效行动政策。 \关键词{认知架构,样本效率问题,序列学习,加强学习,分布式自适应控制}
  • [论文翻译]更快的R-CNN:与区域提案网络的实时对象检测

    There are 12 tables in this paper. Please check whether the table format is correctly parsed. If there are any problems, please change them manually. 本文有12个表格。请检查表格格式是否正确解析。如果有任何问题,请手动更改它们。 . Faster R-CNN: Towards Real-Time Object Detection with Region Pro...
  • [论文翻译]统计物理和机器学习中的高阶交互:\\一种独立于均衡的逆问题的模型解决方案

    在观测数据中,涉及大量交互变量的复杂系统中推断的配对和高阶交互的问题是许多领域的基础。统计物理界已知为逆问题,由于生成了真实和模拟的“大”数据,近年来它已变得可访问。目前对逆问题的方法依赖于参数假设,物理近似,例如,平均场理论,忽略可能导致偏置或不正确估计的高阶相互作用。我们使用跨学科方法绕过这些缺点,并证明这些假设和近似都不是必要的:我们通过针对目标的非参数框架介绍了全阶对称交互的普遍,模型独立和基本的估计。学习,一个数学统计数据。由于其普遍性,我们的定义很容易适用于\ emph {任何惯性变量的均衡,成为IT磁性旋转,神经网络中的节点,或生物学中的蛋白质网络。我们的方法是针对性的,不需要拟合不必要的参数。相反,它消耗了关于估计相互作用的所有数据,因此显着增加了准确性。我们在(i)二维读数模型上和数值上展示了我们的技术的一般性,(i)具有4点相互作用的insing模型,(iii)限制的boltzmann机器,和(iv)模拟个体 - 人类DNA变异和代表性特征。后者展示了这种方法的适用性发现人口生物医学中疾病的认识性相互作用。
  • [论文翻译] SOON: Scenario Oriented Object Navigation with Graph-based Exploration 基于图探索的面向场景的目标导航

    在3D体现环境中从任何地方像人类一样导航到语言指导目标的能力是智能机器人的“圣杯”目标之一。但是,大多数可视化导航基准测试都集中于在固定的起点上朝目标进行导航,并遵循一组详尽的说明(逐步描述)。这种方法与现实世界中的问题有所不同,在现实世界中,人为描述对象及其周围环境是什么样的,并要求机器人从任何地方开始导航。因此,在本文中,我们介绍了一种面向场景的对象导航(SOON)任务。在此任务中,需要代理从3D体现环境中的任意位置导航以按照场景描述来定位目标。为了给解决这个问题提供一个有希望的方向,我们提出了一种新颖的基于图的探索(GBE)方法,该方法将导航状态建模为一个图,并介绍了一种新颖的基于图的探索方法,以便从图中学习知识并通过学习次优轨迹来稳定训练。我们还提出了一个新的大规模基准测试,名为“从任何地方到对象(FAO)”数据集。为避免目标含糊不清,粮农组织中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。该模型将导航状态建模为图形,并引入了一种新颖的基于图形的探索方法,可以从图形中学习知识并通过学习次优轨迹来稳定训练。我们还提出了一个新的大规模基准测试,名为“从任何地方到对象(FAO)”数据集。为避免目标含糊不清,粮农组织中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。该模型将导航状态建模为图形,并引入了一种新颖的基于图形的探索方法,可以从图形中学习知识并通过学习次优轨迹来稳定训练。我们还提出了一个新的大规模基准测试,名为“从任何地方到对象(FAO)”数据集。为避免目标含糊不清,粮农组织中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。FAO中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。FAO中的描述提供了丰富的语义场景信息,包括:对象属性,对象关系,区域描述和附近区域描述。我们的实验表明,建议的GBE优于FAO和R2R数据集上的各种最新技术。对FAO的消融研究验证了数据集的质量。
  • [论文翻译]Styleclip:Text-Driven Manipulation of StyleGAN Imagery 文本驱动的styleggan图像合成

    受StyleGAN在各种领域生成高度逼真的图像的能力的启发,许多最新工作集中在理解如何使用StyleGAN的潜在空间来操纵生成的和真实的图像。然而,发现在语义上有意义的潜在操纵通常涉及艰苦的人类对许多自由度的检查,或涉及每个所需操纵的带注释的图像集合。在这项工作中,我们探索利用最新引入的对比语言-图像预训练(CLIP)模型的功能,以便为StyleGAN图像处理开发基于文本的界面,而无需进行此类人工操作。我们首先介绍一种优化方案,该方案利用基于CLIP的损失来响应用户提供的文本提示来修改输入潜在矢量。下一个,我们描述了一个潜在映射器,它针对给定的输入图像推断出文本引导的潜在操作步骤,从而允许更快,更稳定的基于文本的操作。最后,我们提出了一种在StyleGAN样式空间中将文本提示映射到与输入无关的方向的方法,从而实现交互式文本驱动的图像操作。广泛的结果和比较证明了我们方法的有效性。
个人成就
  • 积分
    1277
  • 论文
    117
  • 评论
    11
  • 注册排名
    10