• [论文翻译]多任务学习中梯度聚合的贝叶斯不确定性

    随着机器学习日益普及,对并行执行多个推理任务的需求不断增长。为每个任务运行专用模型的计算成本高昂,因此多任务学习(MTL)备受关注。MTL旨在学习一个能高效解决多个任务的单一模型。优化MTL模型通常通过先计算每个任务的单一梯度,再聚合梯度以获得组合更新方向来实现。但这种方法忽略了一个重要因素——梯度维度的敏感性。本文提出一种基于贝叶斯推理的新型梯度聚合方法:我们在任务特定参数上建立概率分布,从而推导出任务梯度的分布。这些额外信息使我们能量化各梯度维度的不确定性,进而在聚合时加以考量。我们通过多种数据集的实证研究证明了该方法的优势,实现了最先进的性能。
  • [论文翻译]PAtt-Lite: 轻量级补丁与注意力MobileNet用于挑战性面部表情识别

    摘要 面部表情识别(FER)是一项通过机器学习识别人类面部表情的技术。尽管现有研究近年来取得了性能提升,但在复杂环境和挑战性条件下的FER仍存在困难。本文提出了一种基于MobileNetV1的轻量级局部特征与注意力网络(PAtt-Lite),用于提升挑战性条件下的FER性能。该方法采用截断的ImageNet预训练MobileNetV1作为主干特征提取器,并在截断层位置设计了局部特征提取模块,用于捕获关键的面部局部特征以增强MobileNetV1的表征能力,特别是在挑战性条件下。
  • [论文翻译]GShard: 基于条件计算和自动分片的超大规模模型扩展方案

    神经网络扩展对于提升许多现实世界机器学习应用中的模型质量至关重要,尤其是在拥有海量训练数据和计算资源的情况下。尽管这种扩展趋势被证实是提高模型质量的有效途径,但在实施过程中仍面临计算成本、编程便捷性以及在并行设备上高效实现等挑战。GShard是一个由轻量级标注API集合和XLA编译器扩展组成的模块,它通过极少的现有模型代码改动,提供了一种优雅的方式来表达各种并行计算模式。借助自动分片技术,GShard使我们能够将稀疏门控专家混合(Sparsely-Gated Mixture-of-Experts)的多语言神经机器翻译Transformer模型规模扩展至超过6000亿参数。实验证明,这一巨型模型可在2048个TPU v3加速器上高效训练4天,在100种语言到英语的翻译任务中实现了远超现有技术的质量表现。
  • [论文翻译]硬件彩票

    The Hardware Lottery 硬件彩票 Sara Hooker Sara Hooker Google Research, Brain Team shooker@google.com Google Research, Brain Team shocker@google.com Abstract 摘要 Hardware, systems and algorithms research communities have historically had different incentive stru... 硬件、系统和算法研究社区历来具有不同的激励机制,彼此间显性合作的动机也起伏不定。考虑到硬件和软件往往决定着研究理念的成败,这种历史性割裂显得尤为怪异。本文提出"硬件彩票 (hardware lottery) "这一术语,用于描述某些研究理念仅因适配现有软硬件环境(而非其本身优于其他研究方向)而胜出的现象。计算机早期发展史的案例表明,硬件彩票效应可能将本应成功的理念标记为失败,从而延缓研究进程。在领域专用硬件兴起的当下,偏离主流研究路径的成本日益高昂,这些历史教训显得尤为深刻。本文认为,计算技术的进步收益可能将愈发失衡——某些研究方向会进入快车道,而其他方向的进展则会遭遇更多阻碍。
  • [论文翻译]放射性数据:训练追踪

    Radioactive data: tracing through training 放射性数据:训练追踪 Alexandre S a blay roll es 1 2 Matthijs Douze 1 Cordelia Schmid ? Hervé Jégou Alexandre Sablayrolles 1 2 Matthijs Douze 1 Cordelia Schmid ? Hervé Jégou Abstract 摘要 We want to detect whether a partic... 我们想检测某个特定图像数据集是否被用于训练模型。我们提出了一种新技术——放射性数据(radioactive data),通过对该数据集进行难以察觉的修改,使得任何基于它训练的模型都会带有可识别标记。该标记对架构差异或优化方法等强变量具有鲁棒性。给定一个训练好的模型,我们的技术可以检测放射性数据的使用情况,并提供置信度(p值)。 我们在大型基准测试(Imagenet)上使用标准架构(Resnet18、VGG-16、Densenet-121)和训练流程进行实验,结果表明即使仅使用1%的放射性数据训练模型,我们也能以极高置信度\$(p<10^{-4})\$检测出放射性数据的使用。该方法对数据增强和深度网络优化的随机性具有鲁棒性,因此其信噪比远高于数据投毒和后门方法。
  • [博客翻译]不要随意使用余弦相似度

    传说中,迈达斯国王触碰的一切都会变成黄金。而数据科学家则把一切都变成了向量。我们这么做是有原因的——正如黄金是商人的语言,向量则是人工智能的语言。然而,正如迈达斯发现把一切都变成黄金并不总是好事一样,盲目地使用余弦相似度来比较向量也可能会让我们误入歧途。虽然嵌入(embeddings)确实能捕捉到相似...
  • [机器生成]深度学习入门:揭示机器学习新维度的革新力量与实战应用

    深度学习是AI领域的革新力量,它模拟人脑神经网络结构,通过多层非线性变换自动提取数据特征,实现模式识别、图像分类(CNN)、语音识别(RNN)等技术突破。初学者需掌握神经网络基础、反向传播算法,并建立数学基础。实践中,理论与应用并重,如Google改进搜索引擎、Facebook人脸识别。展望未来,鼓励投身深度学习研究,共同挖掘智慧宝藏,推动人工智能发展。
  • [论文翻译]给生物学家的机器学习指南

    过去几十年,生物数据集的规模与复杂性大幅增长,这使得机器学习越来越多地用于为潜在生物过程构建信息与预测模型。所有机器学习技术都在让模型与数据相匹配;然而,具体的方法多种多样,乍一看似乎令人眼花缭乱。对于不同类型的生物数据,该如何选择特定的机器学习技术? 2021年9月,发表在Nature Reviews Molecular Cell Biology上的综述文章“给生物学家的机器学习指南”,向读者简要介绍了一些关键的机器学习技术:既包括分类、回归、聚类模型等传统机器学习方法,也包括最近开发和广泛使用的涉及深度神经网络的技术。本文还记录了一些最佳做法与入门要点,并展望了机器学习应用于生物学的一些最令人兴奋的前景。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理