• [论文翻译]探索自注意力机制在语音分离中的应用

    摘要—Transformer 在深度学习领域实现了显著进步。在许多任务中,其表现往往优于循环和卷积模型,同时还能利用并行处理优势。近期,我们提出的 SepFormer 在 WSJ0-2/3 Mix 数据集上实现了语音分离的最先进性能。本文深入研究了语音分离领域的 Transformer 模型,特别通过 LibriMix、WHAM! 和 WHAMR! 等更具挑战性的含噪及含噪混响数据集扩展了 SepFormer 的先前研究成果。此外,我们将模型扩展至语音增强任务,并在去噪和去混响实验中提供了实证。最后,我们首次在语音分离领域探索了高效自注意力机制(如 Linformer、Longformer 和 Reformer)的应用,发现其能显著降低内存需求。例如,基于 Reformer 的注意力机制在 WSJ0-2Mix 数据集上优于流行的 Conv-TasNet 模型,且推理速度更快,内存消耗相当。
  • [论文翻译]通用医疗人工智能的基础模型

    高度灵活、可复用的人工智能(AI)模型的异常快速发展,很可能为医学领域带来前所未有的能力。我们提出了一种新型医疗AI范式,称之为通用医疗AI(GMAI)。GMAI模型能够仅使用极少甚至无需特定任务的标注数据,就能执行多样化任务。通过在海量多样化数据集上进行自监督训练构建的GMAI,可灵活解读包括影像、电子健康档案、实验室结果、基因组学、图表及医疗文本等不同医疗模态数据的组合。这些模型将生成具有表现力的输出,如展现高级医学推理能力的自由文本解释、语音建议或图像标注。本文我们明确了GMAI一系列高影响力潜在应用场景,并详细阐述了实现这些应用所需的具体技术能力与训练数据集。我们预计,GMAI赋能的应用将挑战当前医疗AI设备的监管验证策略,并改变大规模医疗数据收集的实践方式。
  • [论文翻译]多模态GPT-4V在美国医师执照考试(USMLE)含图像题目的表现:基于解释的影像诊断支持潜力

    利用人工智能(AI)辅助临床诊断已是一个活跃了六十多年的研究课题。然而,过往研究因规模和准确性不足而无法应用于临床决策。大语言模型(LLM)相关技术中AI的能力可能正在改变这一现状。本研究评估了多模态大语言模型GPT-4V(Generative Pre-trained Transformer 4 Vision)在含图像的医学执照考试题目上的表现与可解释性。
  • [论文翻译]迈向通用生物医学AI

    医学本质上是多模态的,涵盖文本、影像、基因组学等丰富的数据形式。能够灵活编码、整合并大规模解读此类数据的通用生物医学人工智能 (AI) 系统,有望实现从科学发现到医疗护理的广泛应用。为促进此类模型的开发,我们首先构建了 Multi Med Bench——一个新型多模态生物医学基准测试集,涵盖医学问答、乳腺X光与皮肤镜图像解读、放射学报告生成与摘要、基因组变异检测等14项多样化任务。随后我们提出 Med-PaLM Multimodal (Med-PaLM M) 作为通用生物医学AI系统的概念验证。这个大型多模态生成模型采用统一权重,可灵活编码和解读临床语言、影像及基因组数据。Med-PaLM M 在 Multi Med Bench 所有任务中达到或超越当前最优水平,多数情况下大幅领先专科模型。我们还观察到该模型展现的零样本医学概念迁移能力、跨任务正向迁移学习以及涌现的零样本医学推理能力。为进一步探究 Med-PaLM M 的能力边界,我们邀请放射科医生对模型生成(及人工撰写)的胸片报告进行评估,发现不同规模的模型均表现出色。在246份回顾性胸片的双盲评估中,临床医生对 Med-PaLM M 报告的偏好比例最高达40.50%,预示其临床潜力。虽然实际应用仍需大量验证工作,我们的成果标志着通用生物医学AI系统发展的重要里程碑。
  • [论文翻译]基于大语言模型实现专家级医学问答

    语言是健康与医疗的核心,支撑着人与人及医疗服务提供者之间的互动。大语言模型 (LLM) 的进展使得人工智能 (AI) 系统能够探索其在医学领域的能力——这些系统可以理解并使用语言进行交流,有望实现更丰富的人机交互与协作。值得注意的是,这些模型已在多项选择题研究基准上展现出令人印象深刻的能力
  • [博客翻译]为什么我停止使用AI代码编辑器

    一句话总结:我选择将使用AI变为一种手动操作,因为我发现过度依赖它会导致能力逐渐退化。我建议大家谨慎对待将AI作为工作流程的核心部分。2022年底,我第一次使用了AI工具,甚至早于ChatGPT的第一个版本。2023年,我开始在开发工作流程中使用基于AI的工具。最初,我对这些大型语言模型(LLM)的能力感到非常震撼。比如,我只需复制粘贴晦涩的编译器错误和C++源代码,AI就能告诉我错误出在哪里,这简直像魔法一样...
  • [博客翻译]学会编程,先别管AI,然后再用AI让编程更上一层楼

    那么现在的学生是如何学习编程的呢?我也不知道!再加上AI的介入,事情变得更加复杂。你应该看在线课程吗?读书?直接下载一个代码编辑器开始编程?还是应该依赖AI来完成工作?现在有无数选择——比以往任何时候都多的语言、框架、工具和资源…
  • [博客翻译]人工智能揭示了薄膜中树枝状晶生长的秘密

    东京理科大学 媒体关系 2025年3月19日 星期三 材料科学突破:AI揭示薄膜中枝晶生长的秘密 研究人员开发了一种新的AI模型,能够预测薄膜中的枝晶生长,帮助优化薄膜生长过程。 薄膜器件由几纳米厚的材料层组成,在从半导体到通信技术的各种技术中扮演着重要角色。例如,沉积在铜基底上的石墨烯和六方氮化硼(h-BN)多层薄膜,是下一代高速通信系统的有前途的材料。薄膜是通过将微小的材料层沉积在基底上生长的。生长过程中的条件显著影响这些薄膜的微观结构,进而影响其功能和性能。 枝晶结构,即在生长过程中出现的树状分支图...
  • [智能分析]AI智能体的关键要素及应用前景

    在当今快速发展的科技时代,人工智能(AI)已成为推动各行各业变革的重要力量。AI智能体,作为人工智能的具体体现,具备自主学习、推理和决策的能力,正在深刻改变我们的生活和工作方式。随着计算能力的提升和大数据的广泛应用,AI智能体的关键要素逐渐显现,包括算法的先进性、数据的质量与数量、以及与人类的交互能力等。 AI智能体的应用前景广泛,涵盖了医疗、金融、制造、交通等多个领域。在医疗领域,AI智能体能够辅助医生进行疾病诊断和个性化治疗方案的制定;在金融领域,它们可以进行风险评估和市场预测,提高投资决策的准确性;在...
  • [博客翻译]人工智能的未来是Ruby on Rails

    人工智能的未来是Ruby on Rails 大型语言模型在生成和编辑代码方面表现出色。目前,这可能是人工智能的“杀手级应用”:真正通过语言模型赚钱的公司——如GitHub Copilot、Cursor、Windsurf——都在做代码生成。 在小规模项目上,这种方法效果惊人,但当代码库变大时,就会出现一个明显的问题。一旦代码库无法完全放入模型的上下文窗口中,为你写代码的工具就会遇到瓶颈。突然之间,修改不再奏效,试图修复问题的尝试反而在其他地方引入了更多错误。即使是那些宣传拥有大上下文窗口的模型,也不一定有大的...
  • [智能分析]医疗行业中大模型微调方案

    随着人工智能(AI)技术的迅猛发展,医疗行业正经历着前所未有的变革。传统的医疗服务模式面临着诸多挑战,包括患者个性化需求的提升、医疗数据的快速增长以及对高效决策支持系统的迫切需求。为了应对这些挑战,医疗行业亟需借助先进的AI技术,尤其是大模型微调方案,以实现更精准、智能的医疗服务。 本报告旨在探讨医疗行业中大模型微调的具体方案,重点分析如何通过数据收集、模型训练与优化、个性化推广等环节,提升医疗服务的质量和效率。我们将详细介绍项目的背景、目标、实施步骤及预期成果,力求为医疗机构提供切实可行的解决方案。 在当...
  • [智能分析]一位AI创业者的重生之路

    在快速发展的科技时代,人工智能(AI)作为一种颠覆性技术,正在重塑各行各业的格局。对于创业者而言,AI不仅提供了前所未有的机遇,也带来了巨大的挑战。本文将深入探讨一位AI创业者的重生之路,揭示其在创业过程中所经历的波折与成长。 随着市场竞争的加剧和技术的不断演进,许多创业者在追求创新的过程中遭遇了失败。然而,真正的成功往往源于对失败的反思和重新出发的勇气。本报告将分析这位创业者如何在逆境中找到新的方向,利用AI技术的潜力重新定义自己的商业模式,并在不断变化的市场环境中实现可持续发展。 通过对其经历的剖析,我...
  • [博客翻译]我每天都在用Cursor——以下是我如何避开那些“垃圾”部分的方法

    目前,AI在编程领域处于一个奇怪的位置。有人声称你可以在三天内构建一个完整的SaaS(软件即服务),而另一些人则认为它比无用还要糟糕。这两种说法可能都有些夸大其词,甚至是在撒谎。我喜欢用Cursor编程,它彻底改变了我的编码方式,但很多时候它也表现得像一堆垃圾。因此,作为一个对AI持怀疑态度的人,我将分享我所知道的一切,帮助你获得尽可能好的体验...
  • [论文翻译]shapiq: 机器学习中的Shapley交互作用

    最初源于博弈论的 Shapley 值 (SV) 最近已成为机器学习研究中的重要工具。最值得注意的是,它被用于可解释人工智能中的特征归因和数据估值。Shapley 交互 (SIs) 自然地扩展了 SV 并通过将联合贡献分配给实体组来解决其局限性,从而增强对黑盒机器学习模型的理解。由于计算 SV 和 SI 的指数复杂性,已经提出了各种方法,这些方法利用结构假设或在资源有限的情况下产生概率估计。在这项工作中,我们介绍了 shapiq,这是一个开源 Python 包,它在一个与应用无关的框架中统一了最先进的算法,以高效计算 SV 和任何阶的 SI。此外,它包括一个基准测试套件,其中包含 11 个 SI 的机器学习应用,带有预计算的游戏和真实值,以系统地评估跨领域的计算性能。对于从业者来说,shapiq 能够解释和可视化预测模型中任何阶的特征交互,包括视觉 Transformer、语言模型,以及使用 TreeSHAP-IQ 的 XGBoost 和 LightGBM。通过 shapiq,我们扩展了 shap 的功能,超越了特征归因,并巩固了 SV 和 SI 在机器学习中的应用,促进了未来的研究。源代码和文档可在 https://github.com/mmschlk/shapiq 获取。
  • [博客翻译]深度研究、深入研究和深入研究之间的区别

    深度研究的不同之处:解析深度研究的三种形态 在人工智能前沿实验室中,最近掀起了一股“深度研究(Deep Research)”的浪潮。2024年12月,谷歌发布了其Gemini 1.5深度研究模型;2025年2月,OpenAI紧随其后推出了自己的深度研究系统;Perplexity也在不久之后推出了其版本的深度研究功能。与此同时,DeepSeek、阿里巴巴的通义千问(Qwen)以及埃隆·马斯克的xAI也为其聊天机器人助手推出了搜索和深度搜索功能。此外,在GitHub上还涌现了数十个模仿这些功能的开源实现。这似乎...
  • [智能分析]AI合同大模型开启“脑力革命”时代

    在人工智能技术迅猛发展的背景下,AI合同大模型的出现标志着一个全新的“脑力革命”时代的到来。这一革命不仅仅是技术层面的突破,更是对人类思维方式、工作模式和社会结构的深刻影响。AI合同大模型通过深度学习和自然语言处理等先进技术,能够高效处理和生成法律文本,极大地提升了合同管理和法律服务的效率与准确性。 随着企业和法律机构对智能化解决方案需求的不断增加,AI合同大模型的应用范围也在不断扩大。从合同审核、风险评估到条款优化,这些模型不仅能够减少人工操作的错误,还能在短时间内分析大量数据,提供更为精准的法律建议。这...
  • [论文翻译]大语言模型在网络安全中的应用:系统性文献综述

    大语言模型的快速发展为在各个应用领域(包括网络安全)中利用人工智能开辟了新的机会。随着网络威胁的数量和复杂性不断增长,对能够自动检测漏洞、分析恶意软件并响应攻击的智能系统的需求也越来越大。在本调查中,我们对大语言模型在网络安全中的应用(LLM 4 Security)进行了全面的文献回顾。通过全面收集超过 30,000 篇相关论文,并系统分析了来自顶级安全和软件工程会议的 127 篇论文,我们旨在提供一个全面的视角,展示大语言模型如何被用于解决网络安全领域的各种问题。
  • [智能分析]普通人如何避免陷入DeepSeek大模型的幻觉陷阱

    在当今数字化时代,人工智能(AI)技术的迅猛发展为我们的生活带来了诸多便利,尤其是大型语言模型(如DeepSeek)的应用。然而,这些模型在提供信息和生成内容的同时,也潜藏着“幻觉”现象的风险,即模型生成的信息可能并不准确或具有误导性。这种现象不仅影响了专业人士的决策,也可能对普通用户的日常生活产生负面影响。 随着AI技术的普及,普通人越来越多地依赖这些工具来获取信息、解决问题和进行创作。然而,由于缺乏对AI模型工作原理的深入理解,用户往往容易陷入模型生成内容的表象之中,忽视了其潜在的局限性和误导性。为了帮...
  • [论文翻译]大规模安全:大模型安全综合调查

    人工智能 (AI) 已进入大模型时代,包括大语言模型 (LLMs)、视觉语言预训练模型 (VLP)、视觉语言模型 (VLMs) 以及图像/视频生成扩散模型 (DMs)。通过对海量数据集进行大规模预训练,这些模型在语言理解、图像生成、复杂问题解决和决策制定等任务中展现了前所未有的能力。它们理解和生成类人内容(例如文本、图像、音频和视频)的能力,使得其在客户服务、内容创作、医疗保健、教育等领域得到应用,凸显了其在商业和社会领域的变革潜力。
  • [论文翻译]探索结果奖励在数学推理学习中的极限

    推理能力,尤其是解决复杂数学问题的能力,是通用人工智能的关键组成部分。最近,像 OpenAI 的 o-series 模型这样的专有公司取得了显著的进展。然而,完整的技术细节仍未公开,而被认为肯定采用的技术只有强化学习 (RL) 和长链思维。本文提出了一种新的 RL 框架,称为 OREAL,旨在通过基于结果奖励的强化学习 (Outcome REwArd-based Reinforcement Learning) 来追求数学推理任务的性能极限,其中只有二元结果奖励是容易获得的。我们从理论上证明,在二元反馈环境中,通过对最佳 N 采样 (Best-of-N sampling) 的正向轨迹进行行为克隆,足以学习到 KL 正则化的最优策略。这一公式进一步表明,负样本的奖励应进一步重塑,以确保正负样本之间的梯度一致性。为了缓解 RL 中因稀疏奖励带来的长期困难(这一困难在长链思维的部分正确性下进一步加剧),我们进一步应用了 Token 级奖励模型来采样推理轨迹中的重要 Token 以进行学习。通过 OREAL,一个 7B 模型首次能够在 MATH-500 上通过 RL 获得 94.0 的 pass@1 准确率,与 32B 模型相当。OREAL-32B 也超越了之前通过蒸馏训练的 32B 模型,在 MATH-500 上达到了 95.0 的 pass@1 准确率。我们的研究还表明了初始策略模型和训练查询对 RL 的重要性。代码、模型和数据将被发布,以造福未来的研究。
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理