大型语言模型 - 文章

[论文翻译]BERTweet: 面向英文推特的预训练语言模型

语言模型BERT (Devlin等人, 2019)——即基于Transformer (Vaswani等人, 2017)的双向编码器表示——及其变体已成功帮助各类NLP任务取得新的最先进性能表现。它们的成功主要覆盖了维基百科、新闻和书籍等常见英文领域。对于生物医学或科学等特定领域，我们可以使用BERTology架构 (Beltagy等人, 2019; Lee等人, 2019; Gururangan等人, 2020) 重新训练领域专用模型。

由 shadow发布于 2025-06-07 15:13:26 语言模型大型语言模型大模型阅读次数 441
[论文翻译]启发式解码：带前瞻启发式的受限文本生成

我们的方法在五项生成任务上超越了竞争基线，并在表格到文本生成(table-to-text generation)、受限机器翻译(constrained machine translation)和关键词约束生成(keyword-constrained generation)任务上取得了新的最先进(state-of-the-art)性能。在需要复杂约束满足的任务，以及少样本(few-shot)或零样本(zero-shot)设置下，改进尤为显著。

由 shadow发布于 2025-05-13 11:39:43 语言模型大型语言模型AI知识阅读次数 533
[论文翻译]DoctorGLM: 微调你的中文医生并非难事

大型语言模型（LLM）如ChatGPT和GPT-4在理解和响应人类指令方面取得了显著进展。然而，这些模型通常在英语中表现更佳，且未针对医疗领域进行专门训练，导致其在诊断、药物推荐等医疗建议中的精确度欠佳。此外，医院仍认为训练和部署对话模型不可行，阻碍了大语言模型的推广。为解决这些问题，我们借助ChatGPT收集了中文医疗对话数据库，并采用多种技术训练了一个易于部署的大语言模型。值得注意的是，我们仅用13小时在单张A100 80G显卡上完成了ChatGLM-6B的微调，这意味着拥有医疗专用大语言模型的成本可以非常低廉。DoctorGLM目前处于早期工程尝试阶段，可能存在各种错误。我们将其开源以邀请社区提供反馈和建议，从而提升其医疗专项能力：https://github.com/xiong hong lin/DoctorGLM。

由 Ylong发布于 2025-04-16 21:12:12 大型语言模型chatgpt 阅读次数 528
[博客翻译]人工智能的未来是Ruby on Rails

人工智能的未来是Ruby on Rails 大型语言模型在生成和编辑代码方面表现出色。目前，这可能是人工智能的“杀手级应用”：真正通过语言模型赚钱的公司——如GitHub Copilot、Cursor、Windsurf——都在做代码生成。在小规模项目上，这种方法效果惊人，但当代码库变大时，就会出现一个明显的问题。一旦代码库无法完全放入模型的上下文窗口中，为你写代码的工具就会遇到瓶颈。突然之间，修改不再奏效，试图修复问题的尝试反而在其他地方引入了更多错误。即使是那些宣传拥有大上下文窗口的模型，也不一定有大的...

由 openoker发布于 2025-03-22 22:08:51 人工智能编程语言代码生成红宝石大型语言模型阅读次数 459
[论文翻译]基于先进Transformer的语言模型演化分析：观点挖掘实验

意见挖掘，也称为情感分析，是自然语言处理（NLP）的一个子领域，专注于识别和提取文本材料中的主观信息。这可以包括确定一段文本的整体情感（例如，正面或负面），以及识别文本中表达的特定情绪或观点，涉及使用先进的机器和深度学习技术。最近，基于Transformer的语言模型使得人类情感分析任务变得直观，这得益于注意力机制和并行计算。这些优势使得此类模型在语言任务上非常强大，与循环神经网络不同，后者在顺序处理上花费大量时间，使其在处理长文本时容易失败。本文的范围旨在研究基于Transformer的最先进语言模型在意见挖掘中的行为，并提供它们之间的高层次比较，以突出它们的关键特性。此外，我们的比较研究为生产工程师提供了关于应关注的方法的线索，并为研究人员提供了未来研究主题的指导。

由 shadow发布于 2025-03-22 13:49:51 语言模型大语言模型大型语言模型阅读次数 479
[论文翻译]VGGT: 视觉几何基础 Transformer

我们提出了 VGGT，这是一种前馈神经网络，能够从一个、几个或数百个场景视图中直接推断出场景的所有关键 3D 属性，包括相机参数、点图、深度图和 3D 点轨迹。这种方法在 3D 计算机视觉领域迈出了一步，因为传统模型通常局限于单一任务并专门针对单一任务。VGGT 简单且高效，能够在一秒内重建图像，并且在不需要视觉几何优化技术后处理的情况下，仍然优于其他替代方案。该网络在多个 3D 任务中取得了最先进的结果，包括相机参数估计、多视图深度估计、密集点云重建和 3D 点跟踪。我们还展示了使用预训练的 VGGT 作为特征骨干可以显著增强下游任务，例如非刚性点跟踪和前馈新视图合成。代码和模型已在 https://github.com/facebookresearch/vggt 公开。

由 shadow发布于 2025-03-19 15:53:42 深度图模型大型语言模型阅读次数 1668
[博客翻译]Prompts是程序

在本文中，我们将探讨人工智能模型提示（AI Model Prompts）与传统软件程序之间的紧密联系。自从2022年12月发布的ChatGPT大受欢迎以来，我们对大型语言模型（LLMs）的能力和使用方式有了深刻理解。人们已经认识到，向模型输入的提示（User Prompt）具有强大的影响力，它们能够理解并回应我们的指令，还能进行有深度的对话，帮助我们调整响应。然而，尽管如此，许多用户在使用聊天机器人时仍面临挑战，比如如何准确地表述意图，以及如何确保模型输出符合特定格式，如JSON对象。此外，与编写和调试代...

由 openoker发布于 2024-11-02 18:16:57 人工智能大型语言模型阅读次数 698
[博客翻译]命令行上的语言模型探索之旅

上周，我在为期六周的“掌握大型语言模型：开发者与数据科学家会议”上做了一场演讲，主题是如何从命令行访问和利用大型语言模型。我的重点是介绍我开发的名为LLM的Python命令行工具，以及如何使用它及其插件来探索这些模型，并将其用于实际任务。演讲视频被录制并上传到了YouTube，我还将其转换成了带有详细注释和屏幕截图的演示文稿（没有幻灯片）。LLM是一个工具，旨在帮助用户直接在终端中运行大型语言模型提示。你可以通过pipx、pip或brew安装它...

由 openoker发布于 2024-06-25 12:04:47 命令行大型语言模型LLM命令提示符阅读次数 730
[博客翻译]在大型语言模型时代，软件的可塑性转型

随着大型语言模型（LLMs）的快速发展，计算机用户可能很快就能编写小型代码。这将对软件的生产和分发带来什么样的结构性变化呢？过去几周，科技巨头们纷纷发布新成果。OpenAI推出了GPT-4，展现了在编码等多方面的能力提升。微软的研究也展示了GPT-4如何能无提示生成复杂的3D游戏代码。此外，还有针对GPT的插件出现，比如ReAct工具，让用户能更便捷地查询数据。人们自然会好奇，这些技术将如何影响软件的创作。一方面，专业的开发人员可能会因LLMs而变得更高效，因...

由 openoker发布于 2024-04-30 12:11:23 大型语言模型软件编程终端用户交互模式阅读次数 908
[博客翻译]大型语言模型的涌现能力是一种幻觉

斯蒂芬·奥内斯科学3月24日，2024年08:00大型语言模型的涌现能力可能是个幻象在一项名为“超越模仿游戏基准”（Beyond the Imitation Game benchmark, 或 BIG-bench）的项目中，450位研究人员编纂了一份包含204项任务的列表，旨在测试大型语言模型（如ChatGPT聊天机器人）的能力。在大多数任务中，随着模型的规模扩大，性能通常会稳定提升——模型越大，表现越好...

由 openoker发布于 2024-03-25 12:30:11 大型语言模型涌现模型性能衡量方式加法能力阅读次数 1479

创作中心

开启你的AI千集创作之旅

发布首篇内容，开通创作中心快来成为AI千集创作者吧～