• [论文翻译]BERTweet: 面向英文推特的预训练语言模型

    语言模型BERT (Devlin等人, 2019)——即基于Transformer (Vaswani等人, 2017)的双向编码器表示——及其变体已成功帮助各类NLP任务取得新的最先进性能表现。它们的成功主要覆盖了维基百科、新闻和书籍等常见英文领域。对于生物医学或科学等特定领域,我们可以使用BERTology架构 (Beltagy等人, 2019; Lee等人, 2019; Gururangan等人, 2020) 重新训练领域专用模型。
  • [论文翻译]启发式解码:带前瞻启发式的受限文本生成

    我们的方法在五项生成任务上超越了竞争基线,并在表格到文本生成(table-to-text generation)、受限机器翻译(constrained machine translation)和关键词约束生成(keyword-constrained generation)任务上取得了新的最先进(state-of-the-art)性能。在需要复杂约束满足的任务,以及少样本(few-shot)或零样本(zero-shot)设置下,改进尤为显著。
  • [论文翻译]DoctorGLM: 微调你的中文医生并非难事

    大型语言模型(LLM)如ChatGPT和GPT-4在理解和响应人类指令方面取得了显著进展。然而,这些模型通常在英语中表现更佳,且未针对医疗领域进行专门训练,导致其在诊断、药物推荐等医疗建议中的精确度欠佳。此外,医院仍认为训练和部署对话模型不可行,阻碍了大语言模型的推广。为解决这些问题,我们借助ChatGPT收集了中文医疗对话数据库,并采用多种技术训练了一个易于部署的大语言模型。值得注意的是,我们仅用13小时在单张A100 80G显卡上完成了ChatGLM-6B的微调,这意味着拥有医疗专用大语言模型的成本可以非常低廉。DoctorGLM目前处于早期工程尝试阶段,可能存在各种错误。我们将其开源以邀请社区提供反馈和建议,从而提升其医疗专项能力:https://github.com/xiong hong lin/DoctorGLM。
  • [博客翻译]人工智能的未来是Ruby on Rails

    人工智能的未来是Ruby on Rails 大型语言模型在生成和编辑代码方面表现出色。目前,这可能是人工智能的“杀手级应用”:真正通过语言模型赚钱的公司——如GitHub Copilot、Cursor、Windsurf——都在做代码生成。 在小规模项目上,这种方法效果惊人,但当代码库变大时,就会出现一个明显的问题。一旦代码库无法完全放入模型的上下文窗口中,为你写代码的工具就会遇到瓶颈。突然之间,修改不再奏效,试图修复问题的尝试反而在其他地方引入了更多错误。即使是那些宣传拥有大上下文窗口的模型,也不一定有大的...
  • [论文翻译]基于先进Transformer的语言模型演化分析:观点挖掘实验

    意见挖掘,也称为情感分析,是自然语言处理(NLP)的一个子领域,专注于识别和提取文本材料中的主观信息。这可以包括确定一段文本的整体情感(例如,正面或负面),以及识别文本中表达的特定情绪或观点,涉及使用先进的机器和深度学习技术。最近,基于Transformer的语言模型使得人类情感分析任务变得直观,这得益于注意力机制和并行计算。这些优势使得此类模型在语言任务上非常强大,与循环神经网络不同,后者在顺序处理上花费大量时间,使其在处理长文本时容易失败。本文的范围旨在研究基于Transformer的最先进语言模型在意见挖掘中的行为,并提供它们之间的高层次比较,以突出它们的关键特性。此外,我们的比较研究为生产工程师提供了关于应关注的方法的线索,并为研究人员提供了未来研究主题的指导。
  • [论文翻译]VGGT: 视觉几何基础 Transformer

    我们提出了 VGGT,这是一种前馈神经网络,能够从一个、几个或数百个场景视图中直接推断出场景的所有关键 3D 属性,包括相机参数、点图、深度图和 3D 点轨迹。这种方法在 3D 计算机视觉领域迈出了一步,因为传统模型通常局限于单一任务并专门针对单一任务。VGGT 简单且高效,能够在一秒内重建图像,并且在不需要视觉几何优化技术后处理的情况下,仍然优于其他替代方案。该网络在多个 3D 任务中取得了最先进的结果,包括相机参数估计、多视图深度估计、密集点云重建和 3D 点跟踪。我们还展示了使用预训练的 VGGT 作为特征骨干可以显著增强下游任务,例如非刚性点跟踪和前馈新视图合成。代码和模型已在 https://github.com/facebookresearch/vggt 公开。
  • [博客翻译]Prompts是程序

    在本文中,我们将探讨人工智能模型提示(AI Model Prompts)与传统软件程序之间的紧密联系。自从2022年12月发布的ChatGPT大受欢迎以来,我们对大型语言模型(LLMs)的能力和使用方式有了深刻理解。人们已经认识到,向模型输入的提示(User Prompt)具有强大的影响力,它们能够理解并回应我们的指令,还能进行有深度的对话,帮助我们调整响应。然而,尽管如此,许多用户在使用聊天机器人时仍面临挑战,比如如何准确地表述意图,以及如何确保模型输出符合特定格式,如JSON对象。此外,与编写和调试代...
  • [博客翻译]命令行上的语言模型探索之旅

    上周,我在为期六周的“掌握大型语言模型:开发者与数据科学家会议”上做了一场演讲,主题是如何从命令行访问和利用大型语言模型。我的重点是介绍我开发的名为LLM的Python命令行工具,以及如何使用它及其插件来探索这些模型,并将其用于实际任务。 演讲视频被录制并上传到了YouTube,我还将其转换成了带有详细注释和屏幕截图的演示文稿(没有幻灯片)。LLM是一个工具,旨在帮助用户直接在终端中运行大型语言模型提示。你可以通过pipx、pip或brew安装它...
  • [博客翻译]在大型语言模型时代,软件的可塑性转型

    随着大型语言模型(LLMs)的快速发展,计算机用户可能很快就能编写小型代码。这将对软件的生产和分发带来什么样的结构性变化呢? 过去几周,科技巨头们纷纷发布新成果。OpenAI推出了GPT-4,展现了在编码等多方面的能力提升。微软的研究也展示了GPT-4如何能无提示生成复杂的3D游戏代码。此外,还有针对GPT的插件出现,比如ReAct工具,让用户能更便捷地查询数据。人们自然会好奇,这些技术将如何影响软件的创作。一方面,专业的开发人员可能会因LLMs而变得更高效,因...
  • [博客翻译]大型语言模型的涌现能力是一种幻觉

    斯蒂芬·奥内斯科学3月24日,2024年08:00大型语言模型的涌现能力可能是个幻象在一项名为“超越模仿游戏基准”(Beyond the Imitation Game benchmark, 或 BIG-bench)的项目中,450位研究人员编纂了一份包含204项任务的列表,旨在测试大型语言模型(如ChatGPT聊天机器人)的能力。在大多数任务中,随着模型的规模扩大,性能通常会稳定提升——模型越大,表现越好...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个二次元智能客服平台
在这里您可以获得本平台自训练的
客服大模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,订单转化快人一步
扫一扫,快速获取解决方案与报价
立即咨询

千集助理是连通AI学研和企业的桥梁
登陆小程序
获取AI数字人贴身服务
工作生活效率瞬间提升

千集助理