• [论文翻译]重新审视长尾分布下的对抗训练

    深度神经网络容易受到对抗攻击的影响,通常会导致错误输出。对抗训练已被认为是对抗此类攻击的最有效方法之一。然而,现有的对抗训练技术主要在平衡数据集上进行测试,而现实世界的数据往往呈现长尾分布,这引发了对这些方法在实际场景中有效性的质疑。
  • [论文翻译]从小时到分钟:无损加速超长序列生成至10万Token

    使用大语言模型生成超长序列变得越来越重要,但仍然是一项非常耗时的任务,特别是对于长达100K Token的序列。虽然存在传统的推测解码方法,但仅仅扩展其生成限制并不能加速过程,反而可能有害。通过深入分析,我们确定了阻碍高效生成的三大挑战:频繁的模型重载、动态键值(KV)管理和重复生成。为了解决这些问题,我们引入了TOKENSWIFT,这是一个旨在显著加速超长序列生成过程,同时保持目标模型固有质量的新框架。实验结果表明,TOKENSWIFT在不同规模(1.5B、7B、8B、14B)和架构(MHA、GQA)的模型上实现了超过\$\mathsfit{3\times}\$的加速。这种加速为超长序列生成节省了数小时的时间,使TOKENSWIFT成为在空前长度上的可扩展且有效的解决方案。代码可在github.com/bigai-nlco/TokenSwift找到。
  • [论文翻译]olmOCR: 使用视觉语言模型解锁 PDF 中的数万亿 Token

    PDF 文档有潜力为训练大语言模型提供数万亿个新颖且高质量的 Token。然而,这些文档类型多样,格式和视觉布局各不相同,这在尝试提取并忠实地表示底层内容以供大语言模型使用时带来了挑战。我们推出了 olmOCR,这是一个开源的 Python语言 工具包,用于将 PDF 处理成干净、线性化的纯文本,使其符合自然阅读顺序,同时保留结构化内容,如章节、表格、列表、公式等。我们的工具包运行了一个微调的 7B 视觉语言模型(VLM),该模型在从 10 万多个爬取的 PDF 中抽取的 26 万页样本上进行训练,这些 PDF 具有多样化的属性,包括图形、手写文本和低质量扫描。olmOCR 针对大规模批处理进行了优化,能够灵活扩展到不同的硬件设置,并以仅 190 美元的成本转换一百万页 PDF。我们发布了 olmOCR 的所有组件,包括 VLM 权重、数据和训练代码,以及基于 vLLM 和 SGLang 等服务框架构建的推理代码。
  • [论文翻译]Long-VITA:将大型多模态模型扩展到100万Token,同时保持领先的短上下文准确性

    建立大视觉语言模型的长上下文能力对于视频理解、高分辨率图像理解、多模态智能体和推理至关重要。我们介绍了 Long-VITA,一个简单而有效的大规模多模态模型,用于长上下文视觉语言理解任务。它擅长同时处理和分析超过 4K 帧或 1M Token 的图像、视频和文本模态,并在短上下文多模态任务上提供先进性能。我们提出了一种有效的多模态训练方案,从大语言模型开始,通过视觉语言对齐、通用知识学习以及两个顺序的长序列微调阶段进行。我们进一步实现了上下文并行性分布式推理和 Logits 掩码语言建模头,以在模型推理过程中将 Long-VITA 扩展到无限长的图像和文本输入。关于训练数据,Long-VITA 仅建立在 17M 公开数据集样本的混合基础上,并在各种多模态基准测试中展示了最先进的性能,与具有内部数据的最新尖端模型相比。Long-VITA 完全可复现,并支持 NPU 和 GPU 平台进行训练和测试。我们希望 Long-VITA 能作为一个有竞争力的基线,并为开源社区在推进长上下文多模态理解方面提供宝贵的见解。
  • [论文翻译]基于纯视觉的GUI智能体的OmniParser

    大语言模型在理解和推理能力方面展现了巨大成功。最近的研究探索了使用大视觉语言模型(VLM)作为智能体,在用户界面(UI)上执行复杂任务,旨在完成繁琐任务以替代人力 [YZL+23, YYZ+23, DGZ+23, ZGK+24, HWL+23, YZS+24, WXJ+24, GFH+24, CSC+24]。尽管取得了令人瞩目的成果,但在创建可跨多个平台(如Windows/MacOS、IOS/Android)和多个应用程序(如Web浏览器、Office365、PhotoShop、Adobe)广泛使用的智能体方面,目前的最新技术仍存在显著差距,大多数先前的工作都集中在限制应用程序或平台上。
  • [论文翻译]Slamming: 在一张 GPU 上一天内训练一个语音语言模型

    我们介绍了 Slam,这是一种在单张学术 GPU 上 24 小时内高质量训练语音语言模型(SLM)的配方。我们通过模型初始化和架构的实证分析、合成训练数据、合成数据的偏好优化以及调整所有其他组件来实现这一目标。我们通过实证证明,这种训练配方在更多计算资源下也能很好地扩展,以一小部分计算成本获得与领先 SLM 相当的结果。我们希望这些见解能使 SLM 训练和研究更加普及。在 SLM 扩展定律的背景下,我们的结果远远超出了预测的计算最优性能,为 SLM 的可行性提供了乐观的展望。参见代码、数据、模型、样本 - https://pages.cs.huji.ac.il/adiyosslab/slamming。
  • [博客翻译]用外行的术语解释llm.c

    训练大型语言模型(如ChatGPT)涉及大量的代码和复杂性。例如,一个典型的LLM训练项目可能会使用PyTorch深度学习库。PyTorch非常复杂,因为它实现了非常通用的张量抽象(一种用于排列和操作数组的方法,这些数组包含神经网络的参数和激活),以及一种非常通用的Autograd引擎来进行反向传播(训练神经网络参数的算法),以及您可能希望在神经网络中使用的大量深度学习层。PyTorch项目的源代码有11,449个文件,共3,327,184行代码。除此之外,PyTorch是用Python编写的,而Pyth...
创作中心
开启你的AI千集创作之旅
发布首篇内容,开通创作中心 快来成为AI千集创作者吧~
公告

AI千集是一个AI写作智能体社区
在这里您可以获得本平台自训练的
LLM模型服务
和小伙伴一起玩转AI,做自己的AI机器人
来AI千集,获取AI知识快人一步
扫一扫,加入我们
公众号
有加群需求的小伙伴,请微信加qianji_ai

千集助理是连通AI学研和就业的桥梁
登陆小程序
获取文案智能写作能力
工作效率瞬间提升

千集助理