视觉语言模型 - 文章

[论文翻译]PromptKD: 视觉-语言模型的无监督提示蒸馏

提示学习已成为增强视觉语言模型（VLM）如CLIP在特定领域下游任务中的一项重要技术。现有工作主要集中于设计各种提示学习形式，却忽视了提示作为从更大教师模型中学习的有效蒸馏器的潜力。本文提出了一种无监督领域提示蒸馏框架，旨在通过未标记领域图像的提示驱动模仿，将大型教师模型的知识迁移到轻量级目标模型中。

由 shadow发布于 2025-06-04 14:12:09 大模型私有大模型视觉语言模型阅读次数 407
[论文翻译]生成式视觉问答的多模态提示检索

Multimodal Prompt Retrieval for Generative Visual Question Answering 生成式视觉问答的多模态提示检索 Timothy Ossowski1, Junjie $\mathbf{H}\mathbf{u}^{1,2}$ 1 Department of Computer Science, 2 Department of Biostatistics and Medical Informatics University of Wisconsin, M... 近年来，预训练视觉语言模型在知识密集型任务（如视觉问答 (VQA)）上取得了显著成果。尽管VQA领域近期有所进展，现有方法主要采用判别式框架，即在预定义标签集内预测答案，这容易导致在标注数据有限的低资源领域（如医学）过拟合，并在跨数据集领域迁移时泛化能力较差。为解决这一局限，我们提出一种通过多模态提示检索 (MPR) 增强的生成式模型，该模型整合检索到的提示和多模态特征以生成自由文本答案。我们的生成式模型能够快速实现零样本数据集适配，适应未见过的数据分布和跨数据集的开放集答案标签。在医学VQA任务上的实验表明，在少样本领域适应场景下，MPR比非检索版本模型的准确率最高提升30%。[20]

由 147****6943发布于 2025-04-15 19:08:15 视觉语言模型多模态提示检索阅读次数 388
[论文翻译]olmOCR: 使用视觉语言模型解锁 PDF 中的数万亿 Token

PDF 文档有潜力为训练大语言模型提供数万亿个新颖且高质量的 Token。然而，这些文档类型多样，格式和视觉布局各不相同，这在尝试提取并忠实地表示底层内容以供大语言模型使用时带来了挑战。我们推出了 olmOCR，这是一个开源的 Python语言工具包，用于将 PDF 处理成干净、线性化的纯文本，使其符合自然阅读顺序，同时保留结构化内容，如章节、表格、列表、公式等。我们的工具包运行了一个微调的 7B 视觉语言模型（VLM），该模型在从 10 万多个爬取的 PDF 中抽取的 26 万页样本上进行训练，这些 PDF 具有多样化的属性，包括图形、手写文本和低质量扫描。olmOCR 针对大规模批处理进行了优化，能够灵活扩展到不同的硬件设置，并以仅 190 美元的成本转换一百万页 PDF。我们发布了 olmOCR 的所有组件，包括 VLM 权重、数据和训练代码，以及基于 vLLM 和 SGLang 等服务框架构建的推理代码。

由 shadow发布于 2025-03-08 16:25:32 视觉语言模型语言模型大语言模型阅读次数 1392

[论文翻译]PromptKD: 视觉-语言模型的无监督提示蒸馏

[论文翻译]生成式视觉问答的多模态提示检索

[论文翻译]olmOCR: 使用视觉语言模型解锁 PDF 中的数万亿 Token