预训练 - 文章

[论文翻译]UNICOM: 面向图像检索的通用紧凑表征学习方法

现代图像检索方法通常依赖于微调预训练的编码器来提取图像级描述符。然而，最广泛使用的模型是在类别有限的ImageNet-1K上预训练的，因此预训练的特征表示不够通用，难以很好地泛化到多样化的开放世界类别。在本文中，我们首先利用CLIP模型提取的联合文本和视觉特征，将大规模LAION 400M数据集聚类为一百万个伪类别。由于标签粒度的混淆，自动聚类的数据集不可避免地包含严重的类间冲突。

由 shadow发布于 2025-07-14 10:41:46 预训练图像检索数据集阅读次数 413
[论文翻译]基于任务特定预训练的少样本命名实体识别多任务语义分解框架

少样本命名实体识别的目标是在有限标注实例下识别命名实体。先前研究主要聚焦于优化传统的基于token的分类框架，而忽视了基于NER数据特性的信息探索。为解决这一问题，我们提出通过联合任务特定预训练的多任务语义分解框架(MSDP)。受基于演示和对比学习的启发，我们引入两项新颖的预训练任务：基于演示的掩码语言建模(MLM)和类别对比判别。这些任务有效整合了实体边界信息，并增强了预训练语言模型(PLM)中的实体表示能力。在下游主任务中，我们采用语义分解方法构建多任务联合优化框架，促使模型融合两种不同语义信息进行实体分类。两个少样本NER基准测试的实验结果表明，MSDP始终以显著优势超越强基线模型。大量分析验证了MSDP的有效性和泛化能力。

由 shadow发布于 2025-06-10 19:59:32 预训练模型预训练大模型阅读次数 477
[论文翻译]IDOL: 面向指标的逻辑预训练推理框架

在机器阅读理解(MRC)领域，现有系统已在SQuAD等多项任务中超越人类平均水平。然而在逻辑推理方面，现有研究仍存在明显差距。虽然已有部分方法被提出，但这些方案要么设计过于复杂，要么过度依赖外部结构。本文提出IDOL(InDicator-Oriented Logic Pre-training)，这是一种通过6类逻辑指示符和富含逻辑的数据集LGP(LoGic Pre-training)来增强预训练模型逻辑能力的方案。

由 shadow发布于 2025-06-04 14:43:49 预训练模型预训练大模型阅读次数 430
[论文翻译]HuatuoGPT-II，大语言模型医学适配的一站式训练方案

将语言模型 (LM) 适配到特定领域（即"领域适应"），是当通用语言模型（如 Llama2）未涵盖专业知识（例如医学）时的常见做法。这通常涉及持续预训练和监督微调的两阶段流程。采用这种两阶段管道方案不仅会引入复杂性（需要双重精细调优），还会导致两次数据分布偏移，加剧灾难性遗忘。为缓解这些问题，我们提出一种单阶段领域适应协议：将传统预训练和监督阶段的异构数据统一为简单的指令-输出对格式，从而实现高效知识注入。随后引入数据优先级采样策略，在训练期间自适应调整数据混合比例。基于该协议，我们训练了中文医疗领域专用大语言模型 HuatuoGPT-II。该模型在多项基准测试中与 GPT4 表现相当，尤其在多个中文医疗基准和最新执业药师资格考试中展现出最先进 (SOTA) 性能。此外，我们探索了单阶段协议现象，实验表明该协议的简洁性提升了训练稳定性和领域泛化能力。代码、数据及模型详见 https://github.com/FreedomIntelligence/HuatuoGPT-II 。

由 Ylong发布于 2025-04-15 21:48:30 通用语言模型预训练监督微调阅读次数 401
[博客翻译]TL；Andrej Karpathy的《深入学习像ChatGPT这样的LLM》博士

ChatGPT等LLM的深入解析（TL;DR）这篇深度解析适合谁？几天前，Andrej Karpathy 发布了一段名为“ChatGPT等LLM的深入解析”的视频。这段视频信息量巨大，但也有3小时31分钟之长。我完整观看并做了大量笔记，所以觉得不妨整理出一个简短版本，方便那些希望快速获取关键点而不需要投入大块时间的人。如果你符合以下情况，这篇文章和原始视频值得一看：你想深入了解LLM的工作原理，而不仅仅是表面层面。你想理解一些复杂的微调术语，如chat_template和ChatML（尤其是如果...

由 openoker发布于 2025-02-10 16:35:31 大模型参数微调预训练随机性阅读次数 818
[博客翻译]推理模型只是LLM

逻辑推理模型其实只是大语言模型（LLM）在人工智能领域，一个长期争论的话题是：大型语言模型（LLM）是否能够实现真正有用的逻辑推理。过去，很多人认为LLM本质上是一个有缺陷的工具，无法开发出通用且实用的应用程序。然而，随着技术的发展，这些批评者开始调整自己的立场，试图证明自己并非完全错误。他们声称：“我们看到的进步是因为像OpenAI的o1或DeepSeek的R1这样的模型已经超越了传统的大语言模型。”但这种说法其实是不正确的，并且我们需要尽早揭示其中的误导性。 1. DeepSeek R1：纯解码器模型...

由 openoker发布于 2025-02-10 10:32:05 逻辑推理大语言模型预训练强化学习思维链阅读次数 619

[论文翻译]UNICOM: 面向图像检索的通用紧凑表征学习方法

[论文翻译]基于任务特定预训练的少样本命名实体识别多任务语义分解框架

[论文翻译]IDOL: 面向指标的逻辑预训练推理框架

[论文翻译]HuatuoGPT-II，大语言模型医学适配的一站式训练方案

[博客翻译]TL；Andrej Karpathy的《深入学习像ChatGPT这样的LLM》博士

[博客翻译]推理模型只是LLM