大模型训练流程

openoker 2023-04-18 10:59:36 资料仓库深度学习大模型收藏

0 / 1428

训练流程

1.pretain model：这个阶段大部分情况是设计成无监督或者弱监督学习，让模型成为博览群书有知识的通才

2.模型微调：这部分主要对pretrain model做少量标签或者知识补充，让通才把自己的知识结构做梳理成为体系

3.上游任务学习：这部分任务训练模型专业技能，让模型在有通识时也有更强工作力，同时也会重塑通识体系

4.对齐学习：渊博且有能力，但是还得让它更懂人话，更容易和他沟通，所以需要做alignment，这部分现在主流是RLHF

上面的几个过程并非只做一轮，经常是需要做很多轮的迭代才可能让模型有较好表现。上面的流程分工在开始的几轮是顺序进行，有相对明显的界限。但是越到后面的迭代边界越模糊，往往是同时几种方法一起上。所以大家知道有这些流程和手段就好，不需要去纠结他们清晰边界。

大模型训练手段

finetune

Fine-tune的核心思想是利用在大型数据集（例如ImageNet、COCO等）上训练好的预训练模型，然后使用较小数据集（小于参数数量）对其进行微调[3]。这样做的优势在于，相对于从头开始训练模型，Fine-tune可以省去大量的计算资源和时间成本，提高了计算效率，甚至可以提高准确率[1][2]。

finetune是指在预训练模型的基础上，针对特定任务进行微调，以提高模型的性能。Fine-tune的具体方法有多种，但一般而言，可以通过调整模型的层数、调整学习率、调整批量大小等方式进行微调[2]。

Finetune的优势在于不用完全重新训练模型，从而提高效率，因为一般新训练模型准确率都会从很低的值开始慢慢上升，但是finetune能够让我们在比较少的迭代次数之后得到一个比较好的效果。

虽然Fine-tune有很多优势，但也存在一些不足之处。例如，Fine-tune需要大量的数据集才能提高模型的性能，这可能会导致一些任务难以实现。此外，Fine-tune的性能很大程度上依赖于预训练模型的质量和适用性，如果预训练模型和微调数据集之间存在差异，则Fine-tune可能无法提高模型性能[1]。

未来，Fine-tune技术将继续得到广泛的应用。一方面，随着深度学习模型的不断发展和改进，预训练模型的质量和适用性将会不断提高，从而更加适用于Fine-tune技术。另一方面，Fine-tune技术也将有助于解决一些实际应用中的难题，例如小数据集、数据集标注困难等问题[1][3]。

prompt learn

Prompt Learning的基本概念：Prompt Learning是一种自然语言处理技术，它通过在预训练模型的输入前面加上简短的提示文本来引导模型完成不同的任务[1]。这些提示文本通常是问题或指令形式，用来告诉模型如何理解输入并生成输出。Prompt Learning的优点在于它可以用少量的数据完成多个任务[2]。

Multi-Prompt Learning：Multi-Prompt Learning是Prompt Learning的一种扩展形式，它可以将多个Prompt应用于一个问题，达到数据增强或问题分解等效果[1]。常见的Multi-Prompt Learning方法包括并行方法、增强方法和组合方法[2]。并行方法将多个Prompt并行进行，并通过加权或投票的方式将多个单Prompt的结果汇总；增强方法会将一个与当前问题相似的案例与当前输入一起输入，以便模型能够更准确地进行预测；组合方法则将多个Prompt组合在一起使用，以便训练模型进行更复杂的任务[2]。

如何选择合适的预训练模型：选择合适的预训练模型是Prompt Learning的关键步骤之一。在选择模型时，需要考虑以下因素：任务类型、数据集、模型大小和训练时间等[1]。通常情况下，预训练模型的大小越大，它在各种任务上的表现也越好，但同时需要消耗更多的计算资源[1]。

如何调整Prompt的训练策略：Prompt Learning的另一个关键步骤是如何调整Prompt的训练策略。可以采用全数据下单纯提高模型效果的方法，也可以采用few-shot/zero-shot下使用Prompt作为辅助的方法，或者固定预训练模型并仅训练Prompt[[1]。

如上图所示，finetune的做法pre-traning使用PLMs作为基础编码器，finetune下游任务时候添加额外的神经层以进行特定任务，调整所有参数。预训练和微调任务之间存在差距。

如上图所示prompt，在pre-traing和finetuning下游任务时候使用同样的MLM任务。弥合模型调整和预训练之间的差距来增强 few-shot 学习能力。使用PLMs作为基础编码器，添加额外的上下文（模板）和[MASK]位置，将标签投影到标签词（verbalizer），缩小预训练和微调之间的差距。