面向零基础读者的系统梳理:每个知识点尽量包含「概念解释、原理详解、面试问答、追问应对、代码示例(如适用)」。本模块是 LLM / Agent 面试的高频核心,建议结合论文与开源实现(如 Hugging Face Transformers、vLLM)对照理解。
目录
Transformer 架构
注意力机制详解
Tokenization
大模型推理
模型微调
对齐技术
模型量化
推理优化
前沿模型与选型
综合面试题库(20+ 题)
将 $(d_{model})$ 拆成 (h) 个头,每个头在$ (d_k = d_{model}/h) $维子空间上独立做注意力,最后 Concat 再乘 $(W_O)$ 投回 $(d_{model})$。
阅读全文
