大模型 - Longlong's Blog

3 篇文章

一言

趁着年轻，好好犯病。——he

前言请打开日间模式进行阅读本来是想学习RoPE(旋转位置编码),所以回去从头从最开始的三角函数式位置编码开始看，发现自己当时学的还是浅了。在此总结一下。注:本文涵盖不了所有位置编码，只挑主流的去学习。具体就是由绝对位置编码到相对位置编码再到RoPE 三角…

2026-3-02 21:25

209

3518 字

14 分钟

前言：PEFT的诞生传统的预训练-下游任务微调的范式，是对预训练模型所有参数进行微调，即全量微调。之前基于Bert、GPT1的下游微调任务都是这么干的。因为当时的预训练模型参数量比较少，所以速度并没有那么慢。…

2025-11-28 21:40

548

2674 字

11 分钟

1.前言在2022年11月30日，ChatGPT横空出世。ChatGPT和GPT看起来都是GPT，为什么ChatGPT可以“Chat”? 首先从官方寻找答案：可…

2025-11-22 20:53

666

4173 字

18 分钟