Longlong's Blog - 永远二十赶朝暮

前言请打开日间模式进行阅读本来是想学习RoPE(旋转位置编码),所以回去从头从最开始的三角函数式位置编码开始看，发现自己当时学的还是浅了。在此总结一下。注:本文涵盖不了所有位置编码，只挑主流的去学习。具体就是由绝对位置编码到相对位置编码再到RoPE 三角…

2026-3-02 21:25

633

大模型,学习笔记

3518 字

14 分钟

得补补基础知识了。要学的好多，快两个月没怎么学习基础知识了

2 月 24 日 , 2026

17:32

LoRA小结

前言：PEFT的诞生传统的预训练-下游任务微调的范式，是对预训练模型所有参数进行微调，即全量微调。之前基于Bert、GPT1的下游微调任务都是这么干的。因为当时的预训练模型参数量比较少，所以速度并没有那么慢。…

2025-11-28 21:40

885

大模型,学习笔记

2674 字

11 分钟

Lora 微调

GPT3与ChatGPT有什么不同？——RLHF技术小结

1.前言在2022年11月30日，ChatGPT横空出世。ChatGPT和GPT看起来都是GPT，为什么ChatGPT可以“Chat”? 首先从官方寻找答案：可…

2025-11-22 20:53

1,041

大模型,深度学习

4173 字

18 分钟

GPT 学习笔记

Bert源码解读(HuggingFace Transformers源码)

BertMoedel的架构组成：在HuggingFace中,对应Bert模型的主要就是BertMoedel这个类: from transformers import BertModel HF源码对BertMoedel的封装也是一…

2025-10-25 18:40

1,222

深度学习

5193 字

25 分钟

学习笔记

记录一个好笑的bug

总所周知用nn.CrossEntropyLoss()算损失的时候需要将input_data和label展开对齐，也就是必须符合：(N,C)和(N)的格式，而在NER任务中最后往往输出的是：(batch_size,seq_len,class_num) 和(batch_size,seqlen),所以需要这两个view一下。我的代码是：

  outputs = model(input_ids=input_ids)
  ouputs=outputs.view(-1, num_classes)  # (batch_size*seq_length, num_classes)
  labels = labels.view(-1)  # (batch_size*seq_length)
  #print(outputs.shape, labels.shape, labels.dtype)
  loss = criterion(outputs, labels)

根本看不出有什么不对劲。但是debug总是显示这里维度不匹配，问了好几遍GPT，他也没看出来，直到一遍遍排查，我把GPT说的所有可能的错误都说了，又发给他看。