一言
越想贴近事实,不明白的事情就越多。——宝石之国

得补补基础知识了。要学的好多,快两个月没怎么学习基础知识了

224 日 , 2026 17:32
thumbnail
LoRA小结
前言:PEFT的诞生      传统的预训练-下游任务微调的范式,是对预训练模型所有参数进行微调,即全量微调。之前基于Bert、GPT1的下游微调任务都是这么干的。因为当时的预训练模型参数量比较少,所以速度并没有那么慢。…
Life~ 生活小记

1122 日 , 2025 21:37
记录一个好笑的bug

总所周知用nn.CrossEntropyLoss()算损失的时候需要将input_data和label展开对齐,也就是必须符合:(N,C)和(N)的格式,而在NER任务中最后往往输出的是:(batch_size,seq_len,class_num)(batch_size,seqlen),所以需要这两个view一下。我的代码是:

  outputs = model(input_ids=input_ids)
  ouputs=outputs.view(-1, num_classes)  # (batch_size*seq_length, num_classes)
  labels = labels.view(-1)  # (batch_size*seq_length)
  #print(outputs.shape, labels.shape, labels.dtype)
  loss = criterion(outputs, labels)

根本看不出有什么不对劲。 但是debug总是显示这里维度不匹配,问了好几遍GPT,他也没看出来,直到一遍遍排查,我把GPT说的所有可能的错误都说了,又发给他看。

我噗呲一下笑出来—————气笑了。 人在无语的时候真的想笑,尤其搭配上GPT这个语气,他真的好像人一样

1010 日 , 2025 19:30
thumbnail
Transformer小结
前言 终于!!前面学了那么多,终于轮到主角登场了:大名鼎鼎的Transformer。理所当然的,就要去读一下原论文:《attention is all your need》 论文地址:https://arxiv.org/pdf/1706.03762 论文摘要介…