Longlong's Blog - 永远二十赶朝暮

Life~ 生活小记

11 月 22 日 , 2025

21:37

GPT3与ChatGPT有什么不同？——RLHF技术小结

1.前言在2022年11月30日，ChatGPT横空出世。ChatGPT和GPT看起来都是GPT，为什么ChatGPT可以“Chat”? 首先从官方寻找答案：可…

2025-11-22 20:53

大模型,深度学习

4173 字

18 分钟

GPT 学习笔记

Bert源码解读(HuggingFace Transformers源码)

BertMoedel的架构组成：在HuggingFace中,对应Bert模型的主要就是BertMoedel这个类: from transformers import BertModel HF源码对BertMoedel的封装也是一…

2025-10-25 18:40

178

深度学习

5193 字

25 分钟

学习笔记

记录一个好笑的bug

总所周知用nn.CrossEntropyLoss()算损失的时候需要将input_data和label展开对齐，也就是必须符合：(N,C)和(N)的格式，而在NER任务中最后往往输出的是：(batch_size,seq_len,class_num) 和(batch_size,seqlen),所以需要这两个view一下。我的代码是：

  outputs = model(input_ids=input_ids)
  ouputs=outputs.view(-1, num_classes)  # (batch_size*seq_length, num_classes)
  labels = labels.view(-1)  # (batch_size*seq_length)
  #print(outputs.shape, labels.shape, labels.dtype)
  loss = criterion(outputs, labels)

根本看不出有什么不对劲。但是debug总是显示这里维度不匹配，问了好几遍GPT，他也没看出来，直到一遍遍排查，我把GPT说的所有可能的错误都说了，又发给他看。

我噗呲一下笑出来—————气笑了。人在无语的时候真的想笑，尤其搭配上GPT这个语气，他真的好像人一样

10 月 10 日 , 2025

19:30

The Annotated Transformer学习笔记(Transformer的pytorch实现)(下)

前言上篇已经模型架构的代码都学习了，本章学习一下如何训练。 Batches and Masking 文章中的很多模块功能都是定义一个类，首先是batch和mask…

2025-9-26 19:30

299

深度学习

3498 字

16 分钟

学习笔记

The Annotated Transformer学习笔记(Transformer的pytorch实现)(上)

前言本文章为《The Annotated Transformer》的学习笔记。文章名为：带有注释版的Transformer，实际上就是用代码实现了一下《attention is all your need》中的各个章节模块。原文地址：https://nlp.…

2025-9-24 18:06

351

深度学习

5493 字

26 分钟

transformer 学习笔记

Transformer小结

前言终于！！前面学了那么多，终于轮到主角登场了：大名鼎鼎的Transformer。理所当然的，就要去读一下原论文：《attention is all your need》论文地址：https://arxiv.org/pdf/1706.03762 论文摘要介…

2025-9-18 16:52

339

深度学习

9308 字

39 分钟

学习笔记

基于encoder-decoder架构的注意力机制

前言本篇文章是读完《Neural Machine Translation by Jointly Learning to Align and Translate》（Bahdanau et al., 2014）之后…

2025-9-11 22:09

345

深度学习

3921 字

16 分钟

学习笔记

第一次CDN被盗刷。。。

我的博客只有图片挂了CDN，我这小破博客的访问量，一个月也就花个几毛钱，我也一直一块一块的续，直到前几天，我刚充了一块钱，过了一天就欠费了。。。本来早上都不想来工位的，奈何电脑在工位，我还跑到工位看了半天。

四张图片刷了我8个G，一张图片的大小也就是几MB，
而且还不是来自同一个IP。。。

我这小破博客也没个什么，纯个人维护，别盯着我整了。。。