那么什么是GPT呢？GPT是一个语言模型，它的初代诞生时间稍早于BERT，然后在之后的很长一段时间内被BERT掩盖住了光芒。原因大概是不管GPT几，对于一般人来说train起来实在是太困(烧)难(钱)了。GPT和BERT一样，都是基于Transformer的，不同的地方在于前者是用decoder train的，后者是用encoder train的。因为encoder和decoder看到的序列的差异导致了decoder train起来更难一些，但是一旦train好的话上限其实是更高的。

再简单说一下语言模型的运作方式，就是你先喂一小段文字进去，模型会根据你喂进去的文字去预测下一个最有可能出现的词(token)，再把这个词跟之前的文字一起喂进去，吐出下一个最有可能出现的词。就这样一直循环。所以理论上你让它吐得越多它就会越离谱……
所以你以开始喂进去的那一小段话我们就可以把它叫做prompt，提示语。模型在做的事就是不断地续写。根据prompt的类型的不同，续写的内容可以是问题的答案，也可以是一个命题作文。

然后就到了chat的部分。openAI应该是专门写了一个chatbot用来给数据标注人员做交互。可能这样比较有参与感，写出来的语料质量也更高吧。整个训练过程叫做Reinforcement Learning from Human Feedback (RLHF)，由3个步骤组成：
-第一步是准备一个prompts的数据集，标注人员给prompts写desired outputs，模型也会产生一些辅助的outputs给人修修改改。用这样的prompts-outputs数据对就可以先finetune一下GPT了。
-第二步：经过第一步之后模型已经能吐出一部分回答了，但是不是所有的回答都特别理想，这时候标注人员可以对拿到模型对同一个prompt生成的不同回答打分。根据prompt-output-score这样的数据，又可以train一个reward model（RM）来代替人工打分的这个过程。
-有了自动生成答案和自动打分的模型之后我们就可以让语言模型自己去优化了，这就是第三步。这是一个强化学习的过程，目标是让RM打的分越高越好。

总结一下，GPT这样的模型想要train到一个比较好的程度，本身就需要海量的数据和机器。再加上设计得比较精妙的训练过程和产生高质量训练数据的方式，两者一结合就达到了非常惊人的效果。他们十个月之前做的InstructGPT虽然训练过程也大差不大但是缺了个chatbot所以导致labeler标数据标得太枯燥了，质量不佳，产量也不佳，所以模型效果也就一般般了（无端猜测）。有钱真好啊……

================
Ref:
https://openai.com/blog/chatgpt/

**（前）匿名洋葱** · 2023年02月08日 22:25

（前）匿名洋葱 转嘟

**旧时明月照无眠** @[email protected] · 2023年02月08日 22:25

2023年02月08日 22:25

旧时明月照无眠 @[email protected]

关于chatGPT，除了象友已经提到的版权/credit和审查/监控，我觉得还有一个角度是有些立刻想到能被AI帮到的事情，比如写会议纪要、写汇报总结之类，是不是从一开始就是bullshit tasks。个人观点：如果一个会只看纪要就够了，那它根本没必要以所有人同时到场的方式开，完全可以用异步方式协作。
(作为码农，经常需要在optimize/automate某个task/step之前先质疑一下它本身的存在必要性。)

如果那个事本身的存在目的就是规训，那即便它能被AI做，也不会被允许用AI来做。如果那个事本身就是try to measure what cannot be quantified (e.g. 所谓“工作效率”)，那即使AI能measure得更好更精细，也依旧是在一条错路上。