chatgpt的算法原理介紹

chatgpt的算法原理是基于GPT-3，先通過人工標注方式訓練出強化學習的冷啟動模型與reward反饋模型，最后通過強化學習的方式學習出對話友好型的ChatGPT模型。

InstructGPT是基于GPT-3模型訓練出來的，具體步驟如下：

1、從GPT-3的輸入語句數據集中采樣部分輸入，基于這些輸入，采用人工標注完成希望得到輸出結果與行為，然后利用這些標注數據進行GPT-3有監督的訓練。該模型即作為指令式GPT的冷啟動模型。

2、在采樣的輸入語句中，進行前向推理獲得多個模型輸出結果，通過人工標注進行這些輸出結果的排序打標。最終這些標注數據用來訓練reward反饋模型。

3、采樣新的輸入語句，policy策略網絡生成輸出結果，然后通過reward反饋模型計算反饋，該反饋回過頭來作用于policy策略網絡。以此反復，這里就是標準的reinforcement learning強化學習的訓練框架了。

所以總結起來ChatGPT（對話GPT）其實就是InstructGPT（指令式GPT）的同源模型，然后指令式GPT就是基于GPT-3，先通過人工標注方式訓練出強化學習的冷啟動模型與reward反饋模型，最后通過強化學習的方式學習出對話友好型的ChatGPT模型。如下是論文中相應對話友好型的定量結果（其中PPO-ptx曲線就是InstructGPT模型），可以看到在回答友好型上InstructGPT是遠超原始GPT的：

chatgpt的算法原理介紹

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

最新問答

相關標簽