chatGPT是由OpenAI開發(fā)的一款人工智能機(jī)器人程序,一經(jīng)推出就火遍全球.chatGPT的開發(fā)主要采用RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù),訓(xùn)練分為以下三個(gè)階段.
第一階段:訓(xùn)練監(jiān)督策略模型.對(duì)抽取的prompt數(shù)據(jù),人工進(jìn)行高質(zhì)量的回答,獲取<prompt,answer>數(shù)據(jù)對(duì),幫助數(shù)學(xué)模型GPT-3.5更好地理解指令.
第二階段:訓(xùn)練獎(jiǎng)勵(lì)模型.用上一階段訓(xùn)練好的數(shù)學(xué)模型,生成k個(gè)不同的回答,人工標(biāo)注排名,通過獎(jiǎng)勵(lì)模型給出不同的數(shù)值,獎(jiǎng)勵(lì)數(shù)值越高越好.獎(jiǎng)勵(lì)數(shù)值可以通過最小化下面的交叉熵?fù)p失函數(shù)得到:
,其中
,且
.
第三階段:實(shí)驗(yàn)與強(qiáng)化模型和算法.通過調(diào)整模型的參數(shù),使模型得到最大的獎(jiǎng)勵(lì)以符合人工的選擇取向.
參考數(shù)據(jù):ln2≈0.693,ln5≈1.609,ln7≈1.946
(1)若已知某單個(gè)樣本,其真實(shí)分布y=[y
1,y
2,?,y
10]=[0,0,0,0,1,0,0,0,0,0],其預(yù)測(cè)近似分布
=
[
,
,
?
,
]
=
[
0
,
0
.
2
,
0
,
0
,
0
.
7
,
0
,
0
,
0
.
1
,
0
,
0
]
,計(jì)算該單個(gè)樣本的交叉熵?fù)p失函數(shù)Loss值.
(2)絕對(duì)值誤差MAE也是一種比較常見的損失函數(shù),現(xiàn)已知某n階變量的絕對(duì)值誤差,
,其中
,N表示變量的階.若已知某個(gè)樣本是一個(gè)三階變量的數(shù)陣
,其真實(shí)分布是
,現(xiàn)已知其預(yù)測(cè)分布為
,求證:該變量的絕對(duì)值誤差MAE為定值.
(3)在測(cè)試chatGPT時(shí),如果輸入問題沒有語法錯(cuò)誤chatGPT的回答被采納的概率為90%,當(dāng)出現(xiàn)語法錯(cuò)誤時(shí),chatGPT的回答被采納的概率為50%.現(xiàn)已知輸入的問題中出現(xiàn)語法錯(cuò)誤的概率為5%,現(xiàn)已知chatGPT的回答被采納,求該問題的輸入語法沒有錯(cuò)誤的概率.