21.chatGPT是由OpenAI開發(fā)的一款人工智能機(jī)器人程序,一經(jīng)推出就火遍全球.chatGPT的開發(fā)主要采用RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù),訓(xùn)練分為以下三個階段.
第一階段:訓(xùn)練監(jiān)督策略模型.對抽取的prompt數(shù)據(jù),人工進(jìn)行高質(zhì)量的回答,獲?。紁rompt,answer>數(shù)據(jù)對,幫助數(shù)學(xué)模型GPT-3.5更好地理解指令.
第二階段:訓(xùn)練獎勵模型.用上一階段訓(xùn)練好的數(shù)學(xué)模型,生成k個不同的回答,人工標(biāo)注排名,通過獎勵模型給出不同的數(shù)值,獎勵數(shù)值越高越好.獎勵數(shù)值可以通過最小化下面的交叉熵?fù)p失函數(shù)得到:
,其中
,且
.
第三階段:實(shí)驗(yàn)與強(qiáng)化模型和算法.通過調(diào)整模型的參數(shù),使模型得到最大的獎勵以符合人工的選擇取向.
參考數(shù)據(jù):ln2≈0.693,ln5≈1.609,ln7≈1.946
(1)若已知某單個樣本,其真實(shí)分布y=[y
1,y
2,?,y
10]=[0,0,0,0,1,0,0,0,0,0],其預(yù)測近似分布
=
[
,
,
?
,
]
=
[
0
,
0
.
2
,
0
,
0
,
0
.
7
,
0
,
0
,
0
.
1
,
0
,
0
]
,計(jì)算該單個樣本的交叉熵?fù)p失函數(shù)Loss值.
(2)絕對值誤差MAE也是一種比較常見的損失函數(shù),現(xiàn)已知某n階變量的絕對值誤差,
,其中
,N表示變量的階.若已知某個樣本是一個三階變量的數(shù)陣
,其真實(shí)分布是
,現(xiàn)已知其預(yù)測分布為
,求證:該變量的絕對值誤差MAE為定值.
(3)在測試chatGPT時,如果輸入問題沒有語法錯誤chatGPT的回答被采納的概率為90%,當(dāng)出現(xiàn)語法錯誤時,chatGPT的回答被采納的概率為50%.現(xiàn)已知輸入的問題中出現(xiàn)語法錯誤的概率為5%,現(xiàn)已知chatGPT的回答被采納,求該問題的輸入語法沒有錯誤的概率.