chatGPT是由OpenAI開(kāi)發(fā)的一款人工智能機(jī)器人程序，一經(jīng)推出就火遍全球．chatGPT的開(kāi)發(fā)主要采用RLHF（人類反饋強(qiáng)化學(xué)習(xí)）技術(shù)，訓(xùn)練分為以下三個(gè)階段．
第一階段：訓(xùn)練監(jiān)督策略模型．對(duì)抽取的prompt數(shù)據(jù)，人工進(jìn)行高質(zhì)量的回答，獲?。紁rompt,answer＞數(shù)據(jù)對(duì)，幫助數(shù)學(xué)模型GPT-3.5更好地理解指令．
第二階段：訓(xùn)練獎(jiǎng)勵(lì)模型．用上一階段訓(xùn)練好的數(shù)學(xué)模型，生成k個(gè)不同的回答，人工標(biāo)注排名，通過(guò)獎(jiǎng)勵(lì)模型給出不同的數(shù)值，獎(jiǎng)勵(lì)數(shù)值越高越好．獎(jiǎng)勵(lì)數(shù)值可以通過(guò)最小化下面的交叉熵?fù)p失函數(shù)得到：
L
oss
=
-
n
∑
i
=
1
y
i
ln
?
y
i
，其中
y
i
∈
{
0
，
1
}
，
?
y
i
∈
（
0
，
1
）
，且
n
∑
i
=
1
?
y
i
=
1
．
第三階段：實(shí)驗(yàn)與強(qiáng)化模型和算法．通過(guò)調(diào)整模型的參數(shù)，使模型得到最大的獎(jiǎng)勵(lì)以符合人工的選擇取向．
參考數(shù)據(jù)：ln2≈0.693，ln5≈1.609，ln7≈1.946
（1）若已知某單個(gè)樣本，其真實(shí)分布y=[y₁，y₂，?，y₁₀]=[0，0，0，0，1，0，0，0，0，0]，其預(yù)測(cè)近似分布
?
y
=
[
y
1
，
y
2
，
?
，
y
10
]
=
[
0
，
0
.
2
，
0
，
0
，
0
.
7
，
0
，
0
，
0
.
1
，
0
，
0
]
，計(jì)算該單個(gè)樣本的交叉熵?fù)p失函數(shù)Loss值．
（2）絕對(duì)值誤差MAE也是一種比較常見(jiàn)的損失函數(shù)，現(xiàn)已知某n階變量的絕對(duì)值誤差，
MAE
=
1
N
n
∑
i
|
?
y
i
-
y
i
|
，其中
|
?
y
i
-
y
i
|
=
|
?
y
i
1
-
y
i
1
|
+
|
?
y
i
2
-
y
i
2
|
+
…
+
|
?
y
in
-
y
in
|
，N表示變量的階．若已知某個(gè)樣本是一個(gè)三階變量的數(shù)陣
y
=
y
1
y
2
y
3
=
y
11
，
y
12
，
y
13
y
21
，
y
22
，
y
23
y
31
，
y
32
，
y
33
，其真實(shí)分布是
y
=
0
，
0
，
1
0
，
1
，
0
1
，
0
，
0
，現(xiàn)已知其預(yù)測(cè)分布為
?
y
=
a
,
b
,
c
c
,
a
,
b
b
,
c
,
a
，求證：該變量的絕對(duì)值誤差MAE為定值．
（3）在測(cè)試chatGPT時(shí)，如果輸入問(wèn)題沒(méi)有語(yǔ)法錯(cuò)誤chatGPT的回答被采納的概率為90%，當(dāng)出現(xiàn)語(yǔ)法錯(cuò)誤時(shí)，chatGPT的回答被采納的概率為50%．現(xiàn)已知輸入的問(wèn)題中出現(xiàn)語(yǔ)法錯(cuò)誤的概率為5%，現(xiàn)已知chatGPT的回答被采納，求該問(wèn)題的輸入語(yǔ)法沒(méi)有錯(cuò)誤的概率．

【考點(diǎn)】條件概率．

【答案】見(jiàn)試題解答內(nèi)容

【解答】

【點(diǎn)評(píng)】

聲明：本試題解析著作權(quán)屬菁優(yōu)網(wǎng)所有，未經(jīng)書面同意，不得復(fù)制發(fā)布。

發(fā)布：2024/6/27 10:35:59組卷：223引用：2難度：0.6

相似題

相關(guān)試卷

1．將兩顆骰子各擲一次，設(shè)事件A為“兩個(gè)點(diǎn)數(shù)之和大于8”，B為“至少出現(xiàn)一個(gè)5點(diǎn)”，則概率P（A|B）等于（ ?。?/h2>