試卷征集
加入會(huì)員
操作視頻
chatGPT是由OpenAI開發(fā)的一款人工智能機(jī)器人程序,一經(jīng)推出就火遍全球.chatGPT的開發(fā)主要采用RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù),訓(xùn)練分為以下三個(gè)階段.
第一階段:訓(xùn)練監(jiān)督策略模型.對(duì)抽取的prompt數(shù)據(jù),人工進(jìn)行高質(zhì)量的回答,獲取<prompt,answer>數(shù)據(jù)對(duì),幫助數(shù)學(xué)模型GPT-3.5更好地理解指令.
第二階段:訓(xùn)練獎(jiǎng)勵(lì)模型.用上一階段訓(xùn)練好的數(shù)學(xué)模型,生成k個(gè)不同的回答,人工標(biāo)注排名,通過獎(jiǎng)勵(lì)模型給出不同的數(shù)值,獎(jiǎng)勵(lì)數(shù)值越高越好.獎(jiǎng)勵(lì)數(shù)值可以通過最小化下面的交叉熵?fù)p失函數(shù)得到:
L
oss
=
-
n
i
=
1
y
i
ln
?
y
i
,其中
y
i
{
0
,
1
}
?
y
i
0
,
1
,且
n
i
=
1
?
y
i
=
1

第三階段:實(shí)驗(yàn)與強(qiáng)化模型和算法.通過調(diào)整模型的參數(shù),使模型得到最大的獎(jiǎng)勵(lì)以符合人工的選擇取向.
參考數(shù)據(jù):ln2≈0.693,ln5≈1.609,ln7≈1.946
(1)若已知某單個(gè)樣本,其真實(shí)分布y=[y1,y2,?,y10]=[0,0,0,0,1,0,0,0,0,0],其預(yù)測(cè)近似分布
?
y
=
[
y
1
y
2
,
?
y
10
]
=
[
0
,
0
.
2
0
,
0
0
.
7
,
0
0
,
0
.
1
,
0
0
]
,計(jì)算該單個(gè)樣本的交叉熵?fù)p失函數(shù)Loss值.
(2)絕對(duì)值誤差MAE也是一種比較常見的損失函數(shù),現(xiàn)已知某n階變量的絕對(duì)值誤差,
MAE
=
1
N
n
i
|
?
y
i
-
y
i
|
,其中
|
?
y
i
-
y
i
|
=
|
?
y
i
1
-
y
i
1
|
+
|
?
y
i
2
-
y
i
2
|
+
+
|
?
y
in
-
y
in
|
,N表示變量的階.若已知某個(gè)樣本是一個(gè)三階變量的數(shù)陣
y
=
y
1
y
2
y
3
=
y
11
y
12
,
y
13
y
21
y
22
,
y
23
y
31
,
y
32
y
33
,其真實(shí)分布是
y
=
0
,
0
1
0
,
1
0
1
,
0
0
,現(xiàn)已知其預(yù)測(cè)分布為
?
y
=
a
,
b
,
c
c
,
a
,
b
b
,
c
,
a
,求證:該變量的絕對(duì)值誤差MAE為定值.
(3)在測(cè)試chatGPT時(shí),如果輸入問題沒有語法錯(cuò)誤chatGPT的回答被采納的概率為90%,當(dāng)出現(xiàn)語法錯(cuò)誤時(shí),chatGPT的回答被采納的概率為50%.現(xiàn)已知輸入的問題中出現(xiàn)語法錯(cuò)誤的概率為5%,現(xiàn)已知chatGPT的回答被采納,求該問題的輸入語法沒有錯(cuò)誤的概率.
【考點(diǎn)】條件概率
【答案】見試題解答內(nèi)容
【解答】
【點(diǎn)評(píng)】
聲明:本試題解析著作權(quán)屬菁優(yōu)網(wǎng)所有,未經(jīng)書面同意,不得復(fù)制發(fā)布。
發(fā)布:2024/6/27 10:35:59組卷:213引用:2難度:0.6
相似題
  • 1.2023年8月31日貴南高鐵實(shí)現(xiàn)全線貫通運(yùn)營,我國西南和華南地區(qū)新增一條交通大動(dòng)脈,黔桂兩地間交通出行更加便捷、西南與華南地區(qū)聯(lián)系將更加緊密.貴南高鐵線路全長482公里,設(shè)計(jì)時(shí)速350公里,南寧東到貴陽東旅行時(shí)間由原來的5個(gè)多小時(shí)縮短至最快2小時(shí)53分.貴陽某調(diào)研機(jī)構(gòu)調(diào)查了一個(gè)來自南寧的旅行團(tuán)對(duì)貴陽兩種特色小吃腸旺面和絲娃娃的喜愛情況,了解到其中有
    4
    15
    的人喜歡吃腸旺面,有
    2
    15
    的人喜歡吃絲娃娃,還有
    7
    10
    的人既不喜歡吃腸旺面也不喜歡吃絲娃娃.在已知該旅行團(tuán)一游客喜歡吃腸旺面的條件下,他還喜歡吃絲娃娃的概率為( ?。?/div>
    發(fā)布:2024/9/6 15:0:11組卷:91引用:1難度:0.7
  • 2.為參加學(xué)校組織的“喜迎二十大,奮進(jìn)新征程”的演講比賽,某班從班級(jí)初選的甲乙2名男生和6名女生共8名同學(xué)中隨機(jī)選取5名組成班級(jí)代表隊(duì)參加比賽,則代表隊(duì)中既有男生又有女生的條件下,男生甲被選中的概率為( ?。?/div>
    發(fā)布:2024/9/19 9:0:8組卷:20引用:2難度:0.7
  • 3.一個(gè)盒子裝有質(zhì)地、大小、形狀都相同的6個(gè)球,其中紅球3個(gè),黃球2個(gè),藍(lán)球1個(gè).現(xiàn)從中任取兩個(gè)球,記事件A:“取出的兩個(gè)球顏色不同”,事件B:“取出一個(gè)紅球,一個(gè)黃球”,則P(B|A)=( ?。?/div>
    發(fā)布:2024/9/7 11:0:11組卷:463引用:5難度:0.7
小程序二維碼
把好題分享給你的好友吧~~
APP開發(fā)者:深圳市菁優(yōu)智慧教育股份有限公司 | 應(yīng)用名稱:菁優(yōu)網(wǎng) | 應(yīng)用版本:4.8.2  |  隱私協(xié)議      第三方SDK     用戶服務(wù)條款廣播電視節(jié)目制作經(jīng)營許可證出版物經(jīng)營許可證網(wǎng)站地圖本網(wǎng)部分資源來源于會(huì)員上傳,除本網(wǎng)組織的資源外,版權(quán)歸原作者所有,如有侵犯版權(quán),請(qǐng)立刻和本網(wǎng)聯(lián)系并提供證據(jù),本網(wǎng)將在三個(gè)工作日內(nèi)改正