歡迎來(lái)到合肥浪訊網(wǎng)絡(luò)科技有限公司官網(wǎng)
  咨詢服務(wù)熱線:400-099-8848

對(duì)話OpenAI研討科學(xué)家:他們是如何讓GPT4更像人的?

發(fā)布時(shí)間:2023-04-06 文章來(lái)源:本站  瀏覽次數(shù):2258

終究是怎樣的大腦發(fā)明出了跨時(shí)期的ChatGPT?作為ChatGPT的姊妹模型,InstructGPT的中心技術(shù)和ChatGPT有很多相通之處。

近期,美國(guó)AI可察看性平臺(tái)Arize AI采訪了OpenAI的兩位研討科學(xué)家歐陽(yáng)龍 (Long Ouyang) 和Ryan Lowe,他們是InstructGPT(采用人類反應(yīng)的強(qiáng)化學(xué)習(xí) (RLHF) 鍛煉大型言語(yǔ)模型的首批主要應(yīng)用之一)的發(fā)明者,在RLHF模型的演化和為GPT-4奠基方面發(fā)揮了重要作用。

以下是對(duì)話中的一些要點(diǎn)。

開(kāi)發(fā)InstructGPT背后的動(dòng)機(jī)是什么?GPT-3的哪些問(wèn)題啟示了InstructGPT的降生?

歐陽(yáng)龍:我以為我們?cè)噲D處理的一個(gè)主要問(wèn)題是,當(dāng)GPT-3問(wèn)世時(shí),人們對(duì)用它來(lái)做有用的認(rèn)知工作感到過(guò)于興奮,例如總結(jié)一篇新聞文章。但它的設(shè)計(jì)初衷并不是為了做這個(gè),而是為了預(yù)測(cè)互聯(lián)網(wǎng)上的人在特定環(huán)境下可能會(huì)說(shuō)什么。事實(shí)證明,你能夠經(jīng)過(guò)設(shè)置文原本誘使模型為你執(zhí)行有用的工作,當(dāng)模型自動(dòng)完成任務(wù)時(shí),它能夠給你你想要的東西。

因而,就摘要來(lái)說(shuō),一個(gè)例子是,或許你需求先給出一篇文章中的幾個(gè)事例,然后是文章的摘要,后是你想要取得摘要的文章和要點(diǎn)總結(jié),然后你請(qǐng)求他們完成概括。所以這個(gè)模型并不是被設(shè)計(jì)成一個(gè)助手或有用的工具,但在某些狀況下你能夠把它用作這個(gè)用處。這篇文本或者說(shuō)這個(gè)項(xiàng)目的總體目的就是在一個(gè)目的函數(shù)上對(duì)模型停止微調(diào),使其成為一個(gè)有用的助手或工具——直到今天也仍然如此。這來(lái)自于一些早期的工作,我們稱之為調(diào)整言語(yǔ)模型。

對(duì)了,Ryan,你想談?wù)凮penAI的調(diào)整問(wèn)題嗎?

Ryan Lowe:人們對(duì)調(diào)整有不同的定義。但你能夠運(yùn)用的一個(gè)定義是,如何讓我們正在鍛煉的人工智能系統(tǒng)優(yōu)化我們實(shí)踐上想要優(yōu)化的東西?

從歷史上看,它始于一個(gè)小團(tuán)隊(duì),這就是初早期RLHF工作發(fā)揮作用的中央。后來(lái)我們有了一個(gè)短期的調(diào)整團(tuán)隊(duì),主要擔(dān)任用現(xiàn)有的言語(yǔ)模型來(lái)優(yōu)化我們真正想要優(yōu)化的東西,讓我們的目的變得有用、有協(xié)助,同時(shí)也能夠減輕危害,遵照事實(shí)。還有一些關(guān)于長(zhǎng)期調(diào)整的工作,試圖考慮可能呈現(xiàn)的新的調(diào)整問(wèn)題。因而,將來(lái)還可能呈現(xiàn)一些關(guān)于可擴(kuò)展的監(jiān)管和其他一些事情的工作。

你能對(duì)InstructGPT做一個(gè)簡(jiǎn)短的引薦或者對(duì)其做一個(gè)總結(jié)嗎?

歐陽(yáng)龍:這是一個(gè)自動(dòng)化的系統(tǒng),你提供一些文本作為輸入,它也會(huì)提供一些文本作為輸出。這些是我們所說(shuō)的標(biāo)志的概率散布,一個(gè)標(biāo)志是單詞的一局部,有時(shí)是整個(gè)單詞,然后經(jīng)過(guò)在每個(gè)階段抽樣出下一個(gè)可能的標(biāo)志,然后繼續(xù)這個(gè)過(guò)程,直到得到你目的的產(chǎn)出。所以有時(shí)分你會(huì)得到不同的結(jié)果,由于這個(gè)模型有一點(diǎn)概率性。

重要的是,你給這個(gè)模型的輸入只是一個(gè)自然言語(yǔ)命令或指令,比方“用法語(yǔ)寫(xiě)一個(gè)關(guān)于青蛙的故事”,又由于它在各種不同的任務(wù)上承受過(guò)鍛煉,所以它能夠概括兩個(gè)任務(wù),第一個(gè)任務(wù)是運(yùn)用法語(yǔ),第二個(gè)任務(wù)是寫(xiě)一個(gè)關(guān)于青蛙的故事,我想這是在鍛煉中他不會(huì)遇到的。

為了強(qiáng)調(diào)指令模型和早期香草言語(yǔ)模型之間的區(qū)別,指令模型“了解”你給了它一些明白的認(rèn)知任務(wù),同時(shí)你用言語(yǔ)明白地給出了這些指令;而在之前的模型之下,經(jīng)過(guò)模型交流的方式,你想要完成的任務(wù)可能是經(jīng)過(guò)一些例子或一種更委婉的方式。

Ryan Lowe:從高層次上講,我們完成這一目的的方式根本上是應(yīng)用人類數(shù)據(jù)。經(jīng)過(guò)運(yùn)用數(shù)據(jù)標(biāo)注者——我們雇傭了一組承包商為我們標(biāo)志數(shù)據(jù),我們?cè)谡5难哉Z(yǔ)模型預(yù)鍛煉階段上做了一個(gè)額外的微調(diào)階段。

這些數(shù)據(jù)標(biāo)注者產(chǎn)生的主要數(shù)據(jù)之一是給定一些輸入,如"寫(xiě)一個(gè)關(guān)于青蛙的故事"有多個(gè)候選輸出,由不同的模型生成,而標(biāo)注者會(huì)依據(jù)一些指令集和他們對(duì)指令的解釋,將這些輸入從佳輸出到有效輸出停止排序。然后我們運(yùn)用強(qiáng)化學(xué)習(xí)來(lái)鍛煉模型,以試圖產(chǎn)生更接近人類偏好或排名較高的輸出。

為什么要鍛煉獎(jiǎng)勵(lì)模型呢?為什么要在第一步停止監(jiān)視微調(diào)?

歐陽(yáng)龍:或許我們會(huì)從獎(jiǎng)勵(lì)形式開(kāi)端,由于這是我們的辦法中真正關(guān)鍵的局部。有了Ryan之前提到的那種數(shù)據(jù),即數(shù)據(jù)標(biāo)注者給出了他們的偏好,比方關(guān)于青蛙的故事,我們就會(huì)用這些數(shù)據(jù)來(lái)鍛煉一個(gè)十分大的神經(jīng)網(wǎng)絡(luò),我們稱之為獎(jiǎng)勵(lì)模型。

你能夠把獎(jiǎng)勵(lì)形式想象成電子游戲中的分?jǐn)?shù)或一個(gè)教師。獎(jiǎng)勵(lì)模型的輸入是指令和輸出,它返回一個(gè)分?jǐn)?shù),這個(gè)分?jǐn)?shù)會(huì)通知你的輸出有多好。假如這個(gè)分?jǐn)?shù)不錯(cuò),就意味著關(guān)于青蛙的故事是個(gè)好故事,假如這個(gè)分?jǐn)?shù)很低,就意味著關(guān)于青蛙的故事是個(gè)爛故事。我們依據(jù)人類的判別來(lái)鍛煉這個(gè)獎(jiǎng)勵(lì)模型,所以這個(gè)大模型有點(diǎn)像近似于人們以為在寫(xiě)青蛙故事或總結(jié)新聞文章或其他方面的一個(gè)好嘗試。然后當(dāng)我們鍛煉一個(gè)完整不同的模型,我們也能依據(jù)獎(jiǎng)勵(lì)模型來(lái)做得更好。

因而,我們的辦法的重要之處在于,我們沒(méi)有采用其他辦法,而是明白地學(xué)習(xí)了人們對(duì)一項(xiàng)任務(wù)的良好表現(xiàn)的見(jiàn)地。然后,我們單獨(dú)優(yōu)化一個(gè)神經(jīng)網(wǎng)絡(luò),使其依據(jù)該表征完成一項(xiàng)好工作。因而,這就是從人類反應(yīng)中停止的本質(zhì)性強(qiáng)化學(xué)習(xí)。

我們正在做強(qiáng)化學(xué)習(xí),由于我們?cè)噲D依據(jù)一個(gè)模型去構(gòu)建另一個(gè)完整不同的但能很好運(yùn)轉(zhuǎn)的新模型。然后人類的反應(yīng)局部來(lái)自教師或分?jǐn)?shù)模型,這些模型經(jīng)過(guò)鍛煉,能夠預(yù)測(cè)人類的偏好。這就是這個(gè)辦法的中心,然后,為了引導(dǎo)一堆數(shù)據(jù),我們又做了所謂的監(jiān)視學(xué)習(xí)或監(jiān)視微調(diào),在那里,我們實(shí)踐上只是請(qǐng)求他們直接制造所謂的示范,而不是讓人們對(duì)曾經(jīng)寫(xiě)好的青蛙的故事給出他們的偏好。所以,他們本人被請(qǐng)求用法語(yǔ)寫(xiě)一個(gè)關(guān)于青蛙的故事,我們鍛煉模型模擬他們?cè)谶@些狀況下運(yùn)用的單詞。這對(duì)引導(dǎo)數(shù)據(jù)很有用,但對(duì)RLHF辦法來(lái)說(shuō)不一定是必需的。

你能否看到其他主要的應(yīng)用程序跳過(guò)了第一步?

歐陽(yáng)龍:我們有時(shí)還會(huì)這樣做,我想有一點(diǎn)是,如今少數(shù)的片段提示曾經(jīng)變得很有競(jìng)爭(zhēng)力了。因而,你有時(shí)能夠跳過(guò)搜集演示,由于從模型的幾個(gè)片段的輸出曾經(jīng)是能夠承受的,或者說(shuō)是曾經(jīng)足夠好,以致于沒(méi)有必要停止單獨(dú)的監(jiān)視微調(diào)。

Ryan Lowe:一種考慮辦法是,RLHF協(xié)助您取得更細(xì)粒度的模型行為調(diào)優(yōu),而監(jiān)視式調(diào)優(yōu)和搜集演示能夠更徹底地改動(dòng)模型行為。例如,假定你有一個(gè)模型,它在生成摘要方面很糟糕。在不同的糟糕摘要之間取得一堆排名反應(yīng)并不是有用的。所以你要做的是搜集一些十分好的總結(jié)的例子,然后讓你的模型試著模擬一下。實(shí)踐上,這是一個(gè)經(jīng)歷問(wèn)題,什么時(shí)分好從搜集演示轉(zhuǎn)換到搜集比擬或排名數(shù)據(jù)。我們?cè)诹硪黄撐闹袑?duì)此有一些結(jié)果但這依然是一個(gè)十分開(kāi)放的問(wèn)題。

你是怎樣想到InstructGPT這個(gè)主見(jiàn)的?這個(gè)想法是如何呈現(xiàn)的,以及這個(gè)項(xiàng)目是如何在OpenAI中呈現(xiàn)的?

歐陽(yáng)龍:我們實(shí)踐上曾經(jīng)研討這個(gè)辦法有一段時(shí)間了,只是動(dòng)機(jī)略有不同。調(diào)整團(tuán)隊(duì)通常感興味的不一定是使模型更好,雖然有時(shí)的確會(huì)產(chǎn)生反作用,但終目的是使它們更契合我們想要的。因而,在之前的幾篇論文中,我們將這種辦法應(yīng)用于更窄的范疇,看看它能否有效。緊跟著GPT-3經(jīng)過(guò)API部署到公眾面前,團(tuán)隊(duì)的一些成員想到將我們?cè)谝郧暗恼撐闹虚_(kāi)發(fā)的對(duì)齊技術(shù)應(yīng)用到這個(gè)新模型上,我們?nèi)缃裾跒楣娦凇?/p>

Ryan Lowe:初寫(xiě)谷歌文件提出這個(gè)倡議的人是Paul Chirstiano,他當(dāng)時(shí)是調(diào)整團(tuán)隊(duì)的擔(dān)任人。

很多人都在談?wù)撓乱淮哉Z(yǔ)模型將會(huì)十分強(qiáng)大。這能否會(huì)帶來(lái)有趣的應(yīng)戰(zhàn),或者能否有新的辦法來(lái)順應(yīng)這種應(yīng)戰(zhàn)并處置這些更強(qiáng)大的言語(yǔ)模型?你想把這項(xiàng)工作推進(jìn)到哪里?

Ryan Lowe:我們有一個(gè)內(nèi)容政策,說(shuō)我們不希望模型生成代碼來(lái)入侵銀行或做其他相似的奉公守法的事情,但我們發(fā)理想際上它有可能被立功分子用來(lái)編寫(xiě)代碼來(lái)入侵銀行。如今我們有一個(gè)困難的過(guò)程來(lái)引導(dǎo)事情朝著不這樣做的方向開(kāi)展,但在牢靠性和耐久性方面依然存在差距。所以我們只能繼續(xù)具有我們的技術(shù),讓它們變得更好,這樣假如你發(fā)現(xiàn)一些偏向,你能夠疾速修復(fù)它。

Anthropic近發(fā)表了一些關(guān)于運(yùn)用模型來(lái)協(xié)助這個(gè)過(guò)程的論文,十分有趣。我特別感興味的一件事是超越了實(shí)質(zhì)上與均勻標(biāo)簽者設(shè)立的框架。當(dāng)我們開(kāi)端問(wèn):你在依據(jù)誰(shuí)在調(diào)整這些模型時(shí),將會(huì)有一些十分棘手的問(wèn)題。如今根本上是我們的標(biāo)簽員加上我們經(jīng)過(guò)一組指令讓他們遵照。但OpenAI并不想處在這樣一個(gè)道德專制者的位置,即我們來(lái)決議怎樣做是正確的,以及什么是正確的價(jià)值觀。因而,駕馭這個(gè)問(wèn)題將是一個(gè)應(yīng)戰(zhàn),觸及到機(jī)器學(xué)習(xí)的干預(yù),但也觸及到更普遍的社會(huì)技術(shù)角度。

隨著言語(yǔ)模型變得越來(lái)越強(qiáng)大,這類研討能否會(huì)呈現(xiàn)有趣的問(wèn)題或新的應(yīng)戰(zhàn)和新的方向?

歐陽(yáng)龍:其中一個(gè)問(wèn)題是,假如這些模型十分強(qiáng)大,那么僅僅是停止這些比擬判別就會(huì)變得愈加艱難。因而,我們想要給出一個(gè)強(qiáng)大模型的任務(wù)示例是:為GitHub上的這個(gè)拉拽懇求編寫(xiě)代碼檢查。如今的模型還不能做到這一點(diǎn),但你能夠想象,在一兩年內(nèi),更有才能的模型可能就能做到,這絕對(duì)是我們希望機(jī)器學(xué)習(xí)協(xié)助處理的事情。數(shù)據(jù)標(biāo)簽承包商評(píng)價(jià)模型編寫(xiě)的代碼的時(shí)間可能十分長(zhǎng),也可能他們基本無(wú)法做到這一點(diǎn)。

因而,在運(yùn)用模型處置的事情超越個(gè)人評(píng)價(jià)模型的才能時(shí),一個(gè)十分突出的應(yīng)戰(zhàn)是,當(dāng)模型在大量不同的事情上十分強(qiáng)大的時(shí)分,那么評(píng)判他們做得能否很好就會(huì)相當(dāng)不容易。這是一個(gè)構(gòu)建其別人工智能模型協(xié)助人們?cè)u(píng)價(jià)其他機(jī)器學(xué)習(xí)系統(tǒng)的新范疇。

Ryan Lowe:我同意歐陽(yáng)龍所說(shuō)的,我獨(dú)一想補(bǔ)充的是關(guān)于長(zhǎng)期的分歧性研討;這些系統(tǒng)會(huì)依據(jù)你的程序來(lái)優(yōu)化。因而,假如他們優(yōu)化的是人類在做排名時(shí)哪些排名靠前的東西,那么你所優(yōu)化的就是產(chǎn)生對(duì)人類來(lái)說(shuō)聽(tīng)起來(lái)不錯(cuò)的輸出。隨著模型變得越來(lái)越強(qiáng)大,有可能在優(yōu)化過(guò)程中,他們會(huì)發(fā)現(xiàn)有趣的或棘手的或具有詐騙性的(或許有待商榷)辦法來(lái)產(chǎn)生高分的輸出,而這實(shí)踐上不是我們想要的輸出。我以為我們還沒(méi)有完整做到,但至少這是我們想要關(guān)注的事情。

至于如何緩解這種狀況,有歐陽(yáng)龍談到的各種辦法,也就是你有其別人工智能模型來(lái)協(xié)助你評(píng)價(jià)輸出——這就是我談到的可擴(kuò)展的監(jiān)視研討作風(fēng)。因而,人們正在研討更多的可解釋性問(wèn)題,比方:我們能否嘗試了解一個(gè)模型內(nèi)部發(fā)作了什么? 這是另一個(gè)調(diào)整研討的思緒。我們什么時(shí)分可以完成它還很難說(shuō),但這是值得考慮的。

你剛剛提到有人在察看模型內(nèi)部發(fā)作的事情。你能指出你近在這個(gè)范疇看到的任何有趣的外部事物嗎?

Ryan Lowe:我還沒(méi)有深化研討這方面的文獻(xiàn),但從我所看到的和略讀到的材料來(lái)看,Anthropic在可解釋性方面的研討十分有趣。他們正在研討較小范圍的轉(zhuǎn)換器,試圖理解里面到底發(fā)作了什么。

歐陽(yáng)龍:關(guān)于樹(shù)立言語(yǔ)模型所做的工作來(lái)說(shuō),有一些補(bǔ)充工作是以一種更可察看的方式停止的。Anthropic關(guān)于“監(jiān)視言語(yǔ)模型所做的過(guò)程,而不是結(jié)果”這個(gè)想法很感興味,就像我們一樣。因而,這里的想法可能是把一個(gè)大任務(wù)合成成一堆小的組件,而你可能對(duì)其中的一些組成局部比對(duì)整個(gè)端到端的鍛煉過(guò)程有更好的把握。

這是鍛煉的一局部還是后的微調(diào)?

歐陽(yáng)龍:我不斷以來(lái)在人們編寫(xiě)程序時(shí)也看到過(guò)這種狀況。有一個(gè)名為Ought的研討小組,也為學(xué)術(shù)論文樹(shù)立了一個(gè)所謂的文獻(xiàn)檢查助手。他們?cè)?jīng)運(yùn)用這種技術(shù)來(lái)構(gòu)建他們的言語(yǔ)模型輔助閱讀溫習(xí)工具。到目前為止我看到的例子都是這樣的,但是考慮如何合成鍛煉是很有趣的。

要進(jìn)一步理解這篇論文或者理解你更普遍的工作,你有什么倡議嗎?

Ryan Lowe:我以為人們可能曾經(jīng)在這么做了,但假如你還沒(méi)有,無(wú)妨嘗試一下這些模型,對(duì)它能做什么和不能做什么有一個(gè)直覺(jué)的理解。要特別去留意那些你試圖讓它做,而它卻沒(méi)有做的事情。我們正在做調(diào)整工作,但你也能夠思索為一個(gè)十分詳細(xì)的用例停止調(diào)整的工作。

此外,或許人們還能夠開(kāi)展出一點(diǎn)獵奇心,考慮假如我們有GPT7會(huì)發(fā)作什么,由于曾經(jīng)有人在考慮這些更長(zhǎng)期的調(diào)整問(wèn)題。我們專注于長(zhǎng)期調(diào)整方面的同事寫(xiě)了一篇關(guān)于批判的論文,同時(shí)他還鍛煉言語(yǔ)模型來(lái)批判,這算是在可擴(kuò)展的調(diào)整問(wèn)題中的一個(gè)步驟。

歐陽(yáng)龍:我也倡議你試試InstructGPT。這是一個(gè)公開(kāi)的模型,你能夠在beta.openai.com上得到一些免費(fèi)的點(diǎn)數(shù)來(lái)玩,這一點(diǎn)并沒(méi)有很多人曉得。

Ryan Lowe:是的,這很有趣,由于底層的GPT 3.5從去年早些時(shí)分就曾經(jīng)能夠運(yùn)用了,但是只要當(dāng)人們免費(fèi)運(yùn)用它,而且是以助手的方式,它才真正盛行起來(lái)。去試試InstructGPT吧,在某些方面它比ChatGPT更好,但在某些方面又比ChatGPT更差。

上一條:ChatGPT調(diào)研報(bào)告:...

下一條:智能合約賦能創(chuàng)意確權(quán),「...