日本亚洲国产成人精品|国产精品H片在线播放|一区二区天天爱去爱av|亚洲影音先锋A∨资源站|在线观看av中文字幕不卡|国产午夜福利不卡在线观看|中文字幕有码无码人妻在线|精品国产一区二区三区综合在线

今日熱議:GPT-4變笨引爆輿論!文本代碼質(zhì)量都下降,OpenAI剛剛回應(yīng)了降本減料質(zhì)疑

大模型天花板GPT-4,它是不是……變笨了?


(資料圖片僅供參考)

先是少數(shù)用戶提出質(zhì)疑,隨后大量網(wǎng)友表示自己也注意到了,還貼出不少證據(jù)。

有人反饋,把GPT-4的3小時(shí)25條對(duì)話額度一口氣用完了,都沒(méi)解決自己的代碼問(wèn)題。

無(wú)奈切換到GPT-3.5,反倒解決了。

總結(jié)下大家的反饋,最主要的幾種表現(xiàn)有:

以前GPT-4能寫(xiě)對(duì)的代碼,現(xiàn)在滿是Bug

回答問(wèn)題的深度和分析變少了

響應(yīng)速度比以前快了

這就引起不少人懷疑,OpenAI是不是為了節(jié)省成本,開(kāi)始偷工減料?

兩個(gè)月前GPT-4是世界上最偉大的寫(xiě)作助手,幾周前它開(kāi)始變得平庸。我懷疑他們削減了算力或者把它變得沒(méi)那么智能。

這就不免讓人想起微軟新必應(yīng)“出道即巔峰”,后來(lái)慘遭“前額葉切除手術(shù)”能力變差的事情……

網(wǎng)友們相互交流自己的遭遇后,“幾周之前開(kāi)始變差”,成了大家的共識(shí)。

一場(chǎng)輿論風(fēng)暴同時(shí)在Hacker News、Reddit和Twitter等技術(shù)社區(qū)形成。

這下官方也坐不住了。

OpenAI開(kāi)發(fā)者推廣大使Logan Kilpatrick,出面回復(fù)了一位網(wǎng)友的質(zhì)疑:

API 不會(huì)在沒(méi)有我們通知您的情況下更改。那里的模型處于靜止?fàn)顟B(tài)。

不放心的網(wǎng)友繼續(xù)追問(wèn)確認(rèn)“就是說(shuō)GPT-4自從3月14日發(fā)布以來(lái)都是靜態(tài)的對(duì)吧?”,也得到了Logan的肯定回答。

“我注意到對(duì)于某些提示詞表現(xiàn)不一致,只是由于大模型本身的不穩(wěn)定性嗎?”,也得到了“Yes”的回復(fù)。

但是截至目前,針對(duì)網(wǎng)頁(yè)版GPT-4是否被降級(jí)過(guò)的兩條追問(wèn)都沒(méi)有得到回答,并且Logan在這段時(shí)間有發(fā)布別的內(nèi)容。

那么事情究竟如何,不如自己上手測(cè)試一波。

對(duì)于網(wǎng)友普遍提到GPT-4寫(xiě)代碼水平變差,我們做了個(gè)簡(jiǎn)單實(shí)驗(yàn)。

實(shí)測(cè)GPT-4“煉丹”本領(lǐng)下降了嗎?

3月底,我們?cè)鴮?shí)驗(yàn)過(guò)讓GPT-4“煉丹”,用Python寫(xiě)一個(gè)多層感知機(jī)來(lái)實(shí)現(xiàn)異或門(mén)。

ShareGPT截圖,界面稍有不同

讓GPT-4改用numpy不用框架后,第一次給出的結(jié)果不對(duì)。

修改兩次代碼后,運(yùn)行得到了正確結(jié)果。第一次修改隱藏神經(jīng)元數(shù)量,第二次把激活函數(shù)從sigmoid修改成tanh。

6月2日,我們?cè)俅螄L試讓GPT-4完成這個(gè)任務(wù),但換成了中文提示詞。

這回GPT-4第一次就沒(méi)有使用框架,但給的代碼仍然不對(duì)。

后續(xù)只修改一次就得到正確結(jié)果,而且換成了力大磚飛的思路,直接增加訓(xùn)練epoch數(shù)和學(xué)習(xí)率。

回答的文字部分質(zhì)量也未觀察到明顯下降,但響應(yīng)速度感覺(jué)確實(shí)有變快。

由于時(shí)間有限,我們只進(jìn)行了這一個(gè)實(shí)驗(yàn),且由于AI本身的隨機(jī)性,也并不能否定網(wǎng)友的觀察。

最早4月19日就有人反饋

我們?cè)贠penAI官方Discord頻道中搜索,發(fā)現(xiàn)從4月下旬開(kāi)始,就不時(shí)有零星用戶反饋GPT-4變差了。

但這些反饋并未引發(fā)大范圍討論,也沒(méi)有得到官方正式回應(yīng)。

5月31日,Hacker News和Twitter同天開(kāi)始大量有網(wǎng)友討論這個(gè)問(wèn)題,成為整個(gè)事件的關(guān)鍵節(jié)點(diǎn)。

HackerNews一位網(wǎng)友指出,在GPT-4的頭像還是黑色的時(shí)候更強(qiáng),現(xiàn)在紫色頭像版在修改代碼時(shí)會(huì)丟掉幾行。

在Twitter上較早提出這個(gè)問(wèn)題的,是HyperWrite(一款基于GPT API開(kāi)發(fā)的寫(xiě)作工具)的CEO,Matt Shumer。

但這條推文卻引發(fā)了許多網(wǎng)友的共鳴,OpenAI員工回復(fù)的推文也正是針對(duì)這條。

不過(guò)這些回應(yīng)并沒(méi)讓大家滿意,反而討論的范圍越來(lái)越大。

比如Reddit上一篇帖子提到,原來(lái)能回答代碼問(wèn)題的GPT-4,現(xiàn)在連哪些是代碼哪些是問(wèn)題都分不出來(lái)了。

在其他網(wǎng)友的追問(wèn)下,帖子作者對(duì)問(wèn)題出現(xiàn)的過(guò)程進(jìn)行了概述,還附上了和GPT的聊天記錄。

對(duì)于OpenAI聲稱模型從三月就沒(méi)有改動(dòng)過(guò),公開(kāi)層面確實(shí)沒(méi)有相關(guān)記錄。

ChatGPT的更新日志中,分別在1月9日1月30日、2月13日提到了對(duì)模型本身的更新,涉及改進(jìn)事實(shí)準(zhǔn)確性和數(shù)學(xué)能力等。

但自從3月14日GPT-4發(fā)布之后就沒(méi)提到模型更新了,只有網(wǎng)頁(yè)APP功能調(diào)整和添加聯(lián)網(wǎng)模式、插件模式、蘋(píng)果APP等方面的變化。

假設(shè)真如OpenAI所說(shuō),GPT-4模型本身的能力沒(méi)有變化,那么這么多人都感覺(jué)它表現(xiàn)變差是怎么回事呢?

很多人也給出了自己的猜想。

第一種可能的原因是心理作用。

Keras創(chuàng)始人Fran?ois Chollet就表示,不是GPT的表現(xiàn)變差,而是大家渡過(guò)了最初的驚喜期,對(duì)它的期待變高了。

Hacker News上也有網(wǎng)友持相同觀點(diǎn),并補(bǔ)充到人們的關(guān)注點(diǎn)發(fā)生了改變,對(duì)GPT失誤的敏感度更高了。

拋開(kāi)人們心理感受的差異,也有人懷疑API版本和網(wǎng)頁(yè)版本不一定一致,但沒(méi)什么實(shí)據(jù)。

還有一種猜測(cè)是在啟用插件的情況下,插件的額外提示詞對(duì)要解決的問(wèn)題來(lái)說(shuō)可能算一種污染

WebPilot插件中的額外提示詞

這位網(wǎng)友就表示,在他看來(lái)GPT表現(xiàn)變差正是從插件功能開(kāi)始公測(cè)之后開(kāi)始的。

也有人向OpenAI員工詢問(wèn)是否模型本身沒(méi)變,但推理參數(shù)是否有變化?

量子位也曾偶然“拷問(wèn)”出ChatGPT在iOS上的系統(tǒng)提示詞與網(wǎng)頁(yè)版并不一致。

如果在手機(jī)端開(kāi)啟一個(gè)對(duì)話,它會(huì)知道自己在通過(guò)手機(jī)與你交互。

會(huì)把回答控制在一到兩句話,除非需要長(zhǎng)的推理。

不會(huì)使用表情包,除非你明確要求他使用。

不一定成功,大概率拒絕回答

那么如果在網(wǎng)頁(yè)版繼續(xù)一個(gè)在iOS版開(kāi)啟的對(duì)話而沒(méi)意識(shí)到,就可能觀察到GPT-4回答變簡(jiǎn)單了。

總之,GPT-4自發(fā)布以來(lái)到底有沒(méi)有變笨,目前還是個(gè)未解之謎。

但有一點(diǎn)可以確定:

3月14日起大家上手玩到的GPT-4,從一開(kāi)始就不如論文里的。

與人類對(duì)齊讓AI能力下降

微軟研究院發(fā)表的150多頁(yè)刷屏論文《AGI的火花:GPT-4早期實(shí)驗(yàn)》中明確:

他們?cè)缭贕PT-4開(kāi)發(fā)未完成時(shí)就得到了測(cè)試資格,并進(jìn)行了長(zhǎng)期測(cè)試。

后來(lái)針對(duì)論文中很多驚艷例子,網(wǎng)友都不能成功用公開(kāi)版GPT-4復(fù)現(xiàn)

目前學(xué)術(shù)界有個(gè)觀點(diǎn)是,后來(lái)的RLHF訓(xùn)練雖然讓GPT-4更與人類對(duì)齊——也就更聽(tīng)從人類指示和符合人類價(jià)值觀——但讓也讓它自身的推理等能力變差。

論文作者之一、微軟科學(xué)家張弋在中文播客節(jié)目《What’s Next|科技早知道》S7E11期中也提到:

那個(gè)版本的模型,比現(xiàn)在外面大家都可以拿得到的GPT-4還要更強(qiáng),強(qiáng)非常非常多。

舉例來(lái)說(shuō),微軟團(tuán)隊(duì)在論文中提到,他們每隔相同一段時(shí)間就讓GPT-4使用LaTeX中的TikZ畫(huà)一個(gè)獨(dú)角獸來(lái)追蹤GPT-4能力的變化。

論文中展示的最后一個(gè)結(jié)果,畫(huà)得已經(jīng)相當(dāng)完善。

但論文一作Sebastien Bubeck后續(xù)在MIT發(fā)表演講時(shí)透露了更多信息。

后來(lái)當(dāng)OpenAI開(kāi)始關(guān)注安全問(wèn)題的時(shí)候,后續(xù)版本在這個(gè)任務(wù)中變得越來(lái)越糟糕了。

與人類對(duì)齊但并不降低AI自身能力上限的訓(xùn)練方法,也成了現(xiàn)在很多團(tuán)隊(duì)的研究方向,但還在起步階段。

除了專業(yè)研究團(tuán)隊(duì)之外,關(guān)心AI的網(wǎng)友們也在用自己的辦法追蹤著AI能力的變化。

有人每天讓GPT-4畫(huà)一次獨(dú)角獸,并在網(wǎng)站上公開(kāi)記錄。

從4月12日開(kāi)始,直到現(xiàn)在也還沒(méi)看出來(lái)個(gè)獨(dú)角獸的大致形態(tài)。

當(dāng)然網(wǎng)站作者表示,自己讓GPT-4使用SVG格式畫(huà)圖,與論文中的TikZ格式不一樣也有影響。

并且4月畫(huà)的與現(xiàn)在畫(huà)的似乎只是一樣差,也沒(méi)看出來(lái)明顯退步。

最后來(lái)問(wèn)問(wèn)大家,你是GPT-4用戶么?最近幾周有感到GPT-4能力下降么?歡迎在評(píng)論區(qū)聊聊。

本文作者:夢(mèng)晨、克雷西,來(lái)源:量子位,原文標(biāo)題:《GPT-4變笨引爆輿論!文本代碼質(zhì)量都下降,OpenAI剛剛回應(yīng)了降本減料質(zhì)疑》

風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

關(guān)鍵詞: