日本亚洲国产成人精品|国产精品H片在线播放|一区二区天天爱去爱av|亚洲影音先锋A∨资源站|在线观看av中文字幕不卡|国产午夜福利不卡在线观看|中文字幕有码无码人妻在线|精品国产一区二区三区综合在线

GPT的背后,從命運(yùn)多舛到顛覆世界,人工神經(jīng)網(wǎng)絡(luò)的跌宕80年

今天,ChatGPT等大型語(yǔ)言預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型已經(jīng)成為廣為人知的名字,GPT背后的算法內(nèi)核——人工神經(jīng)網(wǎng)絡(luò)算法,在此之前,卻曾經(jīng)歷了跌宕沉浮的80年,這80年間,除了少數(shù)的幾個(gè)爆發(fā)時(shí)刻,大部分時(shí)候,這個(gè)理論處于沉寂、無(wú)人問(wèn)津,甚至經(jīng)費(fèi)“毒藥”的狀態(tài)。

人工神經(jīng)網(wǎng)絡(luò)的誕生,來(lái)自不羈天才皮特斯與當(dāng)時(shí)已功成名就的神經(jīng)生理學(xué)專家麥卡洛克的黃金組合,然而,他們的理論超越了他們那個(gè)時(shí)代的技術(shù)水平,因而沒(méi)能獲得廣泛關(guān)注與實(shí)證驗(yàn)證。


(相關(guān)資料圖)

幸而,在誕生之初的二十多年里,不停地有研究者進(jìn)來(lái)添磚加瓦,人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域從最初最簡(jiǎn)單的神經(jīng)元數(shù)學(xué)模型和學(xué)習(xí)算法進(jìn)化到了具有學(xué)習(xí)能力的感知機(jī)模型,然而,來(lái)自其他研究者的質(zhì)疑與“感知機(jī)”創(chuàng)始人之一羅森布拉特在航行中隕難共同襲來(lái),在那之后,這個(gè)領(lǐng)域陷入了二十多年的寒冬,直到反向傳播算法被引入人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中。

在那之后,經(jīng)歷了沉寂的20年,人工神經(jīng)網(wǎng)絡(luò)方面的研究才終于又獲得重啟,蓄力的近20年中,卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)依次登場(chǎng)。

但該領(lǐng)域在學(xué)術(shù)界與產(chǎn)業(yè)界的飛速發(fā)展還是要等到17年前,硬件方面的突破——通用計(jì)算GPU芯片的出現(xiàn),于是,才有了今天,隨著ChatGPT等大型語(yǔ)言預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,成為廣為人知的名字。

從一定意義上,人工神經(jīng)網(wǎng)絡(luò)的成功是一種幸運(yùn),因?yàn)?,不是所有的研究,都能等到核心的關(guān)鍵突破,等到萬(wàn)事齊備。在更多的領(lǐng)域,技術(shù)的突破出現(xiàn)得太早或是太晚,導(dǎo)致只能慢慢消亡。然而,這幸運(yùn)中,不能被忽略地是那些身處其中的研究者們的堅(jiān)定與執(zhí)著,靠著這些研究者們的理想主義,人工神經(jīng)網(wǎng)絡(luò)才走過(guò)了它跌宕沉浮的80年,終得正果。

麥卡洛克-皮特斯神經(jīng)元

1941年,沃倫·斯特吉斯·麥卡洛克(Warren Sturgis McCulloch)跳槽到美國(guó)芝加哥大學(xué)醫(yī)學(xué)院,擔(dān)任神經(jīng)生理學(xué)教授。搬到芝加哥后不久,一位朋友介紹他認(rèn)識(shí)了沃爾特·皮特斯(Walter Pitts)。正在芝加哥大學(xué)攻讀博士的皮特斯與麥卡洛克對(duì)神經(jīng)科學(xué)與邏輯學(xué)有共同的興趣,于是二人一拍即合,成為了科研上志同道合的好友和伙伴。皮特斯生性好學(xué),12歲時(shí)便在圖書館讀完了羅素與懷特黑德所著的《數(shù)學(xué)原理》,并致信羅素,指出書中的幾處錯(cuò)誤。羅素很欣賞這位小讀者的來(lái)信,回信邀請(qǐng)他到劍橋大學(xué)讀書(盡管皮特斯只有12歲)。然而,皮特斯的家人受教育程度低,無(wú)法理解皮特斯的求知欲、反而時(shí)常惡語(yǔ)相向。皮特斯與原生家庭關(guān)系逐漸惡化,他15歲便離家出走。自那之后,皮特斯成為了芝加哥大學(xué)校園里的一名流浪漢,白天選擇喜歡的大學(xué)課程旁聽,晚上隨便找個(gè)課室睡覺(jué)。在皮特斯認(rèn)識(shí)麥卡洛克時(shí),他雖然已是學(xué)校在冊(cè)博士生,但仍沒(méi)有固定住處。麥卡洛克了解到這個(gè)情況后,便邀請(qǐng)皮特斯到自家居住。

二人認(rèn)識(shí)的時(shí)候,麥卡洛克已經(jīng)發(fā)表了多篇關(guān)于神經(jīng)系統(tǒng)的論文,是該領(lǐng)域有名的專家。而皮特斯雖然還是一名博士生,但他已經(jīng)在數(shù)理邏輯領(lǐng)域有所建樹,并獲得包括馮諾依曼等領(lǐng)域大牛們的賞識(shí)。盡管二人專業(yè)領(lǐng)域非常不同,但他們都對(duì)人腦的工作原理深感興趣,并堅(jiān)信數(shù)學(xué)模型可以描述、模擬大腦的功能。在這個(gè)共同的信念的驅(qū)使下,二人合作發(fā)表了多篇論文。他們建立了第一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型。他們的工作為現(xiàn)代人工智能與機(jī)器學(xué)習(xí)領(lǐng)域奠定了基礎(chǔ),而他們二人也因此被公認(rèn)為神經(jīng)科學(xué)與人工智能領(lǐng)域的開創(chuàng)者。

1943年,麥卡洛克和皮特斯提出了最早的人工神經(jīng)網(wǎng)絡(luò)模型:麥卡洛克-皮特斯神經(jīng)元(McCulloch-Pitts Neuron)模型[1]。該模型旨在用二進(jìn)制開關(guān)的“開”與“關(guān)”的機(jī)制來(lái)模擬神經(jīng)元的工作原理。該模型的主要組成部分為:接收信號(hào)的輸入節(jié)點(diǎn),通過(guò)預(yù)設(shè)閾值處理輸入信號(hào)的中間節(jié)點(diǎn),以及生成輸出信號(hào)的輸出節(jié)點(diǎn)。在論文中,麥卡洛克與皮特斯證明了該簡(jiǎn)化模型可以用于實(shí)現(xiàn)基礎(chǔ)邏輯(如“與”、“或”、“非”)運(yùn)算。除此以外,該模型還可以用于解決簡(jiǎn)單問(wèn)題,如模式識(shí)別與圖像處理。

麥卡洛克-皮特斯神經(jīng)元(圖源:www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf)

赫布式學(xué)習(xí)(Hebbian Learning)

1949年,加拿大心理學(xué)家唐納德·赫布(Donald Hebb)出版了一本題為《行為的組織(The Organization of Behavior)》,并在書中提出了著名的赫布式學(xué)習(xí)(Hebbian Learning)理論[2]。該理論認(rèn)為“共同激活的神經(jīng)元往往是相互連接的(Cells that fire together, wire together)”,也就是神經(jīng)元具有突觸可塑性(synaptic plasticity,?突觸是神經(jīng)元之間相互連接進(jìn)行信息傳遞的關(guān)鍵部位),并認(rèn)為突觸可塑性是大腦學(xué)習(xí)與記憶功能的基礎(chǔ)。

機(jī)器學(xué)習(xí)理論中的關(guān)鍵步驟是如何使用不同的更新算法(update rule)來(lái)更新模型。使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行機(jī)器學(xué)習(xí)時(shí),需設(shè)定初始模型的架構(gòu)與參數(shù)。在模型訓(xùn)練過(guò)程中,每一個(gè)來(lái)自訓(xùn)練數(shù)據(jù)集中的輸入數(shù)據(jù)都會(huì)導(dǎo)致模型更新各項(xiàng)參數(shù)。這個(gè)過(guò)程,就需要使用到更新算法。赫布式學(xué)習(xí)理論為機(jī)器學(xué)習(xí)提供了最初更新算法:Δw = η x xpre x xpost。Δw為突觸模型的參數(shù)的變化大小,?η為學(xué)習(xí)速率,xpre 為突觸前神經(jīng)元活動(dòng)值大小,xpost為突觸后神經(jīng)元活動(dòng)值大小。

赫布更新算法為利用人工神經(jīng)網(wǎng)絡(luò)來(lái)模仿大腦神經(jīng)網(wǎng)絡(luò)的行為提供了理論基礎(chǔ)。赫布式學(xué)習(xí)模型是一種無(wú)監(jiān)督學(xué)習(xí)模型——該模型通過(guò)調(diào)節(jié)其感知到的輸入數(shù)據(jù)之間聯(lián)系程度的強(qiáng)弱來(lái)實(shí)現(xiàn)學(xué)習(xí)目的。也正因?yàn)槿绱?,赫布式學(xué)習(xí)模型在對(duì)輸入數(shù)據(jù)中的子類別聚類分析尤其擅長(zhǎng)。隨著神經(jīng)網(wǎng)絡(luò)的研究逐漸加深,赫布式學(xué)習(xí)模型后來(lái)也被發(fā)現(xiàn)適用于強(qiáng)化學(xué)習(xí)等其他多個(gè)細(xì)分領(lǐng)域。

感知機(jī)?(Perceptron)

1957年,美國(guó)心理學(xué)家弗蘭克·羅森布拉特(Frank Rosenblatt)首次提出感知機(jī)(Perceptron)模型,并且首次使用了感知機(jī)更新算法[3]。感知機(jī)更新算法延伸了赫布更新算法的基礎(chǔ),通過(guò)利用迭代、試錯(cuò)過(guò)程來(lái)進(jìn)行模型訓(xùn)練。在模型訓(xùn)練時(shí),感知機(jī)模型對(duì)于每一個(gè)新的數(shù)據(jù),計(jì)算出模型預(yù)測(cè)的該數(shù)據(jù)輸出值與實(shí)際測(cè)得的該數(shù)據(jù)輸出值的差值,然后使用該差值更新模型中的系數(shù)。具體方程如下:Δw = η x (t - y) x x。在提出最初的感知機(jī)模型后,羅森布拉特繼續(xù)深入探討、發(fā)展感知機(jī)相關(guān)理論。1959年,羅森布拉特成功研發(fā)出一臺(tái)使用感知機(jī)模型識(shí)別英文字母的神經(jīng)計(jì)算機(jī)Mark1。

感知機(jī)模型與麥卡洛克-皮特斯神經(jīng)元類似,也是基于神經(jīng)元的生物學(xué)模型,以接收輸入信號(hào),處理輸入信號(hào),生成輸出信號(hào)為基本運(yùn)作機(jī)理。感知機(jī)模型與麥卡洛克-皮特斯神經(jīng)元模型的區(qū)別在于后者的輸出信號(hào)只能為0或1——超過(guò)預(yù)設(shè)閾值為1,否則為零——而感知機(jī)模型則使用了線性激活函數(shù),使得模型的輸出值可以與輸入信號(hào)一樣為連續(xù)變化值。另外,感知機(jī)對(duì)每一條輸入信號(hào)都設(shè)置了系數(shù),該系數(shù)能影響每條輸入信號(hào)對(duì)于輸出信號(hào)的作用程度。最后,感知機(jī)是學(xué)習(xí)算法,因?yàn)槠涓鬏斎胄盘?hào)的系數(shù)可以根據(jù)所看到的數(shù)據(jù)進(jìn)行調(diào)整;而麥卡洛克-皮特斯神經(jīng)元模型因沒(méi)有設(shè)置系數(shù),所以其行為無(wú)法根據(jù)數(shù)據(jù)反饋進(jìn)行動(dòng)態(tài)更新。

1962年,羅森布拉特將多年關(guān)于感知機(jī)模型的研究集結(jié)成《神經(jīng)動(dòng)力學(xué)原理:感知機(jī)與大腦原理(Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms)》一書。感知機(jī)模型在人工智能領(lǐng)域是一項(xiàng)重大的進(jìn)步,因?yàn)樗堑谝环N具有學(xué)習(xí)能力的算法模型,能自主學(xué)習(xí)接收到的數(shù)據(jù)中的規(guī)律與特點(diǎn)。并且,它具有模式分類的能力,可以將數(shù)據(jù)根據(jù)其特點(diǎn)自動(dòng)分為不同的類別。另外,感知機(jī)模型相對(duì)簡(jiǎn)單,所需計(jì)算資源也較少。

盡管感知機(jī)具有種種優(yōu)點(diǎn)與潛力,但它畢竟是一個(gè)相對(duì)簡(jiǎn)化的模型,存在許多局限性。1969年,計(jì)算機(jī)科學(xué)家馬文·明斯基(Marvin Minsky)與西摩爾·派普特(Seymour Papert)合作出版了《感知機(jī)(Perceptron)》一書[5]。在書中,兩位作者對(duì)感知機(jī)模型進(jìn)行了深入的批判,分析了以感知機(jī)為代表的單層神經(jīng)網(wǎng)絡(luò)的局限,包括但不限于“異或”邏輯的實(shí)現(xiàn)以及線性不可分問(wèn)題。但是,二位作者與羅森布拉特都已經(jīng)意識(shí)到,多層神經(jīng)網(wǎng)絡(luò)可以解決這些單層神經(jīng)網(wǎng)絡(luò)不能解決的問(wèn)題。可惜的是,《感知機(jī)》一書對(duì)感知機(jī)模型的負(fù)面評(píng)價(jià)影響巨大,使得公眾與政府機(jī)構(gòu)對(duì)于感知機(jī)研究一下子失去了興趣。1971年,感知機(jī)理論的提出者兼頭號(hào)支持者羅森布拉特不幸在一次出海航行中遇難,享年43歲。在《感知機(jī)》一書與羅森布拉特之死的雙重打擊下,與感知機(jī)相關(guān)的論文發(fā)表數(shù)目逐年迅速減少。人工神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了“寒冬”。

感知機(jī)模型(圖源:towardsdatascience.com)

反向傳播算法

多層神經(jīng)網(wǎng)絡(luò)能夠解決單層神經(jīng)網(wǎng)絡(luò)無(wú)法解決的問(wèn)題,但它帶來(lái)了新的問(wèn)題:更新多層神經(jīng)網(wǎng)絡(luò)模型的每一層神經(jīng)元的權(quán)重涉及到大量精確計(jì)算,而普通的計(jì)算方法費(fèi)時(shí)費(fèi)力,使得神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程變得非常緩慢,實(shí)用性很差。

為了解決這個(gè)問(wèn)題,美國(guó)社會(huì)學(xué)家、機(jī)器學(xué)習(xí)工程師保羅·韋伯(Paul Werbos)在1974年的哈佛大學(xué)的博士論文《Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences》中提出了反向傳播算法(backpropagation)[6]。該算法的基本思想是通過(guò)將預(yù)測(cè)到的輸出值與實(shí)際輸出值之間的誤差從輸出層反向傳播,從而調(diào)整神經(jīng)網(wǎng)絡(luò)各個(gè)神經(jīng)元的權(quán)重。這個(gè)算法的本質(zhì)是根據(jù)微積分中常用的鏈?zhǔn)椒▌t從輸出層到輸入層反向(沿著負(fù)梯度方向)實(shí)現(xiàn)對(duì)由多層感知機(jī)組成的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

令人感到遺憾的是,韋伯的論文在發(fā)表后很長(zhǎng)一段時(shí)間內(nèi)都沒(méi)有得到足夠的關(guān)注。直到1985年,加州大學(xué)圣地亞哥分校的心理學(xué)家大衛(wèi)·魯梅爾哈特(David Rumelhart)、認(rèn)知心理學(xué)家與計(jì)算機(jī)學(xué)家杰弗里·辛頓(Geoffrey Hinton),以及計(jì)算機(jī)學(xué)家羅納德·威廉姆斯(Ronald Williams)合作發(fā)表了一篇關(guān)于反向傳播算法在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用的論文[7]。這篇論文在人工智能領(lǐng)域獲得了很大的反響。魯梅爾哈特等人的想法與韋伯的想法本質(zhì)上是相似的,但魯梅爾哈特他們沒(méi)有引用韋伯的論文,這一點(diǎn)近來(lái)常常為人詬病。

反向傳播算法在人工神經(jīng)網(wǎng)絡(luò)的發(fā)展中起著關(guān)鍵作用,并使得深度學(xué)習(xí)模型的訓(xùn)練成為可能。自從反向傳播算法于八十年代重新受到人們的重視以來(lái),它被廣泛應(yīng)用于訓(xùn)練多種神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)。除了最初的多層感知機(jī)神經(jīng)網(wǎng)絡(luò)以外,反向傳播算法還適用于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。由于反向傳播算法的重要地位,韋伯與魯梅爾哈特等人被認(rèn)為是神經(jīng)網(wǎng)絡(luò)領(lǐng)域的先驅(qū)之一。

事實(shí)上,反向傳播算法是人工智能領(lǐng)域的“文藝復(fù)興”時(shí)代(20世紀(jì)80年代和90年代期間)的重要成果。并行分布式處理(Parallel Distributed Processing)是這段時(shí)間的主要方法論。該方法論關(guān)注多層神經(jīng)網(wǎng)絡(luò),并推崇通過(guò)并行處理計(jì)算來(lái)加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程與應(yīng)用。這與先前的人工智能領(lǐng)域的主流思想背道而馳,因而具有劃時(shí)代的意義。另外,該方法論受到了計(jì)算機(jī)科學(xué)以外,包括心理學(xué)、認(rèn)知科學(xué),以及神經(jīng)科學(xué)等不同領(lǐng)域的學(xué)者的歡迎。因此,這段歷史常常被后人認(rèn)為是人工智能領(lǐng)域的文藝復(fù)興。

反向傳播算法原理(圖源:www.i2tutorials.com)

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)

如果把麥卡洛克·皮特斯神經(jīng)元作為人工智能誕生的標(biāo)志,那么美國(guó)可以說(shuō)是人工神經(jīng)網(wǎng)絡(luò)的發(fā)源地。人工神經(jīng)網(wǎng)絡(luò)誕生后的三十年里,美國(guó)在人工智能領(lǐng)域一直扮演著主角,孕育了感知機(jī)、反向傳播算法等關(guān)鍵技術(shù)。但在第一個(gè)人工智能的"寒冬"中,包括政府、學(xué)術(shù)界在內(nèi)的美國(guó)各方人士對(duì)人工神經(jīng)網(wǎng)絡(luò)的潛能失去了信心,大大放緩了對(duì)神經(jīng)網(wǎng)絡(luò)技術(shù)迭代的支持與投入。也因?yàn)槿绱?,在這個(gè)席卷美國(guó)的”寒冬“中,其他國(guó)家的人工神經(jīng)網(wǎng)絡(luò)的研究走到了歷史發(fā)展的聚光燈之下。卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)就是在這樣的背景下出場(chǎng)的。

卷積神經(jīng)網(wǎng)絡(luò)是一種包含了卷積層,池化層,以及全連接層等多種獨(dú)特結(jié)構(gòu)的多層神經(jīng)網(wǎng)絡(luò)模型。該模型利用卷積層提取出輸入信號(hào)的局部特征,然后通過(guò)池化層降低數(shù)據(jù)的維度與復(fù)雜性,最后通過(guò)全連接層將數(shù)據(jù)轉(zhuǎn)化為一維的特征向量并生成輸出信號(hào)(一般為預(yù)測(cè)或分類結(jié)果)。卷積神經(jīng)網(wǎng)絡(luò)的獨(dú)特結(jié)構(gòu)使得它在處理具有網(wǎng)格結(jié)構(gòu)屬性的數(shù)據(jù)(圖像,時(shí)間序列等)時(shí)尤有優(yōu)勢(shì)。

卷積神經(jīng)網(wǎng)絡(luò)(圖源:https://www.analyticsvidhya.com/blog/2022/01/convolutional-neural-network-an-overview/)

最早的卷積神經(jīng)網(wǎng)絡(luò)是日本計(jì)算機(jī)科學(xué)家福島邦彥(Kunihiko Fukushima)于1980年提出[8]。福島所提出的模型包含卷積層與下采樣層,是當(dāng)今主流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)仍然一直沿用的結(jié)構(gòu)。福島的模型與今日的卷積神經(jīng)網(wǎng)絡(luò)唯一不同之處在于前者沒(méi)有使用反向傳播算法——如前文所敘,反向傳播算法要等到1986年才受到關(guān)注。由于福島的卷積神經(jīng)網(wǎng)絡(luò)模型沒(méi)有該算法的助力,該模型與當(dāng)時(shí)的其他多層神經(jīng)網(wǎng)絡(luò)一樣存在訓(xùn)練時(shí)間長(zhǎng)、計(jì)算復(fù)雜的問(wèn)題。

1989年,任職于美國(guó)貝爾實(shí)驗(yàn)室法國(guó)計(jì)算機(jī)科學(xué)家楊·立昆(Yann LeCun)及其團(tuán)隊(duì)提出了名為L(zhǎng)eNet-5的卷積神經(jīng)網(wǎng)絡(luò)模型,并在該模型中使用了反向傳播算法進(jìn)行訓(xùn)練[9]。立昆證明了該神經(jīng)網(wǎng)絡(luò)可以用于識(shí)別手寫數(shù)字與字符。這標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的廣泛應(yīng)用的開始。

遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)

與卷積神經(jīng)網(wǎng)絡(luò)一樣,遞歸神經(jīng)網(wǎng)絡(luò)也是一類具有獨(dú)特結(jié)構(gòu)特征的神經(jīng)網(wǎng)絡(luò)。該類神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu)特征在于各層級(jí)間具有遞歸關(guān)系,而不是順序關(guān)系。由于以上這些特殊結(jié)構(gòu)特征,遞歸神經(jīng)網(wǎng)絡(luò)特別適于處理自然語(yǔ)言以及其他文本類的數(shù)據(jù)。

1990年,美國(guó)認(rèn)知科學(xué)家、心理語(yǔ)言學(xué)家杰弗里·艾爾曼(Jeffrey Elman)提出了艾爾曼網(wǎng)絡(luò)模型(又稱為簡(jiǎn)化遞歸網(wǎng)絡(luò))[10]。艾爾曼網(wǎng)絡(luò)模型是首個(gè)遞歸神經(jīng)網(wǎng)絡(luò)。艾爾曼利用該模型證明了遞歸神經(jīng)網(wǎng)絡(luò)能夠在訓(xùn)練時(shí)維持?jǐn)?shù)據(jù)本身的先后順序性質(zhì),為日后該類模型在自然語(yǔ)言處理領(lǐng)域的應(yīng)用奠定了基礎(chǔ)。

遞歸神經(jīng)網(wǎng)絡(luò)存在梯度消失現(xiàn)象。在使用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),離輸入近的層級(jí)的權(quán)重更新梯度逐漸變得近似于零,使得這些權(quán)重變化很慢,導(dǎo)致訓(xùn)練效果變差。為了解決這個(gè)問(wèn)題,1997年,德國(guó)計(jì)算機(jī)科學(xué)家瑟普·霍克賴特(Sepp Hochreiter)及其博士導(dǎo)師于爾根·施密德胡伯(Jürgen Schmidhuber)提出了長(zhǎng)短期記憶網(wǎng)絡(luò)[11]。該模型為一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)模型。它引入了記憶節(jié)點(diǎn),使得模型具有更好的長(zhǎng)期記憶存留的能力,從而化解了梯度消失現(xiàn)象。該模型目前仍是使用最普遍的遞歸神經(jīng)網(wǎng)絡(luò)模型之一。

通用計(jì)算GPU芯片

2006年,美國(guó)英偉達(dá)公司(NVIDIA)推出了第一款通用計(jì)算GPU(圖形處理單元)芯片并將其命名為CUDA(Compute Unified Device Architecture)。在此之前,GPU本是專門用于圖形渲染與計(jì)算的芯片處理器,常用于計(jì)算機(jī)圖形學(xué)相關(guān)的應(yīng)用(如圖像處理,游戲場(chǎng)景實(shí)時(shí)計(jì)算渲染,視頻播放與處理等)。CUDA允許通用目的的并行計(jì)算,使原本僅能調(diào)用CPU(中央處理單元)的任務(wù)可以通過(guò)GPU來(lái)完成計(jì)算。GPU的強(qiáng)大的并行計(jì)算能力使其能夠同時(shí)執(zhí)行多個(gè)計(jì)算任務(wù),并且計(jì)算速度比CPU更快,適合矩陣運(yùn)算。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往需要進(jìn)行大規(guī)模矩陣和張量運(yùn)算。在通用GPU出現(xiàn)之前,人工神經(jīng)網(wǎng)絡(luò)的發(fā)展長(zhǎng)期受到傳統(tǒng)的CPU有限計(jì)算能力的限制。這種限制包括了對(duì)于理論研究的創(chuàng)新以及對(duì)現(xiàn)有模型的產(chǎn)品化、產(chǎn)業(yè)化的應(yīng)用。而GPU的出現(xiàn),讓這兩方面的掣肘被大大削弱了。

2010年,施密德胡伯團(tuán)隊(duì)中的博士后研究員丹·奇雷尚(Dan Ciresan)利用GPU實(shí)現(xiàn)了對(duì)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的顯著加速[12]。但GPU真正在人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域里聲名大噪是在2012年。那一年,加拿大計(jì)算機(jī)科學(xué)家亞歷克斯·克里澤夫斯基(Alex Krizhevsky)、伊利亞·蘇茨克維(Ilya Sutskever)以及前文提到過(guò)的杰弗里·辛頓提出了亞歷克斯網(wǎng)絡(luò)模型(AlexNet)[13]。亞歷克斯網(wǎng)絡(luò)模型本質(zhì)上是一類卷積網(wǎng)絡(luò)模型。克里澤夫斯基等人在訓(xùn)練模型時(shí)使用了GPU,并用該模型參加了一個(gè)國(guó)際著名的圖像分類與標(biāo)記的競(jìng)賽(ImageNet ILSVRC)。令人意外的是,該模型最后竟以大比分的優(yōu)勢(shì)獲得了冠軍。亞歷克斯網(wǎng)絡(luò)模型的成功極大地激發(fā)了各界對(duì)于人工神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用的興趣與關(guān)注。

生成式神經(jīng)網(wǎng)絡(luò)與大型語(yǔ)言模型

遞歸神經(jīng)網(wǎng)絡(luò)可以逐字連續(xù)生成文本序列,因此常常被認(rèn)為是早期的生成式神經(jīng)網(wǎng)絡(luò)模型。然而,盡管遞歸神經(jīng)網(wǎng)絡(luò)善于處理、生成自然語(yǔ)言數(shù)據(jù),但它對(duì)于長(zhǎng)序列數(shù)據(jù)一直無(wú)法有效捕捉全局信息(對(duì)于距離較遠(yuǎn)的信息無(wú)法進(jìn)行有效聯(lián)系)。

變壓器模型? 圖源:[14]

2017年,美國(guó)谷歌公司的研究員阿希瑟·瓦斯瓦尼(Ashish Vaswani)等人提出了變壓器模型(Transformer)[14]。該大型神經(jīng)網(wǎng)絡(luò)分為編碼器與解碼器兩個(gè)主要部分。編碼器對(duì)輸入序列進(jìn)行編碼處理,通過(guò)自注意力層等來(lái)進(jìn)一步處理編碼后的信息。此后,信息傳至解碼器,并經(jīng)過(guò)解碼器部分的自注意力層等網(wǎng)絡(luò)結(jié)構(gòu)來(lái)生成輸出序列。該模型的重要?jiǎng)?chuàng)新在于自注意力層(self-attention)。自注意力層使得神經(jīng)網(wǎng)絡(luò)模型能擺脫順序處理文本的局限性,而是直接去文本中的不同位置抓取信息并捕捉各處信息之間的依賴關(guān)系,并且并行化計(jì)算不同位置之間在語(yǔ)義上的相關(guān)性。變壓器模型的橫空出世對(duì)自然語(yǔ)言處理領(lǐng)域乃至整個(gè)人工智能領(lǐng)域產(chǎn)生了巨大影響。在短短的幾年里,變壓器模型已經(jīng)被廣泛用在各類人工智能大模型中。

在層出不窮基于變壓器結(jié)構(gòu)的大型語(yǔ)言模型中,OpenAI公司推出的聊天機(jī)器人ChatGPT最為出名。ChatGPT所基于的語(yǔ)言模型為GPT-3.5(生成式預(yù)訓(xùn)練變壓器模型-3.5)。OpenAI公司在訓(xùn)練該模型時(shí)用了大量的語(yǔ)料庫(kù)數(shù)據(jù),使其最終具備了廣泛的語(yǔ)言理解能力與生成能力,包括提供信息、交流,文本創(chuàng)作、完成軟件代碼寫作、以及輕松勝任各類涉及語(yǔ)言理解相關(guān)的考試。

尾聲

幾周前,我去參加一個(gè)中學(xué)生與科研人員共進(jìn)午餐的志愿者活動(dòng)?;顒?dòng)上,我與幾名十五六歲的中學(xué)生聊天。很自然的我們就聊到了ChatGPT。我問(wèn)他們:”你們用ChatGPT嗎?你們可以跟我說(shuō)實(shí)話,我不會(huì)告訴你們的老師的。"其中一位男生靦腆的笑了笑,說(shuō)他現(xiàn)在已經(jīng)離不開ChatGPT了。

80年前,四處流浪的皮特斯只能想象著那能夠模擬大腦功能的數(shù)學(xué)模型。而在今天年輕人的世界里,神經(jīng)網(wǎng)絡(luò)不再僅是虛幻的數(shù)學(xué)公式,而變得無(wú)時(shí)無(wú)出不在。下一個(gè)80年會(huì)發(fā)生什么?人工神經(jīng)網(wǎng)絡(luò)中會(huì)像人類的神經(jīng)網(wǎng)絡(luò)一樣產(chǎn)生意識(shí)嗎?碳基大腦會(huì)持續(xù)主宰硅基大腦嗎?還是會(huì)被硅基大腦主宰?

參考文獻(xiàn):

1.Warren S. McCulloch and Walter Pitts. "A Logical Calculus of Ideas Immanent in Nervous Activity." The Bulletin of Mathematical Biophysics, vol. 5, no. 4, 1943, pp. 115-133.

2.Donald O. Hebb. "The Organization of Behavior: A Neuropsychological Theory." Wiley, 1949.

3.Frank Rosenblatt. "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain." Psychological Review, vol. 65, no. 6, 1958, pp. 386-408.

4.Frank Rosenblatt. "Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms." MIT Press, 1962.

5.Marvin Minsky and Seymour Papert. "Perceptrons: An Introduction to Computational Geometry." MIT Press, 1969.

6.Paul Werbos. "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.". Harvard University, 1974.

7.David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. "Learning representations by back-propagating errors." Nature, vol. 323, no. 6088, 1986, pp. 533-536.

8.Kunihiko Fukushima. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Biological Cybernetics, vol. 36, no. 4, 1980, pp. 193-202.

9.Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. "Gradient-based learning applied to document recognition." Proceedings of the IEEE, vol. 86, no. 11, 1998, pp. 2278-2324.

10.Jeffrey L. Elman. "Finding Structure in Time." Cognitive Science, vol. 14 1990, pp. 179-211.

11.Sepp Hochreiter and Jürgen Schmidhuber. "Long Short-Term Memory." Neural Computation, vol. 9, no. 8, 1997, pp. 1735-1780.

12.Dan C. Ciresan, Ueli Meier, Luca Maria Gambardella, and Jürgen Schmidhuber. "Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition." Neural Computation, vol. 22, no. 12, 2010, pp. 3207-3220.

13.Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.

14.Vaswani, Ashish, et al. "Attention is All You Need." Advances in Neural Information Processing Systems, 2017, pp. 5998-6008.

本文來(lái)源:知識(shí)分子,作者:孫睿晨,原標(biāo)題:《GPT的背后,從命運(yùn)多舛到顛覆世界,人工神經(jīng)網(wǎng)絡(luò)的跌宕80年》

風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見(jiàn)、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

關(guān)鍵詞: