午夜福利理论片在线观看,十八禁视频网站在线观看,色播亚洲视频在线观看,少妇愉情理伦片丰满丰满午夜,天堂国产一区二区三区

歡迎來到 范文詞典網(wǎng) , 一個優(yōu)秀的范文鑒賞學(xué)習(xí)網(wǎng)站!

加入收藏

您所在的位置:首頁 > 資訊 > 最新資訊

最新資訊

黃仁勛對話Transformer八子:大模型的起源、現(xiàn)在和未來

分類: 最新資訊 范文詞典 編輯 : 范文大全 發(fā)布 : 03-22

閱讀 :303

GTC 第三天,英偉達創(chuàng)始人與 Transformer 模型的提出者們進行了一場圍爐夜話。作者 | 鄭玥編輯| 鄭玄隨著新一波 AI 浪潮席卷而來,英偉達突破 2 萬億美元市值成為最炙手可熱的科技公司,今年 GTC 大會儼然成為年度最受關(guān)注的科技行業(yè)盛會。四天的數(shù)百場主題分享中,英偉達創(chuàng)始人黃仁勛和 Transformer 八子的對談,無疑是最受關(guān)注的場次之一。因為某種意義上,雙方正是這波 AI 浪潮的奠基人。谷歌大腦團隊 2017 年發(fā)表了一篇名為《注意力就是你所需要的一切(Attention is all you need)》的論文,主要目的是解決自然語言處理領(lǐng)域,使用傳統(tǒng)的 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))模型不能解決并行計算,從而導(dǎo)致算法效率低下的問題。這篇文章提出的新的處理架構(gòu)就是 Transformer 模型,也是今天大模型的基石,而當(dāng)時這篇文章的八位聯(lián)名作者今天也被稱為 Transformer 八子。幾年后八子陸續(xù)離開谷歌,今天已經(jīng)成為 Essential AI、Character.AI 等硅谷重要 AI 公司的創(chuàng)始人或技術(shù)核心。Transformer 八子Ashish Vaswani,EssentialAI 聯(lián)合創(chuàng)始人兼 CEONoam Shazeer,Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人Jakob Uszkoreit,Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官Llion Jones,SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官Aidan Gomez,Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官Lukasz Kaiser,OpenAI 技術(shù)人員Illia Polosukhin,NEAR Protocol 聯(lián)合創(chuàng)始人Niki Parmar,EssentialAI 聯(lián)合創(chuàng)始人(因家庭原因未出席)八子在文章中提出了可以解決并行計算問題的新架構(gòu),并預(yù)言了隨著訓(xùn)練規(guī)模的提升 AI 會展現(xiàn)出更強大的智能。但這一切需要更龐大的算力支持,而過去十年一直投入研發(fā) GPU 和加速計算的英偉達,則為八子的構(gòu)想提供了算力這個最關(guān)鍵的燃料。于是,就有了 GPT 的誕生以及今天日新月異加速發(fā)展的 AGI 浪潮。而在這樣的一個時間節(jié)點上,黃仁勛和八子這些時代開拓者再次對話,也就有了更多看點。以下是黃仁勛的開場獨白和他與八子的對話原文,由極客公園整理編譯。01黃仁勛開場計算機處理器誕生于我出生的第一年(與我出生無關(guān))。IBM System 360 定義了現(xiàn)代計算機的范疇,包括中央處理單元、I/O 子系統(tǒng)、多任務(wù)處理、硬件與軟件的分離、整個系列的兼容性以及向后兼容性,以保護軟件工程師的投資。這個描述到 80 年代末、90 年代初,個人電腦革命將計算機推向了高速發(fā)展,使計算機變成了我們所熟知的形態(tài)。每年性能的邊際成本下降,每 10 年計算成本降低約 10 倍。在過去的 20 年里,PC 革命使計算成本降低了 10,000 倍,比歷史上任何其他商品都要多。你能想象 20 年后,生活中的一切都變得更加便宜,汽車的價格從 2 萬美元降至 1 美元嗎,也許是 Uber。英偉達創(chuàng)始人黃仁勛 | 圖片來源:NVIDIA GTC但計算成本的大幅下降停止了,雖然每年仍有略微的改進,但變化的速度已經(jīng)放緩。我們開始追求加速計算,這并不容易,因為需要將問題公式化,轉(zhuǎn)化為并行算法,這是一個非常困難的科學(xué)領(lǐng)域。我們相信,如果能夠加速代表 99% 運行時間的 1% 代碼,那么將獲得巨大的好處,可以實現(xiàn)一些之前認為不可能的事情,或者將需要大量金錢或能量的事情變得更加成本效益和節(jié)能。在公司歷史的整個過程中,我們一直在研究加速計算,不斷地加速應(yīng)用領(lǐng)域。盡管人們認為我們是一家電腦游戲公司,但我們也在追求其他領(lǐng)域的加速計算。我們最初在計算機圖形和游戲中找到了這種情況,這推動了技術(shù)的創(chuàng)新和市場的發(fā)展。2012 年,我們首次意識到人工智能與 Nvidia GPU 的潛力,引發(fā)了我們對這個領(lǐng)域的興趣。我們堅信,如果我們能夠加速代表 99% 運行時間的 1% 代碼,那么在某些應(yīng)用領(lǐng)域,我們將獲得巨大的好處,實現(xiàn)巨大的差異。我們可以將一些不可能的事情變?yōu)榭赡?,將需要花費大量金錢的事情變得具有成本效益,或者將需要消耗大量能量的事情變得更加節(jié)能。因此,我們將這一概念稱為加速計算,并在公司歷史的整個持續(xù)時間內(nèi)不斷進行研究。我們可以在一個接一個的應(yīng)用領(lǐng)域加速發(fā)展。盡管人們認為我們是一家電腦游戲公司,但我們也在其他領(lǐng)域不斷追求進步。我們認識到計算機圖形和游戲的價值,因為它們不僅是龐大的市場,還推動了技術(shù)創(chuàng)新。這種罕見的情況是由從未被滿足的龐大市場與技術(shù)革命的潛力交匯而成。我們最初在計算機圖形和游戲中找到了這種情況,引發(fā)了我們對這個領(lǐng)域的興趣。幾年后,一些驚人的事情發(fā)生了,導(dǎo)致了今天的局面。我將馬上告訴你那件事。這一切導(dǎo)致了生成式人工智能的出現(xiàn)?,F(xiàn)在,當(dāng)你聽到生成式人工智能時,當(dāng)然會感到不可思議。事實上,軟件不僅可以識別一張貓的圖片并保存貓,還可以根據(jù)「貓」這個詞生成一張貓的圖片。它可以根據(jù)一些條件提示,如在毛伊島的陽光明媚的海岸上,站在沖浪板上,喝著麥芬酒,戴著滑雪帽,無論你添加什么樣的提示,生成式人工智能都能夠生成出來。我們已經(jīng)開發(fā)出一種軟件程序,能夠理解像素的含義,識別像素,并從像素的含義中生成內(nèi)容。這種能力具有深遠的變革意義,促使了今天的局面。這是新的工業(yè)革命的開端,我有充分的理由。在這個新的工業(yè)革命中,我們正在創(chuàng)造一些以前從未存在過的東西。就像以前的工業(yè)革命一樣,最后一次,水進入工廠,能量被應(yīng)用到水上。那個被稱為發(fā)電機的裝置開始運轉(zhuǎn),并創(chuàng)造出了我們今天所依賴的那些看不見但價值非凡的東西。水進入建筑物,基本上是將其轉(zhuǎn)化為能量,將其燒開,那么你會得到什么?你會得到電。這種電的魔力無處不在,它創(chuàng)造了我們所熟知的工業(yè)革命。一種新的設(shè)施創(chuàng)造了一種新的、具有巨大價值的產(chǎn)品。雖然生成式人工智能是一種全新類型的軟件,軟件本質(zhì)上也是需要被創(chuàng)造的。令人驚奇的計算機科學(xué)必須去塑造它。但在那之后,它就可以進行大規(guī)模生產(chǎn)了。一個裝有我們稱之為 GPU 的機器設(shè)備的建筑,本質(zhì)上就是一個發(fā)電機,一個內(nèi)部裝有機器設(shè)備的大型建筑。你給它原材料數(shù)據(jù),你給它能量,然后這個驚人的東西就出現(xiàn)了。數(shù)字進去,數(shù)字出來,而出來的數(shù)字能夠做出令人驚奇、難以置信的事情。當(dāng)然,它們可以被應(yīng)用。它們可以用于醫(yī)療保健和藥物設(shè)計,用于交通和降低汽車成本,以及用于制造業(yè)和工業(yè),我們所熟知的每一個行業(yè)都將受益于這種新產(chǎn)品、這種新的生產(chǎn)物。因此,這是一個行業(yè)從未見過的全新產(chǎn)品。它將在世界上從未見過的 AI 工廠和設(shè)施中進行生產(chǎn),并且 AI 將被每個行業(yè)使用。你會怎么稱呼這種情況呢?一個新的工業(yè)革命?這一切在此之前都不存在,但我們正在親眼見證著未來十年的發(fā)展。你絕對不能錯過接下來的這十年,會誕生令人難以置信的能力。這一切始于一些研究人員的努力。所以今天我們邀請了機器語言模型「Transformer」的發(fā)明者、創(chuàng)造者們,是那篇名為《注意力就是一切(Attention is All you need)》的論文的作者。好的,現(xiàn)在讓我們歡迎 Ashish Vaswani,EssentialAI 聯(lián)合創(chuàng)始人兼 CEO;Noam Shazeer,Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人;Jakob Uszkoreit,Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官;Llion Jones,SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官;Aidan Gomez,Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官;Lukasz Kaiser,OpenAI 技術(shù)人員;Illia Polosukhin,NEAR Protocol 聯(lián)合創(chuàng)始人,我們還有一位同事和朋友 Niki Parmar,EssentialAI 聯(lián)合創(chuàng)始人,因為家庭緊急情況無法出席,我們的心和思緒都與她在一起。首先,我要說他們實際上從未同時出現(xiàn)在同一個房間里。我知道在家工作這件事有點失控了。但顯然,這并沒有阻止創(chuàng)新和發(fā)明。我們將會討論 Transformer 的重要性和意義,以及它不可思議的變革能力,對行業(yè)的影響。我們今天享受的一切都可以追溯到那一刻。我們能夠從數(shù)據(jù)中學(xué)習(xí),從龐大的數(shù)據(jù)序列中學(xué)習(xí),以及空間數(shù)據(jù),但是能夠從大量數(shù)據(jù)中學(xué)習(xí),找到關(guān)系和模式。創(chuàng)建這些龐大的模型真的是非常具有變革性的。我們都同意,互相打斷、互相反駁甚至站起來進行白板討論并非不禮貌。我們需要一個白板,今天沒有禁區(qū)。回到起點,工程師們,我們需要問題來激發(fā)靈感。黃仁勛和 Transformer 八子 | 圖片來源:NVIDIA GTC02回顧當(dāng)年,Transformer是怎么被創(chuàng)造的?黃仁勛:你們當(dāng)時面臨的問題或挑戰(zhàn)是什么,導(dǎo)致了這個想法的產(chǎn)生?Illia Polosukhin:因為那個時候,模型在處理時間方面是不夠的。黃仁勛:當(dāng)時存在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)和具有注意力機制的 RNNs,但在一次讀取一個詞和一次讀取一個詞之間存在差異。Jakob Uszkoreit:我們生成的訓(xùn)練數(shù)據(jù)比我們能夠訓(xùn)練的最先進的架構(gòu)要快得多。因此,實際上有相似的架構(gòu),只是使用了一些 n-grams 或其他特征,因為它們在訓(xùn)練上更快,這是規(guī)模的問題。大量的訓(xùn)練數(shù)據(jù)基本上總是超過了當(dāng)時更先進、更強大的網(wǎng)絡(luò)。我們意識到了這一點。因此,修復(fù)這個問題似乎是有價值的。Noam Shazeer:早在 2015 年,我們就已經(jīng)看到了這些縮放定律。你可以看到,讓模型變得更大,它就變得更聰明。這個問題就像世界歷史上最好的問題一樣簡單。你只需要預(yù)測下一個 token,而模型將會變得越來越聰明,能夠執(zhí)行數(shù)百萬種不同的任務(wù)。我們的目標(biāo)只是擴展它并使其更強大。Illia Polosukhin:對于電力行業(yè)的人們來說,現(xiàn)在我們只需要等待它擴展。Ashish Vaswani:在攻讀研究生期間,特別是在 Transformer 出現(xiàn)時,我不斷被提醒兩個教訓(xùn)。第一個是當(dāng)時我在進行機器翻譯方面的工作時,我意識到學(xué)習(xí)語言規(guī)則并不重要,因為梯度下降對于模型來說是一個更好的老師。第二個是我從苦澀的教訓(xùn)中明白,通用架構(gòu)的可擴展性最終會獲得成功。今天的 token 是明天計算機行動的體現(xiàn),它們開始模仿我們的活動,并自動化我們的工作。Transformer 自我注意,并使梯度下降變得更快。這是一種重復(fù)的主題,每次我們創(chuàng)建規(guī)則樣本時都會體現(xiàn)。Noam Shazeer:沒錯,這就是我們正在做的事情。所有的深度學(xué)習(xí)都是如此,我們正在構(gòu)建一個形狀類似 GPU 的 AI 模型,它的形狀類似于超級計算機。在這里,這就像是世界歷史上最好的問題。它是如此簡單。你只是在預(yù)測下一個 tokens,它將變得如此聰明,能夠做出數(shù)百萬種不同的事情,而你只是想要擴展它并使其變得更好。黃仁勛:現(xiàn)在,你們在解決什么問題?Lukasz Kaiser:機器翻譯。八年前,它看起來是如此困難,就像你不得不收集數(shù)據(jù),也許會翻譯,也許會有點錯誤。當(dāng)時這是非常基礎(chǔ)的水平?,F(xiàn)在這些模型,你根本不需要任何數(shù)據(jù)。所以你只需學(xué)會翻譯這種語言,那種語言。模型就能翻譯了。黃仁勛:什么樣的靈感讓你們想到了「AttentionIs All You Need」?Llion Jones:酷,是我想出了這個標(biāo)題。我們當(dāng)時嘗試做切除,扔掉模型的一部分,只是為了看看會變得多糟糕。令我們驚訝的是,它開始變得更好,甚至包括扔掉所有的卷積。那時我腦海中的想法是,我就是和我的腦子在一起工作。這就是標(biāo)題的來源。Llion Jones,SakanaAI 聯(lián)合創(chuàng)始人兼首席技術(shù)官 | 圖片來源:NVIDIA GTC黃仁勛:誰想出了 Transformer 這個名字?為什么叫做 Transformer 呢?Jakob Uszkoreit:但它確實符合模型的功能,它實際上改變了它所操作的整個信號,而不是去處理邏輯。Llion Jones:我認為它成為一個如此通用的名稱的原因是,在論文中,我們集中討論了翻譯,但我們絕對意識到我們實際上正在嘗試創(chuàng)建一種非常通用的東西,它確實可以將任何東西轉(zhuǎn)化為其他任何東西。我不認為我們預(yù)測到這將會有多么成功。黃仁勛:當(dāng) Transformer 被用于圖像時,這是一個相當(dāng)令人驚訝的嘗試。事實上,你們可以將圖像分塊并標(biāo)記化每一部分。我認為這在架構(gòu)上早就存在了。所以當(dāng)我們構(gòu)建張量到張量庫時,我們發(fā)現(xiàn)這不僅僅是針對語言的。其中包含了圖像、音頻、文本的組件,以及輸入和輸出方面的內(nèi)容。所以 Lukasz Kaiser 說他正在處理這些事情,我們現(xiàn)在開始看到的這些模態(tài)正在匯聚在一起,其實自始至終都是如此。Aidan Gomez:這些想法在很早之前就已經(jīng)存在了,這些想法一直在醞釀,花了一些時間。我們的目標(biāo)是我們有所有這些學(xué)術(shù)數(shù)據(jù)集,它們從圖像到文本,再從文本到圖像,從音頻到文本,從文本到文本。我們應(yīng)該對所有內(nèi)容進行訓(xùn)練。這個想法真正推動了模型進行擴展,以模擬網(wǎng)絡(luò)。現(xiàn)在我們許多人都在做類似的事情。所以我認為北極星第一天就存在,所以看到這一切正在發(fā)生,是非常令人興奮滿足的。黃仁勛:在這么多不同知識中,有翻譯的想法是普遍的。你們正在將它用于生物學(xué)?Jakob Uszkoreit:我們可以將其稱為生物軟件,類似于計算機軟件,它起初是一個程序,然后編譯成可以在 GPU 上運行的形式?;旧?,生物軟件的生命始于對特定行為規(guī)范的需求,比如在細胞中生成大量特定蛋白質(zhì),然后通過深度學(xué)習(xí)將其轉(zhuǎn)譯成 RNA 分子。但實際上,一旦它們進入細胞,它們就會表現(xiàn)出這些行為。所以,這個概念不僅僅是將安全的英語翻譯成計算機代碼,而且涉及到藥物的規(guī)范,即完全轉(zhuǎn)化為實際的分子藥物。黃仁勛:你們是否創(chuàng)建了一個生產(chǎn)所有這些的大型網(wǎng)絡(luò)實驗室?Jakob Uszkoreit:如果你必須對自然進行實驗,你必須驗證。有大量極其有價值的基因組數(shù)據(jù)可以下載,主要是因為它基本上仍然是公開的,是公共資助的。但實際上,你仍然需要數(shù)據(jù),這些數(shù)據(jù)明確地解釋了你試圖模擬的現(xiàn)象。例如,針對某種產(chǎn)品,比如 mRNA 疫苗中的蛋白質(zhì)表達,這確實是相當(dāng)大的傳輸。在帕洛阿爾托,我們有一群機器人和網(wǎng)絡(luò)公司的人員以及實驗室的研究人員,他們以前是生物學(xué)家?,F(xiàn)在我們把自己看作是一種新事物的先驅(qū)者,努力工作并實際創(chuàng)建數(shù)據(jù),并驗證設(shè)計這些數(shù)據(jù)的模型。黃仁勛 :所以你說一開始就有一些關(guān)于普遍 Transformer 的早期想法。但你們所有人在這條路上都看到了一些重大的、你們認為是基于基本 Transformer 設(shè)計的,真正偉大的額外貢獻,主要是架構(gòu)性的修復(fù)、增強和突破。Aidan Gomez:我覺得在推理方面,已經(jīng)有很多工作來加速這些模型,使它們更高效。但我仍然覺得有點不安,因為它與我們以前的形式非常相似。我認為世界需要比 Transformer 更好的東西。我想問一下在座的每個人,你認為接下來會發(fā)生什么?是令人興奮的一步嗎?因為我覺得現(xiàn)在與 6、7 年前的情況相似。Llion Jones:人們可能會感到驚訝。但我認為重要的是要明顯、顯而易見地變得更好。因為如果只是稍微改進,那還不足以讓整個人工智能行業(yè)轉(zhuǎn)向新事物。所以盡管原始模型可能不是我們現(xiàn)在擁有的最強大的東西,但我們?nèi)匀还淌卦谠瓉淼哪P蜕?。黃仁勛:但是每個人的工具集都是不同的,但你們想要改進的屬性是什么呢?是我想要改進生成能力,還是想要更快。Jakob Uszkoreit:我不確定你是否喜歡這個答案,但他們現(xiàn)在使用的計算量太大了。我覺得他們浪費了很多計算資源。黃仁勛:我們正在努力提高效率。謝謝你。Jakob Uszkoreit 等人:但實際上,這是關(guān)于分配,而不是關(guān)于總量。我同意你的觀點。實際上,這真的是關(guān)于在問題上投入適量的努力和能量。你不想在一個容易的問題上投入太多,或者在一個困難的問題上投入太少,然后無法提供適當(dāng)?shù)慕鉀Q方案。Illia Polosukhin:所以現(xiàn)在一個真實的例子就是 2 加 2。如果你輸入這個模型,它會使用 1 萬億個參數(shù)。用戶群體完全自己有能力做到這一點。我認為自適應(yīng)計算是接下來必須解決的問題之一,這樣我們就知道在特定問題上要花費多少計算資源。Illia Polosukhin,NEAR Protocol 聯(lián)合創(chuàng)始人 | 圖片來源:NVIDIA GTCAidan Gomez:我們中一些作者已經(jīng)發(fā)布了跟進通用 Transformer 的論文,在解決了這個問題。Lukasz Kaiser:這些想法在一年前就存在了,但現(xiàn)在已經(jīng)普及到各個領(lǐng)域,甚至在 Transformer 出現(xiàn)之前就已經(jīng)展開了。Ashish Vaswani:我們最初的目標(biāo)是模擬 token 的演變,實現(xiàn)線性生成?,F(xiàn)在這個過程也適用于圖像,擴散模型會迭代地進行改進和完善。根本的問題是,哪些知識應(yīng)該存在于模型內(nèi)部,哪些應(yīng)該存在于模型外部?例如,推理應(yīng)該在外部使用符號系統(tǒng)進行,這是一個效率的論點。Ashish Vaswani,EssentialAI 聯(lián)合創(chuàng)始人兼 CEO | 圖片來源:NVIDIA GTCNoam Shazeer:擁有 5000 億參數(shù)的模型每個 tokens 仍然只相當(dāng)于一美元的百萬分之一。這是非常便宜的。我們可以利用這個來提升模型的智能。我們有一些應(yīng)用程序的價值是計算巨型神經(jīng)網(wǎng)絡(luò)的效率的百萬倍以上。比如治愈癌癥之類的,當(dāng)然很重要,但即使只是與任何人交談,與你的醫(yī)生、律師、程序員交談,你也需要支付 1 美元一個 tokens,或者更多。我們有一百萬個 tokens 來使用,我們可以用它來讓模型變得更聰明。有時候,恰到好處的詞語就能改變世界。Ashish Vaswani:獲取正確的反饋對于提升模型智能至關(guān)重要。我們需要將任務(wù)分解為人類可以干預(yù)的步驟,并構(gòu)建能夠通過觀察我們學(xué)習(xí)的模型。03現(xiàn)在「散是滿天星」,都在做什么?黃仁勛 :你們能不能快速地談?wù)劕F(xiàn)在的公司以及為什么決定創(chuàng)辦它?Ashish Vaswani:我們非常興奮地致力于構(gòu)建模型,這些模型最終可以以與人類相同的效率水平學(xué)習(xí)解決新任務(wù)。它們觀察我們的行為,理解我們的意圖和目標(biāo),并開始模仿我們的行為。這將徹底改變我們與計算機的互動方式和工作方式。這是在 2021 年的目標(biāo)。我離開的一個重要原因是,要使這些模型變得更智能,不能僅在實驗室的真空中培養(yǎng)它們。實際上,你必須把它們放到人們手中,因為你需要世界來注釋。確切地說,你希望世界與這些模型互動,從中獲得反饋,并使這些模型變得更智能。做到這一點的方法就是走出去,建立一些有用的東西。Jakob Uszkoreit,Inceptive 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 | 圖片來源:NVIDIA GTC黃仁勛 :學(xué)習(xí)確實需要絕對變量飛輪。Noam Shazeer:當(dāng)我在 2021 年發(fā)現(xiàn)這一切時,我當(dāng)時最大的挫敗感是,這項令人難以置信的技術(shù)沒有普及到每個人手中。因為它有太多的用途,而且使用起來非常簡單。作為一個心急的人,我希望這項技術(shù)能夠被十億人使用,讓他們能夠開展各種各樣的活動。讓我們盡可能快地建造一些東西,把它推廣出去,讓數(shù)十億人能夠使用它。首先,很多人只是為了娛樂、情感支持、陪伴或類似的東西而使用它等等。Noam Shazeer,Character.AI 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 | 圖片來源:NVIDIA GTCJakob Uszkoreit:我已經(jīng)稍微談到了生物軟件的一些內(nèi)容,對我個人而言,在 2021 年,我共同創(chuàng)立了 Inceptive,主要是因為意識到這項技術(shù)可以對商業(yè)生活產(chǎn)生更直接的影響,甚至比之前的廣泛應(yīng)用更為直接。在疫情期間,我的第一個孩子出生了,這無疑讓我對生命的脆弱有了新的認識。然后,在 AlphaFold 2 發(fā)布蛋白質(zhì)結(jié)構(gòu)預(yù)測結(jié)果幾周后,我對這一技術(shù)產(chǎn)生了濃厚的興趣。而 AlphaFold 2 與 AlphaFold 1 之間的一個重大區(qū)別在于,他們開始使用了 Transformer,并用它替換了模型或架構(gòu)的其余部分。因此,很明顯,這些技術(shù)已經(jīng)可以在分子生物學(xué)領(lǐng)域發(fā)揮作用。幾周后,mRNA 新冠疫苗的有效性結(jié)果出來了,很明顯,mRNA 和 RNA 在一般情況下可以特別生存,你可以使用 RNA 做生命的任何事情。很長一段時間以來,RNA 在某種程度上一直被視為分子生物學(xué)的被忽視的親生子女。所以這似乎幾乎是一種道德義務(wù),這必須發(fā)生。黃仁勛 :我一直認為它是藥物設(shè)計。但我喜歡你把它看作蛋白質(zhì)編程。Llion Jones:我去年剛剛開始了一項新項目,現(xiàn)在還處于非常早期的階段,但我可以告訴你到目前為止我們都取得了哪些進展。我是 Sakana AI 公司的共同創(chuàng)始人之一。Sakana 在日語中意為魚,日本人似乎很喜歡這個名字,我們選擇這個名稱是因為我們希望激發(fā)人們對魚群的聯(lián)想。我們的目標(biāo)是實現(xiàn)自然啟發(fā)的人工智能。就像一群小魚一樣簡單,但當(dāng)將許多簡單的元素聚集在一起時,它們就會變得相當(dāng)復(fù)雜。然而,人們對我們所說的自然啟發(fā)并不完全理解。我試圖向加入我們的研究人員傳達的核心思想是,只要不斷學(xué)習(xí),就會取得成功。每當(dāng)我們試圖手工操作某事時,嘗試自己工程化,但最終轉(zhuǎn)向使用計算機搜索空間時,我們總是會取得成功。深度學(xué)習(xí)革命就是一個例子,我們從手工工程化特征轉(zhuǎn)向?qū)W習(xí)它們,結(jié)果效果要好得多。我想提醒大家,除了梯度下降,我們還可以利用 Nvidia 提供的大量計算資源來進行其他工作。今天或明天我們準備做一些公告。我很驚訝我們這么早就有東西要宣布,但我們即將開源一些研究成果。這與我們的品牌形象非常契合,因為目前流行的趨勢是模型融合,但這通常需要手工完成。我們并不是手工制作合并這些模型的算法。相反,我們利用了大量的計算資源,使用進化計算來搜索如何合并和堆疊層。結(jié)果非常令人滿意。Aidan Gomez:我創(chuàng)建 Coherer 的原因與 Jones 非常相似。我看到了一項我認為能改變世界的技術(shù)。計算機開始向我們回應(yīng)。它們獲得了一種新的模態(tài)。因此,我認為這應(yīng)該改變一切,每一個產(chǎn)品,我們工作的方式,以及我們與所有建立在計算機之上的東西互動的方式。有一種停滯感,以及我們這些了解情況的人所面對的技術(shù)與外界實際運用的情況之間存在的不一致。因此,我想要彌合這種差距。我與諾姆的做法有些不同,因為 Coherer 是為企業(yè)建造的。因此,我們?yōu)槊考移髽I(yè)創(chuàng)建平臺,使其能夠?qū)⑵浼傻疆a(chǎn)品中,而不是直接面向消費者。但這正是我們想要推動這項技術(shù)的方式,使其更加普及,更加便宜,并幫助企業(yè)采用它。Aidan Gomez,Cohere 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 | 圖片來源:NVIDIA GTCLukasz Kaiser:我沒有找到適合我的……黃仁勛:我知道,但你繼續(xù)改變著世界,繼續(xù)吧。Lukasz Kaiser:是的,我最終決定再次加入 OpenAI??ㄆ占{被問到為什么會回來,他說那里有錢,有時間。我加入的地方是 AI 最好的地方。公司里非常有趣。我們知道你可以利用大量數(shù)據(jù)和計算資源創(chuàng)建出優(yōu)秀的東西,我仍然希望能夠招募更多的人,以及更多的計算資源。Illia Polosukhin :我實際上是第一個中途離開的人。因為與阿什利的觀點相似,我堅信我們向著實現(xiàn)幾乎所有世界中的軟件化進步,而機器學(xué)習(xí)就是軟件的一部分。因此,最直接的方法是教會機器編碼,這樣你就能夠生成軟件并改變所有人的訪問方式?,F(xiàn)在這是在 2017 年。當(dāng)時還有點早。我們的計算能力還不夠好。因此,我們試圖協(xié)調(diào)人們來生成更多的數(shù)據(jù)。作為一家初創(chuàng)公司,你實際上有能力將產(chǎn)品放在用戶面前,并激勵他們。我們最終意識到我們需要一種新的基本原語,那就是可編程貨幣,因為可編程貨幣是讓我們能夠在規(guī)模上協(xié)調(diào)人們的工具。因此,我們最終建立了一個協(xié)議,這是一個區(qū)塊鏈,自 2020 年以來一直在運行。這個協(xié)議擁有世界上最多的用戶。在區(qū)塊鏈空間中,每天有數(shù)百萬用戶使用它,甚至他們自己都不知道他們在使用區(qū)塊鏈,但他們與可編程貨幣、可編程價值進行交互?,F(xiàn)在我們開始利用這一點,實際上將一些工具帶回來,以生成更多的數(shù)據(jù)。我認為從根本上來說,在這個群體中是毫無爭議的,但在其他地方可能會有爭議,那就是從 18 世紀起的版權(quán)技術(shù)需要改變。我們正處于一個新的敘事時代,我們現(xiàn)在所獎勵創(chuàng)作者的方式已經(jīng)失效。唯一的方法是利用可編程貨幣和區(qū)塊鏈來創(chuàng)建價值。因此,我們正在致力于創(chuàng)建一種新穎的方式,讓人們可以貢獻數(shù)據(jù),以使用那些超級酷的模型。Lukasz Kaiser,OpenAI 技術(shù)人員 | 圖片來源:NVIDIA GTC黃仁勛 :這確實非常酷。然后你們將建立一個全新的正反饋系統(tǒng),完全符合我們正在做的一切。在此之上還有一個偉大的新經(jīng)濟。我們有可編程的人類,有可編程的蛋白質(zhì),有可編程的貨幣。我喜歡這個想法。當(dāng)前一代的 GPT 模型擁有巨大的訓(xùn)練數(shù)據(jù)集,大約有 10 萬億個 tokens,與互聯(lián)網(wǎng)上可自由抓取的內(nèi)容相當(dāng)。那么接下來呢?下一步需要探索哪些新的模型技術(shù),比如推理、知識等等,你們有討論過嗎?Illia Polosukhin:數(shù)據(jù)需要來自用戶的交互,這需要大規(guī)模的平臺來建立并跟蹤。人們需要從中獲得經(jīng)濟價值來進行這些交互。在后臺,你可以將數(shù)據(jù)導(dǎo)入到所有這些模型中,以使它們變得更智能,并且可以更智能地處理它,使模型變得更好。黃仁勛:你可以通過強化學(xué)習(xí)讓模型相互交互,從而逐步優(yōu)化出一個令人想要與之互動的、令人滿意的預(yù)訓(xùn)練模型。此外,你還可以利用合成數(shù)據(jù)生成技術(shù)來豐富數(shù)據(jù)集,從而幫助模型更好地學(xué)習(xí)和泛化。Llion Jones:推理是下一個重要的發(fā)展方向。很多人已經(jīng)意識到了這一點,并且正在致力于研究。但是目前很多工作都是手工設(shè)計的,我們在手工編寫提示信息,然后嘗試讓它們以我們認為合適的方式進行交互。當(dāng)然,我們實際上應(yīng)該搜索這個領(lǐng)域,學(xué)習(xí)如何將它們連接起來,打造出我們想要的功能強大的模型。Jakob Uszkoreit:這是一個很好的思路。我們希望模型生成的內(nèi)容能夠符合人類的消費需求,因此這些模型應(yīng)該接受我們喜歡或可以接受的所有刺激作為訓(xùn)練數(shù)據(jù)。因此,任何類型的視頻、音頻、任何觀察世界的方式所獲得的信息,包括時序信息,都應(yīng)該被納入到訓(xùn)練數(shù)據(jù)中。Lukasz Kaiser :是的,推理和學(xué)習(xí)之間的關(guān)系確實非常密切。如果你有一個能夠進行推理的模型,然后你只需要一點點數(shù)據(jù)。它就會進行一系列的推理,從中產(chǎn)生結(jié)果。為什么這個事物會如此發(fā)展?但是它可以投入大量計算來進行這樣的推理。然后,結(jié)果就出來了,它能夠從更少的數(shù)據(jù)中進行泛化,因為它在推理過程中進行了大量計算。這就像是一個思考的系統(tǒng),就像人類一樣。Illia Polosukhin:是的,然后你可以讓它自行發(fā)展,嘗試將它設(shè)計的東西融入其中,這樣它就能夠在繼續(xù)搜索推理時構(gòu)建出最具影響力的數(shù)據(jù)。Lukasz Kaiser:當(dāng)我們弄清楚了之后,這將極大地減少數(shù)量。但數(shù)據(jù)的質(zhì)量將變得更加重要,這就是人們與現(xiàn)實世界互動的地方。因此,我認為會出現(xiàn)一個新時代,仍然會有一些免費的預(yù)訓(xùn)練模型,但重要的事情可能會是大型、高質(zhì)量的事情。這可能會更容易讓人們接受。Ashish Vaswani:我也認為,領(lǐng)域取得了很大進展,這就好比是將大規(guī)模的現(xiàn)實世界任務(wù)分解為更簡單的任務(wù),這種逐步漸進的過程也很重要,因為我們的模型可能可以完成其中的一些任務(wù),然后部署并獲取更多數(shù)據(jù)。一旦這個循環(huán)閉合了,它們就有權(quán)利去處理更復(fù)雜的任務(wù),因為它們也可能在觀察它們正在做什么。確實,這是一個很好的觀點。建立衡量進展和取得進步需要拆解或創(chuàng)建類似我們對某些電子郵件所做的,即自動化或交互的科學(xué),與代碼生成的科學(xué)相比,這些都是不同的領(lǐng)域。成功的工程學(xué)需要良好的測量。黃仁勛:你們想問對方的三個問題是什么?Llion Jones :是的,你提到的這些早期模型在當(dāng)時的研究領(lǐng)域確實起到了一定作用,但由于 Transformer 模型的出現(xiàn),人們可能忘記了它們的存在。然而,這些早期模型所面臨的問題可能在一定程度上也存在于當(dāng)前的模型中。因此,我同意你的觀點,未來可能會出現(xiàn)混合模型,結(jié)合了 Transformer 模型和早期模型的優(yōu)勢。Illia Polosukhin :Transformer 模型中的自注意力機制可以視為一種「遞歸步驟」,在每個步驟中,模型都會根據(jù)輸入中的不同部分來更新信息。這種遞歸性質(zhì)使得模型能夠在每個步驟中對輸入進行增強和推理。然而,有趣的是,目前很少有人探索通過連接不同數(shù)量的遞歸步驟來訓(xùn)練模型,這可能是一個值得研究的方向。通過探索遞歸性質(zhì),我們可能能夠擴展模型的推理能力,并使其能夠處理更復(fù)雜的任務(wù)。確實,有時候并不需要固定數(shù)量的步驟,而是需要根據(jù)輸入的復(fù)雜程度來動態(tài)調(diào)整遞歸步驟的數(shù)量。這種動態(tài)調(diào)整可能會使模型更加靈活,能夠更好地處理不同類型的輸入和任務(wù)。另外,關(guān)于如何擺脫 tokens,這也是一個非常值得探索的問題。Lukasz Kaiser:我個人認為,對于如何使用梯度下降來完全學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的訓(xùn)練,我們尚未完全掌握?;蛟S這很簡單。我是說,長短期記憶網(wǎng)絡(luò)(LSTM)有一些誤差操作符,這使得早期的情況能夠工作。那么,SSMs(Structured Self-Attentive Models)工作得更好,對嗎?這是因為它們的結(jié)構(gòu)可能需要用不同的方式訓(xùn)練,而不是用梯度下降。也許我們需要像人類一樣在一些服務(wù)中進行遞歸訓(xùn)練,我們生活在時間中。我們會帶來一些生活時間,但這并不那么清楚。我們是否通過傳播進行訓(xùn)練,可能不是。因此,也許有一種方法只是我們還沒有找到。Illia Polosukhin :以及下降,為什么很難做到這一點。黃仁勛:好的,伙計們,和你們共度時光真是太棒了。我真的希望你們偶爾能聚在一起。下次你們的互動會帶來多么驚人的魔力。所以我們有一個整個行業(yè)都感激你們所做的工作。大家:同樣。謝謝。*頭圖來源:極客公園本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO極客一問你對黃仁勛和 Transformer 八子討論的哪些話題印象最深刻?