2024 年 6 月 2 日,股價站上 1000 美元大關,市值突破 2.6 兆美元的 NVIDIA(輝達)臺裔執行長黃仁勳來臺參加 COMPUTEX,並在開展前包下臺大體育館舉辦輝達專場演說,他開場就說「臺灣是輝達非常珍貴夥伴的集中地,輝達的一切都從這裡開始」,除了詳細說明今年的產品發布計畫,還揭露將在 2026 年問世的下一代 AI 平臺 Rubin,他最後並製作一段動人的影片感謝臺灣供應鏈,他說「臺灣是無名英雄、世界的支柱,臺灣是我們珍貴夥伴的家」。6 月 5 日,NVIDIA 站上 1224 美元,市值突破 3 兆美元大關,超越 Apple 成為全球市值第 2 大公司,僅次於微軟。
黃仁勳 0602 臺大體育館演說全文:
大家好,今天非常高興能夠回到這裡。首先,我要感謝國立臺灣大學,讓我們使用你們的體育館。上一次來這裡時,我獲頒一個臺大的學位,當時我做了一個「Run, don’t walk」的演講,因為今天我有很多的內容要跟你們說,所以我同樣不能用走的,得用跑的。
臺灣是我們非常珍貴夥伴的集中地,NVIDIA 的一切都從這裡開始。我們的夥伴和銷售團隊,從臺灣把這一切帶到全世界。
臺灣與輝達的合作,創造了全世界的 AI 基礎架構。
今天我想要跟大家談幾件事:生成式 AI 對於我們的產業,乃至於所有產業的影響;我們共同的工作正在取得哪些進展,以及這些進展的意義何在;未來我們將如何前進?我們可以如何抓住這個令人難以置信的機會,接下來會發生什麼事?
現在是非常令人振奮的時刻,我們要重新啟動我們的電腦產業,這個產業是由大家打造和創造的,現在也要準備好開啟下一個重大的旅程。
在我們開始之前,我想強調輝達 NVIDIA 在電腦繪圖、模擬及人工智慧方面的重要性。這些技術是我們的靈魂。今天展示的全部都是擬真和模擬,背後都是數學、科學和電腦科學,這些都不是動畫,而是我們自製自產的技術,這是輝達的靈魂,我們將這些技術放入虛擬世界中,稱之為 Omniverse。
請看 Omniverse 的展示。(影片連結:5:37 秒開始)
「我們家做的不錯看吧!(臺灣話)」我很想用中文,但我有太多要說的,用中文對我太吃力,所以我只好用英文。
各位剛剛看的影片,它背後的兩個關鍵技術是「加速運算」和「人工智慧」,這些技術在 Omniverse 裡運行,而這兩項技術,將重新打造整個電腦產業。
電腦產業有 60 年的歷史,從 1964 年 IBM 360 的中央處理器開始、1995 年微軟 Windows 作業系統、2007 年 iPhone 問世、行動雲端運算,其中個人電腦的革命民主化了電腦產業,讓每個人都可以使用電腦,iPhone 讓電腦可以放進口袋,行動雲端運算讓大家隨時都可以連結在一起,電腦產業 60 年來經歷了數次重大科技轉型,這當中我們看見二到三個主要的科技技術,形塑了整個電腦產業,而我們將看到下一個重大改變即將來臨。
電腦產業有兩個很基本的事情正在發生。
我們需要處理的資料在快速成長,但處理器的效能進步卻跟不上,這導致了「運算通膨」,需要運算的資料仍在指數級成長,中央處理器(CPU)的投資變得太昂貴,資料中心使用的電力非常多,運算成本也增加,若持續下去將難以為繼。
CPU 效能跟上資料成長的時代已經過去,「加速運算」成為了更好的解決方法。
近二十年來,我們一直致力於加速運算的研究。CUDA 技術(Compute Unified Device Architecture 統一計算架構)增強了 CPU 的功能,平行運算架構結合 GPU 和 CPU,大幅提升了運算速度和效能。事實上,由於 CPU 效能擴展的放緩甚至停滯,加速運算的優勢愈發顯著,我預測,接下來每個需要密集運算的應用程式都將使用「加速運算」,在不久的將來,每個資料中心也都將使用「加速運算」。
選擇「加速運算」是合理的選擇,這已成為行業共識。
想像一下,有一個應用程式需要 100 個時間單位來完成運算,無論它需要 100 秒或是 100 小時,很多時候,我們使用的人工智慧應用可能需要運算上一百天。
確實有些重要的運算必須嚴格依照指令順序來執行,但還有許多運算例如圖形處理、影像處理、物理模擬組合最佳化、資料庫處理、以及知名的深度學習,它們非常適合透過平行處理來進行加速。
所以我們發明了一種創新架構,結合 GPU 與 CPU 的專用處理器可以將原本需要花費大量時間的任務,加速到令人難以置信的地步,因為兩種運算是獨立處理、可以並行工作,將原本需要 100 個時間單位運算的任務縮短到 1 個時間單位。
這種加速效果聽起來令人難以置信,但我將透過一系列實例來驗證。
這種效能提升所帶來的好處是驚人的,加速 100 倍,功率卻僅增加約 3 倍,成本僅上升約 50%。
我們在電腦產業早已實踐了這種策略,在 PC 上增加一個價值 500 美元的 GeForce GPU,就能使其效能大幅提升,同時整體價值也增加 1000 美元。
在資料處理中心,我們也採用同樣的方法,一個價值 10 億美元的資料處理中心,在增加了價值 5 億美元的 GPU 後,變成為強大的可以處理人工智慧的資料中心,這樣的變革正在全球發生。
節省下來的成本也同樣驚人,每投入 1 美元在加速運算,就能獲得高達 60 倍的效能提升。加速 100 倍,功率僅增加 3 倍,成本僅上升 1.5 倍,省下來的費用是實實在在的。
許多公司在雲端處理資料上花費了數億美元,當你使用加速運算,節省數億美元是可以想見的。
為什麼會這樣?原因很簡單,我們在通用運算方面經歷了長時間的效率瓶頸,如今我們終於認識到了這一點,並決定加速。透過採用專用處理器,我們可以重新取得先前被大量浪費的運算效能,將這些效能從系統釋放出來,這將節省你大量的金錢、和大量的電力。
這就是為什麼你會聽到我說:你買得越多,省得越多。
儘管我向你們展示的這些數字並不準確,但他反映了正確的事實,這可以稱之為「CEO 數學」,不百分百精確,但背後的邏輯是正確的——你購買的加速運算能力越多,節省的成本就越多。
加速運算帶來的結果非凡,但它並不容易。
這就是為什麼它能省下很多錢,但人們卻沒有更早採用,原因很長,主要是它真的太難實現了。
沒有一個軟體可以透過簡單的程式編寫變成可以加速 100 倍,這不現實甚至不符合邏輯,如果這可以做到,那麼 CPU 廠商早就透過 CPU 這麼做了。
你必須重寫整個軟體,這就是它困難的地方,你必須重新設計編寫整個軟體,才能將原本在 CPU 上運行的演算法,變成可以在加速器上加速卸載、並行運算的格式。
這項電腦科學研究雖然困難,但我們在過去的 20 年裡已取得了顯著的進展,讓一切變得容易些。
例如,我們推出了廣受歡迎的 cuDNN 深度學習庫,它專門處理神經網路加速;我們也為人工智慧物理模擬提供了一個函式庫,適用於流體動力學等需要遵守物理定律的應用;我們還有一個名為 Aerial 的軟體開發工具包,它利用 CUDA 加速電信商的 5G 無線技術,成為各個電信商的 5G 無線運算平臺。
Coolitho 運算曝光機平臺也是一個很好的例子,它大大提升了晶片製造過程中運算最密集的部分,台積電等公司已經開始使用 Coolitho 進行生產,不僅顯著節省了能源,也大幅降低了成本,為製造更小晶片所需的龐大運算能力做好準備;Parabricks 是我們引以為傲的基因定序庫,它擁有世界領先的基因定序資料;cuOPT 是個組合優化庫,能夠解決路線規劃、優化行程、旅行社問題等複雜難題,科學家說這些難題需要量子電腦才能解決,我們卻透過加速運算技術,創造了一個運行極快的演算法,打破了 23 項世界紀錄,至今仍保持著。
cuQuantum 是我們開發的量子電腦模擬系統,對於想要設計量子電腦或量子演算法的研究人員來說,一個可靠的模擬器不可或缺,在沒有實際量子電腦可用的情況下,輝達 CUDA——世界上最快的電腦——成為了他們的首選,我們提供了一個模擬器能夠模擬量子電腦的運行,幫助研究人員在量子運算領域取得突破,這個模擬器已經被全球數十萬研究人員廣泛使用,並被整合到所有領先的量子計算框架中,為世界各地的科學超級電腦中心提供了強大的支援。
cuDF 能驚人的加速資料處理流程,資料處理佔據了當今雲端支出的絕大部分,加速資料處理對於節省成本至關重要,cuDF 是我們開發的加速工具,能夠大幅提升世界上主要資料處理庫的雲端運算效能,如 Spark、Pandas、Polar、Network X 等。
這些例子,我們還有更多,是整個生態系的關鍵組成,它們使得加速運算得以廣泛應用,如果沒有我們精心打造的例如 cuDNN 等對應工具,僅憑 CUDA,全球深度學習科學家無法充分利用其潛力,因為 CUDA 與 TensorFlow、PyTorch 等深度學習框架中使用的演算法之間存在顯著差異,會有如在沒有 OpenGL 的情況下進行電腦圖形設計,或是在沒有 SQL 的情況下進行資料處理一樣不切實際。
這些各個特定領域的函式庫是我們公司的寶藏,我們目前擁有超過 350 個這樣的函式庫,正是這些函式庫讓我們在市場中保持開放和領先。今天,我將向你們展示更多令人振奮的例子。
就在上周,谷歌宣布他們已經在雲端使用了 cuDF 以加速 Pandas。Pandas 是世界上最受歡迎的編碼資料庫,被全球 1000 萬個資料科學家使用,每月下載量高達 1.7 億次,它就像是資料科學家的 Excel,是他們處理資料的得力助手。
現在,只要在 Google 的雲端資料中心平臺 Colab 上點擊一下,你就可以體驗到由 cuDF 加速的 Pandas 帶來的強大效能。這種加速效果確實令人驚嘆,就像你們剛剛看到的示範一樣,它幾乎瞬間就完成了資料處理任務。
CUDA 已經達到了一個人們所稱的臨界點,但實情比這還要好,因為 CUDA 已經實現一個良性的發展循環。
回顧歷史和各種運算架構、平臺的發展,我們可以發現這樣的循環並不常見。
以 CPU 為例,它已經存在了 60 年,但其加速運算的方式在這漫長的歲月裡並未發生根本性改變。
要創建一個新的運算平臺非常困難,往往面臨著「先有雞還是先有蛋」的困境。沒有開發者的支持,平臺很難吸引用戶;而沒有用戶的廣泛使用,又難以形成龐大的安裝基礎來吸引開發者。
這個「先有雞還是先有蛋」的困境一直困擾著許多運算平臺的發展,很少被打破。
然而,過去 20 年,我們透過推出一個又一個特定領域的函式庫和加速庫,我們成功打破了這一困境。
如今,我們在全球擁有 500 萬名開發者,他們利用 CUDA 技術服務於醫療保健、金融服務、電腦產業、交通運輸等幾乎每一個主要產業和科學領域。
隨著客戶群的不斷擴大,OEM 和雲端服務供應商也開始對我們的系統產生興趣,例如臺灣的系統製造商有興趣建構我們的系統,這進一步推動了更多系統進入市場,這種良性循環為我們創造了巨大的機遇,使我們能夠擴大規模,增加研發投入,進而推動更多應用的加速發展。
而每一次應用程式被加速運算,都意味著成本的降低。正如我之前所展示的,100 倍的加速可以帶來 97%、96%、甚至 98% 的成本節省。隨著我們將運算加速從 100 倍提升至 200 倍,再飛躍至 1000 倍,計算的邊際成本將持續下降,展現出難以置信的經濟效益。
我們相信,透過大幅降低運算成本,市場、開發者、科學家、發明家將不斷發掘出消耗更多運算資源的新演算法,直至某個時刻,一種深刻的改變將悄然發生,當計算的邊際成本變得如此低廉時,全新的電腦使用方式將應運而生。
事實上,這種革新正在我們眼前上演。
過去十年間,我們利用特定演算法將運算的邊際成本降低了驚人的 100 萬倍。如今,利用網路上的所有資料來訓練大型語言模型已成為一種合乎邏輯且合理的選擇,沒有人會再質疑這點。
打造一臺能夠處理大量資料以自我編程的電腦,正是人工智慧崛起的基石。人工智慧的崛起之所以成為可能,完全是因為我們堅信,如果我們讓運算變得越來越便宜,會有人發現重大的應用。
如今,CUDA 的成功已經證明了這個良性循環的可行性。
隨著安裝基礎的持續擴大和運算成本的持續降低,越來越多的開發者得以發揮他們的創新潛能,提出更多的想法和解決方案,這種創新力刺激了市場更多的需求。
今天,我們即將見證一個新的電腦時代的開始,生成式 AI 的發展讓我們能夠實現更多不可能的事情。
在我進一步展示之前,我想強調的是,如果不是 CUDA 和現代人工智慧技術的大爆炸,尤其是生成式人工智慧的突破,以下我所要展示的內容將無法實現。(影片連結 27:35 開始)
這是「Earth-2」計畫,一個雄心勃勃的構想,旨在創造地球的「數位孿生體」,我們將模擬整個地球的運行,以預測其未來的變化。
透過這樣的模擬,我們可以更好地預防災難,更深入理解氣候變遷的影響,從而讓我們能夠更好地適應這些變化,甚至現在就開始改變我們的行為和習慣。
「Earth-2」計畫可能是世界上最具挑戰性、最雄心勃勃的計畫之一。我們每年都在這個領域取得顯著的進步,今年的成果尤其突出,現在,讓我為大家展示這些令人振奮的進展。
「星期一,暴風圈將再次向北轉向並接近臺灣。我們對它的路徑走向並不確定,而不同的路徑將對臺灣產生不同程度的影響。」
「想像一個我們能夠預測未來的世界,數位孿生,反映真實情況的虛擬世界,讓我們看見未來。」
「數位孿生,是一個反映真實情況的虛擬模型,讓我們能從今天的行為,來預測對未來世界的影響。」
「介紹 NVIDIA Earth-2,一個利用 AI、物理模擬、和電腦圖形技術,來預測全球氣候的數位孿生。」
「CorrDiff 是 NVIDIA 的生成式 AI 模型,在 WRF 數值模擬的基礎上訓練而成,能夠以高達 12 倍解析度生成天氣模式,從 25 公里提高到 2 公里,這代表了區域天氣預測的一個巨大飛躍。令人驚訝的是 CorrDiff AI 比傳統的物理模擬方法快 1000 倍、能源效率高 3000 倍。」
「在臺灣的中央氣象局,利用這些模型來更精確地預測颱風登陸點,但我們並不止步於此,下一個前沿是超本地預測,能精確到數十公尺,並考慮到城市基礎設施的影響。」
「CorrDiff AI 還使用像是 PALM 生成的高解析度數據進行訓練,這是一個極高解析度的物理模型,用於模擬大氣和海洋邊界層,當與天氣模擬風場結合在一起時,它可以模擬建築物周圍的氣流,當即強風匯聚的情況,我們預計能夠預測像『下沖』這樣的現象;當強風匯聚到街道層,會有可能造成損壞並影響行人。」
「NVIDIA Earth-2 是一個絕佳範例,它融合了人工智慧、物理模擬、和觀測數據,可以幫助國家和公司,預見未來並應對極端天氣的影響。」
在不久的將來,我們將擁有持續的天氣預報能力,覆蓋在地球上的每一平方公里。在這星球上,你將持續知道天氣將如何變化,這種預測將不斷運行,因為我們訓練了人工智慧,而人工智慧只需要很少的電力。這將是一個令人難以置信的成就,我希望你們會喜歡它。
而也很重要的是,(影片裡)我的國語講得標準嗎?
影片旁白實際上是用 Jensen AI 做出來的,而非我本人。我設計了它,但最終的旁白由 Jensen AI 來呈現。
2012 年,一件重要的事件改變了遊戲規則。
我們持續改進 CUDA,期望提高效能、降低成本。於是,AI 研究人員在 2012 年發現了 CUDA 的潛力,這是 NVIDIA 第一次接觸到人工智慧,標誌著重要的一天。
我們與科學家合作,研究深度學習系統,AlexNet 使我們的系統取得重大突破。更重要的是,我們必須了解深度學習的基礎,以及它的長遠影響和潛力。
我們意識到,這項技術擁有巨大的潛力,能夠繼續擴展幾十年前發明和發現的演算法,結合更多的數據、更大的網路和至關重要的運算資源。
「深度學習」能夠實現人類演算法無法企及的任務。
「深度學習」是幾十年前的演算法,但現在因為資料量和運算能力的增加,使得「深度學習」從不可能變成可能。現在,想像一下,如果我們進一步擴大架構,擁有更大的網路、更多的資料和運算資源,會發生什麼事?我們致力於重新發明一切。
自 2012 年以來,我們改變了 GPU 的架構,增加了張量核心,發明了 NV-Link,推出了 cuDNN、TensorRT、Nickel,也收購了 Mellanox,推出了 Triton 推理伺服器。
將所有這些技術整合在我們嶄新的電腦裡面,它超越了當時所有人的想像。
沒有人預料到,沒有人提出這樣的需求,甚至沒有人理解它的全部潛力。事實上,我自己都不確定是否有人會想買它。
我們在 GTC 大會上正式發表了這項技術。
2016 年,舊金山一家名叫 OpenAI 的新創公司注意到我們的成果,並請我們提供一臺設備,我親自為 OpenAI 送去了世界上首部人工智慧超級電腦,開啟了 DGX 超級電腦時代。
隨後,我們不斷擴大,從單一的人工智慧超級電腦,單一的人工智慧應用,到 2017 年推出更龐大更強大的超級電腦,世界見證了 Transformer 的崛起,使我們能夠處理大量的數據,並分析學習長時間內的連續模式,實現自然語言處理等重大突破。
如今,我們有能力訓練這些大語言模型,以實現自然語言理解的重大突破。
但我們並未止步於此,我們繼續前行,建構了更大的模型。
2022 年 11 月,我們在一部人工智慧超級電腦上用上上萬個 NVIDIA 的 GPU 進行訓練,僅僅 5 天,OpenAI 即宣布 ChatGPT 已擁有 100 萬用戶,並在兩個月內攀升至 1 億用戶,創造了應用程式史上最快的成長紀錄。
原因十分簡單,ChatGPT 的使用體驗簡單且神奇,使用者能夠與電腦進行自然的互動,彷彿與真人交流一般,無需繁瑣的指令或明確的描述,ChatGPT 便能理解使用者的意圖和需求。
我想在這裡問 ChatGPT,離這裡最近的夜市在哪裡?
大家都知道,夜市對我來說很重要。當我四歲半的時候,我曾經很愛去夜市,因為我很喜歡看人,我們去了我父母很愛逛的夜市,圓環(國語),這樣講對嗎?吃蚵仔煎(臺灣話)我很喜歡去,各位可能注意到我臉上有一道疤,當時我還很小,被夜市裡有攤販在洗刀時不小心劃傷,這就是為什麼我對夜市的印象如此深刻,我當時很喜歡去夜市,現在仍然如此。
我要跟你們說,通化夜市很棒,有一位賣水果的女士在那擺攤 43 年,她的攤位在兩個街區之間,總之去找她準沒錯,很讚很讚很好吃(臺灣話)!她真的很棒!我知道之後你們都會去看她,這一定很好玩!她每年都越做越好,她的攤車越變越大……我就是喜歡看見她成功。
剛剛講到 ChatGPT,ChatGPT 的出現標誌了一個時代的變革,這張投影片展示了這個根本的關鍵,直到 ChatGPT 的問世,它才真正向世界揭示了生成式人工智慧的無限潛能。
長久以來,人工智慧的焦點主要集中在感知領域,如自然語言理解、電腦視覺、語音識別,這些技術致力於模擬人類的感知和偵測能力,但 ChatGPT 不僅限於如此,而是首次展現了生成式人工智慧的能力。
它會逐一產生 Token,這些 Token 可以是單字、圖像、圖表、表格,甚至是歌曲、文字、語音和影片。Token 可以代表任何具有明確意義的事物,無論是化學物質、蛋白質、基因,或是先前我們在 Earth-2 裡的天氣 Token,生成式人工智慧可以學習物理的意義,並模擬產生物理,我們不再侷限於小範圍過濾,而是透過產生的方式,去探索無限可能。
我們可以為幾乎所有有價值的事物產生 Token,無論是汽車的方向盤控制、機械手臂的關節運動、或我們目前能夠學習的任何知識。
我們處在一個人工智慧的時代,而且是一個生成式人工智慧的時代。
這部最初作為超級電腦出現的設備,如今已演化為一個高效運作的人工智慧資料中心。它不斷產出,不斷生成 Token,更是創造價值的人工智慧工廠。這個人工智慧工廠正在生成、創造、生產具有巨大市場潛力的新商品。
1890 年代,特斯拉(Nikola Tesla)發明了交流發電機,生成出電子,輝達的人工智慧產生器,則生成出 Token,這兩者都有巨大的市場機會,可望在每個產業產生變革。
這確實是一場新的工業革命。
我們現在迎來的全新工廠,能夠為各行各業生產出前所未有的、極具價值的新商品。這個方法不僅極具可擴展性,而且完全可重複。
目前,每天都在不斷湧現出各種各樣的人工智慧模型,尤其是生成式人工智慧模型。如今,每個產業都競相參與其中,這是前所未有的盛況。
價值 3 兆美元的 IT 產業,即將催生出能夠直接服務 100 兆美元產業的創新成果。它不再只是資訊儲存或資料處理的工具,而是每個產業產生智慧的引擎。
這將成為一種新型的製造業,但它並非傳統的電腦製造業,而是利用電腦進行製造的全新模式。
這樣的改變以前從未發生過,這確實是一件令人矚目的非凡之事。
這開啟了運算加速的新時代,推動了人工智慧的快速發展,進而催生 了生成式人工智慧的興起。
如今,我們正經歷一場工業革命。關於其影響,讓我們深入探討一下。
對我們所在的產業而言,這場變革的影響同樣深遠,正如我之前所言,這是過去 60 年來的首次,運算的每一層都正在改變。從 CPU 的通用運算到 GPU 的加速運算,每一次變革都標誌著技術的飛躍。
過去,電腦需要遵循指令執行操作,而現在,它們更多是處理 LLM(大型語言模型)和人工智慧模型。
過去的計算模型主要基於檢索,幾乎每次你使用手機時,它都會為你檢索預先存儲的文本、圖像或影片,並根據推薦系統重新組合這些內容呈現給你。
但在未來,你的電腦將會盡可能地產生內容,只檢索必要的信息,因為生成資料消耗的能量更少,而且產生的資料具有更高的關聯度,能更準確地反映你個人的需求。當你需要答案時,不需要再明確指示電腦,給我這個訊息、給我那個文件,你只需要簡單地要求它:「給我答案」。
電腦,不再只是我們使用的工具,它開始產生技能。它執行任務,不再只是一個生產軟體的產業。
軟體業在 90 年代初曾經是一個革新觀念,記得微軟當時提出了「軟體打包」,這觀念徹底改變了 PC 產業,沒有這些軟體 PC 將失去大部分功能,當時這項創新推動了整個產業的發展。
而現在,我們有了新的工廠、新的電腦、在這個基礎上運行的是一種新型的軟體,我們稱之為 NIM(NVIDIA Inference Microservices)。
在這個新工廠、新電腦上運行的是一個「預訓練模型」NIM,是一個人工智慧。這個人工智慧本身相當複雜,但運行人工智慧的運算堆疊更是複雜得令人難以置信。
當你使用 ChatGPT 這樣的模型時,背後是龐大的軟體堆疊,這個堆疊複雜而龐大,因為模型擁有數十億到數萬億個參數,並且不僅在一臺電腦上運行,而是在多臺電腦上協同工作,為了最大化效率,系統需要將工作負載分配給多個 GPU,進行各種並行處理,如張量並行、管道並行、資料並行、專家並行,各種的並行,這樣的分配是為了確保工作能盡快完成,因為你如果運行一個工廠,你的吞吐量(throughput)直接關係到你的收入、服務品質和可服務的客戶數量。
如今,我們身處一個資料中心吞吐量利用率至關重要的時代。
過去,雖然吞吐量被認為重要,但並非決定性的因素,人們也不會去衡量它。
但現在,每一個參數都可被精確測量,所有你能想到的,從啟動時間、運行時間、利用率、吞吐量、到空閒時間等,都被精確測量,因為資料中心已成為真正的「工廠」,而只要是工廠,運作效率就直接關聯到你公司的財務表現。
我們意識到這種複雜性對大多數公司來說很不容易,因此我們開發了一個整合人工智慧解決方案,將人工智慧封裝在易於部署和管理的盒子中,這個盒子包含了龐大的軟體集合包括 CUDA、cuDNN、TensorRT、Triton Inference Server,它支援雲端原生環境,允許在 Kubernetes 環境中擴展,並提供管理服務,方便使用者監控人工智慧服務的運作狀態。
更令人振奮的是,這個人工智慧容器提供通用的、標準的 API 接口,使得用戶可以直接與「盒子」對話,使用者只需下載 NIM,並在支援 CUDA 的電腦上運行,即可輕鬆部署和管理人工智慧服務。
如今 CUDA 已無處不在,它支援各大雲端服務供應商,幾乎所有電腦製造商都提供 CUDA 支持,甚至在數億部 PC 中也能找到它的身影。
當你在支援 CUDA 的電腦上下載 NIM,你就擁有一個人工智慧,你能像跟 ChatGPT 講話般跟它交流。
所有的軟體都整合在一起,400 個依賴項全部集中在一起,我們對 NIM 進行了嚴格的測試,每個預訓練模式都在我們的雲端基礎架構上得到了全面測試,包括 Pascal、Ampere、Hopper 等不同版本的 GPU,涵蓋了所有的版本。
NIMs 有很多絕佳的發明,這些是我最喜歡的之一。
如今,我們有能力建立大型語言模型和各種預訓練模型,這些模型涵蓋了語言、視覺、圖像等多個領域,以及針對特定行業如醫療保健、數位生物學、數位人類的訂製版本。
想要了解更多或試用這些版本,只需造訪 ai.nvidia.com,今天我們在 Hugging Face 上發佈了優化的 Llama 3 NIM,你可以立即體驗,甚至免費帶走它,在所有的雲端平臺運作。當然,你也可以將這個容器,下載到你的資料中心,自行託管,並為你的客戶提供服務。
我前面提到,我們擁有涵蓋不同領域的 NIM 版本,包括物理學、語意檢索、視覺語言等,支援多種語言,這些微服務可以輕鬆整合到大型應用中,其中最具潛力的應用之一,是客戶服務代理,它幾乎是每個行業的標配,代表了價值數兆美元的全球客戶服務市場。
例如護理人員本質也是服務客戶,提供非處方簽等,需要客戶服務代理;再例如零售、速食、金融服務、保險等行業,客戶服務在其中都扮演重要角色;如今,借助語言模型和人工智慧技術,數以千萬的客戶服務人員將可得到幫助,而這些增強工具的核心,正是 NIM。
有的 NIM 是推理智能代理(Reasoning Agents),你給它一個任務,明確目標,它就會製訂計劃;有的 NIM 擅長檢索資訊,有的擅長搜索,有的可能會使用如 Coop 這樣的工具,或是執行 SQL 查詢,所有這些 NIMs 都是專家,現在被組合成一個高效協作的團隊。
所以會發生什麼事?應用程式也因此發生了變化。
過去,應用程式要透過指令編寫,而現在,它們則是透過組裝人工智慧團隊來建構。編寫程式需要專業技能,懂的人不多,但幾乎每個人都知道,如何去分解問題並組建團隊。
因此,我相信未來的每家公司都會擁有龐大的 NIMs 集合,你可以根據需要選擇專家,將它們連接成一個團隊,而你甚至不需要懂如何連接它們,你只需給 NIM 這個代理一個任務,NIM 就會分解任務並分配給最適合的專家。
NIM 就像應用程式或團隊的領導者,能夠協調團隊成員工作,他們會去執行,最終 NIM 將結果呈現給你,整個過程就像人類的團隊合作一樣有效率、靈活,就像人類。
這是未來的趨勢,即將成為現實,這就是未來應用程式將要呈現的全新面貌。
當我們談論與大型人工智慧服務的互動時,目前我們已經可以透過文字和語音來實現。
但有些應用,我們更希望有更人性化的方式,我們稱之為 Digital Human(數位人類)來進行互動,而 NVIDIA 在 Digital Human 技術領域已耕耘了一段時間,我來展示給各位看,Digital Human 代理不僅具有與你互動的潛力,它們還更加吸引人,更可以展現出同理心,當然我們仍需付出巨大的努力,去跨越這個令人難以置信的鴻溝,去讓它感覺更加自然,這是我們的願景,也是我們不懈追求的目標,我們現在就來看看這個努力現在到了哪裡。(影片連結:52:49 開始)
「很高興來到臺灣,在我去逛夜市之前,讓我們來探索一些令人興奮的數位人類前沿。」
「想像在未來,電腦可以像人類一樣與我們互動。」
「嗨,我的名字是蘇菲,我是 UneeQ 的數位人類品牌大使」
「這就是數位人類不可思議的實現,數位人類將徹底改變各個行業,從客戶服務、廣告、到遊戲,數位人類的可能性是無限的。」
「我們已經生成了幾個設計選項供您選擇。」
「他們將成為 AI 室內設計師,幫助生成美麗的擬真建議,並採購材料和傢俱。他們也將成為 AI 客服代理人員,讓互動更加有趣和個性化;或 AI 醫療工作者,他們將檢查病人,提供及時、個性化的護理服務。他們甚至將成為 AI 品牌人員,設定接下來的市場行銷和廣告趨勢。」
「生成式人工智慧和計算機圖形學的新突破,讓數位人類,以類似人類的方式看、理解、與我們互動。」
「數位人類的基礎是人工智慧模型,基於多語言語音識別與合成,以及理解並生成對話的 LLM。這些人工智慧連接到另一個生成式人工智慧,以動態方式將逼真的 3D 面部網格動畫化,最後,人工智慧模型能夠再現逼真的外觀,使得能夠實時進行路徑追蹤的次表面散射,以模擬光線穿透皮膚、散射、並在不同點退散,使皮膚呈現柔軟和半透明的外觀。」
「NVIDIA ACE 是一套數位人類技術,被包裝為易於部署、完全優化的微服務,或者 NIMs(網路智能模組)。開發者可以將 ACE NIMs 整合到他們現有的框架、引擎、與數位人類的體驗中。」
「Nemotron SLM 和 LLM NIMs 用於理解我們的意圖並協調其他模型;Riva 語音 NIMs 用於互動式語音和翻譯;音頻對應面部和手勢 NIMs 用於臉部和身體動畫;Omniverse RTX 和 DLSS 用於皮膚和頭髮的神經渲染。」
「ACE NIMs 在 NVIDIA GDN 上運行,一個全球的 NVIDIA 加速基礎設施,能將低延遲的數位人類處理傳送到超過 100 個地區。」
這確實令人覺得不可思議。
ACE 不僅能在雲端運行,也可以在 PC 運行。我們前瞻性地將 Tensor Core GPU 整合到所有 RTX 系列中,這標誌著人工智慧 GPU 的時代已經到來,我們為此做好了準備。
背後的邏輯十分清晰:要建構一個新的運算平臺,你要有一個堅實的安裝基礎。因此,我們在每一款 RTX GPU 中都整合了 Tensor Core 處理單元。
現在,全球有超過一億臺 GeForce RTX AI 個人電腦,並且推出了 200 多款新的 AI 個人電腦,而且這個數字還在不斷成長,預計將達到兩億臺,在最近的 COMPUTEX 上,我們更是推出了四款全新的人工智慧筆記型電腦,這些設備都能運行 AI。
未來,你的筆記型電腦和 PC 都將變成 AI,AI 將在後臺默默地為你提供幫助和支援。
個人電腦將運行由人工智慧增強的應用程序,無論你是進行照片編輯、寫作、還是使用其他工具,都將享受到人工智慧帶來的便利和增強效果,你的個人電腦將能夠運行數位人類,讓 AI 以更多樣化的方式呈現並在個人電腦上得到應用。
個人電腦將成為一個重要的 AI 平臺,提供各種背景的支援和由 AI 強化的應用程式。
接下來我們將如何發展?
之前我談到我們資料中心的擴展,每次擴展都伴隨著新階段的變革,當我們從 DGX 擴展到大型人工智慧超級電腦時,我們實現了 Transformer 在龐大資料集上的高效訓練,這標誌著一個重大的轉變:一開始,資料需要人類的監督,需要人類去標記,來訓練人工智慧,但人類能夠標記的數據量有限。
現在,隨著 Transformer 的發展,無需人類監督標記的學習成為可能。如今,Transformer 能夠自行探索大量的資料、影片、影像,自行從中學習並發現隱藏的模式和關係。
為了推動人工智慧朝向更高層次發展,下一代人工智慧需要奠基於對物理定律的理解,目前大多數人工智慧缺乏對物理世界的認識,它們不是奠基在物理世界去發展的。
為了產生逼真的影像、影片、3D 圖形、以及模擬複雜的物理現象,我們需要開發基於物理的人工智慧,這要求它能夠理解並應用物理定律。
要實現這個目標有兩個方式,一個是透過從影片中學習,人工智慧可以逐步累積對物理世界的認知;另一個是利用合成數據,我們可以為人工智慧系統提供豐富且可控的學習環境。
此外,還有一種方式是模擬資料和電腦之間的互相學習,這種方法類似 AlphaGo 的自我對弈模式,讓兩個相同能力長時間互相玩耍學習,它會變得更聰明。我們可以預見,這種類型的人工智慧將在未來逐漸嶄露頭角。
當人工智慧透過合成生成的資料強化學習,AI 的發展速度將加快,並將更好地適應物理定律,這將讓我們邁入一個新時代,在這個時代中,人工智慧將能夠學習物理定律,理解並基於物理世界的數據進行決策和行動。
未來,人工智慧的模型將變得越來越強大,我們需要更大的 GPU。
Blackwell 就是為了這樣的新時代而誕生,Blackwell 這款 GPU 專為新一代人工智慧設計,擁有幾項關鍵技術,它光是晶片的規模大小,就是一個很大的成就。
我們採用了兩片台積電可以製造的最大晶片,透過每秒 10 太字節的高速鏈接,結合世界上最先進的SerDes 將它們緊密連接在一起。進一步地,我們將兩片這樣的晶片放置在一個電腦節點上,並透過 Grace CPU 進行高效協調。
Grace CPU 的用途廣泛,不僅適用於訓練場景,還在推理和生成過程中發揮關鍵作用,例如快速檢查點和重啟。此外,它還能儲存上下文,讓人工智慧系統擁有記憶,並能理解使用者對話的上下文,這對於增強互動的連續性和流暢性至關重要。
這是我們推出的第二代 Transformer 引擎,進一步提升了人工智慧的運算效率。這款引擎能夠根據計算層的精度和範圍需求,動態調整至較低的精度,從而在保持性能的同時降低能耗。同時,Blackwell GPU 也具備安全人工智慧功能,確保使用者能夠要求服務提供者保護其免受盜竊或篡改。
在 GPU 的互聯方面,我們採用了第五代 NV Link 技術,它允許我們輕鬆連接多個 GPU。此外,Blackwell GPU 還配備了我們的第一代可靠性和可用性引擎(Ras 系統),這項創新技術能夠測試晶片上的每個晶體管、觸發器、內存以及片外內存,確保我們在現場就能準確判斷特定晶片是否達到了平均故障間隔時間(MTBF)的標準。
對於大型超級電腦來說,可靠性尤其關鍵。擁有 10,000 臺 GPU 的超級電腦平均故障間隔時間可能以小時為單位,但當 GPU 數量增加至 100,000 個時,平均故障間隔時間將縮短至以分鐘為單位。
因此,為了確保超級電腦能夠長時間穩定運行,以訓練那些可能需要數個月時間的複雜模型,我們必須透過技術創新來提高可靠性。而可靠性的提升不僅能增加系統的正常運作時間,還能有效降低成本。
最後,我們還在 Blackwell GPU 中整合了先進的解壓縮引擎。在資料處理方面,解壓縮速度至關重要。透過整合這具引擎,我們可以從儲存中拉取資料的速度比現有技術快 20 倍,從而大大提升了資料處理效率。
所有這些 Blackwell GPU 的功能特性使其成為令人矚目的產品。
這裡有一臺已經在生產中的 Blackwell,之前 GTC 大會上,我曾向大家展示的處於原型狀態的 Blackwell,而現在,我們很高興宣布,這款產品已經投入生產。
哦在另外一邊,你看彩排多重要,「在美國,一定是這樣子的(自動交換)」(國語)。
各位女士,各位先生,這就是 Blackwell,這就是我們正式生產的 Blackwell,裡頭有最尖端的科技,這是我們實際生產的一個板,可以說是有史以來功能效能最強大的一個晶片,其中,我們特別要提到的是 Grace CPU,它承載了龐大的運算能力。
請看,這兩個Blackwell晶片,它們緊密相連,注意到了嗎?這就是世界上最大的晶片,而我們使用每秒高達 A10TB 的連結將兩片這樣的晶片融為一體。這個是我們的 CPU,每一個裸晶,應該說我們把兩個 GPU 的裸晶串聯在一起,這可以說是世界上我們可以生產出來最大的晶片,而且它兩個串聯起來的時候,它的連接的速度是 10TB,這個是 Blackwell 的電腦,它的效能非常強大。
請各位注意一下我們的螢幕上面所秀出來的,我們來看一下它的浮點運算能力,每一代的產品,它的浮點運算能力,幾乎 8 年內增加了 1000 倍。
摩爾定律,如果是經過 8 年的話,大概 40 倍?60 倍?但過去這 8 年摩爾定律它的速度已經變慢了,即便跟摩爾定律的巔峰時期比較,我們看到 Blackwell GPU 的運算能力進步的速度真的太快了,而且它的運算能力不斷的提高,就代表它的成本在不斷下降。
這也代表我們用 Blackwell 來訓練有兩兆個參數、8 兆個 Token 的 GPT-4 系統時,它所需要消耗的電力,大概就是原來的 1/350 而已。
Pascal 過去可能需要 1000GWh(百萬瓩每小時),也就是如果你有一個 1000GWh 級的資料中心,當然現在世界上沒有,但如果你有,你要花一個月去運算,如果你是 100GWh 級的資料中心,那你要花一整年的時間來處理這麼多的資料,當然我們不可能去蓋這樣的一個資料中心。
這就是為什麼大型語言模型在 8 年前都還是不可能的,直到我們提高運算速度、效能提升了、能源效率提升、讓成本下降。
現在我們有了 Blackwell,可以將過去需要 1000GWh 下降到只要 3GWh,這項成就是驚人的進展。
想像一下,3GWh,使用一萬個 GPU,大概只需要 10 天就能完成同樣的資料處理量,而且僅僅是 8 年期間就取得這樣的進展,這真是驚人。
我們來推論一下,在 Token 的世代,因為效能越來越強,我們消耗的電力只有過去的 1/45000。
過去 Pascal 每個 Token 消耗的能量高達 17,000 焦耳,這大約相當於兩個燈泡運作兩天的能量,生成一個 ChatGPT 的 Token,幾乎需要兩個 200 瓦特的燈泡運作兩天的電力。
考慮到 GPT-4 生成一個單字大約需要 3 個Token,這確實是一個巨大的能量消耗,要能讓你跟 ChatGPT 聊天實際上是不可能的事。
而現在情況已經截然不同,Blackwell 使得產生每個 Token 只需消耗 0.4 焦耳的能量,可以以驚人的速度和極低的能耗進行 Token 的生成,這無疑是一個巨大的飛躍。
但即使如此,它還是不夠大,為了更大的突破,我們必須建造更強大的機器。
這是我們的 DGX 系統,Blackwell 晶片被嵌入其中,這款系統採用氣冷式技術,配備了 8 個這樣的 GPU,看看這些 GPU 上的散熱片,它們的尺寸之大令人驚嘆,整個系統功耗約 15 千瓦(kW),完全透過空氣冷卻實現,這個版本相容於 X86,可以跟我們的 Hopper 結合在一起。
如果你要液冷式的,我們也有這個新的系統,它基於這款主機板設計,我們把它叫做 MGX,是一個模組化的系統,MGX 系統的核心在於兩塊 Blackwell 晶片,每個節點都整合了四個 Blackwell 晶片,它採用液體冷卻技術,確保了高效且穩定的運作,整個系統中,這樣的節點有 9 個,共 72 個 GPU,構成了一個龐大的運算叢集。
這些 GPU 透過全新的 NV 連結技術緊密相連,形成了一個無縫的運算網路。NV 連結交換器堪稱科技奇蹟,它是目前世界上最先進的交換機,資料傳輸速率令人咋舌。
我們如果把這個 Blackwell,所有的晶片串聯在一起的話,就可以有一個 72 個 GPU 的 Blackwell 系統,這樣做的好處是,你在GPU 的領域中,看起來像一個 GPU,實際上它有 72 個,上一代的版本只有 8 個,所以是過去的 9 倍,而它的頻寬是過去的 18 倍,它的浮點運算能力是過去的 45 倍,可是它所消耗的電力只有過去的 10 倍,這一代是 100 千瓦(kW)而上一代是 10 千瓦(kW)。
當然你可以把更多的晶片串聯在一起,形成更龐大的運算網絡,這個 NVLink Switch Chip,為什麼說它是一個科技上的奇蹟?因為這的 NVLink 可以把所有的晶片串聯在一起,大型語言模型不能夠只有一個節點,不能夠只有一個 GPU,我們必須要把整個機架裡頭所有的 GPU 全部都連接在一起,就像剛剛展示的 DGX 系統一樣,這樣我們才能夠有一個,可以處理 10 兆個參數以上的大型語言模型。
NVLink Switch Chip 本身就是一個技術奇蹟,它有 500 億個電晶體,每一個有 74 個 Port,每個端口的資料速率高達 400 GB,每四個??為 7.2 TB。
更重要的是,Switch 晶片內部也整合了數學運算功能,可以直接進行歸約操作,這在深度學習中具有極為重要的意義,而這就是現在的 DGX 系統的全新面貌。
許多人對我們表示好奇,他們提出疑問,好像大家搞不太清楚 NVIDIA 到底是做什麼的?NVIDIA 怎麼可能僅憑製造 GPU 就變得如此龐大?
許多人有一種印象,GPU 就應該是某種特定的樣子。
我手上這個確實是一個 GPU,這是世界上最先進的 GPU 之一,它主要用於遊戲領域。
但我們現在都清楚,我身旁這個(龐大的) DGX 也是 GPU,這是一個 GPU,各位女士、各位先生:DGX GPU!
DGX GPU 專為深度學習而設計,背面是 NVLink 主幹,這個主幹由 5000 條線組成,加起來有兩英里這麼長,這些線可以把 72 個 GPU 連接在一起,形成一個強大的運算網路,這可說是在電機學上面的一個奇蹟,其中的收發器讓我們能夠在銅線上驅動訊號貫穿整個長度,NVLink 透過連結在主幹上的銅線傳輸數據,使我們能夠在單一機架中節省 20 千瓦的電力,讓這 20 千瓦可以完全用於數據處理,這是一項令人難以置信的成就,這就是 NVLink 連結主幹的力量。
而甚至這樣還不夠大,為了要打造人工智慧工廠,這樣還不夠大。
要打造人工智慧工廠,我們需要通過非常高速的網路把它們連結在一起。我們有兩種網路,一種是 Infiniband,我們已經在世界各地的超級電腦和 AI 工廠中使用,而且成長速度非常快,但並不是每個資料中心都可以用 Infiniband,因為他們長久以來已經在乙太網路生態系進行大量的投資,而且管理 InfiniBand 交換器和網路確實需要一定的專業知識和技術。
因此我們就把 Infiniband 它有的一些功能,把它擺到乙太網路架構當中。
這其實非常的困難,為什麼呢?原因在於,乙太網路當初設計的時候,它是針對平均傳輸量比較高的系統,每個節點、每臺電腦通常與網路上的不同使用者相連,但大多數通訊實際上發生在資料中心內部,也就是資料中心與網路另一端使用者之間的資料傳輸。然而,在人工智慧工廠的深度學習場景下,GPU 並不是與網路上的使用者進行通信,而是彼此之間進行頻繁的、密集的資料交換。
它們相互通信是因為它們都在收集部分的結果,然後它們必須將這些部分結果進行規約(reduce)並重新分配(redistribute)。
這種通訊模式的特徵是高度突發性的流量,重要的不是平均吞吐量,而是最後一個到達的數據,因為如果你正在從所有人那裡收集部分結果,譬如說「我把每一個人都在算的東西,我把它們蒐集、加起來,看是誰最慢,我要等嘛對不對(臺灣話)」,所以不是平均的吞吐量,而是看誰給的答案速度最慢,就決定了這個系統的速度。
所以,我們關注的焦點並非平均吞吐量,而是確保最後一個資料包能夠準時無誤地抵達。
然而,傳統的乙太網路不是這樣的。為了滿足這個需求,我們創造性地設計了一個端到端的架構,使 NIC(網路介面卡)和交換器能夠通訊,這當中有四個不同的技術:
第一、NVIDIA 擁有業界領先的 RDMA(遠端直接記憶體存取)技術。現在,我們有了乙太網路層級的 RDMA,它的表現非常出色。
第二、我們引入了擁塞控制機制,交換器具備有即時遙測功能,能夠迅速辨識並回應網路中的擁塞情況。當 GPU 或 NIC 發送的資料量過大時,交換機會立即發出訊號,告知它們減緩發送速率,從而有效避免網路熱點的產生。
第三、我們採用了自適應路由技術。傳統乙太網路以固定順序傳輸數據,但在我們的架構中,我們能夠根據即時網路狀況進行靈活調整,當發現擁塞或某些端口空閒時,我們可以將資料包發送到這些空閒端口,然後由另一端的 Bluefield 設備重新排序,確保資料按正確順序返回。這種自適應路由技術大大提高了網路的靈活性和效率。
最後、我們實施了噪音隔離技術。在資料中心,多個模型同時訓練產生的雜訊和流量可能會相互干擾並導致抖動,我們的噪音隔離技術能夠有效地隔離這些噪音,確保關鍵資料包的傳輸不受影響。
總的來說,請記住,我們都已經打造了一個 50 億、或 30 億美金的資料中心來做訓練,假如它的利用率,網路的利用率,下降了 40%,導致所需要訓練的時間必須延長 20%,等於是 50 億的資料中心,突然變成像花了 60 億的資料中心一樣,為什麼?因為它的成本增加了,所以原本你只花了 50 億,實際上感覺就像花了 60 億美金一樣,對成本的影響相當大。
幸運的是,具有 Spectrum X 的乙太網路技術,能大大地提高網路效能,這使得網路的花費像是免費的一樣,這確實是一個了不起的成就。
我們現在有很多乙太網路的產品會陸續推出,其中最引人注目的是 Spectrum X800,這款設備以每秒 51.2 TB 的速度和 256 路徑(Radix)的支援能力,一年後會出 512 Radix 的 Spectrum X800 Ultra,再接下來則是 X1600;其中 X800 是針對數千個 GPU 的通訊需求所設計,下一代的產品是針對數十萬個 GPU,然後再下來,是針對數百萬個 GPU。
GPU 以百萬計的資料中心已經指日可待。
理由很簡單,我們當然希望能訓練更大型的模型,但更關鍵的是,未來的網路和電腦互動將越來越多地依賴雲端的生成式人工智慧。
這些人工智慧將與我們一起工作、互動,產生影片、圖像、文字甚至數位人類,幾乎我們與電腦的每一次互動都離不開生成式人工智慧的參與,並且總是有一個生成式人工智慧與之相連,其中一些在本地運行,一些在你的設備上運行,很多可能在雲端運行。
這些生成式人工智慧不僅具備強大的推理能力,給你的不止是一次性的答案,還能對答案進行迭代優化,從而提高生成的品質,未來我們透過這樣的系統可以辦到的事情,將是非凡的。
現在讓我們把今晚的這些整合在一起。
今晚,是我們的第一次的夜間簡報主題演講,我要感謝各位晚上七點還出來,我要向各位展現一個新的氛圍,是一種「夜間」簡報主題演講氛圍。(影片連結 1:21:02 開始)
你看,你無法在晨間做這種風格的展示。我想這在 COMPUTEX 也是空前絕後。這樣的專題演講只有 NVIDIA 能做到,只有我能做得到。
Blackwell,作為 NVIDIA 平臺的第一代產品,自推出以來便備受矚目。如今,全球都迎來了生成式人工智慧的時代,這是一個全新的工業革命的開端,每個角落都意識到人工智慧工廠的重要性。
我們深感榮幸,得到如此多的支持,幾乎每一家 OEM(原始設備製造商)廠商、電腦製造商、CSP(雲端服務供應商)、GPU 雲端、主權雲端以及電信公司等,世界各地對 Blackwell 廣泛的採用並獲致成功,業界對 Blackwell 的熱情超乎想像,這讓我們深感欣慰,我在此要向大家表示衷心的感謝。
然而我們的腳步不停。在這個快速發展的時代,我們希望繼續強化效能、繼續降低成本,包括訓練和推論的成本,並持續擴充 AI 的能力,讓所有的公司都能擁有 AI,使每家企業都能從中受益,效能越是提升,成本越是降低。
Hopper 平臺,可能是史上最成功的資料中心處理器,是一個絕佳的成功案例,但現在有了 Blackwell,如各位所見,並非單一組件的堆砌,而是一個綜合了 CPU、GPU、NVLink、NICK(特定技術組件),NVLink 交換器將所有 GPU 連結在一起,我們致力於透過每代產品使用大型、超高速的交換器將所有 GPU 緊密連接,形成一個龐大且高效的運算域,我們打造了整個平臺,將它整合成一個 AI 工廠的超級電腦,然後再分散到全世界各地讓大家使用。
更關鍵的是,我們將這個平臺以模組化的形式提供給全球客戶,因為在座的各位都有能力去創造非常有趣、非常有創意的設置和配置,並能以不同的風格滿足不同的資料中心、不同的客戶群和多樣化的應用場景。從邊緣運算到電信領域,只要系統保持開放,各種創新都將成為可能。
為了讓大家能夠自由創新,我們設計了一個一體化的平臺,同時又以分解的形式提供給你們,讓你們能夠輕鬆建立模組化系統。
現在,Blackwell 平臺已經推出,NVIDIA 是每年更新一次的節奏,我們的核心理念非常明確:
一、建構覆蓋整個資料中心規模的解決方案
二、將這些解決方案分解為各個零件,以每年一次的頻率向全球客戶推出
三、我們不遺餘力地將所有技術推向極限,無論是台積電的製程技術、封裝技術、記憶技術、或是光學技術等,我們都追求極致的效能表現。
而在完成硬體的極限挑戰後,我們全力以赴確保所有軟體都能在這個完整的平臺上順暢運作。
在電腦技術中,軟體慣性至關重要。當我們的電腦平臺能夠向後相容,且架構上與已有軟體完美契合時,產品的上市速度將會顯著提升。因此,當 Blackwell 平臺問世時,我們能夠充分利用已建構的軟體生態基礎,以實現驚人的市場反應速度。
明年,我們將迎來 Blackwell Ultra。正如我們之前有 H100、H200,而下一代就是 Blackwell Ultra,同樣會將性能推向極限。然後,我們將繼續挑戰技術的極限,推出下一代頻譜交換機,這是業界的首次嘗試,我不知道我按下一張是否會後悔。
我們公司裡頭有各式各樣的開發代碼,我們盡量的保密,有的時候大部分的員工甚至都不知道這些開發碼是什麼。
我們下一個平臺叫做 Rubin。Rubin 這個平臺,我不會花太多時間講,因為我知道會發生什麼事情,大家一定會拍照,然後會想辦法去看它裡頭的小字,沒關係。
這個 Rubin 平臺,一年之後還將有 Rubin Ultra 平臺,所有這些晶片都處於全面開發階段,我們的更新節奏仍然是一年一次,並且所有產品都保持 100% 的架構相容性,這基本上就是 NVIDIA 在建構的,所有的軟體都建立在平臺之上。
回顧過去的 12 年,從 Imagenet 誕生的那一刻起,我們就預見到運算領域的未來將會發生翻天覆地的變化。
如今,這一切都成為了現實,與我們當初的設想不謀而合。
從 2012 年之前的 GeForce 到如今的 NVIDIA,公司經歷了巨大的轉型,在此,我要衷心感謝所有合作夥伴的一路支持與陪伴。
這就是 NVIDIA 的 Blackwell 平臺。
接下來,我要講我們未來的發展。新一代的 AI,就是所謂的符合物理定律的 AI,這個 AI 理解物理定律,它可以在我們的生活中協助我們,AI 必須要了解整個世界,知道怎麼去感知世界,當然需要有非常好的認知能力,才能深刻理解我們的需求,並有效率地執行任務。
展望未來,機器人技術將是越來越普遍的一個概念。我所謂的機器人,包括了人型機器人,人型機器人通常就是大家想到機器人的時候,出現的這個想像,但實際上遠不止於此,一切都將機器人,工廠將全面機器人,機器人將協同工作,製造出一系列機器。
這些機器會互動,然後它可以去創造出機器人。
為了實現這一目標,我們需要克服一系列技術挑戰,接下來,給大家看這段影片。(影片連結 1:30:24 開始)
「機器人的時代已經到來,有一天,所有能移動的物品都將是自主的。」
「世界各地的研究人員和公司正在開發,由物理 AI 智慧驅動的機器人。物理 AI 是能夠理解指令的模型,並能在現實世界中自主執行複雜任務。」
「多模態大型語言模型是突破性的技術,使機器人能夠學習、感知、並理解周圍的世界,以及計劃如何應對。通過人類的示範,現在機器人可以學習到與世界互動所需的粗動作和精細動作技能。」
「推進機器人發展的一項關鍵技術是強化學習,正如 LLM 要從人類反饋中進行強化學習(RLHF),來學習特定的技能,生成式物理 AI 也可以使用強化學習,從模擬世界中的物理回饋中學習技能。這些模擬環境,是機器人透過執行動作來學習做出決策的地方,在遵循物理法則的虛擬世界中。」
「在這些機器人健身房中,機器人快速並安全地執行複雜且動態的任務,透過數百萬次的試錯行為,不斷完善他們的技能。」
「我們將 NVIDIA Omniverse 建立為操作系統,在這裏可以創建物理 AI。Omniverse 是一個開發平臺,用於虛擬世界模擬,結合即時、基於物理的渲染,物理模擬,以及生成式 AI 技術。」
「在 Omniverse,機器人可以學習如何成為機器人,它們學習如何自主精確地操作物體,例如抓取和處理物體,或自主導航環境,在避開障礙物和危險的同時找出最佳路徑,在 Omniverse 中學習,可以最大限度地減少模擬與現實之間的差距,並最大限度地轉移所學到的行為。」
「利用生成式物理 AI 建造機器人,需要三臺電腦:NVIDIA AI 超級電腦用於訓練模型,NVIDIA Jetson Orin、及下一代 Jetson Thor 機器人超級電腦用於運行這些模型。」
「在 NVIDIA Omniverse,機器人可以學習、並在模擬世界中精進他們的技能。我們建立平臺、加速函式庫,以及開發人員和公司需要的 AI 模型,並運許他們運用任何、或所有適合他們的技術堆疊。」
「AI 的下一波浪潮已經到來,由物理 AI 驅動的機器人將革命性地改變各行各業。」
這不是未來,這個是現在就在發生的事情。
我們將透過多種方式服務市場,首先我們將針對各種不同類型的機器人打造平臺,機器人工廠與倉庫專用平臺、物件操縱機器人平臺、移動機器人平臺、人形機器人平臺。
這些機器人平臺與我們其他眾多業務一樣,依賴電腦加速函式庫和預訓練模型,我們會去測試、訓練一切,把它整合在 Omniverse 裡,Omniverse 就如同影片所說,是讓機器人學習怎麼成為機器人的地方。
當然,例如倉庫機器人的生態系,非常的複雜,因為它需要很多的公司,很多的工具,很多的技術,才能夠讓我們打造一個現代的倉庫,讓倉庫越來越機器人,未來完全機器人化。
在這樣一個生態系中,我們為軟體產業、邊緣人工智慧產業和公司提供了 SDK 和 API 接口,同時也為 PLC 和機器人系統設計了專用系統,以滿足國防部等特定領域的需求。這些系統透過整合商整合,最終為客戶打造高效率、智慧的倉庫。舉個例子,Ken Mac 現在就正在為 Giant 集團(臺灣巨大集團)建造一座機器人倉庫。
接下來,讓我們聚焦在工廠機器人領域。工廠的生態系截然不同,例如鴻海正在建造世界上最先進的工廠,這些工廠的生態系統同樣涵蓋了邊緣運算、機器人軟體、設計工廠佈局的軟體、優化工作流程、程式設計機器人,以及用於協調數位工廠和人工智慧工廠的 PLC 電腦,這些全部都會把它整合在一起,我們同樣為這些生態系的每一個環節提供 SDK 介面。
這些也全都已經在臺灣發生,鴻海正在打造他們工廠的數位孿生模型,台達電也在打造自己數位工廠的數位孿生模型,有一半是數位的、一半是真實的,和碩也在打造他們的機器人工廠,緯創也在打造他們的數位孿生模型,然後這邊真的很酷,這個影像是鴻海新的工廠。
這些工廠的生態系統同樣涵蓋了邊緣電腦、機器人軟體,用於設計工廠佈局、優化工作流程、程式設計機器人,以及用於協調數位工廠和人工智慧工廠的 PLC 電腦,我們同樣為這些生態系中的每一個環節提供了 SDK 介面。
然後這邊我們來談,接下來談一談工廠,未來工廠會是完全不一樣的生態系。現在鴻海在打造世界上最先進的工廠,包括了邊緣運算機器人,還有設計工廠的軟體,各式各樣的工作流程,還有PLC電腦,還有機器人的編程,這些全部都會把它整合在一起,這些SDK都會跟這些生態系,連結在一起,這個全部都在台灣發生,鴻海正在打造,他們工廠的數位孿生模型,台達電也在打造,自己數位工廠的數位孿生模型有一半是數位的,一半是真實的,那麼和碩他們也在打造,他們的機器人工廠,緯創也在打造,他們的數位孿生模型。
我們來看這段鴻海新工廠的影片,這真的很酷。(影片連結 1:36:39 開始)
「隨著世界將傳統資料中心現代化為生成式 AI 工廠,對 NVIDIA 加速運算的需求正在飛快成長。鴻海科技集團作為全球最大的電子製造商,正準備透過使用 NVIDIA Omniverse 和 AI 建造機器人工廠來滿足這一需求。」
「工廠規劃者使用 Omniverse 整合來自產業領先應用程式的設施和設備數據,例如 Siemens Team Center X,和 AutoDesk Revit,在數位孿生模型中,他們優化廠房佈局和生產線配置,並確定最佳相機鏡頭位置,以及使用 NVIDIA Metropolis 驅動的視覺 AI 監控未來的營運,虛擬整合節省了規劃者大量的實體變更訂單成本。
「在施工過程中,鴻海團隊使用數位孿生作為真實依據,來溝通、驗證準確的設備佈局。」
「Omniverse 數位孿生也是機器人訓練場,鴻海的開發者在這裡訓練、測試用於機器人感知和操作的 NVIDIA Isaac AI 應用程式,以及用於感測器融合的 Metropolis AI 應用程式。在 Omniverse,鴻海在將運行部署到 Jetson 電腦之前,模擬了兩個機器人 AI;在生產線上,他們模擬了 Isaac Manipulator 函式庫和 AI 模型,用於物體識別的自動光學檢測、瑕疵檢測、以及軌跡規劃。為了將 HGX 系統轉移到測試模組,他們模擬了 Isaac Perceptor 驅動的 FARobot AMR(自主移動機器人),這些機器人能感知並在其環境中移動,具有 3D 地圖繪製和重建功能。」
「透過 Omniverse,鴻海建立了自己的機器人工廠,這些工廠協調運行 NVIDIA Isaac AI 上的機器人,來組裝 NVIDIA AI 超級電腦,而這些超級電腦反過來,又能訓練鴻海的機器人。」
機器人工廠由三個主要的電腦系統組成,在 NVIDIA AI 平臺上訓練人工智慧模型、讓機器人在 PLC 系統運行,確保機器人在本地系統上有效運作並且編排工廠流程,然後,我們利用 Omniverse 對包括機械手臂和 AMR(自主移動機器人)在內的所有工廠元素進行模擬,其中機械手臂和 AMR 也是由三個主要的電腦系統組成,重要的是,我們會將兩個 Omniverse 整合在一起共享同一個虛擬空間,實現無縫的互動與協作。
同樣的,為了進一步提升解決方案的整合度和應用範圍,我們提供了三款高性能電腦,並配備了加速層和預訓練人工智慧模型。此外,我們已成功將 NVIDIA Manipulator 和 Omniverse 與西門子的工業自動化軟體和系統結合,這是很棒的合作關係,這樣的合作使得西門子在全球各地的工廠中,都能夠實現更有效率的機器人操作和自動化。
除了西門子,我們也與多家知名企業建立了合作關係。例如,Symantec Pick AI 已經整合了 NVIDIA Isaac Manipulator,而Somatic Pick AI 則成功運作並操作了 ABB、KUKA、Yaskawa Motoman、 Phenom、Universal Robotics、Tipman 等知名品牌的機器人。
西門子是一個絕佳的例子,我們還有很多很棒的整合,來看一下影片。(影片連結:1:40:29 開始)
「ArcBest 正在將 Isaac Perceptor 整合到 Vaux 智能自主機器人中,以增強物體識別功能,以及人體自動追、和物料處理。比亞迪電子正在整合 Isaac Manipulator 和 Perceptor 到他們的人工智慧機器人中,以提升全球客戶的製造效率。IdealWorks 正在將 Isaac Perceptor 整合到他們的 iw.os 軟體,以用於工廠物流中的人工智慧機器人。Alphabet 旗下的 Intrinsic 公司正在將 Isaac Manipulator 整合到他們的 Flow State 平臺以提升機器人的抓取能力。Gideon 正在將 Isaac Perceptor 整合到 TREY AI 驅動的堆高機中,以推進使用人工智慧的物流。RGo Robotics 正在採用 Isaac Perceptor 以用於基於視覺的自主移動機器人的感知引擎中。Soloman 正在將 Isaac Manipulator 的人工智能模型應用於他們的 AccuPick3D 軟體中,以進行工業操作。Techman Robot 採用 Isaac Sim 和 Manipulator 優化 TMflow,提升自動光學檢測流程精確率。Teradyna Robotics 正在整合 Isaac Manipulator 以用於協作機器人的 Polyscope X,以及整合到 MiR 自主移動機器人中的 Isaac Perceptor。Vention 將整合 Isaac Manipulator 至其 MachineLogic 自動化平臺以利加速發展智慧機器人。」
機器人技術和實體人工智慧的時代已經到來,它們正在各地被廣泛應用,這不是科幻小說,也正在全臺灣被使用,這真的很令人興奮。
所以工廠裡頭會有很多的機器人,而有兩種機器人,它的市場是非常大的。第一種是自駕車,或具備高度自主能力的汽車,NVIDIA 同樣在這一領域發揮核心技術,明年,我們會與 Mercedes 車隊合作,2026 年,會與 JLR 車隊合作,我們提供完整的解決方案,同時客戶可以根據需求選擇其中的任何部分,因為整個驅動堆疊都是開放的。
另一個可能有巨大市場的機器人是人形機器人。
近年來,由於在認知能力、和世界理解能力方面取得巨大突破,這一領域的發展前景令人期待,我對人形機器人特別興奮,因為它們最有可能適應我們為人類所建構的世界,而且與其他類型的機器人相比,我們有最多訓練人形機器人需要的資料,因為它們跟我們有類似的體型,我們可以透過大量的演示和影片訓練它們,所以我們預期在這一領域將取得顯著的進步。
以後,這樣的人形機器人會有非常好的感知、跟操作能力,接下來,我們來看一些我們喜歡的機器人,好,大概跟我差不多高。
機器人時代已經來臨,這是人工智慧的下一波浪潮。
各位知道,臺灣製造很多種電腦,你們製造配備鍵盤的傳統電腦,你們製造可以放到口袋的行動電腦,你們製造為雲端資料中心提供強大算力的專業電腦,而接下來,各位將製造會走路、四處滾動的電腦,他們裡頭用到的科技,跟我們現在所生產的這些電腦產品,所使用的科技非常的類似。
因此,我們有理由相信這將會是一段非凡的旅程。
最後我要播放一段影片:(影片連結 1:44:56 開始)
「臺灣,幫助我們實現了一個願景,在這條漫長的路上,無數的夥伴支持著我們。」
「從加速運算、電腦繪圖、科學研究、到人工智慧的高峰,每一個晶片、每一臺電腦,都描寫著你們辛勤工作和追求完美的故事。臺灣是無名的英雄,卻是世界的支柱。」
「一起,我們推動了產業的復興,辛勤地耕耘,讓我們能夠踏入嶄新運算的領域。其中,我們製作的電腦,會轉化成新型的工廠,製造珍貴無比的人工智慧。」
「親愛的夥伴們,你們是 AI 產業革新的後盾,無論面對多大的風浪,你始終穩如磐石。」
「科技的卓越、勤奮、與齊心合力的精神,是你的超能力。沒有你,我們的願景,只是一個無法實現的夢想。」
「與你同行,我們勇往直前,創造智慧與便利的生活,對抗疾病和自然災害,讓我們的世界變得更美好。」
「謝謝你,臺灣!讓我們繼續為這段 AI 創新之旅,打造一個成功和繁榮的產業。」
大家謝謝~Thank you!I love you guys, Thank you!Thank you all for coming!Have a great time in COMPUTEX~
資料來源:
▍Youtube—NVIDIA|NVIDIA CEO Jensen Huang Keynote at COMPUTEX 2024
▍中央社—輝達市值首破3兆美元大關 超車蘋果成全球第2大公司
▍中央社—梁見後COMPUTEX演講看好液冷機櫃搶市占 黃仁勳國台英3聲道站台
▍中央社—輝達市值首破3兆美元大關 超車蘋果成全球第2大公司
紀路編輯 / 王子嘉
延伸紀路—
【紀路】Nvidia市值登全球第6 臺裔創辦人黃仁勳勉勵2023年畢業生
【紀路】毛利率超越英特爾 台積電成為台灣史上第一家利潤破兆企業
最新收錄—
- 2024 THE 泰晤士世界大學排名 臺灣 47 所大學上榜
- 《富比世》2024 全球前 20 大富裕國家 臺灣排名第 14
- 《Preply》2024 亞洲最友善城市排行榜 臺北南波萬!
- 俞俊安桑德森農場錦標賽奪生涯首座 PGA 冠軍
- 林子涵印地安威爾斯奪美次巡首冠 壓線拿下 2024 LPGA 參賽資格!