[AQ AI]藝文人士的AI課008_Facebook_AQ廣藝誌

Facebook

【AQ AI】藝文人士的AI課008

Oct
2024

文／NoblerSubtlety793

我在之前的篇幅裡已經講過非常多NVIDIA的歷年各類顯卡產品跟商業環境對手的詳細介紹，我也就在此快速總結一下他早期個人學經歷資料，這一期的聚焦則是在他對人工智慧產業基石居功甚偉的幾個技術重點，方便大家了解。

以下是黃仁勳（Jensen Huang）和英偉達（NVIDIA）的發展歷程，從創業初期到2024年，涵蓋了他的生平、合作夥伴、競爭對手以及技術團隊的貢獻。

💢黃仁勳的生平與早期經歷💢

1963年：黃仁勳出生於台灣台南。

1968年：黃仁勳的家庭搬到泰國。

1972年：黃仁勳和他的哥哥被送到美國華盛頓州塔科馬與叔叔同住。

1973年：黃仁勳和哥哥被送到肯塔基州的Oneida Baptist Institute。

1980年：黃仁勳全家搬到俄勒岡州，並在Aloha High School畢業。

1984年：黃仁勳在俄勒岡州立大學獲得電機工程學士學位。
LSI Logic（1985-1989）

📌擔任微處理器設計員

Advanced Micro Devices (AMD)（1989-1993）

📌擔任處理器設計員

參與了多個重要的處理器項目

1992年：黃仁勳在史丹佛大學獲得電機工程碩士學位。

📌創業初期與NVIDIA的發展

1993年：黃仁勳與Chris Malachowsky和Curtis Priem共同創立NVIDIA，目標是開發專門的圖形處理單元（GPU）。

1999年：NVIDIA推出了第一款GPU——GeForce 256，這標誌著GPU時代的開始。

2006年：NVIDIA推出CUDA架構，開啟了GPU的並行計算能力。

2012年：NVIDIA的技術支持了突破性的AlexNet神經網絡，推動了現代AI的發展。

2018年：NVIDIA推出RTX技術，實現了實時光線追蹤。

2022年：NVIDIA推出Omniverse平台，為元宇宙的構建奠定了基礎。

📌技術團隊與重要發明

Chris Malachowsky：NVIDIA的共同創始人之一，對GPU技術的發展有重大貢獻。

Curtis Priem：NVIDIA的共同創始人之一，參與了早期GPU的設計和開發。

💢💢CUDA團隊：開發了CUDA架構，開啟了GPU的並行計算能力

📌CUDA技術的演變

發明和興起：CUDA（Compute Unified Device Architecture）由英偉達於2006年推出，這是一種讓GPU能夠進行通用計算的技術。

CUDA的發明者是Ian Buck，他在史丹佛大學時期開始研究GPU的通用計算，並在加入英偉達後推動了CUDA的開發。

技術提案：CUDA的提案旨在利用GPU的並行計算能力來加速各種計算任務，這一技術使得開發者可以使用C語言來編寫並行計算程序，從而大大提升了計算效率。

演變和應用：自推出以來，CUDA不斷演變，支持更多的編程語言和框架，如C++、Fortran和Python。CUDA技術被廣泛應用於科學計算、機器學習和深度學習等領域。

💢CUDA的開發團隊由許多關鍵人物組成，以下是一些主要的開發者和貢獻者：

Ian Buck - CUDA的創始人之一，曾在NVIDIA領導CUDA的開發。

David Kirk - NVIDIA的首席科學家，對CUDA的架構設計有重要貢獻。

John Nickolls - 參與CUDA的早期設計和實現，對並行計算有深厚的專業知識。

Mark Harris - 在CUDA開發中負責推動GPU計算的應用。

這些開發者在CUDA架構的設計和實施中發揮了關鍵作用，使其成為一個強大的平行計算平台

💢CUDA開發關鍵人物簡介 💢

1. Ian Buck

學歷

斯坦福大學計算機科學博士 (2003)

普林斯頓大學計算機科學學士 (1999)

經歷

NVIDIA GPU計算軟件副總裁兼總經理 (2004-至今)

斯坦福大學博士後研究員 (2003-2004)

重要論文

"Brook for GPUs: Stream Computing on Graphics Hardware" (2004) - 這篇論文為CUDA的開發奠定了基礎

"Data-Parallel Programming on the Cell BE and the GPU using the RapidMind Development Platform" (2007)

指導老師具體指導老師信息不詳

Pat Hanrahan (斯坦福大學)

2. David Kirk

學歷

加州理工學院計算機科學博士 (1982)

麻省理工學院電機工程和計算機科學學士 (1978)

經歷

NVIDIA首席科學家 (1997-2009)

NVIDIA研究員 (2009-至今)

重要論文

"Programming Massively Parallel Processors: A Hands-on Approach" (書籍,與Wen-mei Hwu合著)

"Graphics Programming on the Cell Broadband Engine" (2009)

指導老師具體指導老師信息不詳

3. John Nickolls

學歷

斯坦福大學電機工程博士

威斯康星大學麥迪遜分校電機工程學士

經歷

NVIDIA總監,GPU計算架構 (2004-2009)

Sun Microsystems高級工程師 (1984-2004)

重要論文

"Scalable Parallel Programming with CUDA" (2008)

"The GPU Computing Era" (2010)

指導老師

具體指導老師信息不詳

4. Mark Harris

學歷

北卡羅來納大學教堂山分校計算機科學博士 (2003)

澳大利亞墨爾本大學計算機科學學士

經歷

NVIDIA首席開發者技術專家 (2005-至今)

NVIDIA開發者技術總監 (2013-2019)

重要論文

"Cloud in a Box: Platform-as-a-Service for the GPGPU Cloud" (2011)

"Optimizing Parallel Reduction in CUDA" (2007)

指導老師

具體指導老師信息不詳

💢💢CUDA工具包是NVIDIA為開發GPU加速應用而提供的一整套軟體工具，包含多種功能和庫。

以下是一些主要的CUDA開發工具及其功能：

📌主要工具和功能

1. CUDA Toolkit

提供開發環境，用於創建高性能的GPU加速應用。

含C/C++編譯器、運行時庫及多個GPU加速庫。

2. Nsight Developer Tools

Nsight Compute：用於CUDA應用的性能分析，幫助開發者識別性能瓶頸。

Nsight Systems：提供系統級的性能分析，幫助開發者了解應用程序的整體性能。

3. CUDA-X HPC

包含專為高效能計算設計的函式庫，如cuTENSOR（最佳化張量原語）和cuFFT（快速傅立葉轉換）。

支援線性代數、平行演算法、訊號和影像處理等計算密集型問題。

4. CUDA Libraries

提供多種GPU加速的數學和數據科學庫，例如cuBLAS（基本線性代數子程序）、cuDNN（深度學習神經網路庫）等。

5.示例代碼和文檔

提供豐富的代碼示例、編程指南和API參考，幫助開發者快速上手。

6.多GPU支持

內建功能支援在多GPU配置中進行分布式計算，能夠從單個GPU擴展到數千個GPU的雲端設施。

這些工具和功能使得開發者能夠利用NVIDIA GPU的強大性能，顯著加速各類計算應用，包括圖像處理、深度學習、數值分析和計算科學等領域，包括CUDA技術的演變、DGX系統的發展、與Open AI的合作。

📌RTX團隊：開發了RTX技術，實現了實時光線追蹤。

目前關於NVIDIA RTX團隊的具體開發者名單及其學經歷的詳細資料並不容易獲得，因為這些資訊通常不會公開。然而，以下是一些與RTX技術相關的知名人物及其背景：

Jensen Huang

職位：NVIDIA CEO

學歷：史丹佛大學電機工程碩士、俄勒岡州立大學電機工程學士

貢獻：作為NVIDIA的創始人之一，Huang在推動GPU技術和RTX光線追踪技術方面發揮了關鍵作用。

David Kirk

職位：前首席科學家

學歷：史丹佛大學計算機科學博士

貢獻：對GPU架構和計算模型的發展有重要影響，參與了多項技術的開發，包括RTX。

John Nickolls

職位：NVIDIA高級工程師

學歷：史丹佛大學電機工程碩士

貢獻：參與CUDA和RTX技術的設計與實施，專注於平行計算和圖形處理。

Mark Harris

職位：NVIDIA GPU運算部門的總監

學歷：加州大學聖塔巴巴拉分校計算機科學博士

貢獻：在光線追踪和高效能運算領域有豐富經驗，推動了RTX技術的發展。

Transformer架構：由Google的研究團隊開發，
《Attention Is All You Need》論文的主要作者包括：

Ashish Vaswani

Noam Shazeer

Niki Parmar

Jakob Uszkoreit

Llion Jones

Aidan N. Gomez

Lukasz Kaiser

Illia Polosukhin

💢💢以下是這些研究者的簡略學經歷和他們的一些重要論文。

1. Ashish Vaswani

學歷: 獲得University of Waterloo的計算機科學博士學位

重要論文: 《Attention Is All You Need》(2017)

現職: 曾在Google Brain工作,後來創立了Adept AI

2. Noam Shazeer

學歷: 麻省理工學院(MIT)數學學士

重要論文: 《Attention Is All You Need》(2017), 《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》(2017)

現職: 曾在Google Brain工作,後來創立了Character.AI

3. Niki Parmar

學歷: 具體學歷信息不詳

重要論文: 《Attention Is All You Need》(2017), 《Image Transformer》(2018)

工作經歷: 曾在Google Research工作

4. Jakob Uszkoreit

學歷: 斯坦福大學計算機科學學士

重要論文: 《Attention Is All You Need》(2017), 《Reformer: The Efficient Transformer》(2020)

工作經歷: 曾在Google Research工作

5. Llion Jones

學歷: 具體學歷信息不詳

重要論文: 《Attention Is All You Need》(2017)

工作經歷: 曾在Google Research工作

6. Aidan N. Gomez

學歷: 多倫多大學機器學習碩士

重要論文: 《Attention Is All You Need》(2017), 《The Reversible Residual Network: Backpropagation Without Storing Activations》(2017)

現職: 創立了Cohere公司

7. Lukasz Kaiser

學歷: 華沙大學數學博士

重要論文: 《Attention Is All You Need》(2017), 《One Model To Learn Them All》(2017)

工作經歷: 曾在Google Brain工作

8. Illia Polosukhin

學歷: 具體學歷信息不詳

重要論文: 《Attention Is All You Need》(2017)

現職: 創立了NEAR Protocol

這些研究者大多在完成《Attention Is All You Need》論文時都在Google工作,特別是在Google Brain或Google Research團隊。他們的合作產生了Transformer模型,這對自然語言處理領域產生了革命性的影響。

值得注意的是,這些研究者中的許多人後來都創立了自己的AI公司或加入了其他前沿AI研究機構,繼續在人工智能領域做出重要貢獻。

《Attention Is All You Need》這篇論文於2017年發表，提出了一種新的網絡架構——Transformer，該架構完全基於注意力機制，摒棄了傳統的循環和卷積神經網絡但NVIDIA的技術支持了其在AI領域的應用。

他們的研究路線是當年的連結主義(connectionism)後繼者

Transformer是一種神經網絡架構，最初被設計用於自然語言處理任務。與傳統的循環神經網絡（RNN）相比，Transformer具有並行計算能力強、能夠捕捉長距離依賴關係等優勢。Transformer的核心是自注意力機制，它允許模型通過權重來學習不同輸入之間的關聯性
《Attention Is All You Need》論文中提出的Transformer模型可以被視為連結主義(connectionism)思想的一個現代延續和發展。

💢💢讓我們來探討一下這個觀點:

連結主義的根源: 連結主義起源於20世紀80年代,其核心思想是通過模擬神經網絡來理解和實現智能。它強調分佈式表示和parallel distributed processing(PDP)。

神經網絡到深度學習: 從早期的感知器到多層神經網絡,再到深度學習,這條發展路線一直遵循著連結主義的核心理念。

📌Transformer與連結主義:

Transformer模型雖然引入了新的機制(如自注意力),但其本質仍然是一個神經網絡模型。

它保留了分佈式表示的概念,每個token都被表示為一個高維向量。

self-attention機制可以看作是一種更複雜的神經元間連接方式,允許模型捕捉更靈活的依賴關係。

📌區別與創新：

Transformer打破了循環神經網絡(RNN)的順序處理範式,允許更高效的並行計算。

注意力機制提供了一種新的信息聚合方式,這在某種程度上是對傳統神經網絡連接方式的重新思考。

哲學層面: Transformer模型仍然遵循了連結主義的基本哲學 - 通過大量簡單單元的交互來實現複雜的認知功能,而不是依賴符號操作或明確的規則編碼。

Transformer可以被視為連結主義思想在現代深度學習時代的一個重要演進。它既繼承了連結主義的核心理念,又在此基礎上引入了創新,推動了自然語言處理和人工智能領域的重大進步。

這個視角也提醒我們，儘管技術在不斷進步，但很多核心思想和哲學觀點仍然具有持久的價值和影響力。

💢💢AI發展的三大基石：CUDA、Transformer和DGX系列

1. CUDA (Compute Unified Device Architecture)

定義：NVIDIA開發的並行計算平台和編程模型

重要性：

使GPU能夠進行通用計算，大幅加速深度學習訓練和推理

為AI研究者和開發者提供了高效的工具，加速算法開發和模型訓練

影響：成為深度學習框架（如TensorFlow、PyTorch）的底層加速技術

2. Transformer架構

定義：由Google在2017年提出的深度學習模型架構

重要性：

革新了自然語言處理（NLP）領域，實現了長距離依賴的有效建模

為GPT、BERT等大型語言模型奠定了基礎

影響：不僅在NLP領域取得突破，還被應用到計算機視覺等其他AI領域

3. DGX系列產品

定義：NVIDIA專為AI和深度學習設計的高性能計算系統

重要性：

提供了集成化的硬件和軟件解決方案，簡化了AI基礎設施的部署

大幅提升了AI訓練和推理的速度，使更大規模的模型成為可能

影響：成為許多大型AI研究機構和企業的首選計算平台

💢💢綜合分析 💢💢

將這三者稱為「AI人工智慧的三大基石」是有一定道理的：

CUDA提供了基礎的計算能力

Transformer架構革新了模型設計

DGX系列產品整合了硬件和軟件，提供了端到端的解決方案

然而，這個說法也有一些局限性：

忽略了其他重要的AI技術和架構（如卷積神經網絡）

可能過於強調NVIDIA的貢獻，而忽視了其他公司和開源社區的努力

AI是一個快速發展的領域，"基石"可能會隨時間而改變

結論：這三者確實在當前AI發展中扮演了關鍵角色，但將它們稱為唯一的"三大基石"可能過於簡化。

更準確的說法是，它們是推動當前AI快速發展的重要因素之一。

1. NVIDIA對LLM發展的貢獻

硬件支持

A100、H100等GPU為LLM訓練提供了前所未有的計算能力

DGX系統為大規模分佈式訓練提供了整體解決方案

軟件生態

CUDA優化庫（如cuDNN）大幅提升了深度學習框架的性能

NVIDIA Merlin、Megatron-LM等工具簡化了LLM的訓練和部署過程

技術合作

與OpenAI、Google等AI領軍企業密切合作，推動LLM技術進步

通過學術合作和GPU捐贈，支持全球範圍內的AI研究

NVIDIA通過其在硬件、軟件和生態系統方面的優勢，成功地將自己定位為AI和LLM發展的關鍵推動者。全球範圍內的AI競賽進一步加劇了對NVIDIA產品的需求。這種獨特的市場地位，加上AI技術在各行各業日益增長的重要性，推動了NVIDIA市值的驚人增長，最終超越了傳統半導體巨頭Intel。

然而，這種快速增長也帶來了挑戰，包括來自競爭對手的追趕、地緣政治風險，以及可能的市場泡沫風險。NVIDIA能否保持其優勢地位，將取決於其持續創新的能力，以及在瞬息萬變的全球AI格局中的適應能力。

下一期我們來詳細分析基於這三大基石之後英偉達對後續的主流的大型語言模型 LLM 發展的影響力也能來看看全球各地對大型語言模型的需求造成了類似下一世代戰場的軍備競賽是如何讓英偉達如何創造驚人的市值超過了英特爾這個傳統半導體巨擘。返回上一頁