你會不會覺得好奇,為什麼這幾年「GPU」這個詞突然變得這麼紅?從電競玩家、AI 工程師,到投資人和科技迷,大家都在討論它。這一切都要從 GPU 的身世說起。
從「畫畫的」變成「算數學的」
早期的 GPU 其實是為了一個很單純的目的而生的:讓電腦遊戲的畫面更流暢、更漂亮。1990 年代末,它被設計成專門處理 3D 圖形的硬體,工作很單純,就是把畫面一格一格算出來、畫出來。
但後來大家發現,這顆晶片「同時處理很多簡單任務」的能力,簡直是為現代科技量身打造的。於是 GPU 華麗轉身,從單純的「圖形加速器」,變成了人工智慧、科學研究、高效能運算的核心引擎。這個轉變,可以說是電腦科技史上最重要的革命之一。
為什麼電腦算不過來了?
你可能很難想像,現在一個大型的 AI 模型,像是 ChatGPT,它的參數量已經高達幾千億。科學家做一次氣候模擬,要處理的資料量是 PB 等級。1 PB 就等於 100 萬 GB,可以裝下幾十萬部高畫質電影。更別提即時光線追蹤這種技術,它要在一秒鐘內計算幾十億條光線怎麼反射、怎麼折射。
傳統的 CPU 就像一位學識淵博的教授,非常擅長處理複雜、需要動腦筋的任務,但一次只能專心做一兩件事。面對上面這些「需要同時處理幾萬件事」的工作,教授再厲害也會分身乏術。
這時候 GPU 就派上用場了。它就像找來幾千個剛畢業的實習生,每個人雖然只會簡單的加減乘除,但因為人夠多,可以同時處理堆積如山的任務。這種「人多好辦事」的設計,就是 GPU 能解決現代運算難題的關鍵。
現在市場上有哪些 GPU?
目前 GPU 市場主要由兩家公司主導:NVIDIA 和 AMD。
NVIDIA 是目前市場上的領頭羊。它很早就砸下重金建立了一套完整的軟體生態系,叫 CUDA,讓開發者可以很方便地用它來做 AI 運算。加上它不斷推出像 AI 運算核心(Tensor Core)這樣的硬體黑科技,在市場上佔有絕對優勢,對於 CUDA 有興趣的朋友,可以參考我這篇《CUDA 是什麼?你的工作有大量重複計算嗎?那就要搞懂 CUDA》文章。
AMD 則是另一家重要的玩家。它透過 Graphics Core Next、RDNA 和 CDNA 這幾代架構,拿出了非常有競爭力的產品。特別是在高效能運算(HPC)和性價比這兩個方面,AMD 常常能讓消費者和企業感覺到花更少錢,得到更多。
Intel 也不甘寂寞,這幾年重新殺回獨立 GPU 市場,推出了 Arc 系列產品。雖然目前還是追趕者,但憑藉它的規模和技術底蘊,未來也很值得關注。
這篇文章想說什麼?
市面上的 GPU 分析文章,十篇有八篇都在講 NVIDIA。但整個 GPU 技術的拼圖,少了 AMD 這一大塊是不完整的。
因此,這篇文章的目的是提供一份全面且深入的 GPU 技術分析。我花了時間,根據一些學術文獻,從最基礎的概念,一路談到最新的研究方向。
特別是,我花了很多力氣補齊了 ATI 和 AMD 的歷史與架構分析。從 ATI 時代的經典 R300 系列,到現代 AMD 的 RDNA(遊戲用)和 CDNA(資料中心用)架構,我都提供了和 NVIDIA 同等深度的討論。希望能為所有關心 GPU 技術發展的朋友,提供一份真正有參考價值的實用文件。
GPU 的發展歷史與架構演進
ATI GPU 發展史
回顧 ATI 的發展史,這是一家成立於 1985 年的公司,在早期圖形加速卡市場是非常重要的角色。2006 年被 AMD 收購之前,ATI 已經成長為僅次於 NVIDIA 的第二大獨立 GPU 廠商,它的 Radeon 系列產品在遊戲和專業圖形市場佔有很重要的地位。
早期產品線,1995 到 2000 年
Rage 系列是 ATI 早期的 2D 與 3D 加速卡系列。2000 年推出的 Radeon 256,內部代號 R100,是第一款掛上 Radeon 品牌的 GPU,它加入了硬體轉換與光照引擎,開始和 NVIDIA 的 GeForce 256 正面對決。
R300 系列,2002 到 2004 年
R300 系列是我認為 ATI 在可程式化時代的重大突破。2002 年推出的 Radeon 9700,內部代號 R300,是 ATI 的里程碑產品。這款產品第一次在效能上超越 NVIDIA,支援 DirectX 9.0 和完整的可程式化像素著色器,採用 0.15 微米製程,裡面有 1.1 億個電晶體,配備 8 條渲染管線和 256 位元的記憶體介面,支援 Shader Model 2.0,提供了更強大的著色器程式設計能力。
後續的 Radeon 9800,代號 R350,則是 R300 的改進版本,把時脈頻率和效能再往上拉。
R400 系列,2004 到 2005 年
2004 年推出的 Radeon X800,代號 R420,具備 16 條像素管線,大幅提升了填充率,支援 Shader Model 2.0b,採用 0.13 微米製程,直接和 NVIDIA 的 GeForce 6800 系列對打。
R500 系列,2005 到 2006 年
R500 系列可以說是統一著色器架構的先驅。2005 年推出的 Radeon X1800,代號 R520,支援 Shader Model 3.0,引入了動態分支和更複雜的著色器程式,具備 16 個像素著色器處理器。
2006 年推出的 Radeon X1900,代號 R580,擁有 48 個像素著色器處理器,大幅提升了著色器運算能力,也為後來的統一著色器架構打下了基礎。
R600 系列,2007 年
2007 年推出的 Radeon HD 2900 XT,代號 R600,是 ATI 首款統一著色器架構的 GPU。它有 320 個串流處理器,可以動態分配給頂點、幾何或像素著色,支援 DirectX 10 和 Shader Model 4.0,採用 80nm 製程,裡面有 7 億個電晶體,還搭載了 512 位元的記憶體介面,提供非常高的記憶體頻寬。
R700 系列,2008 到 2009 年
R700 系列可以說是 ATI 時期的巔峰產品。2008 年推出的 Radeon HD 4870,代號 RV770,有 800 個串流處理器,是業界率先支援 GDDR5 記憶體的產品,大幅提升了記憶體頻寬,採用 55nm 製程,優異的性價比讓它在市場上大獲成功。
後續的 Radeon HD 4890,代號 RV790,是 R700 系列的最後一款產品,進一步拉高了時脈頻率和效能。
總結 ATI 時期的關鍵創新
回頭看 ATI 時期,有幾個關鍵的創新值得一提。R300 系列在可程式化著色器方面有重大突破;R600 系列引入了統一著色器,為 GPGPU 運算打下了基礎;R700 系列率先採用 GDDR5 記憶體。而且 ATI 的產品通常有比較好的性價比,這也大力推動了市場的競爭。
AMD GPU 架構演進
2006 年 7 月,AMD 以 54 億美元收購 ATI Technologies,這標誌著 GPU 產業的重大轉變。AMD 成為唯一同時擁有 CPU 和 GPU 技術的主要廠商,這也為後續的 APU 和異質運算平台打下了很好的基礎。
TeraScale 架構,2007 到 2011 年
這時期 AMD 主推 TeraScale 架構,這是一個基於 VLIW,也就是超長指令字設計的時代。
TeraScale 1 涵蓋 2007 到 2008 年的 HD 2000 與 3000 系列,主要是基於 R600 架構改進,採用統一著色器設計和 VLIW5 架構,每個 SIMD 單元包含 5 個 ALU。
TeraScale 2 涵蓋 2008 到 2009 年的 HD 4000 與 5000 系列,旗艦產品 Radeon HD 5870 代號 Cypress,有 1600 個串流處理器,支援 DirectX 11 和 OpenCL 1.0,這也是第一款支援 GPGPU 運算的消費級 GPU。
TeraScale 3 涵蓋 2010 到 2011 年的 HD 6000 系列,採用改進的 VLIW4 架構,功耗效率表現更好。
VLIW 架構雖然在特定工作負載下效率很高,但在通用運算方面確實有挑戰。VLIW 的指令排程高度依賴編譯器,對於不規則的運算模式和動態分支效率比較低,這也促使 AMD 後來轉向更靈活的架構設計。
GCN 架構,2012 到 2019 年
Graphics Core Next(GCN)架構是 AMD 從 VLIW 轉向基礎控制單元(Scalar Unit)加上 SIMD 的混合設計,大幅提升了通用運算能力。它像一個全能戰士,同時為遊戲和通用計算而生。
GCN 1.0(2011 年):HD 7970 開啟新時代
2011 年底,AMD 發布了 HD 7970,代號 Tahiti,這是 GCN 架構的首秀。採用 28nm 製程,有 43 億個電晶體,2048 個串流處理器組織成 32 個 Compute Units。它的關鍵創新是引入了基礎控制單元(Scalar Unit)與 SIMD 向量單元平行運作,支援 64 執行緒的 Wavefront 執行模型,並具備 384 位元的 GDDR5 記憶體介面。這款產品在當時性能強悍,領先對手長達數月,成為 AMD 在高端市場的經典之作。
更重要的是,GCN 架構的設計理念非常前瞻——它不僅擅長圖形渲染,也為通用計算做了大量優化。這讓 HD 7970 在後續多年裡,透過驅動優化不斷釋放潛力,催生了「A 卡戰未來」的江湖傳說。
GCN 的演進:從 1.0 到 5.0
從 2011 年到 2019 年,AMD 在 GCN 架構上進行了多次迭代:
| 版本 | 代表產品 | 關鍵改進 |
|---|---|---|
| GCN 1.0 | HD 7970 | 首代 GCN,28nm,384-bit 介面 |
| GCN 2.0 | R9 290 系列 | 改進幾何處理能力,加入 TrueAudio 技術 |
| GCN 3.0 | R9 Fury X | 首款採用 HBM1 記憶體的消費級 GPU,提供 512 GB/s 頻寬 |
| GCN 4.0 | RX 400/500 系列 | 轉向 14nm FinFET 製程 |
| GCN 5.0 | RX Vega 系列 | 引入 HBM2,支援快速封裝數學讓 FP16 運算效能倍增 |
這八年間,AMD 將 GCN 架構打磨到極致,但也逐漸顯露疲態。當 NVIDIA 從 Kepler 一路進化到 Turing 時,AMD 的架構迭代幅度相對有限,能效比和光線追蹤功能逐漸落後。
Vega 架構(2017-2018 年):GCN 的巔峰與句點
以天文學中的「織女星」命名,Vega 是 GCN 架構的最後一章,也是 AMD 探索高頻寬記憶體和計算加速的關鍵一步。Radeon RX Vega 64 擁有 4096 個串流處理器和高頻寬快取控制器(HBCC),在 FP16 半精度運算上效能翻倍,為後來的 AI 加速埋下伏筆。然而,Vega 的功耗表現並不如人意,讓 AMD 意識到:GCN 的架構極限已經到了,必須砍掉重練。
RDNA 架構,2019 年至今
RDNA(Radeon DNA)是 AMD 專門為遊戲市場重新設計的架構,徹底擺脫了 GCN 時代的包袱。
RDNA 1(2019 年):RX 5700 XT 的初試啼聲
採用 7nm 製程,重新設計了 Compute Unit(稱為 Work Group Processor,每個 WGP 包含兩個 CU),每時脈效能比 GCN 提升 25%,能源效率提升 50%。RX 5700 XT 的推出,標誌著 AMD 在遊戲顯卡市場正式回歸競爭行列。
RDNA 2(2020 年):Infinity Cache 與光線追蹤的到來
RDNA 2 是 AMD 真正吹響反攻號角的一代。RX 6000 系列導入了 128 MB 的 Infinity Cache 大型 L3 快取,大幅減少對記憶體頻寬的依賴,同時首次加入硬體光線追蹤加速器。每瓦效能相比 RDNA 1 再提升 54%。RX 6900 XT 的出現,讓 AMD 終於能在高端市場與 NVIDIA 的 RTX 3090 正面交鋒。
RDNA 3(2022 年):Chiplet 設計的革命
採用 5nm + 6nm 的 Chiplet 小晶片設計,將計算單元(GCD)與記憶體控制器(MCD)分離,成功突破了單晶片的尺寸和成本限制。RX 7900 XTX 擁有 6144 個串流處理器和 96 MB Infinity Cache,每瓦效能再度提升 54%。
RDNA 4(2025 年):RX 9000 系列登場
以 RX 9070 XT 為代表,採用 4nm 製程,進一步優化光線追蹤效能和 AI 加速能力,繼續鞏固 AMD 在遊戲市場的競爭力。
CDNA 架構,2020 年至今
與 RDNA 分流的同時,AMD 推出了 CDNA(Compute DNA)架構,專為資料中心和高效能運算(HPC)設計。它移除了圖形功能,專注於矩陣運算和 AI 加速。
| 世代 | 代表產品 | 關鍵規格 |
|---|---|---|
| CDNA 1 | MI100 | 7680 個串流處理器,32 GB HBM2,首代矩陣核心 |
| CDNA 2 | MI250X | 雙 GPU 晶片設計,14080 個串流處理器,128 GB HBM2e,透過 Infinity Fabric 連接兩個 GCD |
| CDNA 3 | MI300X | 3D 堆疊 Chiplet,19456 個串流處理器,192 GB HBM3,第三代矩陣核心支援 FP8 精度 |
MI300X 的出現,讓 AMD 在 AI 加速器市場真正擁有了與 NVIDIA H100 抗衡的產品。另外 MI300A 則是整合 CPU 和 GPU 的 APU 設計,具備統一記憶體架構。
未來的方向:UDNA 統一架構
2024 年 9 月,AMD 運算與顯示卡事業部資深副總裁 Jack Huynh 宣布了一項重大戰略轉變:將 RDNA 與 CDNA 合併為統一架構 UDNA(Unified DNA)。
這項決策的背景很簡單:開發者不喜歡在兩套架構之間來回切換。Jack Huynh 坦言:「在 RDNA 微架構時曾犯一些錯誤,當改變記憶體層次結構、子系統時,都必須重新設定最佳化的矩陣。」UDNA 的目標是讓 AMD 像 NVIDIA 的 CUDA 一樣,擁有一套統一的軟硬體生態。開發者只需要學習一次,就能同時服務遊戲、AI 和資料中心市場。
目前已知的規劃包括:AMD 已經規劃了三代 UDNA 架構(UDNA 6、UDNA 7),首批產品預計在 2026-2027 年登場,目標是對抗 NVIDIA 的 CUDA 生態系。在過渡期間,AMD 的資料中心產品將繼續以 CDNA 架構推進,而消費級市場則以 RDNA 4 作為最後一代分流設計。
NVIDIA GPU 發展史
早期階段,1995 到 1999 年
1995 年推出的 NV1,是一款把 2D 圖形、3D 圖形加速和音效處理整合在一起的晶片。
1997 年的 RIVA 128,是 NVIDIA 第一款真正在市場上成功的產品。
1999 年的 GeForce 256,是歷史上第一次使用 GPU 這個詞的產品,它還引入了硬體轉換與光照引擎,把原本需要 CPU 處理的 3D 運算工作接了過去。
可程式化時代,2001 到 2006 年
2001 年的 GeForce 3,引入了可程式化頂點著色器,讓開發者可以自己控制畫面上每個頂點的效果。
2003 年的 GeForce FX,支援完整的可程式化像素著色器,讓畫面的材質和光影效果更豐富。
2005 年的 GeForce 7,支援 Shader Model 3.0,進一步提升了著色器的彈性。
2006 年的 GeForce 8,引入統一著色器架構,讓所有著色器類型都使用相同的處理單元,不再區分頂點、像素或幾何著色器,大幅提升了硬體的使用效率。
GPGPU 興起時期,2006 到 2010 年
2006 年,NVIDIA 推出了 CUDA,這是第一次提供完整的通用 GPU 運算平台,讓開發者可以把 GPU 拿來做圖形以外的大規模運算。
2006 年的 Tesla 架構,是 NVIDIA 第一個統一著色器架構,為後續的運算世代打下了基礎。
2010 年的 Fermi 架構,則是第一個完整的運算架構,引入了快取階層和 ECC 記憶體,讓 GPU 在科學運算和資料中心環境中更穩定可靠。
現代 GPU 時代,2010 年至今
如果說 GPU 是現代科技的引擎,那麼 NVIDIA 的每一代架構,就是這顆引擎的一次核心升級。從 2010 年至今,我們見證了它從單純的「圖形處理器」,蛻變為 AI 時代的心臟。
Fermi 架構(2010 年):完整運算架構的奠基者
以義大利物理學家恩里科·費米(Enrico Fermi)命名,他是「原子能時代之父」。Fermi 是 NVIDIA 第一個完整的 GPU 計算架構,在硬體層面引入了與共享存儲結合的 Cache 層次結構,並支援 ECC 錯誤校正碼記憶體。技術參數:16 個 SM,每個 SM 包含 32 個 CUDA 核心,總計 512 個 CUDA 核心,採用 40/28nm 製程,30 億個電晶體。
Kepler 架構(2012 年):能效與並行能力的飛躍
以德國天文學家約翰內斯·開普勒(Johannes Kepler)命名。Kepler 將 SM 更名為 SMX,每個 SMX 擁有 192 個 CUDA 核心,是 Fermi 的六倍,每瓦效能卻是 Fermi 的三倍。引入了動態平行與 Hyper-Q 技術。技術參數:15 個 SMX 單元,28nm 製程,71 億個電晶體。
Maxwell 架構(2014 年):能效之王的誕生
以英國物理學家詹姆斯·克拉克·麥克斯韋(James Clerk Maxwell)命名。Maxwell 重新設計了 SM 單元,每個 SMM 單元擁有更多邏輯控制電路,能源效率大幅提升。技術參數:16 個 SM,28nm 製程,80 億個電晶體。
Pascal 架構(2016 年):虛擬實境與高速互連的開端
以法國數學家、物理學家布萊茲·帕斯卡(Blaise Pascal)命名。Pascal 導入了第一代 NVLink 高速互連技術,雙向互連頻寬達 160GB/s,同時支援混合精度計算(FP16)。技術參數:GP100 擁有 60 個 SM,16nm 製程,153 億個電晶體。
Volta 架構(2017 年):AI 革命的關鍵轉折點
以義大利物理學家亞歷山德羅·伏打(Alessandro Volta)命名。這是 NVIDIA 架構史上最重要的一代。Volta 引入了第一代 Tensor Core(AI 運算核心),專門處理矩陣乘加運算,讓深度學習訓練效能相比 Pascal 提升了 12 倍。技術參數:80 個 SM,每個 SM 包含 8 個 Tensor Core,12nm 製程,211 億個電晶體。
Turing 架構(2018 年):實時光線追蹤的開創者
以英國數學家、計算機科學先驅艾倫·圖靈(Alan Turing)命名。Turing 首次在消費級顯卡中引入了 RT Core(光線追蹤核心),讓即時光線追蹤終於可以在遊戲中實現。技術參數:92 個 SM,12nm 製程,186 億個電晶體。
Ampere 架構(2020 年):AI 訓練效能的倍增器
以法國物理學家安德烈-馬里·安培(André-Marie Ampère)命名。Ampere 導入了第三代 Tensor Core,支援結構稀疏性矩陣,AI 訓練效能比 Volta 提升了 20 倍。還帶來了 MIG(多實例 GPU)技術,可以把一張 GPU 分割成多個獨立的小 GPU 使用。技術參數:108 個 SM,7nm 製程,283 億個電晶體。
Hopper 架構(2022 年):大型語言模型的專武
以美國計算機科學家格蕾絲·霍珀(Grace Hopper)命名。Hopper 是為大語言模型(LLM)量身打造的架構,引入了第四代 Tensor Core、FP8 精度和 Transformer Engine,大型語言模型訓練效能比 Ampere 提升了 3 到 4 倍。技術參數:132 個 SM,4nm 製程,800 億個電晶體。
Blackwell 架構(2024 年):當前的巔峰
以美國統計學家、數學家大衛·布萊克韋爾(David Blackwell)命名。Blackwell 搭載第五代 Tensor Core,支援 FP4、FP6 等超低精度運算,採用第二代 Transformer 引擎,以 4NP 製程容納 2080 億個電晶體。
AMD 與 NVIDIA 架構演進比較
前面我們分別看過了 AMD 和 NVIDIA 各自的發展歷程,現在我把兩家從 2006 年至今的架構演進放在一起對比,你會更清楚這兩家公司走的是什麼樣不同的路。
2006 到 2011 年,各走各的路
這個時期,AMD 採用的是 TeraScale 架構,裡面用的是 VLIW 設計。你可以想像成 AMD 找了一群助手,每個人一次要執行一串固定的指令,很依賴事先排好工作順序,適合做規律、重複性高的事情。
NVIDIA 這邊則是 Tesla 架構,用的是純量 SIMT 設計。比較像是每個助手雖然聽從同一個指令,但每個人可以處理各自的資料,彈性比較大,對不規則的工作負載也更友善。
2012 到 2019 年,兩種組織方式
到了這個階段,兩家都走向了更成熟的平行運算架構。
AMD 發展 GCN 架構,從 1.0 到 5.0,採用的是 64 執行緒的 Wavefront 模型。也就是說,他們把 64 個助手編成一隊,整隊同時做同一件事。
NVIDIA 則從 Kepler 發展到 Turing 架構,維持 32 執行緒的 Warp 模型,也就是 32 個人一隊。兩隊規模不同,各有優劣。64 人的隊伍在某些工作上效率更高,32 人的隊伍則在面對分支判斷時比較靈活。
2017 年,一個重要的分水嶺
這一年兩家的走向開始明顯分歧。
AMD 的 Vega 架構把重點放在 HBM2 記憶體上,專心解決記憶體頻寬的問題。
NVIDIA 的 Volta 架構則做了一件劃時代的事,引入了 AI 運算核心(Tensor Core)。這就像在廚房助手團裡,特別訓練了一組人專門處理 AI 需要的矩陣乘法,讓深度學習訓練效能一口氣提升了 12 倍。
2019 年至今,產品策略的分歧
到了這幾年,兩家的路線差異更加明顯。
AMD 決定把產品線拆開,分成 RDNA 和 CDNA 兩條路。RDNA 專門服務遊戲市場,導入 Infinity Cache 技術,用大型快取來減少對記憶體頻寬的依賴。CDNA 則專攻運算市場,加入矩陣核心來和 NVIDIA 的 AI 運算核心競爭。
NVIDIA 則選擇維持統一架構的路線,從 Turing 一路走到 Blackwell,同一套架構同時服務遊戲和運算市場。他們持續加大 L2 快取,並不斷升級 AI 運算核心,讓 AI 訓練效能從 Volta 到 Ampere 提升了 20 倍,再到 Hopper 又在大型語言模型上比 Ampere 提升了 3 到 4 倍。
兩家廠商的策略差異
總結來說,這兩家公司在策略上有很不同的選擇。
AMD 的特色是:非常強調開放標準,像是 OpenCL 和 Vulkan 這些不綁死在任何一家廠商的技術;重視高記憶體頻寬,用 HBM 和 Infinity Cache 來解決資料傳輸的瓶頸;提供很好的性價比,讓消費者花比較少的錢就能買到接近的效能;而且把遊戲和運算產品線分開發展,各自最佳化。
NVIDIA 的特色則是:建立了完整的專有生態系,也就是 CUDA,讓開發者習慣在它的平台上寫程式;不斷導入專用加速器,像是 AI 運算核心和 RT 核心,針對特定工作負載做極致的最佳化;維持統一架構,一套設計同時用在遊戲卡和運算卡上,研發資源可以集中運用。
這兩條路沒有誰對誰錯,只是對技術發展的不同想像。AMD 走的是開放、分流、高性價比的路線,NVIDIA 走的是專有、統一、專用加速器的路線。而正是因為有這兩家廠商持續競爭,GPU 技術才能在過去二十年間,從單純的圖形加速器,變成今天推動 AI 和科學運算的核心引擎。
Intel GPU
前面我們聊了 NVIDIA 和 AMD 這兩大巨頭,現在來看看第三位玩家:Intel。
你可能聽過 Intel,知道它是做 CPU 的老牌大廠。事實上,Intel 很早以前就做過獨立顯示卡,但後來收手了,叫做 Larrabee,直到這幾年,它決定重新殺回這個市場,推出了 Arc 系列顯示卡。
編按:筆者在「差點」入職 Intel 時,也曾經問到為什麼 Larrabee 不出了,聽到的答案也是讓人覺得還是不出的好……XD,這就像一家原本只做豪華轎車的車廠,突然宣布要開始做跑車,挑戰法拉利和保時捷。勇氣可嘉,但現實是殘酷的。
Intel Arc A770:初試啼聲之作
2022 年,Intel 推出了 Arc A770,這是他們重返獨立 GPU 市場的代表作,我們來看看這張卡的規格:
核心架構:採用 Xe HPG 架構,有 32 個 Xe 核心(總共 4096 個 ALU),你可以想像成這台車搭載了一顆全新的引擎。
記憶體:配備 16 GB GDDR6 記憶體,容量不小,裝得下大多數遊戲和應用。
特殊功能:支援硬體光線追蹤(讓遊戲畫面更逼真)和 XeSS AI 超解析度技術(這是 Intel 版的 DLSS,可以讓遊戲跑得更順、畫面更好)。
價格:349 美元,大約一萬出頭台幣。
效能定位:介於 NVIDIA RTX 3060 Ti 和 RTX 3070 之間。也就是說,它屬於中高階顯卡,可以順跑大多數 2K 解析度的遊戲。
Intel GPU 的優點:為什麼要考慮它?
性價比不錯:用 349 美元的價格,買到接近 RTX 3070 的效能,CP 值確實不錯。就像用國產車的價格,買到進口車的馬力。
強大的影片編碼能力:這其實是 Intel 的傳統強項。Arc 顯示卡支援最新的 AV1 編碼技術,簡單來說,如果你常做影片剪輯、直播,用 Arc 顯卡可以讓檔案更小、畫質更好、上傳更快。這點甚至比 NVIDIA 和 AMD 的同級產品還強。
擁抱開放標準:Intel 對 Vulkan、OpenCL 這些開放技術的支援很友善,不像 NVIDIA 那麼封閉。這對開發者來說是好事。
Intel GPU 的缺點:現實的考驗
驅動程式不夠成熟:這是 Intel GPU 最大的痛點。驅動程式你可以想成是「翻譯官」,負責把遊戲的指令翻譯給 GPU 聽。如果翻譯官能力不好,就算 GPU 硬體再強,遊戲跑起來也會卡卡的、甚至當機。NVIDIA 和 AMD 的翻譯官已經練了十幾年,Intel 才剛起步,還有不少 bug 要修。
遊戲相容性問題:有些老遊戲或冷門遊戲,在 Intel 顯卡上可能跑不起來,或是畫面會破圖。這就像新買的遊戲手把,有些舊遊戲不支援,得等廠商更新驅動。
效能不穩定:在某些遊戲裡,Arc A770 可以跑出接近 RTX 3070 的成績;但在另一些遊戲裡,可能只比 RTX 3060 好一點。效能起伏很大,不像 NVIDIA 那樣穩定可靠。
生態系統不成熟:除了玩遊戲,GPU 還被用在 AI、深度學習、專業繪圖等領域。在這些領域,NVIDIA 的 CUDA 生態系幾乎是業界標準,AMD 的 ROCm 也逐漸跟上,但 Intel 才剛起步,相關的軟體、工具、教學資源都還很少。
Intel 的資料中心 GPU:Ponte Vecchio
除了給一般玩家用的 Arc 系列,Intel 也推出了給超級電腦和資料中心用的頂級 GPU,叫做 Ponte Vecchio(義大利文,意思是「老橋」)。
這顆晶片是為美國的 Aurora 超級電腦打造的,規格很驚人:
架構:採用 Xe HPC 架構,是專為高效能運算設計的。
記憶體:配備 128 GB HBM2e 記憶體,容量超大。
運算效能:FP64(雙精度)效能達 52 TFLOPS,這是在科學模擬中很重要的指標。
Intel 推出 Ponte Vecchio 的目的很明確:就是要跟 NVIDIA 的 H100 和 AMD 的 MI300X 正面對決,搶攻超級電腦和高效能運算這塊市場。
資料中心 GPU 面臨的挑戰
不過,理想很豐滿,現實很骨感。Ponte Vecchio 面臨的挑戰和 Arc 系列很像,但更嚴峻:
軟體生態系極不成熟:在資料中心這個領域,軟體生態比硬體規格更重要。科學家、研究人員已經習慣用 NVIDIA 的 CUDA 和相關工具寫程式。要他們轉到 Intel 的平台,等於要重新學一套武功,除非 Intel 的硬體快非常多,否則沒人想動。
市場接受度低:目前全世界絕大多數的超級電腦和資料中心,用的都是 NVIDIA 或 AMD 的 GPU。Intel 身為後來者,要說服客戶換平台,非常困難。
與兩大巨頭的差距顯著:NVIDIA 和 AMD 在 GPU 領域已經深耕了十幾二十年,無論是硬體設計、軟體生態、還是客戶信任度,Intel 都還有很長的路要走。
Intel GPU 值得買嗎?
如果你是一般玩家:除非你預算有限、又想嘗鮮,否則現階段還是建議優先考慮 NVIDIA 或 AMD。Intel 的驅動問題可能會讓你玩遊戲時遇到不少麻煩。
如果你是影片創作者:Arc 顯卡的 AV1 編碼能力確實很吸引人。如果你主要工作是剪片、直播,偶爾才玩遊戲,那可以考慮試試看。
如果你想支持新玩家:市場上多一個競爭者,對消費者絕對是好事。如果預算允許,買一張 Intel 顯卡支持一下,也是在促進市場良性競爭。
總之,Intel 重返獨立 GPU 市場,勇氣可嘉,但目前還是「追趕者」的角色。它的產品有亮點,也有明顯的短板。未來能否真正威脅到 NVIDIA 和 AMD 的雙巨頭地位,還需要時間證明。
Intel 的顯卡跑起來怎麼樣,我想巴哈姆特的勇士們都有分享心得,大家可以前往參考他們寫的文章《【心得】「開箱」Intel Arc A770 Limited Edition – 藍廠的初試身手》。
Intel 的 GPU 產品線:一波三折的追趕之路
前面聊了 Intel 的 Arc 顯示卡,但其實 Intel 在資料中心用的高階 GPU 領域,也有一番佈局。只是這條路走得有點坎坷,產品規劃改來改去,連我看了都覺得有點亂。我整理了一下,大概是這樣的故事:
第一代:Ponte Vecchio(已經推出的)
Ponte Vecchio 是 Intel 第一款真正意義上的資料中心旗艦 GPU,代號叫「老橋」。這顆晶片用了 47 個小晶片拼在一起,技術上很厲害,也被用在美國的 Aurora 超級電腦上。你可以把它想成 Intel 端出來的第一道招牌菜,雖然耗費苦心,但市場反應嘛……還需要時間證明。
原本的第二代:Rialto Bridge(取消了)
原本 Intel 打算推出 Ponte Vecchio 的加強版,叫 Rialto Bridge(里亞爾托橋),效能預計提升 30%,但功耗也拉到 800 瓦。結果 2023 年的時候,Intel 突然說這道菜不做了,直接跳下一代。原因說是為了簡化產品線,但明眼人都看得出來,應該是覺得與其小修小改,不如砍掉重練。
後來的第二代:Falcon Shores(大轉彎,不上市了)
接著 Intel 端出 Falcon Shores(獵鷹海岸)這個備受期待的新計畫。這道菜的定位一變再變:
一開始:想做成 CPU 加 GPU 合體的超級晶片(叫 XPU)。
後來:改成純 GPU 設計,效能目標訂得很高,說要比 Ponte Vecchio 好 5 倍。
2025 年初最新消息:Intel 在財報會議上宣布,Falcon Shores 不當成商品賣了,只留給內部工程師當測試晶片,用來開發軟體和生態系統。
這等於是你去餐廳點菜,服務生說這道菜只做給廚房自己人吃,不賣給客人。聽起來有點傻眼,但背後的意思其實是:Intel 覺得這道菜還不夠好,端出去會砸招牌,不如繼續在廚房裡練功。
真正的第三代:Jaguar Shores(未來的希望)
Falcon Shores 變成內部測試品之後,Intel 的重心就轉向了下一代,叫 Jaguar Shores(美洲虎海岸)。
這道菜的定位很明確:要跟 NVIDIA 的 Rubin 和 AMD 的下一代產品正面對決。預計會用上 Intel 最先進的 18A 製程,而且不是只賣一顆晶片,而是賣「整桌菜」,也就是機架級的解決方案。你可以想成 Intel 這次不只要做引擎,還要把整台車都做好,直接跟對手比誰的整車跑得快。
總結一下 Intel 這幾年的路線圖
| 世代 | 代號 | 狀態 | 簡單來說 |
|---|---|---|---|
| 第一代 | Ponte Vecchio | 已經推出 | Intel 的第一道招牌菜,技術很炫但市場還在觀察。 |
| 過渡代 | Rialto Bridge | 取消了 | 原本想小改版,後來覺得不如砍掉重練。 |
| 第二代 | Falcon Shores | 轉內部測試 | 原本要端給客人的菜,臨時改成廚房自用練功。 |
| 第三代 | Jaguar Shores | 研發中(預計 2026 後) | Intel 真正用來拚市場的武器,要跟 NVIDIA 正面對決。 |
那現在 Intel 拿什麼賣?
你可能會問:Falcon Shores 不賣了,那 Intel 現在在 AI 加速器市場賣什麼?
答案是 Gaudi 3。這是 Intel 收購 Habana Labs 之後推出的 AI 加速器,不是 GPU,而是另一種架構的晶片。目前 Intel 在 AI 市場的主力暫時是這個,而不是自家的 GPU。
總之,Intel 在資料中心 GPU 這條路上,真的是跌跌撞撞。產品規劃一改再改,原本要賣的不賣了,原本要小改的直接跳過。看得出來他們很想追上 NVIDIA 和 AMD,但現實是:軟體生態不是一天兩天能建立的,硬體技術也不是有錢就能一步登天。Jaguar Shores 能不能成功,可能要到 2026 年後才知道答案了。
未來的方向:從分流向統一
回顧 NVIDIA 與 AMD 的架構演進,我們看到兩條殊途同歸的路。NVIDIA 從 Fermi 到 Blackwell,始終維持統一架構的路線,同一套設計同時服務遊戲和運算市場,不斷升級專用加速器,讓 AI 訓練效能從 Volta 到 Ampere 提升了 20 倍,再到 Hopper 又提升了 3 到 4 倍。AMD 則經歷了從 GCN 的統一設計,到 RDNA 與 CDNA 的分流,再到即將來臨的 UDNA 重新統一。這條從分流向統一的路,反映出產業對開發者體驗與生態系整合的日益重視。
根據 2025 年 GTC 大會的預告,NVIDIA 的下一代架構將命名為 Vera Rubin(以美國天文學家薇拉·魯賓命名,她發現了暗物質存在的證據),預計將達到 3.6 EFLOPS 的 FP4 推理性能和 1.2 EFLOPS 的 FP8 訓練性能,整體效能將是現有 GB300 NVL72 的 3.3 倍。AMD 則正全力投入 UDNA 統一架構的開發,目標是降低開發者的進入門檻,讓一套軟體生態就能同時服務遊戲、AI 和資料中心市場。
未來的 GPU 發展,將圍繞以下幾個趨勢展開:
- 架構融合與多樣化:不同應用場景(遊戲、數據中心、自動駕駛、邊緣計算)將採用各自優化的架構,但底層將趨向統一,降低開發複雜度。
- 智能計算與自適應架構:GPU 將內建自適應調節機制,可根據任務需求動態分配計算資源。
- 能效與散熱管理:在效能提升的同時,功耗控制和散熱設計將成為關鍵競爭點。
- 新興應用的驅動:元宇宙、虛擬實境、自動駕駛將持續推動 GPU 架構的演進。
GPU 的故事,是一部從「畫畫的」到「算數學的」,再到「思考的」的史詩。它不再只是遊戲玩家的裝備,而是 AI 科學家的實驗台、藥物發現的加速器、氣候模擬的引擎。正如 Jon Peddie Research 所言:「GPU 的故事也循環回到了遊戲領域,形成了一個良性循環。
訓練數據中心模型的 Tensor 單元,現在開始在你家客廳的螢幕上進行畫質升級。」 DLSS、光線追蹤,這些讓遊戲畫面更逼真的技術,正是 AI 與圖形深度融合的結晶。
而這部史詩,才剛剛翻開最精彩的篇章。
要深入了解 GPU ,請參考我們的詳細指南:GPU 是什麼?是專為計算 3D 圖形的晶片
