|簡體中文

比思論壇

 找回密碼
 按這成為會員
搜索



查看: 287|回復: 0
打印 上一主題 下一主題

規避出口禁令的 D 計劃

[複製鏈接]

1843

主題

1

好友

344

積分

中學生

Rank: 3Rank: 3

  • TA的每日心情
    慵懶
    2024-9-15 03:09
  • 簽到天數: 2 天

    [LV.1]初來乍到

    推廣值
    0
    貢獻值
    0
    金錢
    739
    威望
    344
    主題
    1843
    跳轉到指定樓層
    樓主
    發表於 2024-9-16 02:27:06 |只看該作者 |倒序瀏覽
    為規避美國出口管制,NVIDIA 特別為中國市場推出 GeForce RTX 4090 D 型號,D 字是 Dragon 的意思,因為今年是龍年嘛,改用了採用 AD102-250 GPU,由 128 個 SM 減至 114 個 SM,擁有 14,592 個 CUDA Cores、114 個 RT Cores、456 個 Tensor Cores,相較 RTX 4090 運算單元數目減少了 10.94%,HKEPC 編輯部收到 Inno3D 送測 GeForce RT 4090 D X3,與 RTX 4080 SUPER 及 RTX 4090 作對比測試。




    規避出口禁令的 D 計劃

    去年 10 月,美國商務部更新 ECCN 3A090 高科技出口管制要求,將會進一步收緊對中國禁運要求,新規定下連遊戲市場的 GeForce RTX 4090 也不能銷往中國,包括香港及澳門亦受到影響,由於中國市場相當龐大,NVIDIA 當然不願意失去這塊肥肉,因此 NVIDIA 決定針對中國市場再變陣, 推出中國獨家 GeForce RTX 4090 D 型號,D 字是 Dragon 的意思,因為今年是龍年嘛,將 GPU 運算性能降低以符合法口法規。




    據了解,GeForce RTX 4090 運算性能為 TPP = 2642.56*、PD = 4.34*,根據 ECCN 3A090b 次要高性能晶片規定,則要求晶片如介乎 TPP 2400 至 4800 之間同時 PD 介乎 1.6 至 5.92 之間,除非取得美國商務部許可,否則不准出口中國,因此 GeForce RTX 4090 D 的性能規格必需下降約 10% 才能滿足要求。

    *TPP =FP32 TFLOPS x 32 (Bit)
    *PD = TPP / Die Size



    NVIDIA AD102-250 繪圖核心

    GeForce RTX 4090 D 與 RTX 4090 一樣,採用 NVIDIA AD102 繪圖核心、型號為 AD102-250,為了滿足 ECCN 3A090b 次要高性能晶片規定,GeForce RTX 4090 D 運算單元作出了進一步屏蔽,刪減至 57 個 TPC 紋理處理群集及 114 個 SM 串流多處理器,具備 14,592 個 CUDA Cores、114 個 RT Cores 及 456 個 Tensor Cores。


    ▲ NVIDIA AD102-250 繪圖核心

    核心時脈方面,GeForce RTX 4090 D 預設時脈為 2,280MHz Base Clock、2,520MHz Boost Clock,為了令 RTX 4090 D 完全不會超出美國商務部的禁運要求,NVIDIA 限制了 RTX 4090 D 超頻功能,以確保任何情況下都不會超標。



    經過刪減後,GeForce RTX 4090 D 的 FP32 TFLOPS 運算能力被降至 73.54,按照 TPP = FP32 TFLOPS x 32 (Bit) 計算公式,GeForce RTX 4090 D 的 TPP 為 2,353.28,完全符合 ECCN 3A090b 次要高性能晶片不超過 TPP 2,400 的規定。

    記憶體子系統方面,GeForce RTX 4090 D 與 RTX 4090 完全一樣,具備 24GB GDDR6X 記憶體容量,21Gbps GDDR6X 速度、384-bit 記憶體介面,總頻寬同樣為 1.008GB/s,L2 Cache 容量保持在 72MB 水平。


    NVIDIA GeForce RTX 40 Family Full Specifications
    [tr][/tr]
    Graphics CardGeForce
    RTX 4090 D
    GeForce
    RTX 4090
    GPU Codename
    AD102-250AD102-300
    GPU Architecture
    NVIDIA
    Ada Lovelace
    NVIDIA
    Ada Lovelace
    TPCs
    5764
    SMs
    114128
    CUDA Cores / SM
    128128
    CUDA Cores / GPU
    1459216384
    Tensor Cores / SM
    4 (4th Gen)4 (4th Gen)
    Tensor Cores / GPU
    456 (4th Gen)512 (4th Gen)
    RT Cores
    114 (3rd Gen)128 (3rd Gen)
    GPU Boost Clock (MHz)
    25202520
    Pixel Fill Rate
    443.5443.5
    Texture Fill Rate
    1,1491,290
    Peak FP16 TFLOPS (non-Tensor)
    73.5482.6
    Peak FP32 TFLOPS (non-Tensor)
    73.5482.6
    Peak FP64 TFLOPS (non-Tensor)
    1,1491,290
    Frame Buffer Memory Size and Type
    24GB GDDR6X24GB GDDR6X
    Memory Interface
    384-bit384-bit
    Memory Clock (Data Rate)
    21 Gbps21 Gbps
    Memory Bandwidth
    1,008 GB/sec1,008 GB/sec
    ROPs
    176176
    Texture Units
    456512
    L2 Cache
    72 MB72 MB
    Video Engines
    2x NVENC (Gen 8)
    1x NVDEC (Gen 5)
    2x NVENC (Gen 8)
    1X NVDEC (Gen 5)
    TGP Power
    425W450W
    Transistor Count
    76.3 Billion76.3 Billion
    Die Size
    608.5 mm²608.5 mm²
    Manufacturing Process
    TSMC 4NTSMC 4N
    PCIe Interface
    Gen4Gen4





    Inno3D GeForce RTX 4090 D X3 顯示卡



    由於 GeForce RTX 4090 D 並沒有 Founder Edition,所以我們找來 Inno3D GeForce RTX 4090 D X3 顯示卡進行測試,整卡設計與 RTX 4090 X3 版本完全相同,3 Slot 散熱器設計,採用 3 Slot 散熱器設計在眾多 AIC 卡之中已經是最薄身了,但它的散熱表現卻非常理想,具備巨型 Vapor Chamber 大型均熱板配搭 9 支純銅導熱管,升級 3 顆 10cm 軸向式 Scythe 順逆向鐮刀扇葉風扇,要應負 425W TDP 絕對不成問題。



    Inno3D GeForce RTX 4090 D X3 顯示卡尺寸為 336mm x 145mm x 60mm、重量約 1765g、三槽設計,黑、鈦金色外殼配色,上半加入斜向拉絲紋表面處理,整體的外觀設計具有時尚科技感,並充滿硬朗的質感。




    Inno3D RTX 4090 D X3 系列有個特別設計,顯示卡在 Bracket 位置預載了金屬負重支架,能夠加強 PCB 剛性並增強承托力,從而避免 PCB 彎曲損壞,整張卡運作時只有頂端 INNO3D 字樣會透出白色燈光,相當簡約。


    ▲ 3 Slot 設計


    Inno3D GeForce RTX 4090 D X3 OC 顯示卡採用 3 Slot 設計,在眾多 RTX 4090 D 之中算薄了,不過它的卡高也有14.5cm,由於要預留空間給 12VHPWR 接口,最好機箱 CPU 散熱器支援 16.5cm 或以上,就能減低轉接口嚴重屈曲的風險。


    顯示卡背面設有金屬背板,能夠加強 PCB 剛性並增強承托力,從而避免 PCB 彎曲損壞,金屬背板加入了導熱散熱貼,可為顯示卡背面 PCB 的被動元件作少許被動散熱,特別加入 Hot Air Extraction 散熱設計,背面開口將熱力直接穿越至機箱上方,可讓機箱內部溫度變得較平均。



    NVIDIA PG139 公板設計

    Inno3D GeForce RTX 4090 D X3 完全採用 NVIDIA PG139 公板設計,供電設計方面, 14 相為 GPU 供電、3 相為 GDDR6X 供電,全面採用 Alpha & OMEGA BLN0 (AOZ5311NQI) Synchronous Buck Regulator,在單一封裝內加入上下橋 MOSFET 及集成驅動器,單相能提供 50A 持續電流輸出,配搭全封閉合金功率電感及固態電容,充份滿足 AD102-250 顯示核心的供電需求。



    NVIDIA AD102-250 繪圖核心







    NVIDIA GeForce RTX 4090 D 採用了經刪減後的 AD102-250 繪圖核心,採用 TSMC 4N 制程、擁有 763 億個電晶體、Die Size 約為 608.5mm²,部份單元作出了屏蔽,刪減至 57 個 TPC 紋理處理群集及 114 個 SM 串流多處理器,具備 14,592 個 CUDA Cores、114 個 RT Cores 及 456 個 Tensor Cores。




    時脈方面,Inno3D GeForce RTX 4090 D X3顯示卡預設核心時脈為 2,280MHz Base Clock、2,520MHz Boost Clock,不提供任何超頻選項,最高 Power Limit 預設為 425W,Power Limit 被鎖上無法再調高 Power Limit。



    384-bit 24GB GDDR6X 記憶體容量

    記憶體方面,NVIDIA GeForce RTX 4090 D 具備 24GB GDDR6X 記憶體容量及 384-bit 記憶體控制器,記憶體頻寬與 RTX 4090 一樣保持 1008GB/s (1TB/s),L2 Cache  則由 74MB 略減至 72MB 容量。


    ▲ Micron D8BZC 21Gbps GDDR6X 記憶體


    採用了12 顆 Micron D8BZC GDDR6X 顆粒編號,為 MT61K512M32KPA-21:U 並支援 ECC 功能,每顆單顆容量為 16Gbit (2GB),總供 24GB 繪圖記憶體容量,採用單面 24GB GDDR6X 記憶體配置。和 RTX 4090 一樣支援 ECC 功能,用家可以在 NVIDIA Control Panel 程式中打開選項。


    3 Slot 均熱板 + 9 Heatpipe 散熱器


    Inno3D GeForce RTX 4090 D X3 顯示卡的散熱器,設計與 RTX 4090 版本完全相同,採用 3 Slot 均熱板 + 9 Heatpipe 散熱器,巨型 8500mm² Vapor Chamber 均熱板,以其封閉於板狀腔體中作動流體之蒸發凝結循環運作,擁有快速均熱、快速熱傳導及熱擴散的特性和功能,更能平衡及迅速把核心晶片的廢熱傳遞到整個散熱器上。





    均熱板連接 9 支 6mm 純銅導熱管並貫穿到整個大面積散熱鰭片散熱器,整個 Heatpipe 長度達 2716 mm,整個鋁散熱鰭片面積高達 1,006,164 mm²,能完全滿足 425W TDP 的 RTX 4090 D 散熱需求。



    採用 12VHPWR / 12V2x6 供電接口




    使用了經過改進的 12VHPWR / 12V-2x6 連接器,相較舊有 12VHPWR 感應引腳僅向入偏移量 0.45mm,因此 RTX 40 新卡已使用具有向入偏移 1.7 mm 的感應引腳,更短的感應引腳可以檢測連接器是否完全插入。如果沒有完全插入這樣,GPU 就不會被限制最大功率負載,理論上講應該可解決過去發生連接器燒毀問題,然而效果仍有待觀察,隨產品就附連了一條 PCIe 8-Pin x 3 轉 12VHPWR / 12V2x6 轉接線 (450W)。

    提供了 3 組 Display Port 1.4a + DSC 及 1 組 HDMI 2.1 影像輸出接口,兩種輸出介面皆可提供最高 4K@240Hz 或 8K@60Hz 12bit HDR 解析度輸出,支援 VESA DSC 1.2 無損壓縮顯示功能,單卡能提供最高 2 個 8K@60Hz HDR 顯示輸出,或是組合 2 組 DisplayPort 接口提供單一 8K@120Hz HDR 輸出。


    效能測試︰

    HKEPC 編輯部收到由 Inno3D GeForce RTX 4090 D X3 顯示卡樣本,同時亦找來同時亦找來 RTX 4070 Ti、RTX 4080 作對比測試,以了解這 NVIDIA GeForce RTX 4070 Ti SUPER 的效能水平。




    ▲ Furmark 2 測試最高溫度 63°C


    散熱方面,顯示卡在約 22°C 的室溫環境下閒置約 30分鐘,GPU溫度維持在 39°C。接著採用 Furmark 進行 3D 負載測試,將 GPU 完全負載 30 分鐘後,溫度會提升至 63°C,GPU 時脈保持在 2,385MHz,TDP 450W / TGP 393W。



    測試平台︰

    Intel Core i9-12900K CPU
    ASUS ROG Z790 Maximus APEX
    ANACOMDA DDR5-6400 CL36-38-38-68 32GB x 2 @1.35V
    Windows 11 Professional 23H2
    NVIDIA GeForce Driver 551.23 WHQL












    3DMark

    FireStrikeFireStrikeExtremeFireStrikeUltraTime SpyTime SpyExtremeGeForceRTX 4080SUPERRadeon RX7900 XTRadeon RX7900 XTXGeForceRTX 4090DGeForceRTX 4090020,00040,00060,00080,000100,000GPUFireStrikeFireStrike ExtremeFireStrike UltraTime SpyTime Spy Extreme
    GeForce RTX 4080 SUPER
    68670
    34756
    17740
    28897
    14344

    Radeon RX 7900 XT
    68214
    34843
    17589
    27888
    13295

    Radeon RX 7900 XTX
    73609
    39522
    20142
    29463
    14592

    GeForce RTX 4090 D
    78218
    43617
    23275
    35446
    18491

    GeForce RTX 4090
    81214
    47028
    25294
    37263
    19679






    GPUFireStrikeFireStrike ExtremeFireStrike UltraTime SpyTime Spy Extreme
    GeForce RTX 4080 SUPER
    68670
    34756
    17740
    28897
    14344

    Radeon RX 7900 XT
    68214
    34843
    17589
    27888
    13295

    Radeon RX 7900 XTX
    73609
    39522
    20142
    29463
    14592

    GeForce RTX 4090 D
    78218
    43617
    23275
    35446
    18491

    GeForce RTX 4090
    81214
    47028
    25294
    37263
    19679







    3DMark Ray-Tracing 測試︰




    3DMark Ray-Tracing

    Port RoyalSpeedWayGeForceRTX 4080SUPERRadeon RX7900 XTRadeon RX7900 XTXGeForceRTX 4090DGeForceRTX 409005,00010,00015,00020,00025,00030,000GPUPort RoyalSpeed Way
    GeForce RTX 4080 SUPER
    18440
    7479

    Radeon RX 7900 XT
    14499
    5436

    Radeon RX 7900 XTX
    15951
    6010

    GeForce RTX 4090 D
    24428
    9793

    GeForce RTX 4090
    26227
    10175






    GPUPort RoyalSpeed Way
    GeForce RTX 4080 SUPER
    18440
    7479

    Radeon RX 7900 XT
    14499
    5436

    Radeon RX 7900 XTX
    15951
    6010

    GeForce RTX 4090 D
    24428
    9793

    GeForce RTX 4090
    26227
    10175








    3DMark DLSS 測試︰




    3DMark DLSS Feature Test

    DLSS OffDLSS2DLSS3GeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200250GPUDLSS OffDLSS2DLSS3
    GeForce RTX 3090 Ti
    32.88
    81.16

    GeForce RTX 4080
    39.71
    104.09
    166.12

    GeForce RTX 4080 SUPER
    40.32
    104.58
    167.86

    GeForce RTX 4090 D
    55.02
    132.87
    204.67

    GeForce RTX 4090
    59.32
    138.77
    216.19






    GPUDLSS OffDLSS2DLSS3
    GeForce RTX 3090 Ti
    32.88
    81.16

    GeForce RTX 4080
    39.71
    104.09
    166.12

    GeForce RTX 4080 SUPER
    40.32
    104.58
    167.86

    GeForce RTX 4090 D
    55.02
    132.87
    204.67

    GeForce RTX 4090
    59.32
    138.77
    216.19








    3DMark DirectX Raytracing feature test 測試


    3DMark RT Feature Test

    RTGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090020406080100120140GPURT
    GeForce RTX 3090 Ti
    61.69

    GeForce RTX 4080
    84.78

    GeForce RTX 4080 SUPER
    87.20

    GeForce RTX 4090 D
    122.42

    GeForce RTX 4090
    139.98






    GPURT
    GeForce RTX 3090 Ti
    61.69

    GeForce RTX 4080
    84.78

    GeForce RTX 4080 SUPER
    87.20

    GeForce RTX 4090 D
    122.42

    GeForce RTX 4090
    139.98







    遊戲效能測試:

    以下的遊戲測試除另外指明外,全部皆以 3840 x 2160 解析度全屏幕執行,畫質皆設定為最高品質,若遊戲支援光線追蹤技術則同時將光追品質全開。而 DLSS 方面則統一使用 Performance 設定,當中 GeForce RTX 40 系列會啟用 DLSS 3 中新增的 Frame Generation 技術。


    A Plague Tale:Requiem 瘟疫傳說:安魂曲 (RT + DLSS 3)


    A Plague Tale:Requiem

    4K DLSSOff4K DLSSOnGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200GPU4K DLSS Off4K DLSS On
    GeForce RTX 3090 Ti
    46
    83

    GeForce RTX 4080
    60
    142

    GeForce RTX 4080 SUPER
    61
    145

    GeForce RTX 4090 D
    78
    177

    GeForce RTX 4090
    81
    183






    GPU4K DLSS Off4K DLSS On
    GeForce RTX 3090 Ti
    46
    83

    GeForce RTX 4080
    60
    142

    GeForce RTX 4080 SUPER
    61
    145

    GeForce RTX 4090 D
    78
    177

    GeForce RTX 4090
    81
    183







    Control (RT + DLSS2)


    Control

    4K DLSSOff4K DLSSOnGeForceRTX 3090TiGeForceRTX 4070Ti SUPERGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090020406080100120GPU4K DLSS Off4K DLSS On
    GeForce RTX 3090 Ti
    41
    65

    GeForce RTX 4070 Ti SUPER
    43
    64

    GeForce RTX 4080
    55
    81

    GeForce RTX 4080 SUPER
    56
    83

    GeForce RTX 4090
    72
    116






    GPU4K DLSS Off4K DLSS On
    GeForce RTX 3090 Ti
    41
    65

    GeForce RTX 4070 Ti SUPER
    43
    64

    GeForce RTX 4080
    55
    81

    GeForce RTX 4080 SUPER
    56
    83

    GeForce RTX 4090
    72
    116







    CyberPunk 2077 RT Ultra (RT+ DLSS 3)


    CyberPunk 2077 RT Ultra

    4K DLSSOff4K DLSSonGeForceRTX 3090TiGeForceRTX 4070Ti SUPERGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 40900255075100125150GPU4K DLSS Off4K DLSS on
    GeForce RTX 3090 Ti
    28
    66

    GeForce RTX 4070 Ti SUPER
    31
    84

    GeForce RTX 4080
    42
    114

    GeForce RTX 4080 SUPER
    44
    118

    GeForce RTX 4090
    53
    149






    GPU4K DLSS Off4K DLSS on
    GeForce RTX 3090 Ti
    28
    66

    GeForce RTX 4070 Ti SUPER
    31
    84

    GeForce RTX 4080
    42
    114

    GeForce RTX 4080 SUPER
    44
    118

    GeForce RTX 4090
    53
    149







    F1 22 (RT + DLSS 3)


    F1 22

    4K DLSSoff4K DLSSonGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200250GPU4K DLSS off4K DLSS on
    GeForce RTX 3090 Ti
    61
    132

    GeForce RTX 4080
    68
    167

    GeForce RTX 4080 SUPER
    69
    169

    GeForce RTX 4090 D
    92
    225

    GeForce RTX 4090
    96
    232






    GPU4K DLSS off4K DLSS on
    GeForce RTX 3090 Ti
    61
    132

    GeForce RTX 4080
    68
    167

    GeForce RTX 4080 SUPER
    69
    169

    GeForce RTX 4090 D
    92
    225

    GeForce RTX 4090
    96
    232







    Forza Horizon 5 (DLSS 3)


    Forza Horizon 5

    4K DLSSoff4K DLSSonGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090050100150200GPU4K DLSS off4K DLSS on
    GeForce RTX 3090 Ti
    78
    114

    GeForce RTX 4080
    96
    147

    GeForce RTX 4080 SUPER
    98
    149

    GeForce RTX 4090 D
    107
    176

    GeForce RTX 4090
    119
    189






    GPU4K DLSS off4K DLSS on
    GeForce RTX 3090 Ti
    78
    114

    GeForce RTX 4080
    96
    147

    GeForce RTX 4080 SUPER
    98
    149

    GeForce RTX 4090 D
    107
    176

    GeForce RTX 4090
    119
    189







    Tom Clancy's Rainbow Six Siege 虹彩六號:圍攻行動


    Rainbow Six Siege

    1080p2K4KGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 40900100200300400500600700GPU1080p2K4K
    GeForce RTX 3090 Ti
    598
    513
    321

    GeForce RTX 4080
    610
    586
    395

    GeForce RTX 4080 SUPER
    611
    591
    401

    GeForce RTX 4090 D
    613
    602
    496

    GeForce RTX 4090
    613
    603
    517






    GPU1080p2K4K
    GeForce RTX 3090 Ti
    598
    513
    321

    GeForce RTX 4080
    610
    586
    395

    GeForce RTX 4080 SUPER
    611
    591
    401

    GeForce RTX 4090 D
    613
    602
    496

    GeForce RTX 4090
    613
    603
    517







    Microsoft Flight Simulator 微軟模擬飛行 (DLSS 3)


    Microsoft Flight Simulator

    4K DLSSOff4K DLSSonGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 40900255075100125150175GPU4K DLSS Off4K DLSS on
    GeForce RTX 3090 Ti
    55
    81

    GeForce RTX 4080
    69
    146

    GeForce RTX 4080 SUPER
    71
    149

    GeForce RTX 4090 D
    84
    163

    GeForce RTX 4090
    89
    170






    GPU4K DLSS Off4K DLSS on
    GeForce RTX 3090 Ti
    55
    81

    GeForce RTX 4080
    69
    146

    GeForce RTX 4080 SUPER
    71
    149

    GeForce RTX 4090 D
    84
    163

    GeForce RTX 4090
    89
    170







    Watch Dogs Legion (RT + DLSS)


    Watch Dogs Legion

    4K DLSSOff4K DLSSOnGeForceRTX 3090TiGeForceRTX 4080GeForceRTX 4080SUPERGeForceRTX 4090DGeForceRTX 4090020406080100GPU4K DLSS Off4K DLSS On
    GeForce RTX 3090 Ti
    39
    55

    GeForce RTX 4080
    52
    69

    GeForce RTX 4080 SUPER
    53
    71

    GeForce RTX 4090 D
    68
    90

    GeForce RTX 4090
    71
    94






    GPU4K DLSS Off4K DLSS On
    GeForce RTX 3090 Ti
    39
    55

    GeForce RTX 4080
    52
    69

    GeForce RTX 4080 SUPER
    53
    71

    GeForce RTX 4090 D
    68
    90

    GeForce RTX 4090
    71
    94








    UL Procyon AI 測試

    ▲ RTX 4090

    ▲ RTX 4090 D


    在 UL Procyon AI Inference Benchmark (Windows) AI 推理基準測試中,使用常見的電腦視覺的神經網絡模型,透過 CPU 或 GPU 運行相同操作進行比較,以測量 AI 加速器的性能,並設有浮點數或整數的測試方式。

    測試採用 14700K、RTX 4090 / RTX 4090 D 配置、float32 精度。在 Microsoft Windows ML 版本及 NVIDIA Tensor RT 版本中,RTX 4090 分別獲得 1353 和 1951 分數,而 RTX 4090 D 分別獲得 1325 和 1878 分數。AI 運算性能跑分方面,全新的 RTX 4090 D 相比 RTX 4090 大約相差 2% ~ 4%效能。



    Stable Diffusion AI 生成應用測試



    Stable Diffusion 是於 2022 年發佈的深度學習 text-to-image 模型工具,只需要輸入文字內容,配合含有大量素材的訓練模型,便可即時繪畫(AI 生成)圖像。透過不同的文字內容和特定主題的訓練模型,Stable Diffusion 主要用於生成真實人像、二次元人像、不同藝術風格等圖像類型,帶來千變萬化、創意無限的圖片內容,更是現時 2023 年熱門使用的 AI 創作工具。




    Stable Diffusion 支援 WebUI 介面,可在瀏覽器中顯示圖形化界面,能讓一般電腦用家也能輕鬆使用及調整不同的選項,亦相容不同的系統平台及電腦硬件,加上不是太過複雜的安裝過程,深受不同程度的電腦用家歡迎。不過 Stable Diffusion 對於電腦硬件中的 GPU VRAM 容量有一定的需求,太低 VRAM 容量將會影響圖片生成時的速度或是生成變化,普偏建議使用 8GB VRAM 容量或以上的顯示卡。




    筆者參考至這個網站文章,採用 Stable Diffusion + ControlNet 以生成麵包文字主題圖片,僅以簡單設定來執行標準 Stable Diffusion GPU Benchmark 跑分測試,可讓其他使用者也能模擬參考比較,並以首次生成之後的生成的完成時間為數據,而整個 AI 生成的峰值 VRAM 容量不超過 8GB。

    在不超過 8GB VRAM 容量下,RTX 4090 24GB 完成時間為 7.7 秒,而 RTX 4090 D 24GB 為 8.0 秒,兩者相差 0.3 秒。RTX 4090 與少許規格下降的 RTX 4090 D 24GB 在低需求的 AI 圖像生成只有非常輕微的差異。




    NVIDIA 於 2023 年 11 月推出全新 TensorRT Extension 工具,適用於 Stable Diffusion WebUI 安裝及使用的擴充插件。TensorRT Extension 可把一般的 Checkpoint 或 LoRA等模型,轉換到 TensorRT 格式的設定檔,並可自訂設定檔的數值設定,目前支援 Text-2-image、Image-2-image、Stable Diffusion 1.5 / 2.1 / XL、LoRA 等。NVIVIDA 表示運行 TensorRT Extension 時,將會使用 NVIDIA GPU 的 Tensor Core 計算,Stable Diffusion 的效能可提升 1 倍以上。




    測試使用 Stable Diffusuion 模組的 SDXL Turbo 1.0,並使用 TensorRT Extension 工具,轉換合適的設定置。以 1024x1024 解析度、Step 20、Batch count 10、Batch size 1、CFG Scale 7、簡單的提示詞等設定運行,並分別開啟或關閉 xformers 指令、開啟或關閉 TensorRT 功能。




    在運行 SDXL Turbo 模式時,預載時已超過 8GB VRAM 容量,以 1024x1024 解析度算圖時,更會超出 12GB 或以上 VRAM 容量。在 PyTorch、PyTorch + xformers、TensorRT 框架運算下,RTX 4090 24GB 完成時間為 51.7 秒、41.6 秒、33.4 秒,而 RTX 4080 16GB 完成時間分別為 52.3 秒、42.4 秒、34.7 秒,兩者時間相差 1% ~ 4%。相比 RTX 4090 24GB,少許規格下降的 RTX 4090 D 24GB 實際完時間只是慢一點點,效能下降並不太明顯。

    在使用 Stable Diffusion 高需求模組並以高解析度運行時,所需的 VRAM 容量隨即增加,在使用 xfomers 指令後,雖然完成時間減少了,但 VRAM 容量佔用反而更多,失去了原來減少 VRAM 佔用的優點。在使用 TensorRT 框架後,相比純 PyTorch 運算,VRAM 容量佔用明顯降低,而且縮減了 30% ~ 40% 完成時間,對於 AI 生產圖片更有幫助。


    Inno3D GeForce RTX 4090 D X3 顯示卡實測
    售價︰HK$13,200
    查詢︰ESONEX (2728-2109)


    編輯評語︰

    雖然運算單元數目減少了 10.94%,但測試結果性能下降約 5~7% 左右,NVIDIA 解釋是遊戲和程序不可能每一次都完全充份填滿,因此減少了的單元數目不會完全轉化成性能的損失,因此 GeForce RTX 4090 D 與 RTX 4090 的差距並沒有想像中大。

    由於香港市場上的 RTX 4090 現貨越來越少,售價變得相當昂貴,相反 RTX 4090 D 沒什麼炒價,如果以性價比來說可能更高,由於美國 - 香港政策法已被取消,美國對中國的科技禁運將包括香港地區在內,現有 RTX 4090 D 作為代替品已經不錯了,下一代性能更強可能連 80 都買不到了,香港人就面對現實吧。

    您需要登錄後才可以回帖 登錄 | 按這成為會員

    重要聲明:本論壇是以即時上載留言的方式運作,比思論壇對所有留言的真實性、完整性及立場等,不負任何法律責任。而一切留言之言論只代表留言者個人意見,並非本網站之立場,讀者及用戶不應信賴內容,並應自行判斷內容之真實性。於有關情形下,讀者及用戶應尋求專業意見(如涉及醫療、法律或投資等問題)。 由於本論壇受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者及用戶發現有留言出現問題,請聯絡我們比思論壇有權刪除任何留言及拒絕任何人士上載留言 (刪除前或不會作事先警告及通知 ),同時亦有不刪除留言的權利,如有任何爭議,管理員擁有最終的詮釋權。用戶切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的言論,敬請自律。本網站保留一切法律權利。

    手機版| 廣告聯繫

    GMT+8, 2024-11-5 08:00 , Processed in 0.049649 second(s), 16 queries , Gzip On, Memcache On.

    Powered by Discuz! X2.5

    © 2001-2012 Comsenz Inc.

    回頂部