CPU Grace سروری انویدیا در بیش از نیمی از نتایج بنچمارک ها از Bergamo، Genoa و Emerald Rapids بهتر عمل میکند
مروری دقیق بر CPU سروری Grace شرکت Nvidia نشان میدهد که این CPU بسیار رقابتی است و طبق بررسیهای Phoronix، در بیش از نیمی از بنچمارکها عملکرد بهتری نسبت به CPUهای Bergamo، Genoa و Emerald Rapids دارد. اگر بهینهسازیهای بیشتری برای معماری ARM اعمال شود، ممکن است CPU Grace به عنوان یک پردازنده قدرتمند برای مراکز داده ثابت شود.
GH100 شامل GPU Hopper و CPU Grace 72 هستهای با 480 گیگابایت حافظه LPDDR5X است. از آنجا که Nvidia تکتراشههای Grace را به تنهایی عرضه نمیکند، GH100 (و GH200) واقعاً تنها دستگاههایی هستند که میتوانند برای ارزیابی عملکرد یک CPU Grace تست شوند.
در جدول زیر، ما نتایج مقایسه CPU Grace با Epyc 9754 مبتنی بر Bergamo شرکت AMD و Xeon Platinum Plus بالاترین مدل اینتل یعنی Emerald Rapids را بررسی کردهایم.
بنچمارک های پردازنده GH200
Grace-Hopper GH200 | Epyc 9754 | Xeon Platinum 8592+ | |
High Performance Conjugate Gradient | 41.69 | 25.89 | 35.42 |
Algebraic Multi-Grid Benchmark 1.2 | 1,997,929,111 | 2,291,049,667 | 1,839,912,667 |
LULESH 2.0.3 | 23,185.18 | 22,356.75 | 39,468.91 |
Xmrig 6.18.1 | 17,253 | 29,356.1 | 40,381.2 |
John The Ripper 2023.03.14 | 68,817 | 204,828 | 178,108 |
ACES DGEMM 1.0 | 17.94 | 43.68 | 29.14 |
GraphicsMagick 1.3.38 Sharpen | 1,363 | 924 | 749 |
GraphicsMagick 1.3.38 Enhance | 1,761 | 1,451 | 1,192 |
Graph500 3.0 Median | 1,239,790,000 | 1,147,090,000 | 1,238,670,000 |
Graph500 3.0 Max | 1,315,650,000 | 1,184,510,000 | 1,304,200,000 |
Stress-NG 0.16.04 Matrix | 512,759.08 | 552,067.04 | 301,894.53 |
Stress-NG 0.16.04 Matrix 3D | 17,483.02 | 8,009.21 | 13,854.38 |
این آزمایشها با پارامتر های مختلف اندازهگیری شدهاند، از GFLOPs تا محاسبات در ثانیه تا امتیازها. بیشتر مشکلات CPU Grace در این مجموعه از بنچمارکها قرار دارند، به همین دلیل این CPU به نظر اولیه ممکن است چندان چشمگیر نباشد.
با این حال، بارها و بارها مواردی وجود دارد که CPU Grace برتریهای بزرگی دارد، مانند High Performance Conjugate Gradient و GraphicsMagick. در این مجموعه دوم از آزمایشها که بر اساس زمان اتمام امتیازدهی شدهاند و کاهش آن بهتر است، CPU Grace موفقیت بیشتری داشته است.
بنچمارک های پردازنده GH200 (کمتر بهتر است)
Grace-Hopper GH200 | Epyc 9754 | Xeon Platinum 8592+ | |
Rodinia 3.1 (Lower is better) | 30.31 | 25.15 | 39.89 |
NWChem 7.0.2 (Lower is better) | 1,403.5 | 1,700.8 | 1,850.8 |
Xompact3d Incompact3d (Lower is better) | 254.49 | 493.5 | 323.53 |
Xompact3d Incompact3d (Lower is better) | 9.81 | 9.03 | 10.18 |
Godot Compilation 4.0 (Lower is better) | 139.1 | 118.25 | 111.96 |
Primesieve 8.0 (Lower is better) | 35.49 | 21.76 | 49.06 |
Helsing 1.0-beta (Lower is better) | 67.61 | 48.95 | 84.95 |
DuckDB 0.9.1 IMDB (Lower is better) | 92.08 | 147.6 | 96.87 |
DuckDB 0.9.1 TPC-H Parquet (Lower is better) | 148.76 | 177.13 | 134.73 |
RawTherapee (Lower is better) | 46.72 | 66.13 | 45.53 |
Timed Gem 5 Compilation 23.0.1 (Lower is better) | 180.62 | 208.58 | 174.18 |
Overall Average Performance | 2,175.03 | 2,459.11 | 2,242.9 |
در پایان، تک تراشه گریس 15 برد در برابر Emerald Rapids و 13 برد در برابر هر دو برگامو و جنوا (که در جدول گنجانده نشده است، اما نتایج بسیار مشابه هستند) کسب می کند. حتی مواردی وجود داشت که CPU سرور انویدیا در سیستمهای دو سوکتی پردازندههای AMD یا Intel را شکست داد. گریس همچنین در مقایسه با Altra Max M128-30 قدیمی Ampere که از Arm نیز استفاده می کند بسیار سریع بود.
با این حال، به دلیل اینکه بسیاری از مشکلات CPU Grace بزرگ بودند، در میانگین 3٪ پس از Xeon Platinum 8592 Plus مدعی Emerald Rapids قرار دارد و حدود 13٪ کندتر از Epyc 9754 مبتنی بر Bergamo و Epyc 9654 مبتنی بر Genoa است.
این بررسی نشان میدهد که CPU Grace از نظر عملکرد در مقایسه با رقبای اصلی خود، یعنی AMD و Intel، بسیار قابل توجه است و میتواند گزینهی جذابی برای مراکز داده و سرورهای ابری باشد. اما این نکته نیز مهم است که نیازمند بهینهسازیهای بیشتری برای بهبود عملکرد در برخی از بارها و موارد خاص است.
به گفته Phoronix ، “هنوز برخی از بارهای کاری برای AARCH64 [ARM] بهینه نشده اند”، که دلیل اصلی این است که گریس با اختلاف زیاد در بنچمارک برخی از بارها شکست می خورد.
ارزیابی اینکه Grace به عنوان یک CPU سرور تنها بر اساس عملکرد چقدر خوب خواهد بود، دشوار است، زیرا کارایی نیز یک معیار کلیدی است.
با این حال، ما می دانیم که سوپرچیپ Grace ترکیبی از دو CPU Grace دارای TDP 500 وات است که به این معنی است که یک Grace به احتمال زیاد از چیزی بیشتر از 350 وات استفاده نمی کند.
بنچمارک های اولیه برای سوپرچیپ مطمئناً نشان می دهد که بسیار کارآمد است، که احتمالاً برای پیکربندی های تک تراشه نیز ابن مورد صادق است.