NVidia L40S
| Nowości Supermicro • NowościPrzedstawienie NVidia L40S (GPU-NVL40S)
Specyfikacja Nvidia L40S | |
GPU Architecture | NVIDIA Ada Lovelace architecture |
GPU Memory | 48GB GDDR6 with ECC |
Memory Bandwidth | 864GB/s |
Interconnect Interface | PCIe Gen4 x16: 64GB/s bidirectional |
NVIDIA Ada Lovelace Architecture-Based CUDA® Cores | 18,176 |
NVIDIA Third-Generation RT Cores | 142 |
NVIDIA Fourth-Generation Tensor Cores | 568 |
RT Core Performance TFLOPS | 212 |
FP32 TFLOPS | 91.6 |
TF32 Tensor Core TFLOPS | 183 I 366* |
BFLOAT16 Tensor Core TFLOPS | 362.05 I 733* |
FP16 Tensor Core | 362.05 I 733* |
FP8 Tensor Core | 733 I 1,466* |
Peak INT8 Tensor TOPS | 733 I 1,466* |
Peak INT4 Tensor TOPS | 733 I 1,466* |
Form Factor | 4.4" (H) x 10.5" (L), dual slot |
Display Ports | 4x DisplayPort 1.4a |
Max Power Consumption | 350W |
Power Connector | 16-pin |
Thermal | Passive |
Virtual GPU (vGPU) Software Support | Yes |
vGPU Profiles Supported | See virtual GPU licensing guide |
NVENC I NVDEC | 3x l 3x (includes AV1 encode and decode) |
Secure Boot With Root of Trust | Yes |
NEBS Ready | Level 3 |
Multi-Instance GPU (MIG) Support | No |
NVIDIA® NVLink® Support | No |
*With Sparsity |
- Nowa architektura Ada Lovelace obejmuje nowy wieloprocesor strumieniowy, rdzenie Tensor czwartej generacji, rdzenie RT trzeciej generacji i 91,6 Wydajność teraFLOPS FP32.
- Doświadcz mocy generatywnej sztucznej inteligencji, szkolenia LLM i wnioskowania dzięki funkcjom takim jak Transformer Engine — FP8, wydajność tensorowa ponad 1,5 petaFLOPS* i duża pamięć podręczna L2.
- Uwolnij niezrównane możliwości grafiki 3D i renderowania dzięki wydajności rdzenia RT 212 teraFLOPS, DLSS 3.0 do generowania ramek AI i zmianie kolejności wykonywania modułów cieniujących.
- Zwiększ akcelerację multimediów dzięki 3 silnikom kodowania i dekodowania, 4 dekoderom JPEG oraz obsłudze kodowania i dekodowania AV1.
Dlaczego NVidia L40S - Kluczowe korzyści
- Imponująca wydajność. Dla LLM, lepsza wydajność niż nawet HGX A100 w wielu scenariuszach, w tym na poziomie GPT-170B, z wyjątkiem szkolenia na masową skalę od zera
- Idealny do korzystania z wstępnie wyszkolonych modeli podstawowych firmy NVIDIA, typu open source i dostrajanie • Lepsza dostępność (skrócony czas realizacji – dostępny od września)
- Obejmuje grafikę, solidne silniki multimedialne (niedostępne z A100/H100)
- 20-25% lepsza cena niż A100
Korzyści dla klientów, którzy rozważają L40S zamiast H100 lub A100
- Jakie jest obciążenie pracą?
- Jeśli korzystasz z Generative AI/dużych modeli językowych (LLM), czy trenujesz duży model od podstaw ogromny zestaw danych lub dostrajanie wstępnie wytrenowanego modelu?
- Czy wnioskowanie przeprowadzasz głównie na podstawie wstępnie wyszkolonych modeli?
- Czy planujesz uruchamiać obciążenia HPC, takie jak symulacje naukowe/inżynierskie? Czy precyzja FP64 ważny?
- Czy Twoje obciążenie pracą wymaga grafiki, kodowania/dekodowania/transkodowania wideo?
- Czy będą to aplikacje brzegowe?
- Jakie są odpowiednie punkty odniesienia dla obciążenia pracą?
- Jaka jest skala, ile procesorów graficznych jest wymaganych?
- np. 4000 L40S z precyzją FP8 może w pełni wytrenować GPT170B z tokenami 300B w mniej niż 4 dni, który jest szybszy niż HGX A100 i tańszy.
- Jakieś konkretne specyfikacje techniczne lub problemy związane z wąskimi gardłami? Np. GPU pamięć, przepustowość pamięci, GPU Interconnect i opóźnienie?
Ważne:
- Nvidia L40S nie wspiera NVLink
- NVidia L40S jest tańsza ~15% niż A100
Powiązane strony:
- Serwery Supermicro dedykowane dla NVidia L40S
- Serwery Gigabyte dedykowane dla NVidia L40S
- Nowe stacje robocze Supermicro SYS-551A-T oraz Supermicro SYS-751GE-TNRT-NV1 chłodzone cieczą dedykowane dla AI
- Nowe serwery GIGABYTE G363-SR0 oraz G593-SD2 dla AI oraz HPC (Giga Computing)
- Artificial Intelligence (AI) ChatGPT, Bing, Bard - part 1
- Platformy GPU Supermicro