NVidia L40S

Przedstawienie NVidia L40S (GPU-NVL40S)

NVidia L40S

Specyfikacja Nvidia L40S
GPU Architecture	NVIDIA Ada Lovelace architecture
GPU Memory	48GB GDDR6 with ECC
Memory Bandwidth	864GB/s
Interconnect Interface	PCIe Gen4 x16: 64GB/s bidirectional
NVIDIA Ada Lovelace Architecture-Based CUDA® Cores	18,176
NVIDIA Third-Generation RT Cores	142
NVIDIA Fourth-Generation Tensor Cores	568
RT Core Performance TFLOPS	212
FP32 TFLOPS	91.6
TF32 Tensor Core TFLOPS	183 I 366*
BFLOAT16 Tensor Core TFLOPS	362.05 I 733*
FP16 Tensor Core	362.05 I 733*
FP8 Tensor Core	733 I 1,466*
Peak INT8 Tensor TOPS	733 I 1,466*
Peak INT4 Tensor TOPS	733 I 1,466*
Form Factor	4.4" (H) x 10.5" (L), dual slot
Display Ports	4x DisplayPort 1.4a
Max Power Consumption	350W
Power Connector	16-pin
Thermal	Passive
Virtual GPU (vGPU) Software Support	Yes
vGPU Profiles Supported	See virtual GPU licensing guide
NVENC I NVDEC	3x l 3x (includes AV1 encode and decode)
Secure Boot With Root of Trust	Yes
NEBS Ready	Level 3
Multi-Instance GPU (MIG) Support	No
NVIDIA® NVLink® Support	No
*With Sparsity

Nowa architektura Ada Lovelace obejmuje nowy wieloprocesor strumieniowy, rdzenie Tensor czwartej generacji, rdzenie RT trzeciej generacji i 91,6 Wydajność teraFLOPS FP32.
Doświadcz mocy generatywnej sztucznej inteligencji, szkolenia LLM i wnioskowania dzięki funkcjom takim jak Transformer Engine — FP8, wydajność tensorowa ponad 1,5 petaFLOPS* i duża pamięć podręczna L2.
Uwolnij niezrównane możliwości grafiki 3D i renderowania dzięki wydajności rdzenia RT 212 teraFLOPS, DLSS 3.0 do generowania ramek AI i zmianie kolejności wykonywania modułów cieniujących.
Zwiększ akcelerację multimediów dzięki 3 silnikom kodowania i dekodowania, 4 dekoderom JPEG oraz obsłudze kodowania i dekodowania AV1.

Dlaczego NVidia L40S - Kluczowe korzyści

Imponująca wydajność. Dla LLM, lepsza wydajność niż nawet HGX A100 w wielu scenariuszach, w tym na poziomie GPT-170B, z wyjątkiem szkolenia na masową skalę od zera
Idealny do korzystania z wstępnie wyszkolonych modeli podstawowych firmy NVIDIA, typu open source i dostrajanie • Lepsza dostępność (skrócony czas realizacji – dostępny od września)
Obejmuje grafikę, solidne silniki multimedialne (niedostępne z A100/H100)
20-25% lepsza cena niż A100

Korzyści dla klientów, którzy rozważają L40S zamiast H100 lub A100

Jakie jest obciążenie pracą?
- Jeśli korzystasz z Generative AI/dużych modeli językowych (LLM), czy trenujesz duży model od podstaw ogromny zestaw danych lub dostrajanie wstępnie wytrenowanego modelu?
- Czy wnioskowanie przeprowadzasz głównie na podstawie wstępnie wyszkolonych modeli?
- Czy planujesz uruchamiać obciążenia HPC, takie jak symulacje naukowe/inżynierskie? Czy precyzja FP64 ważny?
- Czy Twoje obciążenie pracą wymaga grafiki, kodowania/dekodowania/transkodowania wideo?
- Czy będą to aplikacje brzegowe?
Jakie są odpowiednie punkty odniesienia dla obciążenia pracą?
Jaka jest skala, ile procesorów graficznych jest wymaganych?
- np. 4000 L40S z precyzją FP8 może w pełni wytrenować GPT170B z tokenami 300B w mniej niż 4 dni, który jest szybszy niż HGX A100 i tańszy.
Jakieś konkretne specyfikacje techniczne lub problemy związane z wąskimi gardłami? Np. GPU pamięć, przepustowość pamięci, GPU Interconnect i opóźnienie?

Ważne:

Powiązane strony: