Questa pagina è stata tradotta dall'API Cloud Translation.

Tipi di macchina GPU

Puoi utilizzare le GPU su Compute Engine per accelerare carichi di lavoro specifici sulle tue VM come machine learning (ML) ed elaborazione di dati. Per utilizzare le GPU, puoi deployare una VM ottimizzata per l'acceleratore con GPU collegate oppure collegare le GPU a una VM N1 per uso generico.

Puoi anche utilizzare alcuni tipi di macchine con GPU su AI Hypercomputer. AI Hypercomputer è un sistema di supercomputing ottimizzato per supportare i tuoi workload di intelligenza artificiale (AI) e machine learning (ML). Questa opzione è consigliata per creare un'infrastruttura densamente allocata e ottimizzata per le prestazioni che dispone di integrazioni per Google Kubernetes Engine (GKE) e gli scheduler Slurm.

Compute Engine fornisce le GPU per le tue VM in modalità passthrough, in modo che le tue VM abbiano il controllo diretto sulle GPU e sulla memoria associata.

Per saperne di più sulle GPU su Compute Engine, consulta Informazioni sulle GPU.

Se hai workload ad alta intensità di grafica, come visualizzazione 3D, rendering 3D o applicazioni virtuali, puoi utilizzare le workstation virtuali NVIDIA RTX (precedentemente note come NVIDIA GRID).

Questo documento fornisce una panoramica delle diverse VM con GPU disponibili su Compute Engine.

Per visualizzare le regioni e le zone disponibili per le GPU su Compute Engine, consulta Disponibilità di regioni e zone per le GPU.

GPU per carichi di lavoro di computing

Per i carichi di lavoro di calcolo, le GPU sono supportate per i seguenti tipi di macchine:

VM A4X: queste VM hanno Superchip NVIDIA GB200 collegati automaticamente.
VM A4: queste VM hanno GPU NVIDIA B200 collegate automaticamente.
VM A3: a queste VM sono collegate automaticamente GPU NVIDIA H100 da 80 GB o NVIDIA H200 da 141 GB.
VM A2: a queste VM sono collegate automaticamente GPU NVIDIA A100 da 80 GB o NVIDIA A100 da 40 GB.
VM G2: a queste VM sono collegate automaticamente GPU NVIDIA L4.
VM N1: per queste VM, puoi collegare i seguenti modelli di GPU: NVIDIA T4, NVIDIA V100, NVIDIA P100 o NVIDIA P4.

Serie di macchine A4X

Per utilizzare i superchip NVIDIA GB200, devi utilizzare un tipo di macchina A4X ottimizzato per l'acceleratore. Ogni tipo di macchina A4X ha un numero fisso di GPU, vCPU e dimensioni della memoria.

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3e)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (GBps)^‡
`a4x-highgpu-4g`	4	720	140	884	12.000	6	2000

^* La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.
^† Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
^‡ La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori. Vedi Larghezza di banda della rete.

Serie di macchine A4

Per utilizzare le GPU NVIDIA B200 (nvidia-b200), devi utilizzare un tipo di macchina A4 ottimizzato per l'acceleratore. Ogni tipo di macchina A4 ha un numero fisso di GPU, vCPU e dimensioni della memoria.

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3e)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)^‡
`a4-highgpu-8g`	8	1440	224	3968	12.000	10	3600

Serie di macchine A3

Per utilizzare GPU NVIDIA H100 da 80 GB o NVIDIA H200 da 141 GB, devi utilizzare un tipo di macchina A3 ottimizzato per l'acceleratore. Ogni tipo di macchina A3 ha un numero fisso di GPU, vCPU e dimensioni della memoria.

Tipo di macchina A3 Ultra

Per utilizzare le GPU NVIDIA H200 da 141 GB, devi utilizzare il tipo di macchina A3 Ultra. Questo tipo di macchina ha GPU H200 da 141 GB (nvidia-h200-141gb) e offre le massime prestazioni di rete. Sono ideali per l'addestramento e la distribuzione dei modelli di base.

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3e)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)^‡
`a3-ultragpu-8g`	8	1128	224	2952	12.000	10	3600

Tipi di macchine A3 Mega, High ed Edge

Per utilizzare NVIDIA H100 da 80 GB, hai le seguenti opzioni:

A3 Mega: a questi tipi di macchine sono collegate GPU H100 da 80 GB (nvidia-h100-mega-80gb) e sono ideali per carichi di lavoro di addestramento e gestione su larga scala.
A3 High: a questi tipi di macchine sono collegate GPU H100 da 80 GB (nvidia-h100-80gb) e sono adatti sia per le attività di addestramento che per quelle di serving.
A3 Edge: questi tipi di macchine sono dotati di GPU H100 da 80 GB (nvidia-h100-80gb), sono progettati specificamente per il servizio e sono disponibili in un insieme limitato di regioni.

A3 Mega

Suggerimento: quando esegui il provisioning dei tipi di macchine a3-megagpu-8g, ti consigliamo di utilizzare un cluster di queste VM ed eseguire il deployment con uno scheduler come Google Kubernetes Engine (GKE) o Slurm. Per istruzioni dettagliate su una di queste opzioni, consulta quanto segue:

Per creare un cluster Google Kubernetes Engine, consulta Esegui il deployment di un cluster A3 Mega con GKE.
Per creare un cluster Slurm, consulta Esegui il deployment di un cluster A3 Mega Slurm.

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)^‡
`a3-megagpu-8g`	8	640	208	1872	6000	9	1800

A3 High

Suggerimento: durante il provisioning dei tipi di macchine a3-highgpu-1g, a3-highgpu-2g o a3-highgpu-4g, devi creare VM utilizzando VM spot o una funzionalità che utilizza Dynamic Workload Scheduler (DWS), ad esempio le richieste di ridimensionamento in un MIG. Per istruzioni dettagliate su una di queste opzioni, consulta quanto segue:

Per creare VM spot, imposta il modello di provisioning su SPOT quando crei una VM ottimizzata per l'acceleratore.
Per creare una richiesta di ridimensionamento in un MIG che utilizza DWS, consulta Crea un gruppo di istanze gestite con VM GPU.

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)^‡
`a3-highgpu-1g`	1	80	26	234	750	1	25
`a3-highgpu-2g`	2	160	52	468	1500	1	50
`a3-highgpu-4g`	4	320	104	936	3000	1	100
`a3-highgpu-8g`	8	640	208	1872	6000	5	1000

A3 Edge

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Numero di NIC fisiche	Larghezza di banda massima della rete (Gbps)^‡
`a3-edgegpu-8g`	8	640	208	1872	6000	5	800: per asia-south1 e northamerica-northeast2 400: per tutte le altre regioni A3 Edge

Serie di macchine A2

Per utilizzare le GPU NVIDIA A100 su Google Cloud, devi utilizzare un tipo di macchina A2 ottimizzata per l'acceleratore. Ogni tipo di macchina A2 ha un numero fisso di GPU, vCPU e dimensioni fisse della memoria.

Le serie di macchine A2 sono disponibili in due tipi:

A2 Ultra: a questi tipi di macchine sono collegate GPU A100 da 80 GB (nvidia-a100-80gb) e dischi SSD locali.
A2 Standard: a questi tipi di macchine sono collegate GPU A100 da 40 GB (nvidia-tesla-a100).

A2 Ultra

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Larghezza di banda massima della rete (Gbps)^‡
`a2-ultragpu-1g`	1	80	12	170	375	24
`a2-ultragpu-2g`	2	160	24	340	750	32
`a2-ultragpu-4g`	4	320	48	680	1500	50
`a2-ultragpu-8g`	8	640	96	1360	3000	100

A2 Standard

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB HBM3)	Numero di vCPU^†	Memoria VM (GB)	SSD locale collegato (GiB)	Larghezza di banda massima della rete (Gbps)^‡
`a2-highgpu-1g`	1	40	12	85	Sì	24
`a2-highgpu-2g`	2	80	24	170	Sì	32
`a2-highgpu-4g`	4	160	48	340	Sì	50
`a2-highgpu-8g`	8	320	96	680	Sì	100
`a2-megagpu-16g`	16	640	96	1360	Sì	100

^* La memoria GPU è la memoria disponibile su un dispositivo GPU che può essere utilizzata per l'archiviazione temporanea dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei workload ad alta intensità grafica.

Serie di macchine G2

Per utilizzare le GPU NVIDIA L4 (nvidia-l4 o nvidia-l4-vws), devi utilizzare un tipo di macchina G2 ottimizzato per l'acceleratore.

A ogni tipo di macchina G2 è collegato un numero fisso di GPU NVIDIA L4 e vCPU. Ogni tipo di macchina G2 ha anche una memoria predefinita e un'intervallo di memoria personalizzato. L'intervallo di memoria personalizzato definisce la quantità di memoria che puoi allocare alla VM per ogni tipo di macchina. Puoi specificare la memoria personalizzata durante la creazione della VM.

Tipo di macchina	Conteggio GPU	Memoria GPU^* (GB GDDR6)	Numero di vCPU^†	Memoria VM predefinita (GB)	Intervallo di memoria VM personalizzato (GB)	SSD locale massima supportata (GiB)	Larghezza di banda massima della rete (Gbps)^‡
`g2-standard-4`	1	24	4	16	da 16 a 32	375	10
`g2-standard-8`	1	24	8	32	da 32 a 54	375	16
`g2-standard-12`	1	24	12	48	da 48 a 54	375	16
`g2-standard-16`	1	24	16	64	da 54 a 64	375	32
`g2-standard-24`	2	48	24	96	da 96 a 108	750	32
`g2-standard-32`	1	24	32	128	da 96 a 128	375	32
`g2-standard-48`	4	96	48	192	da 192 a 216	1500	50
`g2-standard-96`	8	192	96	384	da 384 a 432	3000	100

Serie di macchine N1

Puoi collegare i seguenti modelli di GPU a un tipo di macchina N1, ad eccezione del tipo di macchina con core condivisi N1.

Le VM N1 con un numero inferiore di GPU sono limitate a un numero massimo di vCPU. In generale, un numero maggiore di GPU ti consente di creare istanze VM con un numero maggiore di vCPU e memoria.

GPU N1+T4

Puoi collegare GPU NVIDIA T4 alle VM N1 per uso generico con le seguenti configurazioni VM.

Tipo di acceleratore	Conteggio GPU	Memoria GPU^* (GB GDDR6)	Conteggio vCPU	Memoria VM (GB)	SSD locale supportato
`nvidia-tesla-t4` o `nvidia-tesla-t4-vws`	1	16	1-48	Da 1 a 312	Sì
	2	32	1-48	Da 1 a 312	Sì
	4	64	1-96	Da 1 a 624	Sì

GPU N1+P4

Puoi collegare GPU NVIDIA P4 alle VM N1 per uso generico con le seguenti configurazioni VM.

Tipo di acceleratore	Conteggio GPU	Memoria GPU^* (GB GDDR5)	Conteggio vCPU	Memoria VM (GB)	SSD locale supportato^†
`nvidia-tesla-p4` o `nvidia-tesla-p4-vws`	1	8	Da 1 a 24	1-156	Sì
	2	16	1-48	Da 1 a 312	Sì
	4	32	1-96	Da 1 a 624	Sì

^†Per le VM con GPU NVIDIA P4 collegate, i dischi SSD locali sono supportati solo nelle zone us-central1-c e northamerica-northeast1-b.

GPU N1+V100

Puoi collegare GPU NVIDIA V100 alle VM N1 per uso generico con le seguenti configurazioni VM.

Tipo di acceleratore	Conteggio GPU	Memoria GPU^* (GB HBM2)	Conteggio vCPU	Memoria VM (GB)	SSD locale supportato^†
`nvidia-tesla-v100`	1	16	Da 1 a 12	1-78	Sì
	2	32	Da 1 a 24	1-156	Sì
	4	64	1-48	Da 1 a 312	Sì
	8	128	1-96	Da 1 a 624	Sì

GPU N1+P100

Puoi collegare GPU NVIDIA P100 alle VM N1 per uso generico con le seguenti configurazioni VM.

Per alcune GPU NVIDIA P100, la CPU e la memoria massime disponibili per alcune configurazioni dipendono dalla zona in cui è in esecuzione la risorsa GPU.

Tipo di acceleratore Conteggio GPU Memoria GPU^* (GB HBM2) Conteggio vCPU Memoria VM (GB) SSD locale supportato

nvidia-tesla-p100 o
nvidia-tesla-p100-vws 1 16 Da 1 a 16 Da 1 a 104 Sì

2 32 Da 1 a 32 Da 1 a 208 Sì

Tipo di acceleratore	Conteggio GPU	Memoria GPU^* (GB HBM2)	Conteggio vCPU	Memoria VM (GB)	SSD locale supportato
`nvidia-tesla-p100` o `nvidia-tesla-p100-vws`	1	16	Da 1 a 16	Da 1 a 104	Sì
2	32	Da 1 a 32	Da 1 a 208	Sì
4	64	Da 1 a 64 (us-east1-c, europe-west1-d, europe-west1-b) Da 1 a 96 (tutte le zone P100)	Da 1 a 208 (us-east1-c, europe-west1-d, europe-west1-b) Da 1 a 624 (tutte le zone P100)	Sì

Da 1 a 64
(us-east1-c, europe-west1-d, europe-west1-b)

Da 1 a 96
(tutte le zone P100)

Da 1 a 208
(us-east1-c, europe-west1-d, europe-west1-b)

Da 1 a 624
(tutte le zone P100)

Sì

Workstation virtuali (vWS) NVIDIA RTX per i workload grafici

Se hai workload ad alta intensità di grafica, come la visualizzazione 3D, puoi creare workstation virtuali che utilizzano le workstation virtuali (vWS) NVIDIA RTX (precedentemente note come NVIDIA GRID). Quando crei una workstation virtuale, alla VM viene aggiunta automaticamente una licenza per workstation virtuale (vWS) NVIDIA RTX.

Per informazioni sui prezzi delle workstation virtuali, consulta la pagina dei prezzi delle GPU.

Per i workload grafici, sono disponibili i modelli di workstation virtuale (vWS) NVIDIA RTX:

Serie di macchine G2: per i tipi di macchine G2 puoi attivare le workstation virtuali (vWS) NVIDIA L4: nvidia-l4-vws
Serie di macchine N1: per i tipi di macchine N1, puoi attivare le seguenti workstation virtuali:
- NVIDIA T4 Virtual Workstations: nvidia-tesla-t4-vws
- NVIDIA P100 Virtual Workstations: nvidia-tesla-p100-vws
- NVIDIA P4 Virtual Workstations: nvidia-tesla-p4-vws

Grafico di confronto generale

La seguente tabella descrive le dimensioni della memoria GPU, la disponibilità delle funzionalità e i tipi di carichi di lavoro ideali dei diversi modelli di GPU disponibili su Compute Engine.

Modello di GPU	Memoria GPU	Interconnessione	Ideale per
GB200	180 GB HBM3e a 8 TB/s	NVLink Full Mesh a 1800 GBps	Addestramento e inferenza distribuiti su larga scala di LLM, sistemi di raccomandazione e HPC
B200	180 GB HBM3e a 8 TB/s	NVLink Full Mesh a 1800 GBps	Addestramento e inferenza distribuiti su larga scala di LLM, sistemi di raccomandazione e HPC
H200 141GB	141 GB HBM3e a 4,8 TBps	NVLink Full Mesh a 900 GBps	Modelli di grandi dimensioni con tabelle di dati enormi per addestramento ML, inferenza, HPC, BERT, DLRM
H100 80GB	80 GB HBM3 a 3,35 TBps	NVLink Full Mesh a 900 GBps	Modelli di grandi dimensioni con tabelle di dati enormi per addestramento ML, inferenza, HPC, BERT, DLRM
A100 80 GB	HBM2e da 80 GB a 1,9 TBps	NVLink Full Mesh a 600 GB/s	Modelli di grandi dimensioni con tabelle di dati enormi per addestramento ML, inferenza, HPC, BERT, DLRM
A100 40 GB	HBM2 da 40 GB a 1,6 TBps	NVLink Full Mesh a 600 GB/s	Addestramento ML, inferenza, HPC
L4	GDDR6 da 24 GB a 300 GB/s	N/D	Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video, HPC
T4	GDDR6 da 16 GB a 320 GB/s	N/D	Inferenza ML, addestramento, workstation di visualizzazione remota, transcodifica video
V100	HBM2 da 16 GB a 900 GB/s	NVLink Ring a 300 GB/s	Addestramento ML, inferenza, HPC
P4	GDDR5 da 8 GB a 192 GB/s	N/D	Workstation di visualizzazione remota, inferenza ML e transcodifica video
P100	16 GB HBM2 a 732 GB/s	N/D	Addestramento ML, inferenza, HPC, workstation di visualizzazione remota

Per confrontare i prezzi delle GPU per i diversi modelli e le diverse regioni disponibili su Compute Engine, consulta Prezzi delle GPU.

Grafico di confronto del rendimento

La tabella seguente descrive le specifiche di rendimento dei diversi modelli di GPU disponibili su Compute Engine.

Rendimento del calcolo

Modello di GPU	FP64	FP32	FP16	INT8
GB200	90 TFLOPS	180 TFLOPS
B200	40 TFLOPS	80 TFLOPS
H200 141GB	34 TFLOPS	67 TFLOPS
H100 80GB	34 TFLOPS	67 TFLOPS
A100 80 GB	9,7 TFLOPS	19,5 TFLOPS
A100 40 GB	9,7 TFLOPS	19,5 TFLOPS
L4	0,5 TFLOPS^*	30,3 TFLOPS
T4	0,25 TFLOPS^*	8,1 TFLOPS
V100	7,8 TFLOPS	15,7 TFLOPS
P4	0,2 TFLOPS^*	5,5 TFLOPS		22 TOPS^†
P100	4,7 TFLOPS	9,3 TFLOPS	18,7 TFLOPS

^*Per consentire al codice FP64 di funzionare correttamente, nell'architettura delle GPU T4, L4 e P4 è incluso un piccolo numero di unità hardware FP64.
^†TeraOperations al secondo.

Prestazioni dei Tensor Core

Modello di GPU	FP64	TF32	FP16/FP32 a precisione mista	INT8	INT4	FP8
GB200	90 TFLOPS	2500 TFLOPS^†	5000 TFLOPS^{*, †}	10.000 TFLOPS^†	20.000 TFLOPS^†	10.000 TFLOPS^†
B200	40 TFLOPS	1100 TFLOPS^†	4500 TFLOPS^{*, †}	9000 TFLOPS^†		9000 TFLOPS^†
H200 141GB	67 TFLOPS	989 TFLOPS^†	1979 TFLOPS^{*, †}	3958 TOPS^†		3958 TFLOPS^†
H100 80GB	67 TFLOPS	989 TFLOPS^†	1979 TFLOPS^{*, †}	3958 TOPS^†		3958 TFLOPS^†
A100 80 GB	19,5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1248 TOPS
A100 40 GB	19,5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1248 TOPS
L4		120 TFLOPS^†	242 TFLOPS^{*, †}	485 TOPS^†		485 TFLOPS^†
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

^*Per l'addestramento a precisione mista, le GPU NVIDIA GB200, B200, H200, H100, A100 e L4 supportano anche il tipo di dati bfloat16.
^†Per le GPU NVIDIA GB200, B200, H200, H100 e L4, è supportata la sparsità strutturale, che puoi utilizzare per raddoppiare il valore delle prestazioni. I valori mostrati sono con la sparsità. Le specifiche sono la metà inferiori senza la sparsità.

Passaggi successivi

Per saperne di più sulle GPU su Compute Engine, consulta la sezione Informazioni sulle GPU.
Consulta la disponibilità di regioni e zone GPU.
Consulta Larghezze di banda di rete e GPU.
Scopri di più sui prezzi delle GPU.