Microsoft Bing accelera la consegna degli annunci pubblicitari con NVIDIA Triton.

Microsoft Bing uses NVIDIA Triton to speed up ad delivery.

Il team di Jiusheng Chen è appena stato accelerato.

Stanno fornendo annunci personalizzati agli utenti di Microsoft Bing con una velocità di elaborazione 7 volte superiore a un costo ridotto, grazie a NVIDIA Triton Inference Server in esecuzione su GPU NVIDIA A100 Tensor Core.

È un risultato straordinario per il responsabile principale dell’ingegneria del software e il suo team.

Sintonizzazione di un sistema complesso

Il servizio pubblicitario di Bing utilizza centinaia di modelli che sono in costante evoluzione. Ciascuno di essi deve rispondere a una richiesta in appena 10 millisecondi, circa 10 volte più veloce di un battito di ciglia.

Le ultime migliorie sono state possibili grazie a due innovazioni sviluppate dal team per far funzionare i modelli di intelligenza artificiale in modo più rapido: Bang ed EL-Attention.

Insieme, applicano tecniche sofisticate per svolgere più lavoro in meno tempo con meno memoria del computer. La formazione del modello è stata basata su Azure Machine Learning per garantire efficienza.

Volando con NVIDIA A100 MIG

Successivamente, il team ha aggiornato il servizio pubblicitario dalle GPU NVIDIA T4 alle A100.

La funzione Multi-Instance GPU (MIG) di quest’ultime consente agli utenti di suddividere una GPU in diverse istanze.

Il team di Chen ha sfruttato appieno la funzione MIG, trasformando una singola A100 fisica in sette A100 indipendenti. Ciò ha consentito al team di ottenere una velocità di elaborazione 7 volte superiore per GPU con una risposta di inferenza in 10ms.

Software flessibile, semplice e aperto

Triton ha reso possibile il cambiamento, in parte perché consente agli utenti di eseguire contemporaneamente diversi software di runtime, framework e modalità di intelligenza artificiale su istanze isolate di una singola GPU.

Il software di inferenza è fornito in un contenitore software, quindi è facile da distribuire. E Triton open-source – disponibile anche con supporto e sicurezza di livello enterprise attraverso NVIDIA AI Enterprise – è supportato da una comunità che migliora il software nel tempo.

L’accelerazione del sistema pubblicitario di Bing con Triton su GPU A100 è un esempio di ciò che piace a Chen del suo lavoro. Ha la possibilità di assistere a progressi con l’intelligenza artificiale.

Anche se gli scenari cambiano spesso, l’obiettivo del team rimane lo stesso: creare una vittoria per i propri utenti e inserzionisti.