Svelando le Reti Bayesiane a Flusso Una Nuova Frontiera nella Modellazione Generativa

Svelando le Reti Bayesiane a Flusso una Nuova Frontiera nella Modellazione Generativa

La modellizzazione generativa rientra nell’apprendimento automatico non supervisionato, in cui il modello impara a scoprire i pattern nei dati di input. Utilizzando questa conoscenza, il modello può generare nuovi dati autonomamente, che sono correlati all’insieme di dati di addestramento originale. Ci sono stati numerosi progressi nel campo dell’IA generativa e delle reti utilizzate, in particolare modelli autoregressivi, VAE profondi e modelli di diffusione. Tuttavia, questi modelli tendono ad avere svantaggi in caso di dati continui o discreti.

I ricercatori hanno introdotto un nuovo tipo di modello generativo chiamato Bayesian Flow Networks (BFNs). Possiamo pensare ai BFNs con l’aiuto di Alice e Bob. Bob parte da una distribuzione iniziale di base. Utilizza i suoi parametri in una rete neurale per ottenere i parametri di una nuova “distribuzione di output”. Alice aggiunge rumore ai dati in modo pianificato per ottenere una “distribuzione del mittente”. Bob combina la distribuzione di output con lo stesso rumore per creare una “distribuzione del destinatario”. Combina distribuzioni del mittente ipotetiche per tutti i possibili valori dei dati, considerando le loro probabilità secondo la distribuzione di output.

Alice invia un campione dalla sua distribuzione del mittente a Bob. Bob aggiorna la sua distribuzione iniziale utilizzando le regole bayesiane basate su questo campione. Gli aggiornamenti funzionano facilmente se la distribuzione iniziale modella ogni variabile di dati separatamente. Bob ripete il processo in più passaggi. Alla fine, le sue previsioni diventano abbastanza accurate da consentire ad Alice di inviare i dati senza rumore.

Il processo descritto, a sua volta, crea una funzione di perdita per n passaggi, che può essere estesa anche al tempo continuo considerando un numero infinito di passaggi. Nel tempo continuo, gli aggiornamenti bayesiani diventano un flusso bayesiano di informazioni dai dati alla rete. Un BFN addestrato con una perdita nel tempo continuo può essere eseguito per qualsiasi numero di passaggi discreti durante l’inferenza e il campionamento, con una migliore performance all’aumentare del numero di passaggi.

Per i dati continui, i BFNs sono più strettamente correlati ai modelli di diffusione variazionale, con una funzione di perdita nel tempo continuo molto simile. La differenza principale, in questo caso, è che gli input della rete sono considerevolmente meno rumorosi nei BFNs rispetto alla diffusione variazionale e ad altri modelli di diffusione continua. Questo perché, in generale, il processo generativo dei BFNs inizia con i parametri di una prior fissa, mentre quello dei modelli di diffusione inizia con un rumore puro.

I ricercatori hanno delineato il framework dei BFNs per essere applicato a dati continui, discreti, discretizzati. Sono stati condotti esperimenti su CIFAR-10 (immagini a colori 8-bit 32×32), MNIST dinamicamente binarizzato (immagini binarizzate di cifre scritte a mano 28×28) e text8 (sequenze di caratteri di lunghezza 256 con un alfabeto di dimensioni 27), e i BFN hanno superato tutti i benchmark. Questo studio ha offerto una prospettiva fresca sui BFN nella modellazione generativa e ha aperto nuove opportunità in questo campo.