Questo articolo sull’IA presenta BioCLIP sfruttare il dataset TreeOfLife-10M per trasformare la visione del computer in biologia e conservazione

Questo articolo sull'IA presenta BioCLIP sfruttare il dataset TreeOfLife-10M per rivoluzionare la visione computerizzata in campo biologico e della conservazione

Molte branche della biologia, inclusa l’ecologia, la biologia evolutiva e la biodiversità, stanno sempre più utilizzando immagini digitali e visione artificiale come strumenti di ricerca. La tecnologia moderna ha notevolmente migliorato la loro capacità di analizzare grandi quantità di immagini provenienti da musei, trappole fotografiche e piattaforme di citizen science. Questi dati possono poi essere utilizzati per la delineazione delle specie, la comprensione dei meccanismi di adattamento, la stima della struttura e dell’abbondanza delle popolazioni, e per il monitoraggio e la conservazione della biodiversità.

Tuttavia, trovare e addestrare un modello appropriato per una determinata attività e etichettare manualmente abbastanza dati per le specie e lo studio specifico sono ancora sfide significative quando si cerca di utilizzare la visione artificiale per risolvere una questione biologica. Ciò richiede una grande conoscenza di machine learning e tempo.

Ricercatori dell’Ohio State University, Microsoft, University of California Irvine e Rensselaer Polytechnic Institute stanno studiando la costruzione di un tale modello per la visione fondamentale dell’Albero della Vita in questo sforzo. Questo modello deve soddisfare questi requisiti per essere applicabile in generale a compiti biologici del mondo reale. Innanzitutto, deve essere in grado di soddisfare i ricercatori che indagano una vasta varietà di cladi, non solo uno, e idealmente generalizzare all’intero albero della vita. Inoltre, dovrebbe acquisire rappresentazioni dettagliate di immagini di creature perché, nel campo della biologia, è comune incontrare organismi visivamente simili, come specie strettamente correlate all’interno dello stesso genere o specie che imitano l’aspetto reciproco per il bene della fitness. A causa dell’organizzazione dell’Albero della Vita dei viventi in gruppi ampi (come animali, funghi e piante) e molto dettagliati, questo livello di granularità è significativo. Infine, risultati eccellenti nel regime a basso numero di dati (cioè zero-shot o pochi-shot) sono cruciali a causa dell’alto costo di raccolta e etichettatura dei dati in biologia.

I modelli di visione generale attualmente addestrati su centinaia di milioni di immagini non si comportano adeguatamente quando applicati alla biologia evolutiva e all’ecologia, anche se questi obiettivi non sono nuovi per la visione artificiale. I ricercatori hanno identificato due ostacoli principali nella creazione di un modello di visione fondamentale in biologia. In primo luogo, sono necessari set di dati di pre-training migliori poiché quelli già disponibili sono inadeguati in termini di dimensioni, diversità o dettaglio delle etichette. In secondo luogo, poiché gli algoritmi di pre-training attuali non affrontano bene i tre principali obiettivi, è necessario trovare migliori metodi di pre-training che sfruttino le caratteristiche uniche del dominio biologico.

Con questi obiettivi e gli ostacoli per la loro realizzazione in mente, il team presenta quanto segue:

  1. TREE OF LIFE-10M, un enorme dataset di immagini biologiche pronte per il machine learning
  2. BIOCLIP è un modello basato sulla visione per l’albero della vita addestrato utilizzando tassi appropriati in TREEOFLIFE-10M

TREEOFLIFE-10M è un ampio e variegato dataset di immagini biologiche pronto per il machine learning. Con oltre 10 milioni di fotografie che coprono 454 mila tassi nell’Albero della Vita, i ricercatori hanno selezionato e rilasciato il più grande dataset di immagini biologiche pronte per il machine learning fino ad oggi con etichette tassonomiche correlate. Solo 2,7 milioni di foto rappresentano 10.000 tassi di iNat21, la più grande collezione di immagini biologiche pronte per il machine learning. I dataset di alta qualità esistenti, come iNat21 e BIOSCAN-1M, sono incorporati in TREEOFLIFE-10M. La maggior parte della diversità dei dati in TREEOFLIFE-10M deriva dall’Enciclopedia della Vita (eol.org), che contiene foto appena selezionate da tale fonte. La gerarchia tassonomica e le classificazioni tassonomiche superiori di ogni immagine in TREEOFLIFE-10M sono annotate nel modo più dettagliato possibile. BIOCLIP e altri modelli per il futuro della biologia possono essere addestrati con l’aiuto di TREEOFLIFE-10M.

BIOCLIP è una rappresentazione dell’Albero della Vita basata sulla vista. Un approccio comune e diretto per addestrare modelli di visione su dataset etichettati su larga scala come TREEOFLIFE10M è imparare a prevedere gli indici tassonomici dalle immagini utilizzando un obiettivo di classificazione supervisionato. Questa strategia è utilizzata anche da ResNet50 e Swin Transformer. Tuttavia, questo non tiene conto e non utilizza il complesso sistema di etichette tassonomiche: le tasse non esistono da sole, ma sono interrelate all’interno di una tassonomia approfondita. Pertanto, è possibile che un modello addestrato utilizzando una classificazione supervisionata di base non sia in grado di classificare tasse sconosciute in zero-shot o generalizzare bene a tasse che non erano presenti durante l’addestramento. Invece, il team segue un nuovo approccio che combina l’ampia tassonomia biologica di BIOCLIP con l’apprendimento contrastivo multimodale di tipo CLIP. Utilizzando l’obiettivo di apprendimento contrastivo di CLIP, possono imparare ad associare immagini ai rispettivi nomi tassonomici dopo aver “appiattito” la tassonomia dal Regno al rango di tassone più distale in una stringa nota come nome tassonomico. Utilizzando i nomi tassonomici di tasse che non sono visibili, BIOCLIP può anche effettuare classificazioni in zero-shot.

Il team suggerisce e dimostra che una tecnica di addestramento con testo misto è vantaggiosa; ciò significa che mantengono la generalizzazione dai nomi della tassonomia ma hanno maggiore flessibilità durante i test combinando più tipi di testo (ad esempio, nomi scientifici con nomi comuni) durante l’addestramento. Ad esempio, gli utenti possono ancora utilizzare i nomi comuni delle specie e BIOCLIP funzionerà eccezionalmente bene. La loro accurata valutazione di BIOCLIP si basa su dieci set di dati di classificazione di immagini a grana fine che spaziano dalla flora alla fauna e agli insetti, nonché su un set di dati sulle SPECIE RARE appositamente curato che non è stato utilizzato durante l’addestramento. BIOCLIP batte significativamente CLIP e OpenCLIP, ottenendo un miglioramento assoluto medio del 17% nelle situazioni di pochi esempi e dell’18% nelle situazioni di assenza di esempi. Inoltre, la sua analisi intrinseca può spiegare la migliore generalizzabilità di BIOCLIP, che mostra di aver appreso una rappresentazione gerarchica conforme all’Albero della Vita.

L’addestramento di BIOCLIP rimane focalizzato sulla classificazione, anche se il team ha utilizzato l’obiettivo CLIP per apprendere rappresentazioni visive per centinaia di migliaia di tassonomie in modo efficace. Per consentire a BIOCLIP di estrarre rappresentazioni a livello di tratto a grana fine, il team pianifica di incorporare fotografie di qualità della ricerca da inaturalist.org, che conta 100 milioni di fotografie o più, e raccogliere descrizioni testuali più dettagliate dell’aspetto delle specie in lavori futuri.