Apple e i ricercatori della CMU svelano il Never-ending UI Learner rivoluzionando l’accessibilità delle app attraverso l’apprendimento continuo delle macchine

Apple e i ricercatori della CMU svelano il Never-ending UI Learner rivoluzione nell'accessibilità delle app attraverso l'apprendimento continuo delle macchine

L’apprendimento automatico sta diventando sempre più integrato in una vasta gamma di settori. Il suo uso diffuso si estende a tutte le industrie, compreso il mondo delle interfacce utente (UI), dove è cruciale per anticipare i dati semantici. Questa applicazione non solo migliora l’accessibilità e semplifica i test, ma aiuta anche ad automatizzare le attività legate all’UI, risultando in applicazioni più streamline ed efficaci.

Attualmente, molti modelli si basano principalmente su set di dati di screenshot statici valutati dagli esseri umani. Ma questo approccio è costoso ed espone inclinazioni impreviste verso errori in alcune attività. Poiché non possono interagire con l’elemento dell’UI nell’app live per confermare le loro conclusioni, gli annotatori umani devono fare affidamento esclusivamente su indizi visivi quando valutano se un elemento dell’UI può essere toccato da uno snapshot.

Nonostante gli svantaggi nell’uso di set di dati che registrano solo snapshot fissi delle visualizzazioni delle applicazioni mobili, sono costosi da usare e mantenere. Tuttavia, grazie alla loro abbondanza di dati, questi set di dati continuano ad essere preziosi per addestrare Reti Neurali Profonde (DNN).

Di conseguenza, i ricercatori di Apple hanno sviluppato il sistema di intelligenza artificiale “Never-Ending UI Learner” in collaborazione con l’Università Carnegie Mellon. Questo sistema interagisce continuamente con le applicazioni mobili effettive, permettendogli di migliorare continuamente la sua comprensione dei modelli di progettazione dell’UI e delle nuove tendenze. Scarica autonomamente le app dai negozi di app per dispositivi mobili e le esamina in modo approfondito per trovare scenari di addestramento freschi e difficili.

Il Never-Ending UI Learner ha esplorato finora oltre 5.000 ore di utilizzo del dispositivo, effettuando più di 500.000 azioni su 6.000 app. Grazie a questa prolungata interazione, verranno addestrati tre diversi modelli di visione artificiale: uno per predire la toccabilità, un altro per predire la trascinabilità e un terzo per determinare la similitudine dello schermo.

Esso effettua numerose interazioni, come tocchi e swipe, sui componenti all’interno dell’interfaccia utente di ogni app durante questa ricerca. I ricercatori sottolineano che classifica gli elementi dell’UI utilizzando euristiche progettate, identificando caratteristiche come se un pulsante può essere toccato o se un’immagine può essere spostata.

Grazie ai dati raccolti, vengono addestrati modelli che prevedono la toccabilità e la trascinabilità degli elementi dell’UI e la similitudine delle schermate visualizzate. La procedura end-to-end non richiede ulteriori esempi etichettati dagli esseri umani, anche se il processo può iniziare con un modello addestrato su dati etichettati dagli esseri umani.

I ricercatori hanno sottolineato che questo metodo di investigazione attiva delle app ha un vantaggio. Aiuta la macchina a identificare circostanze difficili che i tipici set di dati etichettati dagli umani potrebbero trascurare. A volte, le persone potrebbero non notare tutto ciò che può essere toccato su uno schermo perché le immagini non sono sempre molto chiare. Tuttavia, il crawler può toccare gli oggetti e osservare immediatamente cosa accade, fornendo informazioni più chiare e precise.

I ricercatori hanno dimostrato come i modelli addestrati su questi dati migliorano nel tempo, con la previsione della toccabilità che raggiunge un’accuratezza dell’86% dopo cinque round di addestramento.

I ricercatori hanno evidenziato che le applicazioni focalizzate sulla riparazione dell’accessibilità potrebbero beneficiare di aggiornamenti più frequenti per cogliere i cambiamenti sottili. Dall’altra parte, potrebbero essere preferibili intervalli più lunghi che consentono di accumulare modifiche più significative all’UI per attività come il riassunto o l’estrazione di modelli di progettazione. Per capire le migliori tempistiche per il ritraining e gli aggiornamenti sarà necessaria ulteriore ricerca.

Questo lavoro sottolinea la possibilità di un apprendimento infinito, che consente ai sistemi di adattarsi e progredire continuamente acquisendo sempre più dati. Mentre il sistema attuale si concentra sulla modellazione di semantica semplice come la toccabilità, Apple spera di applicare principi simili per apprendere rappresentazioni più sofisticate delle UI mobili e dei modelli di interazione.