Logo U-Hopper
Indietro a tutti gli articoli

TrueFace: il mondo della ricerca contro i deepfake

TrueFace: il mondo della ricerca contro i deepfake
Artificial Intelligence Progetti R&D

Costituisce un tassello fondamentale del progetto TrueBees e un primo, fondamentale passo, in ambito digital media forensics, per verificare l’autenticità di immagini condivise online: il dataset TrueFace, creato da un team di ricercatori dell'Università di Trento, è stato pubblicato e accolto con interesse della comunità scientifica.

Ci siamo fatti raccontare da Giulia Boato, professoressa associata presso il Dipartimento di Ingegneria e Scienza dell’Informazione (DISI) dell’Università di Trento, e Sebastiano Verde, suo collega e ricercatore, in cosa consiste questo dataset, come è stato costruito e perché è così importante in ambito scientifico.

U-Hopper: Ciao Giulia, ciao Sebastiano. Vi va di raccontarci un po' cosa è TrueFace? Di cosa si tratta?

Sebastiano: TrueFace è un dataset di immagini di volti, con la particolarità che parte di essi appartengono a persone reali mentre altri sono interamente generati in modo sintetico, tramite reti di Intelligenza Artificiale (AI) di ultima generazione. Si tratta di un dataset che vuole rispondere alla necessità della comunità scientifica, e in particolare la comunità scientifica che si occupa di digital media forensics, di allenare algoritmi in grado di distinguere foto autentiche da immagini generate artificialmente, non solo in condizioni di laboratorio, ma anche in scenari realistici e complessi come sono le immagini condivise sui social media. Per questo motivo, infatti, parte delle immagini di TrueFace sono anche state condivise – caricate e scaricate – su diversi social network.

Giulia Boato e Sebastiano Verde

Facciamo un passo indietro, ci spiegate brevemente cosa s’intende con il termine media forensics?

Giulia: Con media forensics intendiamo l’analisi forense di contenuti multimediali, quali immagini o video. Questo campo di ricerca si occupa di ricostruire informazioni aggiuntive sulla storia di un contenuto, come identificare il dispositivo di acquisizione o l’autore, e verificarne l’autenticità. In questo momento storico, rappresenta un ambito di ricerca chiave per determinare se un contenuto condiviso online descriva fedelmente la realtà o sia invece veicolo di disinformazione.

Da alcuni anni si affronta anche la problematica di identificare dati completamente generati al computer da Intelligenze Artificiali (come i deepfake), che spiccano particolarmente per fotorealismo e capacità di sfuggire agli algoritmi di rilevamento preesistenti.

Come è stato costruito questo dataset? Quanto tempo ci è voluto?

S: Siamo partiti da un insieme di immagini generate dalle GAN – un particolare tipo di reti di Intelligenza Artificiale di ultima generazione – che producono volti incredibilmente realistici. Abbiamo quindi generato circa 70 mila volti artificiali e li abbiamo affiancati a un insieme di volti reali, per un totale di 150 mila immagini. In questo modo abbiamo costruito la prima parte del dataset, che chiamiamo Pre-Social TrueFace. Infine, abbiamo condiviso una parte di questo dataset su alcune piattaforme social (Facebook, Telegram e Twitter) per costruirne una seconda versione, chiamata Post-Social TrueFace, contenente 60 mila immagini. La collezione del dataset ha richiesto alcuni mesi, in particolar modo per la seconda fase in cui le immagini sono state caricate e scaricate dai vari social media.

Quali risvolti comporta il nuovo dataset in ambito scientifico?

G: TrueFace è il primo dataset disponibile per la comunità scientifica a contenere immagini artificiali condivise su social media. Questo significa che non solo apre alla possibilità di allenare e testare nuovi algoritmi per l’identificazione di contenuti artificiali, ma consente per la prima volta di sviluppare metodi efficaci anche su dati post-social. È noto, infatti, che la condivisione di un dato online comporti una serie di elaborazioni (compressione, ridimensionamento, ecc.) che vanno a compromettere la possibilità di svolgere analisi forensi. Al contempo, i contenuti condivisi sui social costituiscono al giorno d’oggi una delle maggiori fonti di informazione; garantire la loro affidabilità è quindi di primaria importanza. Abbiamo la speranza che TrueFace diventi un dataset di riferimento nella comunità di ricerca internazionale per questa problematica così attuale.

E in termini più ‘pratici’? Alla nascita di quali tipologie di applicazioni può contribuire questo dataset?

S: TrueFace si colloca all’interno del progetto TrueBees , il cui obiettivo è sviluppare un sistema completo per l’autenticazione di contenuti online, sfruttando la sinergia tra media forensics e la tecnologia blockchain. Infatti, da un lato l’analisi forense consente di facilitare la verifica dell’autenticità di immagini di persone (visi) condivisi su alcuni social media (ancora un algoritmo che funzioni su tutti i tipi di immagini e su qualsiasi sito on line non esiste al mondo!) e dall’altro le blockchain forniscono una struttura dati sicura in cui conservare le immagini analizzate, una sorta di “caveau” di contenuti fidati.

Il dataset riveste un ruolo chiave all’interno del progetto per fornire i dati necessari ad addestrare gli algoritmi di analisi forense, oltre che alla validazione finale del sistema completo. Questo è un primo passo, fondamentale, per affrontare il problema, anche se l’estensione del dataset garantirebbe anche una maggior accuratezza dell’analisi forense. Speriamo la comunità di ricerca apprezzi lo sforzo fatto e contribuisca alla sua estensione per il bene comune di poter identificare contenuti falsi on line.

È in programma per il futuro un’estensione / un aggiornamento di questo dataset? Quali sono ora le nuove sfide da affrontare in ambito digital forensics?

G: Attualmente, una delle sfide maggiori consiste proprio nello spostare l’analisi forense dalle condizioni di laboratorio a quelle reali, e TrueFace rappresenta già un primo passo in questa direzione.

Come appena detto questo è un punto di inizio, ma la sua estensione garantirebbe sicuramente la possibilità di migliorare ancora le performance degli algoritmi di analisi. Da notare che questa prima versione del dataset si concentra solo su immagini di facce; potrebbe essere interessante, in futuro, estendere lo studio anche a diverse categorie di contenuti.

Inoltre i social network utilizzate sono per ora solamente tre, maggior numerosità e variabilità potrebbero aumentare la robustezza dei metodi di verifica includendo un maggior numero di possibili elaborazioni e qualità delle immagini analizzate.

Guardando ancora oltre, una sfida ulteriore consisterà nel trasferire quanto appreso sulle immagini all’analisi di contenuti video. La generazione di video falsi di alto livello non è ancora alla portata di tutti, come avviene invece per le immagini, ma è in continuo sviluppo. È quindi fondamentale disporre di strumenti di autenticazione che vadano di pari passo con le moderne tecnologie.

TrueBees è un progetto realizzato dall’Università di Trento e da U-Hopper Srl. È finanziato da Trublo nell’ambito del programma di ricerca e innovazione Horizon 2020 dell’Unione Europea (contratto di sovvenzione n. 957228), il quale mira a promuovere nuove tecnologie, come la blockchain, per rivoluzionare il settore dei media.