Nell’era digitale, i dati sono diventati una risorsa fondamentale per le aziende di ogni settore. Tuttavia, la raccolta e l’utilizzo di dati reali possono presentare sfide legate alla privacy e alla sensibilità delle informazioni. In questo contesto, la generazione di dati sintetici si sta affermando come una soluzione efficace per superare tali ostacoli. DataCebo, una società derivata dal MIT, sta sfruttando l’intelligenza artificiale generativa per produrre dati sintetici che aiutano le organizzazioni nel test di software, nel miglioramento della cura dei pazienti e nel reindirizzamento dei voli. Il loro Synthetic Data Vault è utilizzato da migliaia di persone, dimostrando l’importanza crescente dei dati sintetici nel garantire la privacy e potenziare le decisioni basate sui dati.
Generazione di dati realistici
L’intelligenza artificiale generativa sta ricevendo molta attenzione per la sua capacità di creare testi e immagini. Tuttavia, questi rappresentano solo una frazione dei dati che proliferano nella nostra società. I dati vengono generati ogni volta che un paziente attraversa un sistema medico, una tempesta impatta un volo o una persona interagisce con un’applicazione software. Utilizzare l’intelligenza artificiale generativa per creare dati sintetici realistici attorno a questi scenari può aiutare le organizzazioni a trattare più efficacemente i pazienti, a reindirizzare gli aerei o a migliorare le piattaforme software, specialmente in scenari in cui i dati del mondo reale sono limitati o sensibili.
Il Vault dei dati sintetici di DataCebo
Negli ultimi tre anni, DataCebo ha offerto un sistema software generativo chiamato Synthetic Data Vault per aiutare le organizzazioni a creare dati sintetici per testare applicazioni software e addestrare modelli di apprendimento automatico. Il Synthetic Data Vault, o SDV, è stato scaricato più di un milione di volte, con più di 10.000 scienziati dei dati che utilizzano la libreria open-source per generare dati tabulari sintetici. I fondatori, il ricercatore principale Kalyan Veeramachaneni e l’ex studentessa Neha Patki, credono che il successo dell’azienda sia dovuto alla capacità di SDV di rivoluzionare il test del software.
Adozione virale e applicazioni diverse
Nel 2016, il gruppo di Veeramachaneni nel Data to AI Lab ha svelato una suite di strumenti generativi open-source per aiutare le organizzazioni a creare dati sintetici che corrispondessero alle proprietà statistiche dei dati reali. Le aziende possono utilizzare dati sintetici al posto di informazioni sensibili nei programmi, preservando comunque le relazioni statistiche tra i punti dati. Le aziende possono anche utilizzare dati sintetici per eseguire nuovi software attraverso simulazioni per vedere come si comportano prima di rilasciarli al pubblico.
Applicazioni impressionanti e variegate
Dal 2020, i ricercatori hanno fondato DataCebo per costruire più funzionalità SDV per organizzazioni più grandi. Da allora, i casi d’uso sono stati tanto impressionanti quanto variati. Con il nuovo simulatore di volo di DataCebo, ad esempio, le compagnie aeree possono pianificare eventi meteorologici rari in un modo che sarebbe impossibile utilizzando solo dati storici. In un’altra applicazione, gli utenti di SDV hanno sintetizzato registrazioni mediche per prevedere esiti sanitari per pazienti con fibrosi cistica. Un team dalla Norvegia ha recentemente utilizzato SDV per creare dati sintetici degli studenti per valutare se varie politiche di ammissione fossero meritocratiche e prive di pregiudizi.
Nel 2021, la piattaforma di data science Kaggle ha ospitato una competizione per scienziati dei dati che ha utilizzato SDV per creare set di dati sintetici per evitare l’uso di dati proprietari. Circa 30.000 scienziati dei dati hanno partecipato, costruendo soluzioni e prevedendo risultati basati sui dati realistici dell’azienda. E mentre DataCebo è cresciuta, è rimasta fedele alle sue radici del MIT: tutti gli attuali dipendenti dell’azienda sono ex studenti del MIT.
Con l’adozione sempre più diffusa di strumenti di intelligenza artificiale e data science in ogni settore, DataCebo sta aiutando le aziende a farlo in modo più trasparente e responsabile. “Nei prossimi anni, i dati sintetici provenienti da modelli generativi trasformeranno tutto il lavoro sui dati”, afferma Veeramachaneni. “Crediamo che il 90 percento delle operazioni aziendali possa essere eseguito con dati sintetici”.