Ricercatori avvertono: potremmo esaurire i dati per addestrare l’IA entro il 2026. E dopo?

La potenziale⁣ mancanza di dati per addestrare l’IA potrebbe rallentare la sua‍ crescita e alterare⁤ la sua traiettoria

Con ‍l’aumentare della popolarità dell’intelligenza⁣ artificiale (IA), i ricercatori hanno avvertito che l’industria potrebbe essere a corto di dati di ⁢addestramento, il carburante⁤ che alimenta i potenti sistemi di intelligenza ⁣artificiale. Ciò potrebbe rallentare la ‌crescita dei⁣ modelli⁤ di IA, in particolare dei grandi modelli ⁣di linguaggio, ⁤e potrebbe persino alterare la traiettoria della rivoluzione‍ dell’IA.

Ma perché la potenziale mancanza di dati è un problema, considerando quanto ce ne sia⁤ sul web?‍ E c’è un modo ⁢per affrontare‍ il rischio?

L’importanza dei dati di alta‌ qualità per l’IAAbbiamo bisogno di molti dati per addestrare algoritmi di intelligenza artificiale potenti, accurati ⁣e di alta qualità. Ad esempio, ChatGPT è stato addestrato su ⁤570 gigabyte di dati di⁢ testo, o⁢ circa 300 miliardi di parole.

Allo stesso‍ modo, l’algoritmo di diffusione ⁢stabile (che sta dietro molte app di generazione di immagini di ⁢intelligenza artificiale come DALL-E, Lensa e ‍Midjourney) è stato addestrato sul dataset LIAON-5B composto ‍da 5,8 miliardi di coppie immagine-testo. Se un algoritmo viene addestrato su una ⁣quantità ‍insufficiente di dati,‍ produrrà output inaccurati o di bassa qualità.

Anche la⁤ qualità dei dati di addestramento è importante. I dati di bassa qualità come i post ⁢sui social media o le fotografie sfocate sono facili da reperire, ma non sono sufficienti per addestrare modelli ⁢di⁣ IA ad alte prestazioni.

I testi presi dalle piattaforme dei ‍social media potrebbero essere tendenziosi o prevenuti,⁤ o potrebbero includere disinformazione o contenuti illegali che potrebbero essere replicati⁣ dal‌ modello.⁤ Ad esempio, quando‌ Microsoft ha cercato⁤ di addestrare il ⁣suo bot di intelligenza artificiale ‍utilizzando i contenuti di Twitter, ha imparato a produrre output razzisti e misogini.

Ecco perché gli sviluppatori di IA cercano contenuti di⁢ alta ⁤qualità come testi tratti da libri, articoli online, articoli ⁤scientifici, Wikipedia e determinati⁢ contenuti web filtrati. L’Assistente Google⁤ è ⁣stato addestrato su⁣ 11.000 romanzi⁢ rosa presi dal sito di autopubblicazione Smashwords per renderlo più conversazionale.

Abbiamo abbastanza dati?L’industria ⁣dell’IA ha addestrato sistemi di intelligenza artificiale su dataset sempre più grandi, ed è per questo che ora abbiamo modelli ad alte⁢ prestazioni come ChatGPT o DALL-E 3. Allo stesso tempo, la ricerca‌ mostra che le scorte di dati online stanno crescendo molto più lentamente rispetto ai dataset utilizzati ⁤per addestrare l’IA.

In un articolo pubblicato ⁣l’anno scorso, un gruppo di ricercatori ha previsto che esauriremo i dati di testo di alta qualità prima del 2026 se le attuali tendenze di addestramento dell’IA continueranno. Hanno anche stimato che i dati di linguaggio di bassa qualità si ‌esauriranno tra‌ il 2030 e il 2050, e i dati di immagini di bassa qualità tra il‍ 2030 ⁤e il 2060.

Secondo ⁣il gruppo di consulenza ‌e revisione contabile ⁣PwC, l’IA potrebbe contribuire fino a 15,7⁢ trilioni di ‍dollari (24,1 trilioni di dollari australiani)⁣ all’economia mondiale entro‍ il 2030. Ma esaurire i dati utilizzabili potrebbe ⁢rallentarne lo sviluppo.

Dovremmo preoccuparci?Se ‌i punti⁣ sopra potrebbero allarmare alcuni fan dell’IA, la situazione potrebbe non essere così grave come sembra. Ci sono molte incognite su come si svilupperanno i modelli di IA in futuro, così come alcune soluzioni per affrontare il rischio di carenza di dati.

Un’opportunità è⁣ per gli sviluppatori di ⁢IA di migliorare gli algoritmi in modo che utilizzino in modo ⁢più ⁣efficiente i dati⁣ che ‍già hanno.

È probabile che nei prossimi⁢ anni saranno in grado⁣ di addestrare sistemi di IA ad alte prestazioni utilizzando meno dati, e forse meno potenza di‌ calcolo. Ciò contribuirebbe anche a ridurre l’impronta di carbonio dell’IA.

Un’altra‍ opzione è utilizzare l’IA per creare dati sintetici per addestrare i sistemi. In altre parole, gli sviluppatori possono semplicemente generare i dati di cui hanno bisogno, ⁢curati per adattarsi al loro ⁤particolare modello di IA.

Diversi progetti stanno già⁤ utilizzando contenuti sintetici, spesso provenienti da servizi di ‍generazione di dati come Mostly AI. Questo diventerà sempre più comune in futuro.

Gli sviluppatori stanno anche cercando contenuti al di fuori dello ⁢spazio ⁣online gratuito,‌ come quelli detenuti da ‍grandi editori⁤ e da archivi offline. Pensate ai milioni di testi pubblicati prima di Internet. Resi disponibili digitalmente, potrebbero fornire una nuova fonte di ⁣dati per i progetti di IA.

News Corp, uno dei più ‍grandi proprietari ‍di contenuti giornalistici al mondo (che ‍ha gran‌ parte dei suoi contenuti dietro un paywall), ha recentemente dichiarato di essere in trattative per accordi di contenuto‌ con gli sviluppatori di‍ IA. Tali accordi costringerebbero le aziende di IA a pagare per i dati di addestramento, mentre finora li hanno ‌principalmente prelevati gratuitamente da Internet.

I ⁢creatori di contenuti hanno protestato contro l’uso non autorizzato dei loro contenuti per addestrare modelli‌ di IA, con alcuni che hanno citato in giudizio aziende come Microsoft, OpenAI e Stability AI. Essere⁢ remunerati per il loro lavoro ⁣potrebbe contribuire a ripristinare parte dello squilibrio‍ di potere che esiste tra i creativi e le‍ aziende di IA.