Scienze.com
1.5kLike
Google NewsFollow
  • Home
  • News
  • Chi siamo
  • Contatti
Reading: Ricercatori avvertono: potremmo esaurire i dati per addestrare l’IA entro il 2026. E dopo?
Share
Font ResizerAa
Scienze.comScienze.com
Cerca
  • News
  • Chi siamo
  • Contatti
  • Privacy Policy
  • Cambia Preferenze Cookie
Follow US
© Turismo e Ambiente S.r.l. unipersonale P.IVA/C.F. 08875060967 – Milano (MI)
Home » Ricercatori avvertono: potremmo esaurire i dati per addestrare l’IA entro il 2026. E dopo?
News

Ricercatori avvertono: potremmo esaurire i dati per addestrare l’IA entro il 2026. E dopo?

By Sabrina Verdi
Published 17 Novembre 2023
6 Min Read
Share

La potenziale⁣ mancanza di dati per addestrare l’IA potrebbe rallentare la sua‍ crescita e alterare⁤ la sua traiettoria

Con ‍l’aumentare della popolarità dell’intelligenza⁣ artificiale (IA), i ricercatori hanno avvertito che l’industria potrebbe essere a corto di dati di ⁢addestramento, il carburante⁤ che alimenta i potenti sistemi di intelligenza ⁣artificiale. Ciò potrebbe rallentare la ‌crescita dei⁣ modelli⁤ di IA, in particolare dei grandi modelli ⁣di linguaggio, ⁤e potrebbe persino alterare la traiettoria della rivoluzione‍ dell’IA.

Ma perché la potenziale mancanza di dati è un problema, considerando quanto ce ne sia⁤ sul web?‍ E c’è un modo ⁢per affrontare‍ il rischio?

L’importanza dei dati di alta‌ qualità per l’IAAbbiamo bisogno di molti dati per addestrare algoritmi di intelligenza artificiale potenti, accurati ⁣e di alta qualità. Ad esempio, ChatGPT è stato addestrato su ⁤570 gigabyte di dati di⁢ testo, o⁢ circa 300 miliardi di parole.

Allo stesso‍ modo, l’algoritmo di diffusione ⁢stabile (che sta ​dietro molte app di generazione di immagini di ⁢intelligenza artificiale come DALL-E, Lensa e ‍Midjourney) è stato addestrato sul dataset LIAON-5B composto ‍da 5,8 miliardi di coppie immagine-testo. Se un algoritmo viene addestrato su una ⁣quantità ‍insufficiente di dati,‍ produrrà output inaccurati o di bassa qualità.

Anche la⁤ qualità dei dati di addestramento è importante. I dati di bassa qualità come i post ⁢sui social media o le fotografie sfocate sono facili da reperire, ma non sono​ sufficienti per addestrare modelli ⁢di⁣ IA ad alte prestazioni.

I testi presi dalle piattaforme dei ‍social media potrebbero essere tendenziosi o prevenuti,⁤ o potrebbero includere disinformazione o contenuti illegali che potrebbero essere replicati⁣ dal‌ modello.⁤ Ad esempio, quando‌ Microsoft ha cercato⁤ di addestrare il ⁣suo bot di intelligenza artificiale ‍utilizzando i contenuti di Twitter, ha imparato a produrre output razzisti e misogini.

Ecco perché gli sviluppatori di IA cercano contenuti di⁢ alta ⁤qualità come ​testi tratti da libri, articoli online, articoli ⁤scientifici, Wikipedia e determinati⁢ contenuti web filtrati. L’Assistente Google⁤ è ⁣stato addestrato su⁣ 11.000 romanzi⁢ rosa presi dal sito di autopubblicazione Smashwords per renderlo più conversazionale.

Abbiamo abbastanza dati?L’industria ⁣dell’IA ha addestrato sistemi di intelligenza artificiale su ​dataset sempre più grandi, ed è per questo che ora abbiamo modelli ad alte⁢ prestazioni come ChatGPT o DALL-E 3. Allo stesso tempo, la ricerca‌ mostra che le scorte di dati online stanno crescendo molto più lentamente rispetto ai dataset utilizzati ⁤per addestrare l’IA.

In un articolo pubblicato ⁣l’anno scorso, un gruppo di ricercatori ha previsto che esauriremo i dati di testo di alta qualità prima del 2026 se le attuali tendenze di addestramento dell’IA continueranno. Hanno anche stimato che i dati di linguaggio di​ bassa qualità si ‌esauriranno tra‌ il 2030 e il 2050, e i dati di immagini di bassa qualità tra il‍ 2030 ⁤e il 2060.

Secondo ⁣il gruppo di consulenza ‌e revisione contabile ⁣PwC, l’IA potrebbe contribuire fino a 15,7⁢ trilioni di ‍dollari (24,1 trilioni di dollari australiani)⁣ all’economia mondiale entro‍ il 2030. Ma esaurire i dati utilizzabili potrebbe ⁢rallentarne lo sviluppo.

Dovremmo preoccuparci?Se ‌i punti⁣ sopra potrebbero allarmare alcuni fan dell’IA, la situazione potrebbe non essere così grave come sembra. Ci​ sono molte incognite su come si svilupperanno i modelli di IA in futuro, così come alcune soluzioni per affrontare il rischio di carenza di dati.

Un’opportunità è⁣ per gli sviluppatori di ⁢IA ​di migliorare gli algoritmi in modo che utilizzino in modo ⁢più ⁣efficiente i dati⁣ che ‍già hanno.

È probabile ​che nei prossimi⁢ anni saranno in grado⁣ di addestrare sistemi di IA ad alte prestazioni utilizzando meno dati, e forse meno potenza di‌ calcolo. Ciò contribuirebbe anche a ridurre l’impronta di carbonio dell’IA.

Un’altra‍ opzione ​è utilizzare l’IA per creare dati sintetici per addestrare i sistemi. In ​altre parole, gli sviluppatori possono semplicemente generare i dati di cui hanno bisogno, ⁢curati per adattarsi al loro ⁤particolare modello di IA.

Diversi progetti stanno già⁤ utilizzando contenuti sintetici, spesso provenienti da servizi di ‍generazione di dati come Mostly AI. Questo diventerà sempre più comune in futuro.

Gli sviluppatori​ stanno anche cercando contenuti al di fuori dello ⁢spazio ⁣online gratuito,‌ come quelli detenuti da ‍grandi editori⁤ e da archivi offline. ​Pensate ai milioni di testi pubblicati prima di Internet. Resi disponibili digitalmente, potrebbero fornire una nuova fonte di ⁣dati per i progetti di IA.

News ​Corp, ​uno dei più ‍grandi proprietari ‍di contenuti giornalistici al mondo (che ‍ha gran‌ parte dei suoi contenuti dietro un paywall), ha recentemente dichiarato di essere in trattative per accordi di contenuto‌ con gli sviluppatori di‍ IA. Tali accordi costringerebbero le aziende di IA a pagare per i dati di addestramento, mentre finora li hanno ‌principalmente prelevati gratuitamente da Internet.

I ⁢creatori di contenuti hanno protestato contro l’uso non autorizzato dei loro contenuti per addestrare modelli‌ di IA, con alcuni che hanno citato in giudizio aziende come Microsoft, OpenAI e Stability AI. Essere⁢ remunerati per il loro lavoro ⁣potrebbe contribuire a ripristinare parte dello squilibrio‍ di potere che esiste tra i creativi e le‍ aziende di IA.

Share This Article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Threads Copy Link
Share

Subscribe Newsletter

Subscribe to our newsletter to get our newest articles instantly!
Spazio Pubblicitario
Seguici su:
1.5kFollowersLike
Google NewsFollow
Alla Prima PaginaNews

Scopri la tettonica a placche con mappe, faglie e vulcani

By Stefania Romano
10 Maggio 2025
Ad PremiereNews

Stratolaunch Talon-A2: Il ritorno dei voli ipersonici riutilizzabili americani

By Mirko Rossi
10 Maggio 2025
Spazio Pubblicitario
Spazio Pubblicitario

Scoperte sull’Isola di Skye riscrivono la preistoria della Scozia

By Valeria Mariani
10 Maggio 2025

L’uso illecito di fentanyl negli Stati Uniti è 20 volte più diffuso del previsto

By Valeria Mariani
10 Maggio 2025

Il futuro di petrolio e gas: risorse, tecnologie e territori contesi

By Stefania Romano
10 Maggio 2025

Lo champagne può davvero proteggere il cuore? La scienza risponde

By Mirko Rossi
10 Maggio 2025
Spazio Pubblicitario

Suggeriti per te

I regali più amati su Geology.com: meteoriti e tesori dallo spazio

Ad PremiereNews
10 Maggio 2025

Frane e flussi di detriti: i rischi nascosti nei movimenti della terra

Alla Prima PaginaNews
10 Maggio 2025

Pericoli geologici: uragani, vulcani, frane e altri eventi estremi

Ad PremiereNews
10 Maggio 2025

Sostanze chimiche nella plastica: ritardi nel ritmo circadiano fino a 17 minuti

Alla Prima PaginaScelto per te
10 Maggio 2025

Seguici su: 

Scienze.com

© Turismo e Ambiente S.r.l. unipersonale P.IVA/C.F. 08875060967 – Milano (MI)

  • Privacy Policy
  • Chi siamo
  • Contatti
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?