Scienze.com
1.5kLike
Google NewsFollow
  • Home
  • News
  • Chi siamo
  • Contatti
Reading: Ricercatori avvertono: potremmo esaurire i dati per addestrare l’IA entro il 2026. E dopo?
Share
Font ResizerAa
Scienze.comScienze.com
Cerca
  • News
  • Chi siamo
  • Contatti
  • Privacy Policy
  • Cambia Preferenze Cookie
Follow US
© Turismo e Ambiente S.r.l. unipersonale P.IVA/C.F. 08875060967 – Milano (MI)
Home » Ricercatori avvertono: potremmo esaurire i dati per addestrare l’IA entro il 2026. E dopo?
News

Ricercatori avvertono: potremmo esaurire i dati per addestrare l’IA entro il 2026. E dopo?

By Sabrina Verdi
Published 17 Novembre 2023
6 Min Read
Share

La potenziale⁣ mancanza di dati per addestrare l’IA potrebbe rallentare la sua‍ crescita e alterare⁤ la sua traiettoria

Con ‍l’aumentare della popolarità dell’intelligenza⁣ artificiale (IA), i ricercatori hanno avvertito che l’industria potrebbe essere a corto di dati di ⁢addestramento, il carburante⁤ che alimenta i potenti sistemi di intelligenza ⁣artificiale. Ciò potrebbe rallentare la ‌crescita dei⁣ modelli⁤ di IA, in particolare dei grandi modelli ⁣di linguaggio, ⁤e potrebbe persino alterare la traiettoria della rivoluzione‍ dell’IA.

Ma perché la potenziale mancanza di dati è un problema, considerando quanto ce ne sia⁤ sul web?‍ E c’è un modo ⁢per affrontare‍ il rischio?

L’importanza dei dati di alta‌ qualità per l’IAAbbiamo bisogno di molti dati per addestrare algoritmi di intelligenza artificiale potenti, accurati ⁣e di alta qualità. Ad esempio, ChatGPT è stato addestrato su ⁤570 gigabyte di dati di⁢ testo, o⁢ circa 300 miliardi di parole.

Allo stesso‍ modo, l’algoritmo di diffusione ⁢stabile (che sta ​dietro molte app di generazione di immagini di ⁢intelligenza artificiale come DALL-E, Lensa e ‍Midjourney) è stato addestrato sul dataset LIAON-5B composto ‍da 5,8 miliardi di coppie immagine-testo. Se un algoritmo viene addestrato su una ⁣quantità ‍insufficiente di dati,‍ produrrà output inaccurati o di bassa qualità.

Anche la⁤ qualità dei dati di addestramento è importante. I dati di bassa qualità come i post ⁢sui social media o le fotografie sfocate sono facili da reperire, ma non sono​ sufficienti per addestrare modelli ⁢di⁣ IA ad alte prestazioni.

I testi presi dalle piattaforme dei ‍social media potrebbero essere tendenziosi o prevenuti,⁤ o potrebbero includere disinformazione o contenuti illegali che potrebbero essere replicati⁣ dal‌ modello.⁤ Ad esempio, quando‌ Microsoft ha cercato⁤ di addestrare il ⁣suo bot di intelligenza artificiale ‍utilizzando i contenuti di Twitter, ha imparato a produrre output razzisti e misogini.

Ecco perché gli sviluppatori di IA cercano contenuti di⁢ alta ⁤qualità come ​testi tratti da libri, articoli online, articoli ⁤scientifici, Wikipedia e determinati⁢ contenuti web filtrati. L’Assistente Google⁤ è ⁣stato addestrato su⁣ 11.000 romanzi⁢ rosa presi dal sito di autopubblicazione Smashwords per renderlo più conversazionale.

Abbiamo abbastanza dati?L’industria ⁣dell’IA ha addestrato sistemi di intelligenza artificiale su ​dataset sempre più grandi, ed è per questo che ora abbiamo modelli ad alte⁢ prestazioni come ChatGPT o DALL-E 3. Allo stesso tempo, la ricerca‌ mostra che le scorte di dati online stanno crescendo molto più lentamente rispetto ai dataset utilizzati ⁤per addestrare l’IA.

In un articolo pubblicato ⁣l’anno scorso, un gruppo di ricercatori ha previsto che esauriremo i dati di testo di alta qualità prima del 2026 se le attuali tendenze di addestramento dell’IA continueranno. Hanno anche stimato che i dati di linguaggio di​ bassa qualità si ‌esauriranno tra‌ il 2030 e il 2050, e i dati di immagini di bassa qualità tra il‍ 2030 ⁤e il 2060.

Secondo ⁣il gruppo di consulenza ‌e revisione contabile ⁣PwC, l’IA potrebbe contribuire fino a 15,7⁢ trilioni di ‍dollari (24,1 trilioni di dollari australiani)⁣ all’economia mondiale entro‍ il 2030. Ma esaurire i dati utilizzabili potrebbe ⁢rallentarne lo sviluppo.

Dovremmo preoccuparci?Se ‌i punti⁣ sopra potrebbero allarmare alcuni fan dell’IA, la situazione potrebbe non essere così grave come sembra. Ci​ sono molte incognite su come si svilupperanno i modelli di IA in futuro, così come alcune soluzioni per affrontare il rischio di carenza di dati.

Un’opportunità è⁣ per gli sviluppatori di ⁢IA ​di migliorare gli algoritmi in modo che utilizzino in modo ⁢più ⁣efficiente i dati⁣ che ‍già hanno.

È probabile ​che nei prossimi⁢ anni saranno in grado⁣ di addestrare sistemi di IA ad alte prestazioni utilizzando meno dati, e forse meno potenza di‌ calcolo. Ciò contribuirebbe anche a ridurre l’impronta di carbonio dell’IA.

Un’altra‍ opzione ​è utilizzare l’IA per creare dati sintetici per addestrare i sistemi. In ​altre parole, gli sviluppatori possono semplicemente generare i dati di cui hanno bisogno, ⁢curati per adattarsi al loro ⁤particolare modello di IA.

Diversi progetti stanno già⁤ utilizzando contenuti sintetici, spesso provenienti da servizi di ‍generazione di dati come Mostly AI. Questo diventerà sempre più comune in futuro.

Gli sviluppatori​ stanno anche cercando contenuti al di fuori dello ⁢spazio ⁣online gratuito,‌ come quelli detenuti da ‍grandi editori⁤ e da archivi offline. ​Pensate ai milioni di testi pubblicati prima di Internet. Resi disponibili digitalmente, potrebbero fornire una nuova fonte di ⁣dati per i progetti di IA.

News ​Corp, ​uno dei più ‍grandi proprietari ‍di contenuti giornalistici al mondo (che ‍ha gran‌ parte dei suoi contenuti dietro un paywall), ha recentemente dichiarato di essere in trattative per accordi di contenuto‌ con gli sviluppatori di‍ IA. Tali accordi costringerebbero le aziende di IA a pagare per i dati di addestramento, mentre finora li hanno ‌principalmente prelevati gratuitamente da Internet.

I ⁢creatori di contenuti hanno protestato contro l’uso non autorizzato dei loro contenuti per addestrare modelli‌ di IA, con alcuni che hanno citato in giudizio aziende come Microsoft, OpenAI e Stability AI. Essere⁢ remunerati per il loro lavoro ⁣potrebbe contribuire a ripristinare parte dello squilibrio‍ di potere che esiste tra i creativi e le‍ aziende di IA.

Share This Article
Facebook Whatsapp Whatsapp LinkedIn Reddit Telegram Threads Copy Link
Share

Subscribe Newsletter

Subscribe to our newsletter to get our newest articles instantly!
Spazio Pubblicitario
Seguici su:
1.5kFollowersLike
Google NewsFollow
Alla Prima PaginaNewsScelto per te

Blatte e come eliminarle in modo sicuro

By Raoul Raffael
28 Maggio 2025
Alla Prima PaginaNewsScelto per te

Pianeta nano 2017 OF 201 riscrive la mappa del Sistema Solare

By Mirko Rossi
28 Maggio 2025
Spazio Pubblicitario
Spazio Pubblicitario

Caldo estremo: come temperature elevate trasformano lavoro e mente

By Massimo Martini
28 Maggio 2025

Starship esplode sopra l’Oceano Indiano: un altro test critico per SpaceX

By Mirko Rossi
28 Maggio 2025

Nuove foto del Sole in 8K rivelano dettagli impressionanti delle macchie solari

By Valeria Mariani
26 Maggio 2025

Perché la luce non perde energia attraversando l’Universo?

By Raoul Raffael
26 Maggio 2025
Spazio Pubblicitario

Suggeriti per te

In un futuro non lontano saremo tutti ricchi

Alla Prima PaginaNewsScelto per teZoom
26 Maggio 2025

Paprika: da cosa è fatta davvero?

Alla Prima PaginaNewsScelto per te
26 Maggio 2025

In arrivo lenti a contatto con visione aumentata, anche notturna

Alla Prima PaginaNewsScelto per te
26 Maggio 2025

Il nucleo terrestre rilascia oro: nuova scoperta sulle origini dei metalli preziosi

Ad PremiereNewsScelto per te
26 Maggio 2025

Seguici su: 

Scienze.com

© Turismo e Ambiente S.r.l. unipersonale P.IVA/C.F. 08875060967 – Milano (MI)

  • Privacy Policy
  • Chi siamo
  • Contatti
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?