Skip to main content

Da dove prende le informazioni l’Intelligenza Artificiale?

Un viaggio tra fonti, rischi e opportunità

La domanda che oggi in molti si pongono è semplice e diretta: da dove pesca le informazioni l’Intelligenza Artificiale quando risponde alle nostre domande?
Non si tratta di una curiosità banale: capire l’origine dei contenuti generati dai chatbot o dai motori di ricerca con modalità “IA” significa comprendere quanto ci si possa fidare delle risposte che riceviamo ogni giorno.

Negli ultimi mesi, un’analisi condotta da Semrush ha fatto emergere dati sorprendenti. Su oltre 150.000 citazioni analizzate, Reddit si è rivelata la piattaforma più influente, persino più di Google e Wikipedia.

Reddit: la piazza digitale preferita dall’IA

Con oltre il 40% delle citazioni, Reddit è oggi la principale fonte di informazioni per i modelli linguistici di intelligenza artificiale.
Ma cosa significa? Significa che quando poniamo una domanda a un chatbot, c’è un’alta probabilità che la risposta derivi da discussioni nate su Reddit: thread dove utenti comuni condividono esperienze, opinioni, trucchi, recensioni o soluzioni a problemi.

Questa natura “dal basso” rende Reddit una miniera d’oro per l’IA, perché permette di attingere a contenuti aggiornati, ricchi di casi reali e spesso molto pratici. Tuttavia, porta con sé un grande rischio: non tutto ciò che viene pubblicato è verificato. L’accuratezza varia enormemente, e la possibilità di imbattersi in informazioni parziali o fuorvianti è concreta.

Non a caso, Reddit ha siglato un accordo con Google da 60 milioni di dollari l’anno per concedere accesso diretto ai propri dati: una prova del suo peso crescente nell’ecosistema digitale.

Wikipedia, YouTube e Google: i pilastri tradizionali

Subito dopo Reddit troviamo Wikipedia, YouTube e Google.

  • Wikipedia (26,3%): apprezzata per la sua struttura enciclopedica, con fonti e riferimenti. Tuttavia, anche qui emergono timori: se l’IA utilizza i contenuti senza citare la fonte, si rischia di ridurre il traffico e quindi la collaborazione volontaria che sostiene il progetto.
  • YouTube (23,5%): sempre più centrale grazie ai contenuti multimediali. I modelli multimodali, capaci di interpretare video e audio oltre al testo, trovano in YouTube una riserva preziosa per arricchire le risposte.
  • Google (23,3%): sorprendentemente in calo. Con l’introduzione della modalità IA, che sostituisce i classici dieci link blu con risposte sintetiche, Google non è più solo un motore di ricerca ma anche un generatore di contenuti. Questo sta cambiando radicalmente il modo in cui navighiamo sul web.

Le fonti “di nicchia”: recensioni, mappe e social

Accanto ai giganti, esistono piattaforme che giocano un ruolo mirato ma significativo:

  • Yelp, Facebook, Amazon e TripAdvisor: fondamentali per recensioni, interazioni sociali e commercio. Se chiediamo all’IA un consiglio su un ristorante, un hotel o un prodotto, è molto probabile che stia attingendo a queste fonti.
  • Mapbox e OpenStreetMap: meno citate, ma indispensabili per tutto ciò che riguarda la geolocalizzazione e la visualizzazione di percorsi. Qui l’IA trova dati aggiornati e precisi che alimentano le risposte su mappe e tragitti.

Possiamo fidarci delle risposte dell’IA?

La questione centrale non è tanto da dove arrivano i contenuti, ma quanto siano affidabili.
Uno studio della

Columbia Journalism Review

ha messo in luce limiti importanti: oltre il 60% delle risposte fornite dai chatbot testati risultava errato. Non solo: spesso le risposte erano fornite con sicurezza, senza mai ammettere dubbi.

ChatGPT, ad esempio, ha sbagliato 134 risposte su 200, riconoscendo i propri limiti solo in 15 casi. Ancora più problematico è il tema dei link: alcuni chatbot, come Grok 3, hanno indirizzato gli utenti verso pagine inesistenti nel 77% dei casi.

Questi dati dimostrano che, pur essendo strumenti straordinari, i chatbot non sostituiscono il giornalismo o la verifica umana.

Le conseguenze per l’informazione e le aziende

C’è poi un altro effetto collaterale: i chatbot rispondono direttamente all’utente, riducendo il traffico verso i siti originali.
Questo penalizza soprattutto le testate giornalistiche e i siti di contenuti, che basano il loro modello economico sulle visite e sugli introiti pubblicitari.

Per le aziende, invece, il discorso è duplice:

  • da un lato, c’è il rischio che i contenuti aziendali vengano “assorbiti” dall’IA senza ritorno diretto in termini di visite;
  • dall’altro, c’è l’opportunità di strutturare contenuti di qualità, chiari, verificabili e ben indicizzati, in modo da diventare fonti privilegiate anche per i modelli IA.

Conclusioni: un nuovo ecosistema informativo

L’IA non è “magica”: non inventa dal nulla, ma attinge da ciò che trova online. Reddit, Wikipedia, YouTube e Google sono oggi i principali serbatoi di conoscenza, ma la qualità e l’affidabilità delle risposte restano un tema cruciale.

Per i lettori significa imparare a mantenere un approccio critico, incrociando sempre le informazioni. Per le aziende e i professionisti della comunicazione significa invece investire in contenuti solidi e riconoscibili, che possano distinguersi anche nell’era dell’intelligenza artificiale.