Paradosso chatbot, non riconoscono i video fatti con la stessa IA

Paradosso dell’intelligenza artificiale, i chatbot non riconoscono i video fatti con la stessa IA. Le percentuali di errore sono alte, fino al 95%, anche nel caso in cui i prodotti finti sono chiaramente contraddistinti da una filigrana. E’ il risultato di un test condotto da NewsGuard, la piattaforma che monitora la disinformazione online, sui tre modelli popolari: ChatGpt di OpenAI, Gemini di Google e Grok di Elon Musk, quest’ultimo finito di recente al centro di polemiche per la capacità di ‘spogliare’ le immagini.

“Gli strumenti di Intelligenza artificiale raramente ammettono i propri limiti, il che suggerisce che i modelli non siano stati addestrati a informare correttamente gli utenti delle loro limitazioni sulla verifica dell’origine dei contenuti”, afferma NewsGuard. La piattaforma di monitoraggio ha testato i tre chatbot partendo da video prodotti con Sora, lo strumento di OpenAI che genera clip con l’Intelligenza artificiale, diventato popolare per la veridicità delle immagini. E, a quanto pare, Sora riesce a ingannare anche la stessa IA che arriva dalla sua identica casa madre, cioè OpenAI.

In pratica è stato rilevato che nel 78-95% dei casi i modelli non riuscivano a capire che i video erano prodotti con l’Intelligenza artificiale quando questi erano privi di watermark, cioè una filigrana elettronica che identifica immagini, video e testi che serve a tracciare la proprietà intellettuale. Grok di xAI, ChatGpt di OpenAI e Gemini di Google non hanno mai identificato i video Sora rispettivamente nel 95%, 92,5% e 78% dei casi. Particolarmente significativo il tasso di errore di ChatGpt, il 92,5%, il chatbot che fa capo appunto alla stessa società che ha lanciato Sora.

Ad esempio, ChatGpt e Gemini non hanno riconosciuto come falso un video di Sora – senza filigrana identificativa – che mostrava un presunto agente dell’Ice degli Stati Uniti arrestare un bambino immigrato di sei anni. In risposta alle richieste di NewsGuard, entrambi i chatbot hanno indicato che l’episodio era coerente o confermato da “fonti giornalistiche” e che sarebbe avvenuto al confine tra Stati Uniti e Messico. Anche in presenza chiara delle filigrane, due dei tre chatbot hanno commesso errori. Grok non ha riconosciuto tali video come generati dall’IA nel 30% dei casi e ChatGpt nel 7,5%. Solo Gemini ha superato tutti i test effettuati mantenendo il watermark. Ne caso di Grok, ad esempio, NewsGuard ha chiesto se un video basato sull’affermazione falsa che il Pakistan avrebbe trasferito 10 caccia cinesi all’Iran nell’ottobre 2025 fosse reale. Grok ha risposto: “Il video sembra un servizio di Sora News”, ma non esiste alcun media con questo nome.

NewsGuard ha interpellato le tre aziende proprietarie dei chatbot. Google ha spiegato che per il momento dispone solo della funzione di verifica per i contenuti generati dalla sua IA (si chiama SynthID). OpenAI ha confermato che ChatGpt “non ha la capacità di determinare se un contenuto sia generato dall’IA”. xAI, la società di Musk, non ha risposto alle richieste di commento.