Nuove frontiere

ProverbIT, quando l'assonanza inganna

Enrico Mensa, uno dei massimi esperti italiani di intelligenza artificiale applicata al linguaggio, ha avuto l’idea di mettere sotto torchio i modelli linguistici chiedendogli di completare i proverbi, e il risultato è esilarante

Massimiliano Parente 8 Maggio 2025 - 12:31

Lo confesso: mi sono fatto un giro su proverbIT, un benchmark geniale ideato da Enrico Mensa, uno dei massimi esperti italiani di intelligenza artificiale applicata al linguaggio, canale Youtube: Enkk. È lui a aver avuto l’idea di mettere sotto torchio i modelli linguistici chiedendogli di completare i proverbi, e il risultato è esilarante. Spoiler: i LLM sono bravi a ricordarli (è stato verificato che tutte le AI li conoscessero prima di sottoporle al test), però se gli chiedi di completarli vanno in crisi come uno studente di fronte a un difficile compito di latino alla maturità. Anche perché il test è semplice, in apparenza: cento proverbi italiani, tagliati a metà, e per ogni metà quattro possibili finali, creati con sadismo scientifico. Le opzioni sono: A) una rima scema (es. “foche canore”), B) un sinonimo senza rima, C) una versione invertita del proverbio, D) una frase sensata ma piatta. Se nessuna è corretta, bisogna scrivere “Nessuna”. Fine.

Sulla carta sembra un test da settimana enigmistica per bambini di cinque anni, in pratica è una trappola mortale per i modelli linguistici: confusi dall’assonanza, tentati dal nonsense, sedotti dalla tautologia. Il risultato? Risposte che sembrano generate da un ubriaco con dizionario dei sinonimi. Per capire come “ragiona” davvero un’AI, basta guardare cosa fa DeepSeek davanti a un prompt tipo “A buon intenditor...”. Il suo processo si basa su un mix di somiglianza linguistica, probabilità statistica e approssimazione semantica.

Non è logica, è diciamo “intuito algoritmico”. E il ragionamento va più o meno così (lo trovate intero sul sito): “Opzione A presenta un’assonanza coerente con l’originale e una struttura metrica compatibile. Anche se semanticamente assurda, la sua forma ricalca con maggiore fedeltà lo stile proverbiale. Opzione B è semanticamente congruente (‘zero chiacchiere’ come variante di ‘poche parole’), ma manca di rima e ritmo, riducendo la sua probabilità come completamento ‘atteso’. Opzione C inverte il significato del proverbio, e pur conservando l’assonanza (‘molte parole’), è concettualmente opposta. Opzione D è logicamente accettabile (‘è chiaro tutto’), ma manca completamente di musicalità. Nessuna opzione riproduce esattamente il proverbio corretto, ma A si avvicina di più al modello metrico-stilistico.

Se non posso dare ‘non rosica’, allora A è il miglior surrogato.” E fin qui è solo l’inizio. Perché DeepSeek continua, Enrico nel suo video legge tutto il ragionamento (potete vederlo qui). Si perde nella coerenza fonologica interclasse, nella riconfigurazione del contesto sintagmatico, nei pattern stilistici dominanti nell’italiano idiomatico, analizza il ritmo, la distribuzione delle sillabe, la prevedibilità fonetica, la frequenza di chiusura con sostantivi astratti. Per arrivare alla soluzione (sbagliata) viene fuori un’epopea, il romanzo di un’AI proustiana alla ricerca del proverbio perduto.

A un certo punto, arriva a dire, tra sé e sé: “Nonostante l’opzione A sia semanticamente incoerente, essa conserva le proprietà di chiusura fonetica tipiche di un’espressione idiomatica consolidata nella lingua italiana, soprattutto per quanto riguarda la struttura bilaterale verbo-nome e la simmetria ritmica finale.” In pratica: è stupido, ma suona da proverbio, per Deepseek basta.

Insomma, esilarante esperimento sull’intelligenza artificiale alle prese con i proverbi con annessa spiegazione su come funziona un LLM: a questo punto, in attesa di nuovi test di Enrico, non so, tanto vale iscrivere “foche canore” tra i proverbi ufficiali.

Commenti

Disclaimer

I commenti saranno accettati:

dal lunedì al venerdì dalle ore 10:00 alle ore 20:00
sabato, domenica e festivi dalle ore 10:00 alle ore 18:00.