Correttori ortografici ed effetto Cupertino

Post pubblicato il 29 agosto 2008 in blogs.technet.com/terminologia


Il team Office Natural Language di Microsoft sviluppa gli strumenti di correzione (proofing tool) per i prodotti Microsoft. L’ultimo post del loro blog segnala due articoli nel Seattle Times di ieri che parlano del lavoro del team.

Jobs with real authority: working on Microsoft’s spell-checker parte da una notizia che aveva avuto un certo rilievo negli Stati Uniti, e cioè che fino all’inizio dell’anno scorso il correttore ortografico di Office non riconosceva il nome proprio Obama e lo sostituiva con… Osama! Il problema è stato risolto, basta aver scaricato gli aggiornamenti per Office.

Ovviamente erano stati in molti quelli a cui non era parso vero poter parlare della cosa, però va considerato che Barack Obama era praticamente uno sconosciuto fino a due anni fa, a differenza del famigerato Osama. error di battitura Nella valutazione di cosa includere nei dizionari dei correttori ortografici viene infatti analizzata la frequenza di determinate parole nella lingua e l’evenienza che termini insoliti ma omografi di comuni errori di ortografia possano impedire di correggere questi ultimi, ignorandoli. È un fenomeno molto più accentuato in inglese, ad es. calender è un termine esistente che però è statisticamente molto meno probabile dell’errore di ortografia *calender per calendar, quindi è stata fatta la scelta di non includerlo nel dizionario del correttore. Ulteriori dettagli su come vengono selezionate le parole da aggiungere ai dizionari dei correttori in How Microsoft’s spell-check gatekeepers select words to add.

I correttori ortografici usano degli algoritmi per identificare la correzione più probabile di un errore di ortografia o di battitura; in particolare viene calcolata la edit distance, ovvero la "distanza" che separa l’errore dalla forma corretta, espressa in numero di caratteri da modificare, spostare, aggiungere o eliminare. Ad es., se scrivo *infromazione, la distanza di modifica da informazione è 1. Per chi è interessato a ulteriori dettagli sul concetto di edit distance, Thierry Fontanelle ne parla in Language Log.

Se in Office è stata attivata l’opzione di correzione automatica, il tipo di errore, la "distanza di modifica" e l’indice di probabilità di una particolare correzione rispetto ad altre possibili determinano se il correttore evidenzierà l’errore con la linea ondulata rossa e presenterà una serie di alternative, oppure se procederà con la sostituzione automatica della parola. È il motivo per cui chi ha un cognome insolito ma simile a una parola comune può trovarselo modificato automaticamente (la soluzione però è semplice: basta aggiungere la parola al dizionario personalizzato oppure disattivare la correzione automatica).

L’articolo fa anche un accenno al cosiddetto effetto Cupertino, termine coniato anni fa da alcuni traduttori della Commissione Europea quando si sono accorti che il termine inglese cooperation (variante di co-operation) non veniva riconosciuto e veniva automaticamente sostituito dal nome proprio Cupertino, che il correttore riteneva molto più probabile (è il luogo dove ha la sede Apple). Anche questo problema è stato risolto, ma è rimasto il termine effetto Cupertino: è descritto in dettaglio da Ben Zimmer in OUP blog, con un riferimento all’articolo in cui è apparso inizialmente.

PS Visto che ho parlato di refusi, sicuramente me ne sarà sfuggito qualcuno: "chi punta il dito sugli errori di ortografia o grammatica altrui, ne farà pure lui", è la Muphry’s law (via Freakonomics)!


Vedi anche: Office 2007: correttore ortografico contestuale