Simonetta Vietri
Navigare nei testi. Teorie e applicazioni informatiche per la linguistica testuale
INDICE
1. L'analisi automatica dei testi ................................................................................................. 3
1.1. INTEX .......................................................................................................................................... 4
2. La teoria degli automi ............................................................................................................ 5
2.1. Definizione di automa ................................................................................................................. 6
2.2. Qualche cenno storico ................................................................................................................. 7
2.3. Automi finiti e linguaggi naturali .............................................................................................. 8
2.4. I Trasduttori ................................................................................................................................ 8
2.5. INTEX e il modello a stati finiti ................................................................................................. 9
3. I dizionari elettronici ............................................................................................................ 10
3.1. Dizionari elettronici e i dizionari usuali .................................................................................. 10
3.2. I dizionari di parole semplici e di parole composte ................................................................ 11 3.2.1. Il DELAS .............................................................................................................................................. 12
3.2.2. Il DELAF ............................................................................................................................................. 14
3.2.3. Il DELAC ............................................................................................................................................. 15
3.2.4. Il DELACF ........................................................................................................................................... 17
4. L'analisi lessicale di un testo e la risoluzione delle ambiguità... Errore. Il segnalibro non è
definito.
4.1. La grammatica locale delle particelle preverbali ............... Errore. Il segnalibro non è definito. 4.1.1. Applicazione della grammatica locale delle particelle preverbali Errore. Il segnalibro non è definito.
4.1.2. L'etichettaggio del testo ............................................................... Errore. Il segnalibro non è definito.
4.1.3. Implementazione della grammatica delle particelle preverbali .... Errore. Il segnalibro non è definito.
4.2. Il riconoscimento delle parole composte: alcuni problemi Errore. Il segnalibro non è definito. 4.2.1. Un esempio di grammatica locale degli avverbi composti .......... Errore. Il segnalibro non è definito.
4.2.2. La grammatica locale dei verbi composti .................................... Errore. Il segnalibro non è definito.
5. L’analisi testuale ............................................................ Errore. Il segnalibro non è definito.
5.1. L’analisi delle completive in un testo .................................. Errore. Il segnalibro non è definito. 5.1.1. La costruzione degli automi ......................................................... Errore. Il segnalibro non è definito.
5.1.2. Le sequenze riconosciute ............................................................. Errore. Il segnalibro non è definito.
5.1.3. Le sequenze non riconosciute ...................................................... Errore. Il segnalibro non è definito.
5.1.4. Approfondimenti .......................................................................... Errore. Il segnalibro non è definito.
Bibliografia ......................................................................... Errore. Il segnalibro non è definito.
Allegato A. Esempio di DELAF......................................... Errore. Il segnalibro non è definito.
Allegato B. Lista delle concordanze relative all'automa GramPpv Errore. Il segnalibro non è
definito.
Allegato C. Lista delle idiomatiche in prendere ................ Errore. Il segnalibro non è definito.
Allegato D. Ambiguità DET-N, PRO-V in politica ........... Errore. Il segnalibro non è definito.
Allegato E. Lista dei verbi a completiva ............................ Errore. Il segnalibro non è definito.
Allegato F. Esempio di tavola dei verbi a completiva della classe 43Errore. Il segnalibro non è
definito.
Allegato G. Le 564 occorrenze di verbi a completiva ........ Errore. Il segnalibro non è definito.
1. L'analisi automatica dei testi
L'analisi automatica dei testi, ci riferiamo qui in particolare all'analisi lessicale, consiste
nell'identificazione delle singole parole, intese come forme, presenti in un determinato testo. La
parola "identificazione" si riferisce a due procedimenti di diversa natura ed entità. Il primo
procedimento è quello di tokenisation, che consiste nell'individuazione di tutte le unità grafiche,
cioè le forme delle parole, contenute in un determinato testo. Un analizzatore di questo tipo
raggruppa le forme delle parole identiche. Possiamo definire un token come una sequenza di
caratteri tra due separatori. Ad esempio, dato il seguente testo in input:
Col passare del tempo, nei racconti di Marco le parole andarono
sostituendosi agli oggetti e ai gesti: dapprima esclamazioni, nomi isolati,
secchi verbi, poi giri di frase, discorsi ramificati e frondosi, metafore e
traslati.
il procedimento di tokenisation ci darà in output una lista del genere:
isolati
le
Marco
metafore
nei
nomi
oggetti
parole
passare
poi
racconti
ramificati
secchi
sostituendosi
tempo
traslati
verbi
Il secondo procedimento riguarda invece l'analisi lessicale di tipo morfologico che, a differenza
della semplice tokenisation, prevede l'etichettaggio morfo-grammaticale delle parole contenute in
un determinato testo. Questo tipo di analisi è di difficoltà maggiore rispetto alla precedente perché
prevede che l'analizzatore abbia a disposizione un dizionario utilizzabile da un computer, cioè un
dizionario elettronico. Per effettuare l'analisi morfologica sono necessari in input due sistemi di
dati: il testo, che definiremo come una sequenza lineare, non strutturata, di caratteri tipografici, e il
dizionario che possiamo definire, invece, come un insieme strutturato di dati linguistici. Dati in
input il testo e il dizionario, l'analizzatore morfologico, dopo averli confrontati, li proietterà su una
terza rappresentazione linguistica e cioè su una sequenza di parole, ognuna delle quali sarà associata
a determinate proprietà linguistiche, descritte, a loro volta, nel dizionario.
Una delle difficoltà dell'analisi morfo-lessicale riguarda la mole dei dizionari; infatti, nelle lingue
naturali la creazione di neologismi è continua e ciò pone il problema del costante reperimento e
della conseguente rappresentazione di tali forme. I dizionari hanno bisogno di manutenzione e
aggiornamento sistematici. Bisogna tener conto poi che le lingue naturali contengono non solo
parole semplici, ma anche parole composte come colletto bianco che, nel loro insieme, hanno un
significato completamente diverso da quello che si evince dalle singole parole che le compongono.
Così, la sequenza di parole colletto bianco può riferirsi, in senso letterale, sia a un sostantivo di tipo
concreto, indica cioè la parte di un capo d'abbigliamento, come in:
A Gigi piace indossare le camicie azzurre con il colletto bianco
sia, in senso metaforico, agli impiegati unicamente di sesso maschilei, come in:
A Gigi piace trattare con i colletti bianchi di quell'azienda
Sintagmi di questo tipo, al di fuori di ogni contesto di frase, sono ambigui. Nel primo caso, il
contesto indicherà che colletto bianco è una sequenza di parole semplici ed ha quindi significato
letterale mentre, nel secondo caso, il diverso contesto di frase indica che siamo di fronte a una
parola composta dal significato metaforico-figurato.
L'ambiguità è presente non solo al livello delle parole composte, ma è ancora più diffusa al livello
delle parole semplici siano esse grammaticali o lessicali: la parola grammaticale lo può essere sia un
determinante che un pronome così come la parola lessicale zucchero può riferirsi sia a un nome
maschile singolare sia alla prima persona del presente indicativo del verbo zuccherare. A sua volta,
la sequenza lo zucchero è ambigua perché può riferirsi sia a una sequenza determinante + nome
(DET + N) che a una sequenza pronome + verbo (PRON + V). Così, la frase:
Io lo zucchero lo scambio per cocaina
è ambigua per il computer perché riceve due analisi morfologiche diverse; entrambe le sequenze lo
zucchero e lo scambio possono essere rappresentate sia come sequenze del tipo Pronome + Verbo
sia come Determinante + Nome.
Concludendo, possiamo dire che l'analisi lessicale automatica di un testo prevede due procedimenti
di diversa entità: la tokenisation e l'analisi morfologica. Le lingue naturali, a differenza delle lingue
artificialiii, sono fortemente ambigue; di tale ambiguità gli esseri umani non hanno né coscienza né
percezione immediata, grazie alla loro capacità di produrre immediatamente l'esatta interpretazione
di ogni sequenza di parole grazie alla compresenza, nei processi comunicativi, di diversi fattori
come le conoscenze pregresse, il contesto di frase, il contesto pragmatico e così via. Il computer,
invece, non avendo a disposizione nessuno di questi strumenti, ci mostra quanto estesa sia
l'ambiguità all'interno delle lingue naturali. Il processo di riduzione o di eliminazione dell'ambiguità
è uno degli obiettivi più importanti da raggiungere per chi sia interessato a sviluppare analizzatori
automatici dei testi. La disambiguazione può avere luogo, per determinati aspetti, già al livello di
analisi morfologica, senza dover aspettare di raggiungere il livello immediatamente superiore, cioè
quello dell'analisi sintattica. Nella sezione 4 vedremo come alcune ambiguità possono essere risolte
con la costruzione di grammatiche locali.
1.1. INTEX
Il sistema INTEX, elaborato da Max Silberztein al L.A.D.L. di Parigi, e successivamente inserito
come risorsa comune nel progetto EUREKA-Genelex, è costituito da un insieme di programmi di
analisi automatica dei testi ed è basato sull'utilizzazione di dizionari elettronici di grossa taglia. La
versione francese del programma include dizionari e grammatiche pre-costituiti la cui
rappresentazione si basa sul modello degli automi a stati finiti. INTEX è un sistema modulare, ogni
utente può creare e aggiungere dizionari e grammatiche personali. I dizionari e le grammatiche
utilizzati sono tools che permettono, una volta applicati ai testi, di localizzare patterns lessicali e
sintattici, di rimuovere le ambiguità e di indicizzare ed etichettare le parole semplici e complesse
presenti nei testi. INTEX costruisce indici e concordanze rispetto a determinati pattern; può essere
utilizzato sia per analizzare corpus di grosse dimensioni che come strumento di information
retrieval.
INTEX permette la costruzione di grammatiche locali sia in forma di grafi, per mezzo di un
particolare Editor, che in forma di espressioni razionali. Le due rappresentazioni, considerate
equivalenti, vengono poi automaticamente compilate e tradotte in automi e/o trasduttori a stati finiti
grazie a dei programmi di conversione. Gli automi così costruiti vengono poi utilizzati per l'analisi
automatica dei testi. Grazie a questi strumenti è possibile effettuare la disambiguazione di alcuni
fenomeni linguistici locali e l'identificazione di pattern sintatticiiii.
INTEX è stato adottato dal gruppo di ricerca del Dipartimento di Scienze della Comunicazione
dell'Università di Salerno che, da più di dieci anni, collabora con il L.A.D.L. di Parigi per la
costruzione di un lessico-grammatica della lingua italiana. L'Università di Salerno, insieme ad altre
università e centri di ricerca europei, fa parte del progetto Relex completamente dedicato alla
descrizione formale delle lingue naturali; esso riguarda in particolare due aspetti:
1. il reperimento e la descrizione delle unità atomiche di una determinata lingua che costituiscono il vocabolario. Tale descrizione è implementata sotto forma
di dizionari elettronici;
2. la descrizione delle restrizioni sintattiche che tali unità atomiche presentano all'interno di sintagmi e di frasi. Queste restrizioni sono implementate sotto
forma di lessici-grammatiche.
Tale metodo di descrizione lessicale e sintattica ha la caratteristica di essere riproducibile ed
esaustivo e ciò ha permesso a una comunità di un centinaio di ricercatori di accumulare
osservazioni dettagliate e tra loro perfettamente compatibili sulle lingue naturaliiv. INTEX integra
queste descrizioni formalizzate e le unifica in un formato semplice e implementabile: quello degli
automi a stati finiti.
Per quanto riguarda il punto (1), all'Università di Salerno sono stati costruiti, per l'italiano, sia il
dizionario elettronico delle parole semplici (Vietri 1994, De Bueriis-Monteleone 1997) sia dizionari
elettronici delle parole composte appartenenti al linguaggio generico e a quello settoriale (Vietri
1992, 1995). Per quanto riguarda, invece, il punto (2), sono stati descritti e classificati in tavole
matriciali sia i verbi transitivi che intransitivi (EMDA 1981, Elia 1984, D'Agostino 1983), gli
avverbi (Elia 1995) e i verbi composti (Vietri 1985, 1990), i nomi predicativi che entrano in
strutture di frase a verbo supporto (Cicalese 1995, De Angelis 1989, De Bueriis 1995, Vietri 1997).
2. La teoria degli automi
Negli Stati Uniti, a partire dalla fine della seconda guerra mondiale, in diversi settori di ricerca
scientifica, come l'elettronica e l'informatica, la matematica e in particolare l'algebra, e solo un
decennio più tardi in linguistica, comincia a nascere un movimento di idee da cui ha origine la
teoria degli automi. Gli automi di cui ci occupiamo qui sono gli automi a stati finiti.
2.1. Definizione di automa
Un automa finito è un dispositivo astratto caratterizzato da un insieme finito di stati, un insieme
finito di simboli e delle transizioni. All'interno dell'insieme finito di stati distinguiamo lo stato
iniziale, degli stati intermedi e uno o più stati finali. Gli automi definiscono le sequenze di simboli
in base al percorso che va da sinistra a destra, cioè da uno stato iniziale a uno stato finale. Nella
rappresentazione qui di seguito:
S0 S1 S2 S3 S4
t1 t2 t3 t4
lo stato iniziale è S0, mentre S1, S2, S3 sono stati intermedi e S3 è lo stato finale. I collegamenti tra
gli stati rappresentano le transizioni; così la transizione t1 collega lo stato iniziale S0 allo stato
intermedio S1, la transizione t2 collega S1 a S2, la transizione t3 connette lo stato intermedio S2
allo stato S3, e infine la transizione t4 collega S3 allo stato finale S4. Lo stato finale viene
rappresentato con un doppio circolo. Questo tipo di rappresentazione è detto grafo e gli stati sono
anche definiti come nodi.
Abbiamo detto che gli automi sono dispositivi che permettono la determinazione di una sequenze di
simboli in base a un percorso. Proviamo a vedere come. Poniamo il caso che il nostro alfabeto di
simboli sia definito dai caratteri a, e, s, e etichettiamo i nodi del grafo utilizzando tale alfabeto.
e s s a
t1 t2 t3 t4
Questo automa, a partire da sinistra, nello stato iniziale legge il simbolo e, transiterà nel secondo
stato, tenendo memoria di quanto ha letto nel primo; dopo aver letto il simbolo s, determinerà la
sequenza es e continuerà in questo modo fino ad arrivare al nodo finale, cioè alla fine del percorso,
determinando la sequenza finita di simboli essa. Se, a un dispositivo di questo tipo, sottoponiamo le
due sequenze di simboli essa e es, l'automa riconoscerà la prima ma non la seconda. Un automa
come quello che abbiamo appena costruito è detto automa deterministico, perché definisce un
unico percorso nel determinare una sequenza di simboli. Un automa è detto invece non
deterministico quando, in un dato punto di tale cammino, più percorsi sono attivi:
c
e s a
s
Quest'automa non deterministico, il cui alfabeto conterrà non solo i simboli a, e, s ma anche c,
definirà le sequenze di simboli essa ed esca.
2.2. Qualche cenno storico
Anche se la teoria degli automi comincia a svilupparsi negli anni che seguirono all'ultima guerra,
dobbiamo tener presente che, molti anni prima, Markov 1913 e Turing 1936, gettarono le basi per
una teoria degli automi. In particolare, Turing definisce il modello matematico di un calcolatore
(numerico), detto per l'appunto macchina di Turing. Le macchine di Turing, contengono la nozione
di automa finito anche se si tratta di un modello più generale in quanto meccanismo di
lettura/scrittura.
Shannon 1948 descrive un modello di comunicazione molto vicino a quello degli automi finiti,
mentre sarà Stephen Kleene, in un articolo apparso nel 1956 (ma scritto già nel 1951), ad elaborare
una vera e propria teoria degli automi. Kleene stabilisce un teorema di caratterizzazione strutturale
secondo cui tutti gli eventi regolari possono essere descritti a partire da linguaggi finiti mediante
semplici operazioni della teoria degli insiemi quali l'unione, la concatenazione, l'iterazione
(annotata con una stella *). Con lo sviluppo delle grammatiche context-free, il termine evento
regolare sarà sostituito con linguaggio regolare o razionale, così come il termine algebrico
sostituirà a volte context-free, per il fatto che le regole di una grammatica context-free possono
essere considerate alla stessa stregua delle espressioni algebriche. Kleene sostiene che gli eventi che
possiamo descrivere sono proprio quelli che possiamo specificare con l'aiuto di un automa finito.
Esiste quindi un legame stretto tra automi finiti e la teoria delle grammatiche context-free o
algebriche.v
L'operazione di iterazione, annotata *, e denominata anche operazione di Kleene, rappresenta
sequenze infinite, permette cioè la costruzione di grafi ciclici come quello che segue:
una casa calda
che genera sintagmi del tipo una casa calda, una casa calda calda, una casa calda calda calda, e
così via. Silberztein 1993 ricorda che i grafi ciclici vanno usati con estrema cautela, anche in quei
casi che richiedono tale operazione, ad esempio laddove sono previsti inserimenti all'interno di un
sintagma o di una frase. Infatti, data la potenza di tale meccanismo, si riconoscerebbero anche
sequenze che non si vuole affatto che vengano riconosciute (vedi par. 4.2.2., in particolare il grafo
Inserimento).
Ricordiamo infine Shutzenberger 1955 che, elaborando la teoria algebrica della codificazione
introduce la nozione di semigruppo sintattico, che gli permette di formulare una delle definizioni
equivalenti della nozione di riconoscibilità per mezzo degli automi finiti. Mette in evidenza il
legame tra automi finiti e strutture algebriche.
2.3. Automi finiti e linguaggi naturali
L'idea di utilizzare gli automi per descrivere una lingua naturale già presente in Shannon, viene
ripresa da Chomsky 1957. In effetti, Chomsky parla del modello degli automi finiti per eliminarlo
molto rapidamente a favore dei livelli superiore della sua gerarchia. L'argomentazione di Chomsky
per escludere gli automi finiti come modello adeguato delle lingue naturali è fondata sulla presenza
di strutture incassate (non borneés = aperte), come le proposizioni condizionali:
se S1 allora S2
Queste strutture sono analoghe a quelle dei linguaggi di programmazione e paragonabili quindi ad
alcune sequenze algebriche del tipo ab, aabb, aaabbb, ... e in generale tutte le sequenze consistenti
di n occorrenze di a seguite da n occorrenze di b. A tale proposito Silberztein 1993 ricorda che le
RTN, cioè le reti a transizione estesa (= Recursive Transition Network), definite ricorsivamente,
costituiscono un meccanismo molto più potente degli automi finiti in quanto automi in cui è data la
possibilità di inserire dei nodi ausiliari che sono essi stessi RTN. Essi sono adeguati nella
descrizione di linguaggi algebrici o context-free.
Un aspetto non privo di interesse della storia dei modelli matematici usati in linguistica descrittiva è
proprio quello della rapida eliminazione degli automi finiti. Chomsky li scarta perché essi sono
troppo potenti e troppo limitati insieme per descrivere correttamente le frasi di una lingua naturale.
D'altro canto, l'approccio lessico-grammaticale di Maurice Gross mette in luce l'esistenza di una
forte limitazione alla “libertà combinatoria" delle frasi semplici. Gross attira l'attenzione sul fatto
che le frasi cosidette libere comportano delle restrizioni sintattiche e distribuzionali dipendenti dalle
singole entrate verbali. Successivamente, in una seconda fase della sua ricerca, individua, per il
francese, più di 20.000 frasi fisse e circa 10.000 avverbi composti caratterizzati da fissità di parte, o
di tutti gli elementi. Negli ultimi anni la sua ricerca si concentra sull'individuazione di sequenze
semi-fisse di tipo neutro come avere luogo, rendersi conto. e di quelle più o meno tecniche come ad
esempio abaisser une perpendiculaire à une droite. Ebbene, proprio per la descrizione di questi tipi
di frase e sintagmi ad alto livello di fissità, il modello ad automi finiti si rivela estremamente utile e
potente. Adattandolo per rappresentare fenomeni linguistici per così dire “periferici", locali, si
riesce a semplificare il modello descrittivo generale. Gross (1993) ipotizza anche la realizzazione di
un dispositivo che integra il formalismo a stati finiti; tale dispositivo che è equivalente al
componente trasformazionale va ad agire sulla rappresentazione a stati finiti ponendo delle
restrizioni sulle strutture di frase.
2.4. I Trasduttori
La teoria dei trasduttori è stata molto meno studiata di quella degli automi, di cui essa costituisce un
prolungamento naturale; infatti, da un punto di vista strettamente applicativo se, oltre a un alfabeto
d'entrata abbiamo anche un alfabeto d'uscita, l'automa, che in questo caso sarà chiamato trasduttore,
viene utilizzato per realizzare una trasduzione dell'alfabeto d'entrata verso un alfabeto d'uscita. A
partire dall'automa deterministico della sezione 2.1., otteniamo un trasduttore se diamo un'uscita
all'alfabeto d'entrata:
e/e s/l s/l a/a
applicando questo trasduttore la sequenza essa viene tradotta in ella. Così, mentre un automa
permette di riconoscere o meno una determinata sequenza secondo un valore booleano Vero (la
sequenza è riconosciuta) o Falso (la sequenza non è riconosciuta), i trasduttori producono risultati
più complessi perché l'alfabeto d'entrata permette il riconoscimento di una determinata sequenza,
mentre l'alfabeto d'uscita ci permette di produrre un determinato risultato, cioè di interpretare i
simboli dell'alfabeto riconosciuti. Così, ad esempio, per disambiguare all'interno di un testo un
sintagma nominale formato da determinante + nome, in cui il determinante è in forma elisa come in
l'esca o l'ombrello, possiamo costruire il seguente trasduttore:
L-apostrofo
Ai fini della generazione automatica dei testi il grafo andrebbe ulteriormente specificato rispetto al
fatto che il nome deve iniziare con una vocale.
2.5. INTEX e il modello a stati finiti
Nel sistema di analisi lessicale INTEX, Silberztein si serve del modello a stati finiti così come lo
abbiamo descritto nella sezione precedente. Un automa finito è quindi un grafo che contiene dei
nodi e delle frecce che collegano i nodi. Tutti i nodi sono etichettati, tranne il nodo terminale. Ad
ogni nodo si associa quindi un simbolo o una parola vuota (). Silberztein, come abbiamo già
ricordato in 2.2 e 2.3, suggerisce di usare con molta cautela i grafi ciclici, in quanto meccanismi
molto potenti; anche le reti a transizione estesa vengono adottate in INTEX in modo ristretto e cioè
unicamente come tool che permette la combinazione di automi elementari. Nel sistema INTEX, i
nodi ausiliari di una RTN sono delle semplici abbreviazioni che rimandano a grafi/automi e i grafi
che corrispondono a tali nodi restano equivalenti ad automi. Così, per ottenere l'automa finito
corrispondente, basta sostituire tutti i nodi ausiliari con i relativi automi. Silberztein ritiene infatti
che - al fine dell'analisi lessicale - la potenza delle grammatiche algebriche è inutile: i fenomeni
morfo-lessicali sono rappresentabili mediante grafi aciclici e gli RTN sono utilizzati solo nella
misura in cui essi equivalgono ad automi finiti.
3. I dizionari elettronici
Nella sezione 1.1. abbiamo detto che INTEX utilizza per l'analisi lessicale dei testi il dizionario
elettronico, che può considerarsi un insieme strutturato di dati. Abbiamo anche visto che la
descrizione formale del vocabolario di una lingua naturale, così come è stata concepita al L.A.D.L.,
prevede un tipo di descrizione oggettiva e riproducibile. I criteri di formalizzazione di tali dati
linguistici sono stati adottati da diversi gruppi di ricercatori europei cosicché tali dizionari
elettronici sono tutti utilizzabili all'interno del sistema INTEX.
Ma prima di descrivere i criteri di costruzione dei dizionari utilizzabili da un computer, in
particolare da INTEX, vediamo le principali differenze tra i dizionari usuali e i dizionari elettronici.
3.1. Dizionari elettronici e i dizionari usuali
Il termine informatizzazione non ha fatto altro che creare grande confusione fra le due categorie di
dizionari. Infatti, il processo di modernizzazione della stampa esige che i testi dei dizionari usuali
siano composti tipograficamente su supporto informatico. Si sono avuti così, dei miglioramenti
notevoli sia per quanto riguarda la qualità della stampa in sé che la compilazione dei dizionari: è
infatti molto più facile apportare delle modifiche, cioè introdurre o eliminare parti di testo. Inoltre,
la maggior parte dei dizionari sono oramai disponibili su CD e quindi direttamente consultabili su
personal computer. Molti di questi dizionari su supporto elettronico hanno una struttura ipertestuale
che permette la “navigazione" all'interno del dizionario stesso.
Tuttavia, questo processo di informatizzazione dei dizionari usuali non ha nulla a che vedere con il
loro contenuto che è pressoché rimasto invariato. I dizionari, siano essi su carta o su supporto
elettronico, sono utilizzati esclusivamente da esseri umani che dispongono di una enorme base di
conoscenza pregressa. Invece, i dizionari elettronici sono utilizzati dal computer per particolari
applicazioni informatiche e sono indirizzati ad un pubblico specializzato. Così, i dati all'interno dei
dizionari elettronici sono formalizzati per mezzo di codici che non sono immediatamente
comprensibili a qualsiasi lettore. D'altro canto, i dizionari usuali sono destinati a un pubblico vasto e
quindi sono privi di informazioni non interpretabili facilmente.
Dal momento che il contenuto dei dizionari usuali su supporto elettronico è identico a quello dei
dizionari cartacei, questi sono inutilizzabili da un programma di analisi linguistica perché i dati di
un dizionario richiedono una determinata struttura e codifica. Inoltre, visto che il computer, a
differenza di un utente umano, è una tabula rasa, non possiede cioè alcun tipo di conoscenza
pregressa, per la realizzazione dei dizionari elettronici bisogna tener conto dei criteri di esaustività,
esplicitazione e coerenza. Questi tre criteri sono strettamente connessi l'un l'altro, esaminiamoli.
Esaustività Abbiamo già visto che nei programmi di riconoscimento dei testi, in una fase iniziale, un testo è
sottoposto a una processo di tokenisation. Tale processo altro non è che la segmentazione del testo
stesso in unità grafiche, cioè in parole. Nella seconda fase, cioè nella fase morfologica, il
programma consulta il dizionario per determinare la natura grammaticale di ogni parola.
L'analizzatore deve poter ritrovare tutte le parole del testo stesso. La mancata identificazione anche
di una sola parola provoca una mancata analisi del sintagma o della frase che la contiene. Quindi è
necessario che le parole di un testo siano identiche a quelle contenute nel dizionariovi. Per questo
motivo, i dizionari elettronici devono essere il più esaustivi possibile a differenza dei dizionari
usuali che non sono mai completi e, per quanto possa sembrare inverosimile, non contengono
neanche lo stesso numero di entrate vii. Infine, le entrate contenute in un dizionario usuale sono solo
in forma canonica e cioè l'infinito per i verbi, il maschile o il femminile per i nomi, il maschile per
gli aggettivi. Ma, all'interno di un testo le parole sono date non solo in forma canonica ma anche in
forma flessa; ad esempio, possiamo trovare una delle forme coniugate del verbo amare e non solo
la forma all'infinito. Questo è uno dei motivi già di per sé sufficiente per affermare la completa non-
utilizzabilità di un dizionario usuale per l'analisi automatica dei testi. Nei dizionari elettronici, casi
come questi appena visti devono essere trattati in modo esaustivo.
Esplicitazione Le informazioni contenute nei dizionari elettronici devono essere esplicite, anche a costo di essere
ridondanti. Al contrario, i dizionari usuali contengono delle informazioni implicite e lasciano quindi
che gli utenti le deducano grazie alle loro conoscenze preesistenti. Per il computer, invece, nulla è
evidente, ed è quindi necessaria la massima esplicitazione. I compilatori dei dizionari usuali hanno
la tendenza ad omettere, senza alcun criterio sistematico, tutte le informazioni che sembrano essere
immediatamente evidenti al lettore. Dare questo tipo di informazione “evidente" significherebbe
appesantire la consultazione del dizionario. In alcuni casi i lessicografi commettono però l'errore di
essere estremamente criptici, con l'inevitabile conseguenza di una mancata comprensione da parte
del lettore.
Una qualsiasi applicazione informatica richiede un dizionario dotato di un grado molto alto di
esaustività ed esplicitazione. Infatti, il computer non ha quelle capacità deduttive e intuitive
possedute invece dagli esseri umani. Ecco perché sia la dimensione che la complessità di un
dizionario elettronico aumenta considerevolmente rispetto a un dizionario usuale.
Coerenza Nei dizionari elettronici che sono costruiti per i programmi automatici di trattamento dei testi, tutte
le informazioni devono essere non solo esplicite ma devono essere anche dotate di coerenza interna,
sia per quanto riguarda la struttura dei dati che le informazioni ad essi associati. Ad esempio, ad
ogni entrata di un dizionario elettronico deve essere assegnata una categoria grammaticale, e se
l'entrata e la categoria sono separate da una virgola, allora tutte le entrate del dizionario dovranno
avere lo stesso formato.
3.2. I dizionari di parole semplici e di parole composte
Nei dizionari elettronici vengono descritti alcuni tipi di relazioni esistenti tra le parole e le loro
forme, come la coniugazione dei verbi, e la flessione al femminile e al plurale dei nomi e degli
aggettivi. La morfologia delle parole semplici, come bastone, della, vecchiaia, vengono descritte
nel dizionario elettronico delle parole semplici (DELAS), mentre la morfologia delle parole
composte, come bastone della vecchiaia, viene descritta nel dizionario elettronico delle parole
composte (DELAC). Sia il DELAS che il DELAC costituiscono il motore linguistico del sistema
INTEX.
Ma vediamo di definire meglio la differenza tra parole semplici e parole composte su cui si basa il
sistema dei dizionari. Diremo che le parole semplici sono tutte quelle sequenze di lettere comprese
tra due separatori mentre le parole composte sono delle sequenze che includono almeno due parole
semplici (e quindi almeno un separatore). A questo livello quindi le unità minime non sono più le
lettere ma le parole semplici. La distinzione tra parole semplici e parole composte è quindi
puramente ortografica: per esempio capoturno e capodanno sono parole semplici mentre capo turno
e capo d'anno sono parole composte. Ma, mentre il plurale di capodanno è capodanni, il plurale di
capo d'anno è capi d'anno. Invece, per capo turno e capoturno è sempre capo a flettere in entrambi
i casi, abbiamo infatti capi turno e capiturno.
3.2.1. Il DELAS
Il DELAS dell'italiano contiene più di 120.000 entrate in forma canonica e cioè l'infinito per i verbi,
il maschile o il femminile singolare per i nomi, il maschile singolare per gli aggettivi. Ad ogni
entrata è associata la categoria grammaticale di appartenenza. Tali categorie corrispondono alle
parti del discorso. Le entrate sono scritte in carattere minuscolo, mentre la categoria grammaticale è
in maiuscolo. Diamo qui di seguito la tavola delle categorie grammaticali con il relativo codice
utilizzato nel DELAS:
Categoria Codice Esempio
Aggettivo A battagliero, pacifista
Avverbio AVV giustamente
Congiunzione CONG ma, poiché
Determinante DET il, un
Nome N maestro, mela
Prefisso PX de-
Preposizione PREP da, per
Pronome PRON lo, io
Suffisso SX -bile
Verbo V mangiare, andare
Le categorie grammaticali e il tipo di forma canonica adottata sono riprese dalle grammatiche
tradizionali e dai dizionari usuali. Ogni entrata è associata non solo a un codice alfabetico che
rimanda alla categoria grammaticale, ma anche a un codice numerico che ne descrive il
comportamento flessionale. Così, i codici attribuiti ai nomi e agli aggettivi, rimandano a un
paradigma che descrive la flessione al femminile (se tale forma è presente) e al plurale. Ad esempio,
i nomi maestro e mela sono codificati nel DELAS nel seguente modo:
maestro,N88
mela,N41
Nel primo caso il codice numerico 88, che corrisponde al seguente algoritmo di flessione:
ms fs mp fp
N88 -o -a -i -e
descrive il maschile singolare, maestro, il femminile singolare, maestra, il maschile plurale,
maestri, e il femminile plurale, maestre. Nel secondo caso, il codice 41, rimanda all'algoritmo di
flessione:
ms fs mp fp
N41 - -a - -e
che, oltre alla forma canonica femminile singolare, prevede solo il femminile plurale mele, infatti il
trattino indica l'assenza della forma maschile singolare e plurale. Notiamo che un aggettivo come
battagliero avrà lo stesso codice flessionale di maestro, cioè 88, mentre l'aggettivo pacifista ha
codice flessionale 70 che prevede pacifista per il maschile e il femminile singolare, pacifisti per il
maschile plurale e infine pacifiste per il femminile plurale:
ms fs mp fp
A70 -a -a -i -e
Per quanto riguarda invece i verbi, questi sono associati anch'essi a un codice numerico che rimanda
all'algoritmo di coniugazione corrispondente. Così, i due verbi andare e mangiare hanno i seguenti
codici di flessione:
andare,V5
mangiare,V4
L'algoritmo di flessione corrispondente a tutti i verbi che hanno codice 4 è il seguente:
V4 ind/pr(3o,4i,3a,3amo,3ate,3ano)
imp(3avo,3avi,3ava,3avamo,3avate,3avano)
pass r(3ai,3asti,3ò,3ammo,3aste,3arono)
fut s(4erò,4erai,4erà,4eremo,4erete,4eranno)
imperat(-,3a,4i,3amo,3ate,4ino)
cong/pr(4i,4i,4i,3amo,3ate,4ino)
imp(3assi,3assi,3asse,3assimo,3aste,3assero)
cond/pr(4erei,4eresti,4erebbe,4eremmo,4ereste,4erebbero)
part/pr(3ante,3anti)
pass(3ato,3ata,3ati,3ate)
ger/pr(3ando)
Le abbreviazioni che precedono quanto contenuto in parentesi si riefriscono all'indicazione del
modo e del tempo. Ad esempio, la prima linea del codice dice che per costruire l'indicativo presente
(ind/pr) è necessario, a partire dalla forma all'infinito mangiare, eliminare tre caratteri a partire da
destra, otteniamo così mangi-, e aggiungere -o per la prima persona singolare. Per la seconda
persona singolare, è necessario invece eliminare quattro caratteri e aggiungere la -i e così via.
Il codice 5, che si applica solo al verbo andare, è il seguente:
V5 ind/pr(6vado,6vai,6va,3iamo,3ate,6vanno)
imp(3avo,3avi,3ava,3avamo,3avate,3avano)
pass r(3ai,3asti,3ò,3ammo,3aste,3arono)
fut s(3rò,3rai,3rà,3remo,3rete,3ranno)
imperat(-,6va,6vada,3iamo,3ate,6vadano)
cong/pr(6vada,6vada,6vada,3iamo,3iate,6vadano)
imp(3assi,3assi,3asse,3assimo,3aste,3assero)
cond/pr(3rei,3resti,3rebbe,3remmo,3reste,3rebbero)
part/pr(3ante,3anti)
pass(3ato,3ata,3ati,3ate)
ger/pr(3ando)
(IndPr1s=6vo)
(Imperat2s=6va')
(Imperat2s=6vai)
Le ultime tre linee del paradigma indicano le forme sovrabondanti dell'imperativo. Si creano in
questo modo delle classi di equivalenza, in base alla categoria grammaticale e al comportamento
flessionale.
3.2.2. Il DELAF
Il DELAS descrive la flessione delle parole semplici e permette il riconoscimento delle parole
semplici in un testo. Tuttavia, nei testi, le parole semplici si presentano non solo in forma canonica
(infinito per i verbi, maschile singolare per i nomi e gli aggettivi) ma anche in forma flessa (vedi
par. 3.1. in particolare esaustività). Il riconoscimento delle parole implica quindi che si effettui
l'analisi morfologica delle occorrenze per individuare le rispettive forme canoniche. Quest'analisi
viene fatta sul dizionario elettronico delle forme flesse. Un analizzatore morfologico dovrà
riconoscere tutte le forme delle parole e associarle alle rispettive forme canoniche. Per questo tipo
di analisi è necessario disporre quindi di un dizionario elettronico delle forme flesse. I codici di
flessione associati ai nomi, agli aggettivi e ai verbi del DELAS sono utilizzati da un programma di
generazione automatica delle forme flesse che, a partire dalle 120.000 entrate del DELAS, ne genera
circa 1.000.000viii. Queste forme costituiscono il dizionario elettronico delle forme flesse, cioè il
DELAF.
Così, mentre il DELAS contiene solo le forme canoniche associate a una categoria grammaticale e a
un codice di flessione:
andare,V5
battagliero,A88
maestro,N88
mangiare,V4
mela,N41
pacifista,A70
il DELAF conterrà tutte le forme flesse con l'indicazione della forma canonica corrispondente e le
informazioni morfologiche. Diamo qui qualche stringa di esempio, la lista completa delle forme
flesse di queste sei entrate è data nell'Allegato A:
andrete,andare.V5:IndFut2p
andrò,andare.V5:IndFut1s
battagliera, battagliero.N88:fs
battagliere,battagliero.N88:fp
battaglieri,battagliero.N88:mp
battagliero,battagliero.N88:ms
maestra,maestro.N88:fs
maestre,maestro.N88:fp
maestri,maestro.N88:mp
maestro,maestro.N88:ms
mangerà,mangiare.V4:IndFut3s
mangerai,mangiare.V4:IndFut2s
..............................................
mela,mela.N41:fs
mele,mela.N41:fp
Ad ogni forma flessa è associata non solo la categoria grammaticale e la classe di appartenenza per
quanto riguarda la flessione ma anche informazioni del tipo:
modo - tempo - persona - numero: è il caso dei verbi, così ad esempio la seconda entrata degli esempi appena dati dice che andrò è la prima persona singolare (1s) del
futuro indicativo (IndFut) del verbo andare che appartiene alla classe di coniugazione
5ix.
solo il numero se il genere è fisso: è il caso di mele che è la forma di numero plurale del nome femminile mela che appartiene alla classe di flessione 41.
numero e genere: è il caso di quei nomi e di tutti gli aggettivi che, oltre alla forma canonica maschile singolare, accettano anche il femminile singolare e le rispettive
forme plurali, come maestro e pacifista.
3.2.3. Il DELAC
Nella sezione 3.2. abbiamo dato una definizione puramente grafica di parola composta, e cioè una
sequenza che include almeno due parole semplici. Nei testi, le unità significative sono solo
raramente le parole semplici mentre sono le parole composte ad avere valore semantico, a
corrispondere cioè a dei concetti precisi, come si può osservare nel seguente testo tratto da una
rivista di informatica:
Aladdin prodotto da ASE risolve alcuni di questi problemi: è infatti
possibile memorizzare informazioni, di qualunque genere, direttamente dal
personal computer su un piccolo microchip o a una memory card con un
efficace e rivoluzionario sistema di trasmissione. Tutto quello che si deve
fare è inserire una carta conforme agli standard ISO7816-3 o I2C
nell'apposito drive proposto da ASE, accedere al programma di gestione,
impostare i dati che devono essere memorizzati e lasciare alla periferica il
compito di trasferirli nella memoria del chip. A questo punto si può
verificare il contenuto eseguendo una semplice operazione di lettura della
carta. Aladdin deve essere collegato alla stazione di lavoro tramite la
normale porta parallela o tramite il connettore seriale.
Naturalmente, un analizzatore lessicale, che segmenta porta parallela non come un un'unica unità
grafica ma come due unità grafiche diverse, rischia di dare in output un indice di parole-chiave che
non rispecchia nel modo più assoluto il contenuto del testo. Sappiamo che la produzione di
documenti stampati (quotidiani, riviste, libri) di qualsiasi natura è oramai, nella maggior parte dei
casi completamente informatizzata, tutto viene oramai archiviato su supporto informatico. Nei
centri di documentazione vengono utilizzati dei programmi di riconoscimento delle parole-chiave in
un documento o in un testo, ad esempio, nel titolo di un libro o del suo riassunto. Ma le tecniche di
riconoscimento di testi oggi più diffuse sono nella maggior parte dei casi destinate a fallire perché si
basano unicamente sul riconoscimento di parole semplici e quindi non riescono a distinguere per
esempio il nome composto fondo nero ("denaro accantonato illegalmente") dalla sequenza di parole
semplici fondo nero in una frase come:
Quel quadro ha un fondo nero
nel senso quindi di "sfondo della tela". Il tener conto delle parole composte è di grande importanza
soprattutto per quanto riguarda il reperimento delle informazioni nei testi di tipo tecnico-scientifico,
che sono quelli di maggior rilievo ed interesse. La complessità dei testi di questo tipo risiede infatti
non tanto nella costruzione sintattica quanto nella terminologia impiegata che è propria di ogni
settore di appartenenza e che è costituita in gran parte da parole composte.
Tuttavia, le parole composte non sono presenti solo nei linguaggi specializzati ma anche nel
linguaggio generico o comune. Abbiamo già visto esempi come colletto bianco, capo d'anno e
bastone della vecchiaia, ma sono parole composte anche occhiali da sole, carta di credito, faccia a
faccia, filo d'Arianna. Intuitivamente, vediamo che già all'interno di questa lista di esempi, alcune
parole composte sembrano avere un valore metaforico più forte rispetto alle altre. E' il caso di
bastone della vecchiaia e filo d'Arianna che si riferiscono rispettivamente a “persona di sostegno
per qualcuno" e a “ciò che consente di uscire da una situazione complicata". Per le altre parole
composte come occhiali da sole o carta di credito il significato è più o meno ricostruibile, ad
esempio, “occhiali che servono a proteggere dalla luce del sole" e “carta che serve per ottenere un
credito". In tutti gli esempi dati le parole composte hanno funzione nominale, sono cioè nomi
composti. Ma, all'interno delle parole composte, possiamo avere anche aggettivi composti, come
vivo e vegeto, nuovo di zecca, oppure avverbi composti come a bruciapelo, a tutta birra, a denti
stretti. Vediamo quindi che il significato delle parole composte può essere non-composizionale,
cioè il significato non è ricavabile dalla somma dei significati dei singoli elementi che la
compongono. Così, bastone della vecchiaia non si riferirà in questo caso ad un nome concreto ma a
un essere umano o animato. Da un punto di vista morfo-grammaticale, osserviamo che, ad esempio,
il nome composto bastone della vecchiaia è di genere maschile e accetta il plurale bastoni della
vecchiaia. Eredita quindi il genere della testa del nome composto. Invece, faccia a faccia, è un
nome composto di genere maschile anche se la testa dell'intera sequenza composta, cioè faccia è,
come parola semplice, di genere femminile ed ha una forma plurale invariabile: abbiamo quindi i
faccia a faccia ma non i facce a facce. La sequenza composta faccia a faccia ha anche funzione
aggettivale, come in un incontro faccia a faccia. Gli avverbi, nella maggior parte dei casi, non
hanno alcuna forma flessa. Finora abbiamo accennato alle parole composte non verbali, ma sono
presenti anche parole composte verbali, cioè sequenze composte contenenti verbi, come, ad
esempio, tirare le cuoia, oppure prendere il toro per le corna. Questo tipo di sequenza è anche detto
frase fissa, o ancora più tradizionalmente frase o espressione idiomatica. Nelle frasi fisse l'unico
elemento che flette è il verbo. La presenza assai estesa delle parole composte nelle lingue naturali è
fenomeno di cui non si può non tener conto e ciò accresce la complessità dei dati e le procedure da
utilizzarex.
La costruzione di un dizionario delle parole composte rispecchia, anche se con le dovute differenze,
i criteri di costruzione del DELAS, il dizionario delle parole semplici. Così, ad esempio, a partire da
una lista di nomi composti appartenenti al linguaggio generico, il DELAC viene costruito
assegnando ad ogni entrata composta una classificazione morfo-grammaticale. Nella seguente lista
di nomi composti, vediamo che il formato del DELAC prevede che ogni singola parola della
sequenza composta venga separata da uno slash "/", dopo la virgola seguono due codici alfabetici
separati dal segno “+" e un codice che si riferisce alla struttura interna del composto stesso:
bastone/della/vecchiaia,N+NDN
occhiali/da/sole,N+NPN
colletto/blu,N+NA
anno/luce,N+NN
dolce/vita,N+AN
Il primo codice indica la categoria grammaticale di appartenza della parola composta, nella lista
sopra si tratta di nomi (N); il secondo codice si riferisce invece alla struttura interna del composto
stesso. La lettera N indica il nome, mentre A indica l'aggettivo, D indica la presenza della
preposizione di e P indica la presenza di una preposizione diversa da di. Così, la struttura interna di
un nome composto come bastone della vecchiaia è definita dalla sequenza nome + di + nome,
occhiali da sole è una sequenza nome + preposizione + nome. I nomi composti colletto blu e dolce
vita sono formati rispettivamente da nome + aggettivo e da aggettivo + nome. Infine, un nome
composto come anno luce è la sequenza di due nomi.
Finora abbiamo assegnato ai nomi composti delle informazioni di natura grammaticale, dobbiamo
ora dare delle indicazioni di tipo morfologico, così come esse sono assegnate alle parole semplici
del DELAS. Useremo i quattro simboli m (maschile), f (femminile), s (singolare), p (plurale) e i
segni "+" e "-". La prima occorrenza di uno di questi due segni indica la variazione di genere
mentre la seconda occorrenza indica la variazione di numero. Vediamo come vengono assegnati tali
simboli ai cinque nomi composti appena dati:
bastone/della/vecchiaia,N+NDN:ms-+
occhiali/da/sole,N+NPN:mp--
colletto/blu,N+NA:ms-+
anno/luce,N+NN:ms-+
dolce/vita,N+AN:ms-+
dolce/vita,N+AN:fs--
Il nome composto bastone della vecchiaia è di genere maschile (m) e di numero singolare (s), non
accetta la forma femminile (-) mentre ha una forma plurale (+). Il nome occhiali da sole è di genere
maschile (m) e di numero plurale (p). Non accetta né il femminile (-), né la forma singolare (-); il
nome composto colletto blu è di genere maschile (m) e di numero singolare (s), non accetta la
forma femminile (-) mentre ha la forma plurale (+). Il nome composto anno luce è di genere
maschile (m) e di numero singolare (s); non accetta variazione di genere (-) ma ha una forma al
plurale (+). Più complicato è il caso del nome composto dolce vita, che è stato sdoppiato in due
entrate perché può riferirsi sia a un oggetto concreto, più esattamente un “capo d'abbigliamento", ed
è, in questo caso, di genere femminile pur accettando una forma di genere maschile, oltre alla forma
plurale invariabile:
A Maria piace indossare (il + la) dolce vita
A Maria piace indossare (i + le) dolce vita
sia a un’entità astratta come nella frase:
A Maria piace (E+ fare) la dolce vita
in cui la sequenza dolce vita è sempre un nome composto ma accetta solo la forma femminile
singolare e non ammette il plurale:
*A Maria piace (E+ fare) le (dolce vita + dolci vite)
3.2.4. Il DELACF
A partire da queste indicazioni morfo-grammaticali, generiamo, grazie a delle routine informatiche,
elaborate da M.Silberztein, le corrispondenti forme flesse. Il DELACF, cioè il dizionario delle
forme flesse delle parole composte avrà la seguente struttura:
anni/luce,anno/luce.N+NN:mp-+
anno/luce,anno/luce.N+NN:ms-+
bastone/della/vecchiaia,bastone/della/vecchiaia.N+NDN:ms-+
bastoni/della/vecchiaia,bastone/della/vecchiaia.N+NDN:mp-+
colletti/blu,colletto/blu.N+NA:mp-+
colletto/blu,colletto/blu.N+NA:ms-+
dolce/vita,dolce/vita.N+AN:fp++
dolce/vita,dolce/vita.N+AN:fs++
dolce/vita,dolce/vita.N+AN:fs--
dolce/vita,dolce/vita.N+AN:mp++
dolce/vita,dolce/vita.N+AN:ms++
occhiali/da/sole,occhiali/da/sole.N+NPN:mp--
Come nel DELAF, alla forma flessa del nome composto segue la forma canonica con tutte le
indicazioni morfo-grammaticali. Le routine informatiche, descritte in M.Silberztein 1993,
permettono di generare le forme flesse dei nomi composti tramite DELAF.
L'indicazione della struttura interna ci permette di stabilire il comportamento flessionale dei nomi
composti, così tutti i nomi composti definiti dalle classi NPN e NDN flettono solo la testa della
sequenza, cioè la prima occorrenza di Nxi ; i composti che appartengono alla classe AN e NA
flettono sia il nome sia l'aggettivoxii. Un caso particolare è costituito dai nomi appartenenti alla
classe NN: possiamo avere casi in cui è solo il primo elemento nominale a flettere come anni luce,
ma ci sono casi in cui sia il primo che il secondo elemento flettono, come in foca monaca e foche
monache.
Le cinque classi che abbiamo appena visto sono le più produttive, esistono però dei nomi composti,
soprattutto di tipo terminologico, la cui struttura interna è composta da più di due elementi lessicali.
Ad esempio, nel settore dell'economia, troviamo:
persona giuridica privata
persona giuridica pubblica
che sono composti formati da un nome e da due aggettivi e fanno parte quindi della classe NAA. I
nomi con tale struttura interna, hanno lo stesso comportamento flessionale dei nomi che
appartengono alla classe NA, ad esempio persona giuridica, flettono quindi sia il nome sia gli
aggettivi. Esistono poi, alcuni nomi composti come:
saggio salariale base
polizza primo rischio
che, pur avendo un'identica struttura interna e cioè NAN, non hanno lo stesso comportamento
flessionale, perché pongono un problema di segmentazione. Infatti, nel primo esempio l'aggettivo
salariale si riferisce al nome saggio, mentre nel secondo esempio l'aggettivo primo si riferisce al
nome rischio. Questi due nomi composti ricevono quindi un diverso tipo di segmentazione:
((saggio salariale) base) ((NA)N)
(polizza (primo rischio)) (N(AN))
Possiamo trovare nomi composti come tasso d'inflazione annuo e società per azioni privata, che
appartengono alla classe NPNA: l'aggettivo, in casi come questi si riferisce rispettivamente ai nomi
tasso e società. In altri casi, invece, come ad esempio in impresa a partecipazione statale
l'aggettivo statale si riferisce al nome partecipazione. Inoltre, in alcuni casi del primo tipo, cioè in
quelle parole composte che ricevono una segmentazione del tipo ((NPN)A) l'aggettivo può seguire
direttamente il primo nome, come in:
tasso annuo d'inflazione
?* società privata per azioni
Casi di questo tipo sono stati listati anche nella classe NAPN; non tutti i nomi composti che entrano
in questa classe accettano però l'anteposizione dell'aggettivo, è il caso di tassa postale a carico.
Nomi composti come estratto conto analitico e conto capitale sociale hanno come struttura interna
NNA ma, mentre nel primo l'aggettivo analitico si riferisce al nome estratto, nel secondo esempio
l'aggettivo sociale si riferisce a capitale. Le forme flesse saranno quindi:
estratti conto analitici
conti capitale sociale
I composti a struttura lunga richiedono un'analisi sintagmatica più attenta per stabilire il
comportamento flessionale. Diamo qui di seguito una tabella delle classi dei nomi composti
individuati:
NA colletto blu
AN dolce vita
NN anno luce
NDN bastone della vecchiaia
NPN occhiali da sole
NAA persona giuridica privata
NAN saggio salariale base
NNA estratto conto analitico
NAPN tassa postale a carico
NPNA tasso d'interesse annuo
L'obiezione che generalmente viene mossa contro la costruzione di dizionari di parole composte di
questo tipo riguarda l'inutilità di una procedura così minuziosa e dettagliata visto che, nei testi, la
presenza di forme composte scorrette, e quindi il conseguente riconoscimento di forme inaccettabili
da parte dell'analizzatore, è altamente improbabile. Le ragioni per cui si preferisce tale descrizione
dettagliata e la generazione di tutte le forme flesse delle parole composte sono le seguenti:
se la costruzione dei dizionari elettronici e di tutte le loro forme è perfetta, prevede cioè solo le forme accettabili di una determinata lingua, allora tali dizionari saranno
utilizzabili non solo per l'analisi ma anche per la generazione automatica dei testi;
la presenza di errori in un testo, soprattutto al livello delle parole composte, è improbabile ma non impossibile, e se gli errori sono effettivamente presenti, allora sarà possibile, con
tali dizionari, individuarli. La descrizione di tutte le forme accettabili delle parole
composte permetterà che forme inaccettabili del tipo facce a facce, anni luci, e così via,
se presenti in un testo, saranno date come errate, mentre in fase di generazione di un testo
non saranno mai forme permesse.
La costituzione di dizionari di parole composte è di grande utilità per effettuare dei controlli
grammaticali a livello sintagmatico. Consideriamo gli esempi che seguono:
Ho perso i miei occhiali di fabbricazione avanzata
Ho perso i miei occhiali da vista nuovi
Nel primo esempio l'aggettivo avanzato accorda con la testa del sintagma preposizionale che
immediatamente lo precede, cioè fabbricazione; nel secondo esempio invece, l'aggettivo nuovo
accorda con occhiali, che è, in questo caso, la testa del sintagma che immediatamente lo precede.
Nel primo caso siamo di fronte alla sequenza libera di parole occhiali di fabbricazione, mentre nel
secondo caso si tratta di un nome composto. Un qualunque programma di controllo grammaticale
che non tenga conto delle parole composte segnalerebbe come errore la sequenza occhiali da vista
nuovi, e probabilmente suggerirebbe come esatta la sequenza occhiali da vista nuova.
L'applicazione di dizionari di parole composte nell'analisi lessicale di un testo ci dà la possibilità di
stabilire che l'accordo tra nome e aggettivo non sia necessariamente determinato dal nome che
immediatamente precede l'aggettivo stesso. Così, se costruiamo una grammatica locale che permette
di riconoscere i sintagmi nominali come quella che segue:
GramSintNom
i nodi etichettati N ci permetteranno di riconoscere anche i nomi composti, che, ricordiamo nei
dizionari sono etichettati non solo in base alla loro struttura interna ma anche in base alla loro
funzione grammaticale. Dato il trasduttore NPN che pone delle restrizioni di accordo, il sistema
riconoscerà come esatta una sequenza come occhiali da vista nuovi e, segnalerà, se presente in un
testo, come eventuale sequenza errata occhiali da sole nuovo.
i Se vogliamo riferirci alle impiegate, utilizzando una parola composta, non useremo colletto bianco bensì colletto rosa.
D'altra parte, vediamo che colletto blu indica gli operai, siano essi uomini o donne.
ii Silberztein (1993) ricorda a tale proposito che l'analisi automatica dei testi in lingua naturale presenta alcune analogie
con l'analisi lessicale interna ad alcune routine informatiche. Ad esempio, un analizzatore di un compilatore identifica i
lessemi presenti in un programma sorgente (identificazione di variabili, parole chiave e operatori) così come, all'interno
di un testo è possibile identificare le singole parole. Ma, mentre il vocabolario delle applicazioni informatiche è
estremamente limitato e ridotto, il vocabolario di una lingua naturale contiene circa un milione di parole. Inoltre, nei
linguaggi di programmazione si evita accuratamente di attribuire più di un senso ad una stessa parola, tali linguaggi
sono quindi privi di ambiguità.
iii Per una descrizione dettagliata di INTEX rimandiamo il lettore a M.Silberztein, INTEX 3.4. Reference Manual
iv Per un rinvio generale a tutti i lavori fatti in ambito lessico-grammaticale si faccia ridferimento alla rivista
Linguisticae Investigationes pubblicata da Benjamins che, tra l’altro, aggiorna periodicamente una bibliografia relativa
all’argomento. Tale bibliografia è uscita una prima volta nel numero XXX ed è consultabile on-line sulla home page del
Laboratoire d’Automatique et Documentaire Linguistique (L.A.D.L.)
v Per un excursus storico sulla teoria degli automi finiti vedi D.Perrin 1994.
vi E' proprio per questo motivo che diventa importante sviluppare sia le tecniche di correzione ortografica che le
tecniche di trattamento delle parole sconosciute (nomi propri, neologismi).
vii Ad esempio, il Nuovo Zinagrelli 1998 dichiara di contenere 134.000 voci, mentre il Dizionario Y ne contiene XXXX.
La parola XXXX è presente nel Dizionario X ma non nel Dizionario Y. Se consultiamo attentamente il dizionario della
lingua italiana Zingarelli ci rendiamo conto che gli avverbi in - mente e gli aggettivi in - ante sono indicati in modo
estremamente casuale: troviamo così l'avverbio ingiustamente ma non giustamente o lealmente. I dizionari riportano
una parola desueta come detossicante ma non disgregante. Allo stesso modo tutti gli aggettivi costruiti, a partire dai
verbi, con il suffisso -bile sono elencati in modo poco prevedibile. Troviamo, ad esempio, amare - amabile, mangiare -
mangiabile, ma non abbiamo alcuna traccia di derivazioni possibili come guardare -guardabile, fatturare - fatturabile.
Inoltre, vengono registrati la coppia indistruttibile-indistruttibilità, ma non individuabile-individuabilità. Anche le
forme negative in de - sono mal registrate; a fronte di incremento, incrementare e decremento, non troviamo
decrementare che virtualmente potrebbe entrare in un nuovo ciclo derivazionale:
bilità (decrementabilità = nome)
bilizzare (decrementabilizzare = verbo)
bilizzabile (decrementabilizzabile= aggettivo)
bilizzazione (decrementabilizzazione=nome) viii Il programma di generazione delle forme flesse del DELAS è stato realizzato da Francesco Di Maio, responsabile del
laboratorio di informatica del Dipartimento di Scienze della Comunicazione dell'Università di Salerno.
ix Facciamo notare che, oltre a una versione del dizionario in cui le informazioni morfologiche dei verbi sono più o
meno esplicite, è stata creata una versione compatta in cui le informazioni di tipo modale e temporale sono indicate con
una lettera maiuscola dell'alfabeto. Abbiamo quindi:
Ind(icativo) Pres(ente) X
Ind(icativo) Imp(erfetto) Y
Ind(icativo) Pass(ato) J
Ind(icativo) Fut(uro) K
Cong(iuntivo) Pres(ente) W
Cong(iuntivo) Imp(erfetto) H
Cond(izionale) Pres(ente) F
Imper(ativo) Q
Inf(inito) I
Ger(undio) Pres(ente) G
Part(icipio) Pres(ente) Z
Part(icipio) Pass(ato) U
x Bisogna tener presente che tutte le forme fisse hanno notevole rilevanza nell'ambito della traduzione, sia essa assistita
o automatica. La costruzione di dizionari elettronici bilingui dove ad ogni entrata di tipo composto viene associata la
traduzione nella lingua prescelta, facilita la traduzione dei testi di natura tecnico-scientifica.
xi Abbiamo già visto qualche caso particolare come il nome composto faccia a faccia che pur appartenendo alla classe
NPN non segue la flessione del nome faccia (vedi par. 3.2.3). Il composto è maschile singolare, anche se la parola
semplice faccia è femminile singolare.
xii Anche nel caso di nomi appartenenti a queste due classi possiamo avere delle eccezioni, è il caso ad esempio di
Antico Testamento che non accetta la forma plurale, anche se, come parola singola testamento flette al plurale.