58
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

Embed Size (px)

Citation preview

Page 1: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER

LESSICI E CORPORA

Page 2: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

USO DEI CORPORA NELLA LESSICOGRAFIA

Where did the Encarta Concise English Dictionary’s editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source.

Introduzione a ECED (citata da Jackson, p. 167)

Page 3: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

ALTRI DIZIONARI BASATI SU CORPORA

Collins COBUILD BANK OF ENGLISH (Birmingham)

(400M) Oxford, Longman

BRITISH NATIONAL CORPUS (150M) Cambridge

CAMBRIDGE LANGUAGE SURVEY

Page 4: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

ITALIANO

Non esiste ancora un dizionario come CoBUILD

Vocabolario Elettronico della Lingua Italiana, VELI (De Mauro / IBM, 1989)

Lessico di Frequenza dell’Italiano Parlato (LIP) (De Mauro et al, 1993)

Page 5: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CORPORA

CORPUS: una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri.

Lenci, Montemagni & Pirrelli, p. 26

Page 6: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CORPORA & COMPUTERS

I corpora esistevano prima dell’avvento dei calcolatori elettronici, ma le loro funzionalita’ e dimensioni erano limitate

Page 7: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

TIPI DI CORPORA

GENERALI (Brown, BNC) o SPECIFICI (Childes, ICONOCLAST, EuroParl)

SCRITTO (BNC) o PARLATO (LIP) od ambedue

SINCRONICO (Brown) o DIACRONICO (Italnet, Repubblica)

MONOLINGUA, MULTILINGUE (Parole), o PARALLELI (Hansard, EuroParl)

Page 8: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

ALCUNI CORPORA PER L’INGLESE

Corpus # Tokens Comments

Brown 1 000 000 Tagged, balanced

British National Corpus (BNC)

100 000 000 POS tagged

Penn Treebank 2 000 000 Parsed

MapTask 150 000 Spoken dialogue, parsed, dialogue acts

Bank Of English 450 000 000 Aperto

Page 9: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

IL BROWN CORPUS

Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961)

500 testi, ognuno 2 000 parole Analisi SINCRONICA dell’Inglese

Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa)

Annotata la parte del discorso di tutte le parole (87 classi)

Page 10: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CORPORA MODERNI

Includono scritto, parlato, & nuove forme (web, email, blogs)

Tipicamente testi interi Sopra i 100 milioni di parole Marcatura standardizzata (tipicamente

XML)

Page 11: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

IL British National Corpus (BNC)

Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press

Circa 100 milioni di parole Classificazione grammaticale automatica

usando il classificatore CLAWS (parti corrette a mano successivamente)

http://www.hcu.ox.ac.uk/BNC

Page 12: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

FORMATO (SGML)

<div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>

Page 13: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

REINTERPRETAZIONE XML

<head> <s id=“n00040”> <w C=“NN2”>TROUSERS </w><w C=“VVB”>SUIT </w></head> <caption> <s id=“n00041”> <w C=“EX0”>There </w><w C=“VBZ”>is </w><w C=“PNI”>nothing </w><w C=“AJ0”>masculine </w> ….</s> <s n=00042> … </s>…….</caption>

Page 14: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

BNC: INTERFACCIA

Query tool: SARA Interfaccia WEB: http://

sara.natcorp.ox.ac.uk/lookup.html

Page 15: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CORPORA PER L’ITALIANO

Il termine ‘corpus’ usato perche’ il primo corpus elettronico e’ la raccolta dei testi di S. Tommaso d’Aquino creata da padre Busa negli anni ’50

Alcuni corpora: ITALNET (1849 testi anteriori a Boccaccio) LIP (de Mauro et al, 1993) REPUBBLICA

Page 16: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

UN ESEMPIO: IL CORPUS DI REPUBBLICA

Creato da SSMIT all’Universita’ di Bologna (Forli’) Annate di Repubblica dal 1985 al 2000 380 milioni di parole tokenizzate, classificate

grammaticalmente, e lemmatizzate Codifica XML secondo lo standard TEI Disponibile a:

http://sslmitdev-online.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica (Occorre registrarsi)

Page 17: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CORPORA PER LA LESSICOGRAFIA

Esempio del tipo di scelte che si devono fare

Tipicamente includono sia parlato che scritto

Diacronici

Page 18: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

ANALISI LESSICOGRAFICA DI TESTI

Identificazione dei LEMMI (e delle loro parti del discorso)

Calcolo delle loro frequenze Costruzione di CONCORDANZE

liste ordinate di parole che si trovano in un testo con il contesto

Identificazione di COLLOCAZIONI “broken twig”

Page 19: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

L’IDENTIFICAZIONE DEI LEMMI IN UN TESTO

TOKENIZZAZIONE LEMMATIZZAZIONE CLASSIFICAZIONE GRAMMATICALE

Page 20: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

TOKENIZZAZIONE

C’ERA UNA VOLTA UN PEZZO DI LEGNO.

C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |

C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO | . |

Page 21: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

ALCUNI PROBLEMI CON IL PUNTO

C’ERA UNA VOLTA UN PEZZO DI LEGNO.

IL SIG. ROSSI TELEFONÓ A CASA.

U.S.A.

9.45

WWW.GOOGLE.IT

Page 22: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

MAIUSCOLE E MINUSCOLE

Rossi / rossi

Ciliegia / ciliegia

Page 23: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

TOKEN COMPLESSI

Los Angeles, La Spezia Di rado, fuori servizio Ad hoc Tagliare la corda GU L 161 del 26.6.1999

Page 24: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

LEMMATIZZAZIONE

DARGLIELO

Page 25: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

LEMMATIZZAZIONE NEL LIP

In Italiano, una volta nota la categoria grammaticale di una forma il lemma e’ solitamente univocamente determinato Eccezioni: 1.4% (CONTI: pl. di

CONTO o CONTE) Processo in tre passi

Page 26: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

LEMMATIZZAZIONE

ANCORA LA DERIVA:1. ANCORA (N, V, CON) LA (ART, PRO)

DERIVA N, V)

2. ANCORA (V) LA (ART) DERIVA (N)

3. ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)

Page 27: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

LEMMATIZZAZIONE CON XELDA

Page 28: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

XELDA: DEMO ONLINE

Analisi morfologica in 14 lingue

Page 29: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CLASSIFICAZIONE GRAMMATICALE

In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i lemmi vengono classificati con la loro parte di discorso

Brown corpus: fatto a mano BNC, LIP: fatto automaticamente

Page 30: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CLASSIFICAZIONE GRAMMATICALE

Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO

ITALIANO) che verbo (NON SONO STATO IO)

Page 31: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS

Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./.

Page 32: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE

The ATman NN VBstill NN VB RBsaw NN VBDher PPO PP$

Page 33: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

STATISTICHE SULL’AMBIGUITA’ NEL B.C.

Unambiguous (1tag) 35,340Ambiguous (2-7 tags) 4,100

2 tags 3,7603 tags 2644 tags 615 tags 126 tags 27 tags 1 (“still”)

Page 34: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

METODI PER LA CLASSIFICAZIONE GRAMMATICALE

Prevalentemente STATISTICI Combinano:

Informazioni sulla FREQUENZA di una parola

Con informazioni sul CONTESTO (specialmente parole precedenti)

E sulla sua MORFOLOGIA (specialmente per parole sconosciute) POBILARE

Page 35: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CONCORDANZE

In Pinocchio, la forma BUONO occorre 11 volte.

Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti?

Soluzione: le CONCORDANZE

Page 36: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CONCORDANZE

1   1,    1    |    uomini, sono stati e sono o repubbliche o principati. È principati 2   2,    1    |    indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3   5,    2    |  assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4   8,    1    |    dove si trattassi delle repubbliche. Questi sono quando, o per 5  12,    3   |     vede a' principi soli e repubbliche armate fare progressi grandissimi, 6  13,    6   | Alessandro Magno, e come molte repubbliche e principi si sono armati 7  15,    1   |       molti si sono immaginati repubbliche e principati che non si

CONCORDANZA = forma + contesto

Page 37: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

RICERCHE E CONCORDANZE NEL CORPUS DI REPUBBLICA

L’interfaccia Web al corpus puo’ essere usata per Query di vario tipo (ritrovano

concordanze) Calcolare frequenze di parole

Page 38: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

TOOLS PER L’ANALISI LESSICOGRAFICA

Esistono oggi moltissimi tools che permettono di eseguire il tipo di analisi appena visto automaticamente

Esempi: WORDSMITH distribuito da ICAME (a

pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

Page 39: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

TextSTAT

Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin

Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD

Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html

Page 40: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

TextSTAT

Page 41: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CONCORDANZE: FORME DIVERSE DI CONTESTO

e le colonne e i simulacri e l’ERMEch’abbella agli occhi tuoi quest’ERMO lido,Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affannoSempre caro mi fu quest’ERMO colle,l’ERMA terra contemplo, e di fanciullade’ tuoi steli abbellir l’ERME contrade

ERME Torri, I 2ERMO lido, IV 4ERMA sede, VI 11 ERMA terrena sede, VIII 36ERMO colle, XII 1L’ERMA terra contemplo, XVI 63ERME contrade, XXXIV 8

Page 42: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

COLLOCAZIONI

NOTTE FONDA, LUNA PIENA, ALTA STAGIONE

COLLOCAZIONE: sequenza di due o piu’ parole caratterizzate da un forte legame di associazione

Page 43: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

TIPI DI COLLOCAZIONI

TERMINI TECNICI: sistema operativo, corte d’Assise

VERBO SUPPORTO: fare attenzione, prendersi un caffe’, dar manforte

COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia

Page 44: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

RICERCA DI COLLOCAZIONI

Usando metodi statistici Intuizione: cercare di scoprire coppie

la cui probabilita’ di occorrere in sequenza e’ molto maggiore di quel che ci si aspetterebbe date le relative probabilita’ di occorrenza

Page 45: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

DAI LEMMI IN UN CORPUS AI LEMMI IN UN DIZIONARIO

Durante la progettazione di un dizionario, si determinano Le DIMENSIONI del dizionario (numero di

lemmi) Il bilanciamento tra le lettere dell’alfabeto La lunghezza delle definizioni

L’uso dei dati estratti automaticamente per la compilazione richiede un passo non-automatico

Page 46: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CORPORA E LESSICOGRAFIA (AGAIN)

De Mauro, 1980: VOCABOLARIO DI BASE (VDB) 2000 vocaboli fondamentali (“se usiamo solo …

possiamo sperare di essere capiti dal 66% della popolazione Italiana che ha almeno la licenza elementare”)

2937 di alto uso, 1753 di ‘alta disponibilita’’ LIP e VDB:

AMICO, CRITICO, ESPRESSO: VDB solo sostantivi, LIP anche verbi

Non nel LIP: UNGHIA, BUGIA, PUGNO

Page 47: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CORPORA ALLINEATI E APPRENDIMENTO DELLE LINGUE

I corpora allineati (Hansard, EUROPARL) sono una risorsa importante sia per la traduzione che per l’apprendimento

Interfaccia a EuroParl (Portoghese / Francese): http://eremita.di.uminho.pt/albin/nat-searc

h.cgi

Page 48: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CREAZIONE DI CORPORA

Un impegno significativo Essenziale chiarire sin dall’inizio usi che si

vogliono fare: Che linguaggio si vuol campionare Che tipi di analisi

Decisioni tecniche: Codifica dei testi (ASCII, XML) (modulo C) Tokens, lemmi, etc.

Page 49: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

IL LESSICO DI FREQUENZA DELL’ITALIANO PARLATO

De Mauro, Mancini, Vedovelli e Voghera: LESSICO DI FREQUENZA DELL’ITALIANO PARLATO, ETAS libri, 1993

500 000 lemmi in totale (57 h di registrazione)

Raccolti in ugual numero a Milano, Firenze, Roma e Napoli

100 000 occorrenze per ognuno di cinque ‘tipi di parlato’ (da conversazione a ‘scambio unidirezionale’ = discorsi politici)

Page 50: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CREAZIONE DEL CORPUS

Raccolta dei materiali Trascrizione Trattamento automatico

Page 51: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

RACCOLTA DEI MATERIALI

Gruppo A: conversazioni bidirezionali faccia a faccia in casa / sul lavoro / a scuola / etc

Gruppo B: conversazioni bidirezionali NON faccia a faccia (al telefono)

Gruppo C: conversazioni bidirezionali faccia a faccia ma “con presa di parola non libera” (esami universitari / assemblee legislative / interviste)

Gruppo D: scambio unidirezionale in presenza del destinatario (lezioni, relazioni, comizi, omelie)

Gruppo E: scambio unidirezionale a distanza (trasmissioni televisive / radiofoniche)

Page 52: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CREAZIONE DEL CORPUS

Raccolta dei materiali Trascrizione

A mano Non IPA Vari simboli per pause, tenute vocaliche

(ciao_), etc. Trattamento automatico

Page 53: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

CREAZIONE DEL CORPUS

Raccolta dei materiali Trascrizione Trattamento automatico:

Tokenizzazione Lemmatizzazione Classificazione grammaticale Correttezza: tra il 91% ed il 94%

Page 54: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

ALCUNE STATISTICHE

il (Art) 37076 non (Av) 7752

di (Prep) 16721 in (Prep) 6879

essere (V) 15220 che (Pro) 6705

uno (Art) 12204 io (Pro) 5872

a (Prep) 11671 che (Cong) 5501

e (Cong.) 9858 avere 5396

egli (Pro) 8360 per (Prep) 4956

Page 55: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

LA CURVA DI ZIPF

Page 56: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

LIP e LIF

Non emergono chiare regole Spostamenti di RANGO

Mo’: 326 nel LIP, 3296 nel LIF Praticamente: 221 LIP, 3513 LIF Generalmente pero’ bilanciato (fare: 15

LIP, 16 LIF) Dimensioni troppo ridotte

Page 57: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

LETTURE

Jackson, cap. 13 Lenci et al: cap. 1, cap 4.1, cap. 7 Marello, cap. 5.3, 6.6 De Mauro et al 1993

Page 58: INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

ACKNOWLEDGMENTS

Ringraziamenti a Marco Baroni (UniBo)