Upload
others
View
32
Download
0
Embed Size (px)
Citation preview
I corpora Introduzione
Chiari, I. 2014. Introduzione ai corpora 1
Il lavoro sui testi
Chiari, I. 2014. Introduzione ai corpora
• spogli e raccolte di materiale linguistico autentico
Gottfried W. Leibniz e Karl Wilhelm von Humboldt
• studio delle lingue amerindiane
Franz Boas ed Edward Sapir
• produzione di dizionari (e grammatiche) della lingua inglese
Samuel Johnson e Otto Jespersen
2
Corpus (plur. corpora)
Chiari, I. 2014. Introduzione ai corpora
«raccolta completa e ordinata di scritti, di uno o più autori, riguardanti una certa materia» (De
Mauro, GRADIT)
«campione di una lingua preso in esame
nella descrizione di una lingua» (De Mauro,
GRADIT)
TESTI
• opere di Alessandro Manzoni, • lettere d’amore, • atti giudiziari, • perizie psichiatriche, • testi di telefonate
SCOPI
• usare le osservazioni condotte su un corpus campionario per estenderle all’intera popolazione;
• comparare le osservazioni condotte su diversi corpora per confrontarle infine con un corpus di riferimento, individuandone le deviazioni.
3
Un corpus
“a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration.” (McEnery and Wilson 2001: 32)
Chiari, I. 2014. Introduzione ai corpora
(Biber et al 1998: 246): “A corpus is not simply a collection of texts. Rather, a corpus seeks to represent a language or some part of a language”
4
Perché? ¡ Approccio empirico
¡ Analisi quantitative
¡ Analisi qualitative
¡ Ripetibilità e verificabilità delle analisi
¡ Definitezza dell’oggetto
Chiari, I. 2014. Introduzione ai corpora
5
Elena Tognini Bonelli (2001)
Chiari, I. 2014. Introduzione ai corpora
linguistica basata sui corpora
(corpus-based)
integrare le teorie con dati linguistici reali,
naturali, prelevati da
testi
Dictionary of the English Language
(1755-1756) di Samuel Johnson
linguistica diretta dai corpora
(corpus-driven)
l’elaborazione di una teoria antecedente
all’analisi e allo spoglio di dati
testuali
Longman Grammar of Spoken and
Written English (Biber et alii
1999)
6
Corpus based approach ¡ “Corpus-based studies typically use corpus data
in order to explore a theory or hypothesis, typically one established in the current literature, in order to validate it, refute it or refine it.” ¡ McEnery, Tony e Andrew Hardie, Corpus linguistics :
method, theory and practice, Cambridge University Press, Cambridge ; New York, 2012.
¡ Corpus linguistics as a method.
Chiari, I. 2014. Introduzione ai corpora
7
Corpus driven approach ¡ “Corpus-driven linguistics rejects the
characterisation of corpus linguistics as a method and claims instead that the corpus itself should be the sole source of our hypotheses about language. It is thus claimed that the corpus itself embodies its own theory of language (Tognini-Bonelli 2001: 84–5).” ¡ McEnery, Tony e Andrew Hardie, 2012
¡ Neo-Firthian
¡ Corpus as theory
Chiari, I. 2014. Introduzione ai corpora
8
LA RAPPRESENTATIVITA’ La rappresentatività è:
¡ Quantitativa ¡ Qualitativa
¡ A sample is representative if what we find for the sample also holds for the general population (Manning and Schütze1999: 119)
Popolazione = insieme di eventi linguistici
¡ La rappresentatività ¡ è ciò che distingue corpora da archivi ¡ permette la generalizzazione dei
risultati dell’analisi di una particolare varietà di lingua
Chiari, I. 2014. Introduzione ai corpora
Popolazione
Campione
“the principal object of any sampling procedure is to secure a sample which,
subject to limitations of size, will reproduce the characteristics of the
population, especially those of immediate interest, as closely as
possible.” (Yates 1965: 9)
Without representativeness, whatever is found to be true of a corpus, is simply true of that corpus – and cannot be extended to anything else. • (Leech 2006: 3)
9
La rappresentatività
Chiari, I. 2014. Introduzione ai corpora
Il campione deve, per l’aspetto che si intende studiare, essere atto a esibire lo stesso tipo di informazioni (qualitative) con la stessa probabilità di occorrenza (quantitativa) della popolazione.
La rappresentatività è una caratteristica relativa.
• varia secondo l’aspetto linguistico che si intende studiare • un corpus rappresentativo per caratteristiche lessicali potrebbe non esserlo per
caratteristiche di tipo sintattico oppure stilistico
Un campione non è mai comunque «di per sé» rappresentativo
10
Perché si cerca la rappresentatività? ¡ La rappresentatività ¡ è ciò che distingue corpora da archivi ¡ permette la generalizzazione dei risultati dell’analisi di
una particolare varietà di lingua
¡ Without representativeness, whatever is found to be true of a corpus, is simply true of that corpus – and cannot be extended to anything else. ¡ (Leech 2006: 3)
¡ the measures of balance and representativeness are matters of degree (McEnery & Hardie, 2012)
Chiari, I. 2014. Introduzione ai corpora
Pagina 11
Ma cosa si intende per “rappresentare la lingua?”
¡ Non bastano le dimensioni…
¡ “Books on sampling theory, however, emphasize that sample size is not the most important consideration in selecting a representative sample; rather, a thorough definition of the target population and decisions concerning the method of sampling are prior considerations. Representativeness refers to the extent to which a sample includes the full range of variability in a population.” (Biber 1993: 243)
Chiari, I. 2014. Introduzione ai corpora
Pagina 12
Casi: corpora e rappresentatività
corpus
Testo / documento / insieme di testi come oggetto di descrizione
Testo o insieme di testi come esempio di
una tipologia
Insieme di testi allo scopo di
rappresentare la lingua
Chiari, I. 2014. Introduzione ai corpora
13
Criteri per il corpus design ¡ Linguistic criteria to be applied to the selection and ordering may
be:
¡ External -- in that they concern the participants, the occasion, the social setting or the communicative function of the pieces of langu age;
¡ Internal -- in that they concern the recurrence of language patterns within the pieces of language.
Chiari, I. 2014. Introduzione ai corpora
14
I tipi di corpora Secondo il punto di vista
Chiari, I. 2014. Introduzione ai corpora
15
Secondo l’obiettivo
General purpose – Reference
Corpora
Rappresentare la lingua
Rappresentare una varietà
Corpora specialistici
Domain specific Type specific
Research centred
Corpora opportunistici
Chiari, I. 2014. Introduzione ai corpora
16
Secondo l’apertura
Finiti/statici
Estensione finita BNC
Dinamici / Monitor
Estensione aperta
Bank of English
Collezioni
Senza design
Un principio unitario
Nessun principio
Chiari, I. 2014. Introduzione ai corpora
17
Secondo il mezzo
Lingua scritta Lingua parlata Misti Varietà
diamesiche specifiche
Web corpora
Siti web, wikipedia, ecc.
Comunicazione mediata dal
computer
Forum, blog, social network,
newsgroup, chat
Lingua trasmessa Radio, tv, cinema
Chiari, I. 2014. Introduzione ai corpora
18
Secondo la lingua
Corpora monolingui
Corpora ‘gemelli’
Corpora paralleli
Per la traduzione automatica e
analisi contrastiva
Corpora multilingui
Chiari, I. 2014. Introduzione ai corpora
19
Secondo l’asse temporale
Corpora sincronici
Stato di lingua
Corpora diacronici
La lingua nel tempo
Chiari, I. 2014. Introduzione ai corpora
20
Secondo il parlante
Corpora (senza
specifiche)
Parlanti nativi o misti
Learner corpora
Parlanti L2 Corpora di
apprendimento
Chiari, I. 2014. Introduzione ai corpora
21
Il parametro dell’estensione
Come valutarla, come determinarla
Chiari, I. 2014. Introduzione ai corpora
22
Lʼ’estensione
Chiari, I. 2014. Introduzione ai corpora
L’estensione è una variabile che influenza il grado di rappresentatività di un campione testuale.
Esistono diverse estensioni standard a seconda del livello di analisi linguistica obiettivo del design del corpus stesso.
• Per le analisi di tipo lessicale, di gran lunga le più frequenti condotte su corpora, si sono individuate soglie indicative minime per determinare un’estensione ragionevole per i corpora.
Un indicatore globale più agevole può essere considerato anche il numero di occorrenze (token) di parole grafiche presenti nel corpus.
23
Estensione corpora per analisi lessicali (2006)
Chiari, I. 2014. Introduzione ai corpora
Corpus non rappresentativo (insuff.)
< 15.000 parole grafiche
Corpus piccolo Da circa 15.000-100.000 parole
Corpus medio-piccolo Da circa 1 milione di parole
Corpus medio-grande Da circa 1 milione a 50 milioni di parole
Corpus standard Da circa 50 milioni a 100 milioni di parole
Corpus grande Oltre i 100 milioni di parole
24
Quanto sono lunghi i testi?
¡ Una canzone ¡ Circa 250 parole
¡ Un testo teatrale ¡ Circa 30.000 parole
¡ Una copia integrale di un quotidiano ¡ 80.000-90.000 parole (Corriere della sera)
¡ Un romanzo (ma variano molto) ¡ 50.000-80.000 parole
Chiari, I. 2014. Introduzione ai corpora
25
Estensioni di alcuni corpora di riferimento
Chiari, I. 2014. Introduzione ai corpora
Brown Corpus (1961) • 1 milione di occorrenze
LIF, Lessico di frequenza della lingua italiana contemporanea, 1971 • 500.000 occorrenze
British National Corpus • 100 milioni di occorrenze
Corpus di italiano scritto contemporaneo (CORIS) • 100 milioni di occorrenze
Bank of English • Circa 500 milioni di occorrenze
26
Corpora statici e corpora dinamici
Chiari, I. 2014. Introduzione ai corpora
British National Corpus
CORPUS STATICO
estensione finita
vantaggi • analisi finite e
ripetibili • comparabilità
CORPUS DINAMICO
Bank of
English
monitor
vantaggi • aggiornamento • analisi diacroniche
27
I corpora di riferimento
delle principali lingue europee moderne
Chiari, I. 2014. Introduzione ai corpora
28
Un corpus di riferimento
Chiari, I. 2014. Introduzione ai corpora
reference corpus
• testi appartenenti a diverse varietà sociolinguistiche, diafasiche e diatopiche.
mira a rappresentare “la lingua”, non una sua varietà
Standard di estensione
• Da 500.000 occorrenze • A 500 milioni
29
Brown Corpus of Standard American English
Chiari, I. 2014. Introduzione ai corpora
W. N. Francis e H. Kucera, della Brown University
1961
Corpus di lingua scritta • primo corpus linguistico elettronico dell’inglese americano • Corpus più usato nella ricerca • Lessico di frequenza abbinato
Composizione • 500 testi • Ciascun testo è composto da 2.000 parole (sample corpus) • 15 categorie testuali diverse • un totale di un milione di parole
Sistema di trascrizione e annotazione proprio • programma automatico CLAWS dell’Università di Lancaster • L’etichettatura rispetta le Guidelines della Text Encoding Initiative (TEI)
30
British National Corpus
Chiari, I. 2014. Introduzione ai corpora
Oxford University Press • interrogabile dal sito di Mark Davies: http://view.byu.edu/ • Raccolta 1991 - uscita 1995
Lingua parlata e lingua • inglese contemporaneo
100,106,008 parole • 4,124 testi
software di interrogazione SARA
Composizione • 4,124 testi • 90% deriva da testi scritti
• romanzi e saggi, e testi tecnico-scientifici • 10% da trascrizioni di parlato
• 863 testi • programmi radiofonici, conversazioni telefoniche, parlato spontaneo
31
British National Corpus
Chiari, I. 2014. Introduzione ai corpora
32
Bank of English
Chiari, I. 2014. Introduzione ai corpora
diretta dal linguista John Sinclair
corpus dinamico di testi scritti e parlati in inglese britannico • Con monitor corpus
Circa 500 milioni di occorrenze
Obiettivi lessicografici • Il progetto procede insieme al lavoro lessicografico del Collins Cobuild
English Dictionary for Advanced Learners (2001) e dell’Università di Birmingham.
Annotazione • ENGTWOL lexical analyser
• Statistical tagger • Error rate 0.5%
33
LIP – Corpus del Lessico di frequenza dell’italiano parlato
Chiari, I. 2014. Introduzione ai corpora
A cura di Tullio De Mauro, Federico Mancini, Massimo Vedovelli e Miriam Voghera (1993)
57h di registrazione di parlato (1990-1992)
• 475.883 parole grafiche • 496.335 occorrenze di lemmi
Rappresentatività geografica: Milano, Firenze, Roma e Napoli: ogni città 125.000 occorrenze
Tipologie testuali
• 1) Scambio bidirezionale faccia a faccia con presa di parola libera • 2) Scambio bidirezionale non faccia a faccia con presa di parola libera (conversazioni telefoniche) • 3) Scambio bidirezionale faccia a faccia con presa di parola non libera (dibattiti, interviste, interrogazioni) • 4) Scambio unidirezionale in presenza di destinatario/i (lezioni, conferenze, omelie, comizi, ecc.) • 5) Scambio unidirezionale o bidirezionale a distanza (trasmissioni radiofoniche e televisive)
Interrogazione
• Sito BADIP (banca dati dell'italiano parlato) • http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php
34
Interrogazione BADIP
Chiari, I. 2014. Introduzione ai corpora
35
Il CORIS/CODIS
Chiari, I. 2014. Introduzione ai corpora
COrpus di Riferimento dell'Italiano Scritto (CORIS)
COrpus Dinamico dell'Italiano Scritto (CODIS) • CILTA (Centro interfacoltà di linguistica teorica e applicata “Luigi
Heilmann”, Bologna) • A cura di R. Rossini Favretti • (1998)
100 milioni di parole • aggiornato tramite un corpus di monitoraggio con cadenza biennale • testi: prevalentemente di narrativa prodotta negli anni Ottanta e
Novanta
Accesso • http://corpus.cilta.unibo.it:8080/coris_ita.html
36
CODIS
Chiari, I. 2014. Introduzione ai corpora
37
I corpora multilingui e paralleli
Chiari, I. 2014. Introduzione ai corpora
Scopi
• facilitare la costruzione di risorse didattiche, sistemi di traduzione, basi dati terminologiche, dizionari elettronici, ecc
corpora paralleli • da testi originali in una lingua (SL, source language) e da traduzioni di questi testi
in una o più altre lingue (TL, target language) • allineamento
corpora multilingui • i testi non sono in traduzioni reciproche, ma vertono su ambiti disciplinari
corrispondenti permettendo così la costituzione di banche dati terminologiche • linguaggi settoriali come linguaggio giuridico, economico, commerciale
Esempi • BAF (French-English Parallel Corpus) • progetto MULTEX (Multilingual Text Tools and Corpora • progetto CHILDES (Child Language Data Exchange System)
38
Chiari, I. 2014. Introduzione ai corpora
formato elettronico (machine-readable form)
• trattamento informatizzato dei dati testuali • archiviare i testi in forma digitale • interrogabile
riferimento standard
• punti di riferimento per lo studio della varietà che rappresentano
• Mediante l’esplicitazione delle metodologie di analisi • facilitando la comparazione tra corpora diversi
39
La costruzione di un corpus elettronico
Chiari, I. 2014. Introduzione ai corpora
raccolta corpus
segmentazione preparazione del corpus
etichettatura
interrogazione avanzata
concordanze / liste di frequenza
40
Epoca pre-elettronica
¡ Alexander Cruden (XVIII secolo), 1737 ¡ Concordanze della Bibbia in inglese
¡ 2,370,000 parole
Chiari, I. 2014. Introduzione ai corpora
41
I citation slips
Chiari, I. 2014. Introduzione ai corpora
42
Un po’ di storia della linguistica dei corpora ¡ Centrata sulla tradizione inglese,
oggi in chiave multilingue
¡ Anglo-centric bias
¡ Padre Roberto Busa ¡ 1951, prima concordanza
informatizzata dei lavori di Tommaso d’Aquino.
¡ Index Thomisticus con IBM
¡ http://www.corpusthomisticum.org/it/index.age
Chiari, I. 2014. Introduzione ai corpora
43
Le schede perforate
Chiari, I. 2014. Introduzione ai corpora
44
Immagazzinare dati testuali: le schede perforate
Chiari, I. 2014. Introduzione ai corpora
45
¡ La scheda perforata è un supporto di registrazione atto a contenere informazioni da utilizzare nelle macchine per il trattamento automatico dei dati.
Chiari, I. 2014. Introduzione ai corpora
46
La tradizione francese ¡ Alphonse Juilland ¡ Il français fondamental
¡ Corpus e lessicografia
¡ La nozione di alta disponibilità
¡ Pierre Guiraud ¡ Analisi delle proprietà statistiche del lessico
Chiari, I. 2014. Introduzione ai corpora
47
The Survey o English Usage (SEU) corpus ¡ Randolph Quirk
¡ 1959
Chiari, I. 2014. Introduzione ai corpora
48
La tradizione sull’inglese ¡ Anni Sessanta (Brown Corpus, Kucera & Francis 1964)
¡ ICAME (the International Computer Archive of Modern English) ¡ network of scholars to cooperate in the development of ECL as a field
¡ University College London, Lancaster University, the University of Birmingham, the Universit´e Catholique de Louvain, the University of Nottingham and Northern Arizona University
¡ Scuola di Birmingham (John Sinclair, Elena Tognini-Bonelli, Susan Hunston, Wolfgang Teubert, Antoinette Renouf) ¡ Firthian approach
¡ COBUILD Collins
¡ 1960-70
¡ The Bank of English
¡ Strumenti: Wordsmith Tools (Scott), uno dei primi programmi di esplorazione individuale di corpora disponibili
Chiari, I. 2014. Introduzione ai corpora
49
La tradizione sull’inglese 2 ¡ Università di Lancaster ¡ Garnside, Leech
¡ CLAWS (the Constituent Likelihood Automatic Word-tagging System; Garside et al. 1987), 1980-82
¡ Université Catholique de Louvain ¡ Silviane Granger
¡ International Corpus of Learner English (ICLE) in 1990
¡ Oggi 4.5 million words arranged in sixteen subcorpora
Chiari, I. 2014. Introduzione ai corpora
50
Domande da porsi prima… ¡ Che tipo di testi è necessario includere per
rispondere alla domanda di ricerca?
¡ Quanti testi?
¡ Quanto lunghi?
¡ Devo confrontare le analisi con qualcos’altro? Esiste qualcosa di adatto a rispondere alla domanda di confronto?
¡ Come raccolgo i testi?
¡ Che tipo di trattamento e annotazione è necessario? Il trattamento è fattibile?
¡ Che tipo di interrogazione è necessaria? È possibile?
Chiari, I. 2014. Introduzione ai corpora
51
Esercitazione/Discussione
1.
Che tipo di corpus è?
2.
È un corpus bilanciato?
3.
È rappresentativo?
Chiari, I. 2014. Introduzione ai corpora
52
§ Osservare la composizione del corpus (fittizio) dell’esempio.