I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

I corpora Introduzione

Chiari, I. 2014. Introduzione ai corpora 1

Il lavoro sui testi

Chiari, I. 2014. Introduzione ai corpora

• spogli e raccolte di materiale linguistico autentico

Gottfried W. Leibniz e Karl Wilhelm von Humboldt

• studio delle lingue amerindiane

Franz Boas ed Edward Sapir

• produzione di dizionari (e grammatiche) della lingua inglese

Samuel Johnson e Otto Jespersen

2

Corpus (plur. corpora)


«raccolta completa e ordinata di scritti, di uno o più autori, riguardanti una certa materia» (De

Mauro, GRADIT)

«campione di una lingua preso in esame

nella descrizione di una lingua» (De Mauro,

GRADIT)

TESTI

• opere di Alessandro Manzoni, •  lettere d’amore, • atti giudiziari, • perizie psichiatriche, • testi di telefonate

SCOPI

• usare le osservazioni condotte su un corpus campionario per estenderle all’intera popolazione;

• comparare le osservazioni condotte su diversi corpora per confrontarle infine con un corpus di riferimento, individuandone le deviazioni.

3

Un corpus

“a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration.” (McEnery and Wilson 2001: 32)


(Biber et al 1998: 246): “A corpus is not simply a collection of texts. Rather, a corpus seeks to represent a language or some part of a language”

4

Perché? ¡ Approccio empirico

¡ Analisi quantitative

¡ Analisi qualitative

¡  Ripetibilità e verificabilità delle analisi

¡ Definitezza dell’oggetto


5

Elena Tognini Bonelli (2001)


linguistica basata sui corpora

(corpus-based)

integrare le teorie con dati linguistici reali,

naturali, prelevati da

testi

Dictionary of the English Language

(1755-1756) di Samuel Johnson

linguistica diretta dai corpora

(corpus-driven)

l’elaborazione di una teoria antecedente

all’analisi e allo spoglio di dati

testuali

Longman Grammar of Spoken and

Written English (Biber et alii

1999)

6

Corpus based approach ¡  “Corpus-based studies typically use corpus data

in order to explore a theory or hypothesis, typically one established in the current literature, in order to validate it, refute it or refine it.” ¡  McEnery, Tony e Andrew Hardie, Corpus linguistics :

method, theory and practice, Cambridge University Press, Cambridge ; New York, 2012.

¡  Corpus linguistics as a method.


7

Corpus driven approach ¡  “Corpus-driven linguistics rejects the

characterisation of corpus linguistics as a method and claims instead that the corpus itself should be the sole source of our hypotheses about language. It is thus claimed that the corpus itself embodies its own theory of language (Tognini-Bonelli 2001: 84–5).” ¡  McEnery, Tony e Andrew Hardie, 2012

¡  Neo-Firthian

¡  Corpus as theory


8

LA RAPPRESENTATIVITA’ La rappresentatività è:

¡  Quantitativa ¡  Qualitativa

¡ A sample is representative if what we find for the sample also holds for the general population (Manning and Schütze1999: 119)

Popolazione = insieme di eventi linguistici

¡  La rappresentatività ¡  è ciò che distingue corpora da archivi ¡  permette la generalizzazione dei

risultati dell’analisi di una particolare varietà di lingua


Popolazione

Campione

“the principal object of any sampling procedure is to secure a sample which,

subject to limitations of size, will reproduce the characteristics of the

population, especially those of immediate interest, as closely as

possible.” (Yates 1965: 9)

Without representativeness, whatever is found to be true of a corpus, is simply true of that corpus – and cannot be extended to anything else. • (Leech 2006: 3)

9

La rappresentatività


Il campione deve, per l’aspetto che si intende studiare, essere atto a esibire lo stesso tipo di informazioni (qualitative) con la stessa probabilità di occorrenza (quantitativa) della popolazione.

La rappresentatività è una caratteristica relativa.

• varia secondo l’aspetto linguistico che si intende studiare • un corpus rappresentativo per caratteristiche lessicali potrebbe non esserlo per

caratteristiche di tipo sintattico oppure stilistico

Un campione non è mai comunque «di per sé» rappresentativo

10

Perché si cerca la rappresentatività? ¡  La rappresentatività ¡  è ciò che distingue corpora da archivi ¡  permette la generalizzazione dei risultati dell’analisi di

una particolare varietà di lingua

¡ Without representativeness, whatever is found to be true of a corpus, is simply true of that corpus – and cannot be extended to anything else. ¡  (Leech 2006: 3)

¡  the measures of balance and representativeness are matters of degree (McEnery & Hardie, 2012)


Pagina 11

Ma cosa si intende per “rappresentare la lingua?”

¡ Non bastano le dimensioni…

¡  “Books on sampling theory, however, emphasize that sample size is not the most important consideration in selecting a representative sample; rather, a thorough definition of the target population and decisions concerning the method of sampling are prior considerations. Representativeness refers to the extent to which a sample includes the full range of variability in a population.” (Biber 1993: 243)


Pagina 12

Casi: corpora e rappresentatività

corpus

Testo / documento / insieme di testi come oggetto di descrizione

Testo o insieme di testi come esempio di

una tipologia

Insieme di testi allo scopo di

rappresentare la lingua


13

Criteri per il corpus design ¡  Linguistic criteria to be applied to the selection and ordering may

be:

¡  External -- in that they concern the participants, the occasion, the social setting or the communicative function of the pieces of langu age;

¡  Internal -- in that they concern the recurrence of language patterns within the pieces of language.


14

I tipi di corpora Secondo il punto di vista


15

Secondo l’obiettivo

General purpose – Reference

Corpora

Rappresentare la lingua

Rappresentare una varietà

Corpora specialistici

Domain specific Type specific

Research centred

Corpora opportunistici


16

Secondo l’apertura

Finiti/statici

Estensione finita BNC

Dinamici / Monitor

Estensione aperta

Bank of English

Collezioni

Senza design

Un principio unitario

Nessun principio


17

Secondo il mezzo

Lingua scritta Lingua parlata Misti Varietà

diamesiche specifiche

Web corpora

Siti web, wikipedia, ecc.

Comunicazione mediata dal

computer

Forum, blog, social network,

newsgroup, chat

Lingua trasmessa Radio, tv, cinema


18

Secondo la lingua

Corpora monolingui

Corpora ‘gemelli’

Corpora paralleli

Per la traduzione automatica e

analisi contrastiva

Corpora multilingui


19

Secondo l’asse temporale

Corpora sincronici

Stato di lingua

Corpora diacronici

La lingua nel tempo


20

Secondo il parlante

Corpora (senza

specifiche)

Parlanti nativi o misti

Learner corpora

Parlanti L2 Corpora di

apprendimento


21

Il parametro dell’estensione

Come valutarla, come determinarla


22

Lʼ’estensione


L’estensione è una variabile che influenza il grado di rappresentatività di un campione testuale.

Esistono diverse estensioni standard a seconda del livello di analisi linguistica obiettivo del design del corpus stesso.

• Per le analisi di tipo lessicale, di gran lunga le più frequenti condotte su corpora, si sono individuate soglie indicative minime per determinare un’estensione ragionevole per i corpora.

Un indicatore globale più agevole può essere considerato anche il numero di occorrenze (token) di parole grafiche presenti nel corpus.

23

Estensione corpora per analisi lessicali (2006)


Corpus non rappresentativo (insuff.)

< 15.000 parole grafiche

Corpus piccolo Da circa 15.000-100.000 parole

Corpus medio-piccolo Da circa 1 milione di parole

Corpus medio-grande Da circa 1 milione a 50 milioni di parole

Corpus standard Da circa 50 milioni a 100 milioni di parole

Corpus grande Oltre i 100 milioni di parole

24

Quanto sono lunghi i testi?

¡  Una canzone ¡  Circa 250 parole

¡  Un testo teatrale ¡  Circa 30.000 parole

¡  Una copia integrale di un quotidiano ¡  80.000-90.000 parole (Corriere della sera)

¡  Un romanzo (ma variano molto) ¡  50.000-80.000 parole


25

Estensioni di alcuni corpora di riferimento


Brown Corpus (1961) • 1 milione di occorrenze

LIF, Lessico di frequenza della lingua italiana contemporanea, 1971 • 500.000 occorrenze

British National Corpus • 100 milioni di occorrenze

Corpus di italiano scritto contemporaneo (CORIS) • 100 milioni di occorrenze

Bank of English • Circa 500 milioni di occorrenze

26

Corpora statici e corpora dinamici


British National Corpus

CORPUS STATICO

estensione finita

vantaggi • analisi finite e

ripetibili • comparabilità

CORPUS DINAMICO

Bank of

English

monitor

vantaggi • aggiornamento • analisi diacroniche

27

I corpora di riferimento

delle principali lingue europee moderne


28

Un corpus di riferimento


reference corpus

• testi appartenenti a diverse varietà sociolinguistiche, diafasiche e diatopiche.

mira a rappresentare “la lingua”, non una sua varietà

Standard di estensione

• Da 500.000 occorrenze • A 500 milioni

29

Brown Corpus of Standard American English


W. N. Francis e H. Kucera, della Brown University

1961

Corpus di lingua scritta • primo corpus linguistico elettronico dell’inglese americano • Corpus più usato nella ricerca • Lessico di frequenza abbinato

Composizione • 500 testi • Ciascun testo è composto da 2.000 parole (sample corpus) • 15 categorie testuali diverse • un totale di un milione di parole

Sistema di trascrizione e annotazione proprio • programma automatico CLAWS dell’Università di Lancaster • L’etichettatura rispetta le Guidelines della Text Encoding Initiative (TEI)

30



Oxford University Press • interrogabile dal sito di Mark Davies: http://view.byu.edu/ • Raccolta 1991 - uscita 1995

Lingua parlata e lingua • inglese contemporaneo

100,106,008 parole • 4,124 testi

software di interrogazione SARA

Composizione • 4,124 testi • 90% deriva da testi scritti

• romanzi e saggi, e testi tecnico-scientifici • 10% da trascrizioni di parlato

• 863 testi • programmi radiofonici, conversazioni telefoniche, parlato spontaneo

31



32

Bank of English


diretta dal linguista John Sinclair

corpus dinamico di testi scritti e parlati in inglese britannico • Con monitor corpus

Circa 500 milioni di occorrenze

Obiettivi lessicografici •  Il progetto procede insieme al lavoro lessicografico del Collins Cobuild

English Dictionary for Advanced Learners (2001) e dell’Università di Birmingham.

Annotazione • ENGTWOL lexical analyser

• Statistical tagger • Error rate 0.5%

33

LIP – Corpus del Lessico di frequenza dell’italiano parlato


A cura di Tullio De Mauro, Federico Mancini, Massimo Vedovelli e Miriam Voghera (1993)

57h di registrazione di parlato (1990-1992)

• 475.883 parole grafiche • 496.335 occorrenze di lemmi

Rappresentatività geografica: Milano, Firenze, Roma e Napoli: ogni città 125.000 occorrenze

Tipologie testuali

• 1) Scambio bidirezionale faccia a faccia con presa di parola libera • 2) Scambio bidirezionale non faccia a faccia con presa di parola libera (conversazioni telefoniche) • 3) Scambio bidirezionale faccia a faccia con presa di parola non libera (dibattiti, interviste, interrogazioni) • 4) Scambio unidirezionale in presenza di destinatario/i (lezioni, conferenze, omelie, comizi, ecc.) • 5) Scambio unidirezionale o bidirezionale a distanza (trasmissioni radiofoniche e televisive)

Interrogazione

• Sito BADIP (banca dati dell'italiano parlato) • http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php

34

Interrogazione BADIP


35

Il CORIS/CODIS


COrpus di Riferimento dell'Italiano Scritto (CORIS)

COrpus Dinamico dell'Italiano Scritto (CODIS) • CILTA (Centro interfacoltà di linguistica teorica e applicata “Luigi

Heilmann”, Bologna) • A cura di R. Rossini Favretti • (1998)

100 milioni di parole • aggiornato tramite un corpus di monitoraggio con cadenza biennale • testi: prevalentemente di narrativa prodotta negli anni Ottanta e

Novanta

Accesso • http://corpus.cilta.unibo.it:8080/coris_ita.html

36

CODIS


37

I corpora multilingui e paralleli


Scopi

•  facilitare la costruzione di risorse didattiche, sistemi di traduzione, basi dati terminologiche, dizionari elettronici, ecc

corpora paralleli • da testi originali in una lingua (SL, source language) e da traduzioni di questi testi

in una o più altre lingue (TL, target language) • allineamento

corpora multilingui •  i testi non sono in traduzioni reciproche, ma vertono su ambiti disciplinari

corrispondenti permettendo così la costituzione di banche dati terminologiche •  linguaggi settoriali come linguaggio giuridico, economico, commerciale

Esempi • BAF (French-English Parallel Corpus) • progetto MULTEX (Multilingual Text Tools and Corpora • progetto CHILDES (Child Language Data Exchange System)

38


formato elettronico (machine-readable form)

• trattamento informatizzato dei dati testuali • archiviare i testi in forma digitale •  interrogabile

riferimento standard

• punti di riferimento per lo studio della varietà che rappresentano

• Mediante l’esplicitazione delle metodologie di analisi • facilitando la comparazione tra corpora diversi

39

La costruzione di un corpus elettronico


raccolta corpus

segmentazione preparazione del corpus

etichettatura

interrogazione avanzata

concordanze / liste di frequenza

40

Epoca pre-elettronica

¡ Alexander Cruden (XVIII secolo), 1737 ¡  Concordanze della Bibbia in inglese

¡  2,370,000 parole


41

I citation slips


42

Un po’ di storia della linguistica dei corpora ¡ Centrata sulla tradizione inglese,

oggi in chiave multilingue

¡  Anglo-centric bias

¡  Padre Roberto Busa ¡  1951, prima concordanza

informatizzata dei lavori di Tommaso d’Aquino.

¡  Index Thomisticus con IBM

¡  http://www.corpusthomisticum.org/it/index.age


43

Le schede perforate


44

Immagazzinare dati testuali: le schede perforate


45

¡  La scheda perforata è un supporto di registrazione atto a contenere informazioni da utilizzare nelle macchine per il trattamento automatico dei dati.


46

La tradizione francese ¡ Alphonse Juilland ¡  Il français fondamental

¡  Corpus e lessicografia

¡  La nozione di alta disponibilità

¡  Pierre Guiraud ¡  Analisi delle proprietà statistiche del lessico


47

The Survey o English Usage (SEU) corpus ¡  Randolph Quirk

¡  1959


48

La tradizione sull’inglese ¡  Anni Sessanta (Brown Corpus, Kucera & Francis 1964)

¡  ICAME (the International Computer Archive of Modern English) ¡  network of scholars to cooperate in the development of ECL as a field

¡  University College London, Lancaster University, the University of Birmingham, the Universit´e Catholique de Louvain, the University of Nottingham and Northern Arizona University

¡  Scuola di Birmingham (John Sinclair, Elena Tognini-Bonelli, Susan Hunston, Wolfgang Teubert, Antoinette Renouf) ¡  Firthian approach

¡  COBUILD Collins

¡  1960-70

¡  The Bank of English

¡  Strumenti: Wordsmith Tools (Scott), uno dei primi programmi di esplorazione individuale di corpora disponibili


49

La tradizione sull’inglese 2 ¡  Università di Lancaster ¡  Garnside, Leech

¡  CLAWS (the Constituent Likelihood Automatic Word-tagging System; Garside et al. 1987), 1980-82

¡  Université Catholique de Louvain ¡  Silviane Granger

¡  International Corpus of Learner English (ICLE) in 1990

¡  Oggi 4.5 million words arranged in sixteen subcorpora


50

Domande da porsi prima… ¡ Che tipo di testi è necessario includere per

rispondere alla domanda di ricerca?

¡ Quanti testi?

¡ Quanto lunghi?

¡ Devo confrontare le analisi con qualcos’altro? Esiste qualcosa di adatto a rispondere alla domanda di confronto?

¡ Come raccolgo i testi?

¡ Che tipo di trattamento e annotazione è necessario? Il trattamento è fattibile?

¡ Che tipo di interrogazione è necessaria? È possibile?


51

Esercitazione/Discussione

1.

Che tipo di corpus è?

2.

È un corpus bilanciato?

3.

È rappresentativo?


52

§  Osservare la composizione del corpus (fittizio) dell’esempio.

Documents

I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,