52
I corpora Introduzione Chiari, I. 2014. Introduzione ai corpora 1

I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

  • Upload
    others

  • View
    32

  • Download
    0

Embed Size (px)

Citation preview

Page 1: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

I corpora Introduzione

Chiari, I. 2014. Introduzione ai corpora 1

Page 2: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Il lavoro sui testi

Chiari, I. 2014. Introduzione ai corpora

• spogli e raccolte di materiale linguistico autentico

Gottfried W. Leibniz e Karl Wilhelm von Humboldt

• studio delle lingue amerindiane

Franz Boas ed Edward Sapir

• produzione di dizionari (e grammatiche) della lingua inglese

Samuel Johnson e Otto Jespersen

2

Page 3: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Corpus (plur. corpora)

Chiari, I. 2014. Introduzione ai corpora

«raccolta completa e ordinata di scritti, di uno o più autori, riguardanti una certa materia» (De

Mauro, GRADIT)

«campione di una lingua preso in esame

nella descrizione di una lingua» (De Mauro,

GRADIT)

TESTI

• opere di Alessandro Manzoni, •  lettere d’amore, • atti giudiziari, • perizie psichiatriche, • testi di telefonate

SCOPI

• usare le osservazioni condotte su un corpus campionario per estenderle all’intera popolazione;

• comparare le osservazioni condotte su diversi corpora per confrontarle infine con un corpus di riferimento, individuandone le deviazioni.

3

Page 4: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Un corpus

“a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration.” (McEnery and Wilson 2001: 32)

Chiari, I. 2014. Introduzione ai corpora

(Biber et al 1998: 246): “A corpus is not simply a collection of texts. Rather, a corpus seeks to represent a language or some part of a language”

4

Page 5: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Perché? ¡ Approccio empirico

¡ Analisi quantitative

¡ Analisi qualitative

¡  Ripetibilità e verificabilità delle analisi

¡ Definitezza dell’oggetto

Chiari, I. 2014. Introduzione ai corpora

5

Page 6: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Elena Tognini Bonelli (2001)

Chiari, I. 2014. Introduzione ai corpora

linguistica basata sui corpora

(corpus-based)

integrare le teorie con dati linguistici reali,

naturali, prelevati da

testi

Dictionary of the English Language

(1755-1756) di Samuel Johnson

linguistica diretta dai corpora

(corpus-driven)

l’elaborazione di una teoria antecedente

all’analisi e allo spoglio di dati

testuali

Longman Grammar of Spoken and

Written English (Biber et alii

1999)

6

Page 7: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Corpus based approach ¡  “Corpus-based studies typically use corpus data

in order to explore a theory or hypothesis, typically one established in the current literature, in order to validate it, refute it or refine it.” ¡  McEnery, Tony e Andrew Hardie, Corpus linguistics :

method, theory and practice, Cambridge University Press, Cambridge ; New York, 2012.

¡  Corpus linguistics as a method.

Chiari, I. 2014. Introduzione ai corpora

7

Page 8: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Corpus driven approach ¡  “Corpus-driven linguistics rejects the

characterisation of corpus linguistics as a method and claims instead that the corpus itself should be the sole source of our hypotheses about language. It is thus claimed that the corpus itself embodies its own theory of language (Tognini-Bonelli 2001: 84–5).” ¡  McEnery, Tony e Andrew Hardie, 2012

¡  Neo-Firthian

¡  Corpus as theory

Chiari, I. 2014. Introduzione ai corpora

8

Page 9: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

LA RAPPRESENTATIVITA’ La rappresentatività è:

¡  Quantitativa ¡  Qualitativa

¡ A sample is representative if what we find for the sample also holds for the general population (Manning and Schütze1999: 119)

Popolazione = insieme di eventi linguistici

¡  La rappresentatività ¡  è ciò che distingue corpora da archivi ¡  permette la generalizzazione dei

risultati dell’analisi di una particolare varietà di lingua

Chiari, I. 2014. Introduzione ai corpora

Popolazione

Campione

“the principal object of any sampling procedure is to secure a sample which,

subject to limitations of size, will reproduce the characteristics of the

population, especially those of immediate interest, as closely as

possible.” (Yates 1965: 9)

Without representativeness, whatever is found to be true of a corpus, is simply true of that corpus – and cannot be extended to anything else. • (Leech 2006: 3)

9

Page 10: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

La rappresentatività

Chiari, I. 2014. Introduzione ai corpora

Il campione deve, per l’aspetto che si intende studiare, essere atto a esibire lo stesso tipo di informazioni (qualitative) con la stessa probabilità di occorrenza (quantitativa) della popolazione.

La rappresentatività è una caratteristica relativa.

• varia secondo l’aspetto linguistico che si intende studiare • un corpus rappresentativo per caratteristiche lessicali potrebbe non esserlo per

caratteristiche di tipo sintattico oppure stilistico

Un campione non è mai comunque «di per sé» rappresentativo

10

Page 11: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Perché si cerca la rappresentatività? ¡  La rappresentatività ¡  è ciò che distingue corpora da archivi ¡  permette la generalizzazione dei risultati dell’analisi di

una particolare varietà di lingua

¡ Without representativeness, whatever is found to be true of a corpus, is simply true of that corpus – and cannot be extended to anything else. ¡  (Leech 2006: 3)

¡  the measures of balance and representativeness are matters of degree (McEnery & Hardie, 2012)

Chiari, I. 2014. Introduzione ai corpora

Pagina 11

Page 12: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Ma cosa si intende per “rappresentare la lingua?”

¡ Non bastano le dimensioni…

¡  “Books on sampling theory, however, emphasize that sample size is not the most important consideration in selecting a representative sample; rather, a thorough definition of the target population and decisions concerning the method of sampling are prior considerations. Representativeness refers to the extent to which a sample includes the full range of variability in a population.” (Biber 1993: 243)

Chiari, I. 2014. Introduzione ai corpora

Pagina 12

Page 13: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Casi: corpora e rappresentatività

corpus

Testo / documento / insieme di testi come oggetto di descrizione

Testo o insieme di testi come esempio di

una tipologia

Insieme di testi allo scopo di

rappresentare la lingua

Chiari, I. 2014. Introduzione ai corpora

13

Page 14: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Criteri per il corpus design ¡  Linguistic criteria to be applied to the selection and ordering may

be:

¡  External -- in that they concern the participants, the occasion, the social setting or the communicative function of the pieces of langu age;

¡  Internal -- in that they concern the recurrence of language patterns within the pieces of language.

Chiari, I. 2014. Introduzione ai corpora

14

Page 15: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

I tipi di corpora Secondo il punto di vista

Chiari, I. 2014. Introduzione ai corpora

15

Page 16: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Secondo l’obiettivo

General purpose – Reference

Corpora

Rappresentare la lingua

Rappresentare una varietà

Corpora specialistici

Domain specific Type specific

Research centred

Corpora opportunistici

Chiari, I. 2014. Introduzione ai corpora

16

Page 17: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Secondo l’apertura

Finiti/statici

Estensione finita BNC

Dinamici / Monitor

Estensione aperta

Bank of English

Collezioni

Senza design

Un principio unitario

Nessun principio

Chiari, I. 2014. Introduzione ai corpora

17

Page 18: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Secondo il mezzo

Lingua scritta Lingua parlata Misti Varietà

diamesiche specifiche

Web corpora

Siti web, wikipedia, ecc.

Comunicazione mediata dal

computer

Forum, blog, social network,

newsgroup, chat

Lingua trasmessa Radio, tv, cinema

Chiari, I. 2014. Introduzione ai corpora

18

Page 19: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Secondo la lingua

Corpora monolingui

Corpora ‘gemelli’

Corpora paralleli

Per la traduzione automatica e

analisi contrastiva

Corpora multilingui

Chiari, I. 2014. Introduzione ai corpora

19

Page 20: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Secondo l’asse temporale

Corpora sincronici

Stato di lingua

Corpora diacronici

La lingua nel tempo

Chiari, I. 2014. Introduzione ai corpora

20

Page 21: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Secondo il parlante

Corpora (senza

specifiche)

Parlanti nativi o misti

Learner corpora

Parlanti L2 Corpora di

apprendimento

Chiari, I. 2014. Introduzione ai corpora

21

Page 22: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Il parametro dell’estensione

Come valutarla, come determinarla

Chiari, I. 2014. Introduzione ai corpora

22

Page 23: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Lʼ’estensione

Chiari, I. 2014. Introduzione ai corpora

L’estensione è una variabile che influenza il grado di rappresentatività di un campione testuale.

Esistono diverse estensioni standard a seconda del livello di analisi linguistica obiettivo del design del corpus stesso.

• Per le analisi di tipo lessicale, di gran lunga le più frequenti condotte su corpora, si sono individuate soglie indicative minime per determinare un’estensione ragionevole per i corpora.

Un indicatore globale più agevole può essere considerato anche il numero di occorrenze (token) di parole grafiche presenti nel corpus.

23

Page 24: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Estensione corpora per analisi lessicali (2006)

Chiari, I. 2014. Introduzione ai corpora

Corpus non rappresentativo (insuff.)  

< 15.000 parole grafiche  

Corpus piccolo   Da circa 15.000-100.000 parole  

Corpus medio-piccolo   Da circa 1 milione di parole  

Corpus medio-grande   Da circa 1 milione a 50 milioni di parole  

Corpus standard   Da circa 50 milioni a 100 milioni di parole  

Corpus grande   Oltre i 100 milioni di parole  

24

Page 25: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Quanto sono lunghi i testi?

¡  Una canzone ¡  Circa 250 parole

¡  Un testo teatrale ¡  Circa 30.000 parole

¡  Una copia integrale di un quotidiano ¡  80.000-90.000 parole (Corriere della sera)

¡  Un romanzo (ma variano molto) ¡  50.000-80.000 parole

Chiari, I. 2014. Introduzione ai corpora

25

Page 26: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Estensioni di alcuni corpora di riferimento

Chiari, I. 2014. Introduzione ai corpora

Brown Corpus (1961) • 1 milione di occorrenze

LIF, Lessico di frequenza della lingua italiana contemporanea, 1971 • 500.000 occorrenze

British National Corpus • 100 milioni di occorrenze

Corpus di italiano scritto contemporaneo (CORIS) • 100 milioni di occorrenze

Bank of English • Circa 500 milioni di occorrenze

26

Page 27: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Corpora statici e corpora dinamici

Chiari, I. 2014. Introduzione ai corpora

British National Corpus

CORPUS STATICO

estensione finita

vantaggi • analisi finite e

ripetibili • comparabilità

CORPUS DINAMICO

Bank of

English

monitor

vantaggi • aggiornamento • analisi diacroniche

27

Page 28: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

I corpora di riferimento

delle principali lingue europee moderne

Chiari, I. 2014. Introduzione ai corpora

28

Page 29: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Un corpus di riferimento

Chiari, I. 2014. Introduzione ai corpora

reference corpus

• testi appartenenti a diverse varietà sociolinguistiche, diafasiche e diatopiche.

mira a rappresentare “la lingua”, non una sua varietà

Standard di estensione

• Da 500.000 occorrenze • A 500 milioni

29

Page 30: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Brown Corpus of Standard American English

Chiari, I. 2014. Introduzione ai corpora

W. N. Francis e H. Kucera, della Brown University

1961

Corpus di lingua scritta • primo corpus linguistico elettronico dell’inglese americano • Corpus più usato nella ricerca • Lessico di frequenza abbinato

Composizione • 500 testi • Ciascun testo è composto da 2.000 parole (sample corpus) • 15 categorie testuali diverse • un totale di un milione di parole

Sistema di trascrizione e annotazione proprio • programma automatico CLAWS dell’Università di Lancaster • L’etichettatura rispetta le Guidelines della Text Encoding Initiative (TEI)

30

Page 31: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

British National Corpus

Chiari, I. 2014. Introduzione ai corpora

Oxford University Press • interrogabile dal sito di Mark Davies: http://view.byu.edu/ • Raccolta 1991 - uscita 1995

Lingua parlata e lingua • inglese contemporaneo

100,106,008 parole • 4,124 testi

software di interrogazione SARA

Composizione • 4,124 testi • 90% deriva da testi scritti

• romanzi e saggi, e testi tecnico-scientifici • 10% da trascrizioni di parlato

• 863 testi • programmi radiofonici, conversazioni telefoniche, parlato spontaneo

31

Page 32: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

British National Corpus

Chiari, I. 2014. Introduzione ai corpora

32

Page 33: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Bank of English

Chiari, I. 2014. Introduzione ai corpora

diretta dal linguista John Sinclair

corpus dinamico di testi scritti e parlati in inglese britannico • Con monitor corpus

Circa 500 milioni di occorrenze

Obiettivi lessicografici •  Il progetto procede insieme al lavoro lessicografico del Collins Cobuild

English Dictionary for Advanced Learners (2001) e dell’Università di Birmingham.

Annotazione • ENGTWOL lexical analyser

• Statistical tagger • Error rate 0.5%

33

Page 34: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

LIP – Corpus del Lessico di frequenza dell’italiano parlato

Chiari, I. 2014. Introduzione ai corpora

A cura di Tullio De Mauro, Federico Mancini, Massimo Vedovelli e Miriam Voghera (1993)

57h di registrazione di parlato (1990-1992)

• 475.883 parole grafiche • 496.335 occorrenze di lemmi

Rappresentatività geografica: Milano, Firenze, Roma e Napoli: ogni città 125.000 occorrenze

Tipologie testuali

• 1) Scambio bidirezionale faccia a faccia con presa di parola libera • 2) Scambio bidirezionale non faccia a faccia con presa di parola libera (conversazioni telefoniche) • 3) Scambio bidirezionale faccia a faccia con presa di parola non libera (dibattiti, interviste, interrogazioni) • 4) Scambio unidirezionale in presenza di destinatario/i (lezioni, conferenze, omelie, comizi, ecc.) • 5) Scambio unidirezionale o bidirezionale a distanza (trasmissioni radiofoniche e televisive)

Interrogazione

• Sito BADIP (banca dati dell'italiano parlato) • http://languageserver.uni-graz.at/badip/badip/20_corpusLip.php

34

Page 35: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Interrogazione BADIP

Chiari, I. 2014. Introduzione ai corpora

35

Page 36: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Il CORIS/CODIS

Chiari, I. 2014. Introduzione ai corpora

COrpus di Riferimento dell'Italiano Scritto (CORIS)

COrpus Dinamico dell'Italiano Scritto (CODIS) • CILTA (Centro interfacoltà di linguistica teorica e applicata “Luigi

Heilmann”, Bologna) • A cura di R. Rossini Favretti • (1998)

100 milioni di parole • aggiornato tramite un corpus di monitoraggio con cadenza biennale • testi: prevalentemente di narrativa prodotta negli anni Ottanta e

Novanta

Accesso • http://corpus.cilta.unibo.it:8080/coris_ita.html

36

Page 37: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

CODIS

Chiari, I. 2014. Introduzione ai corpora

37

Page 38: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

I corpora multilingui e paralleli

Chiari, I. 2014. Introduzione ai corpora

Scopi

•  facilitare la costruzione di risorse didattiche, sistemi di traduzione, basi dati terminologiche, dizionari elettronici, ecc

corpora paralleli • da testi originali in una lingua (SL, source language) e da traduzioni di questi testi

in una o più altre lingue (TL, target language) • allineamento

corpora multilingui •  i testi non sono in traduzioni reciproche, ma vertono su ambiti disciplinari

corrispondenti permettendo così la costituzione di banche dati terminologiche •  linguaggi settoriali come linguaggio giuridico, economico, commerciale

Esempi • BAF (French-English Parallel Corpus) • progetto MULTEX (Multilingual Text Tools and Corpora • progetto CHILDES (Child Language Data Exchange System)

38

Page 39: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Chiari, I. 2014. Introduzione ai corpora

formato elettronico (machine-readable form)

• trattamento informatizzato dei dati testuali • archiviare i testi in forma digitale •  interrogabile

riferimento standard

• punti di riferimento per lo studio della varietà che rappresentano

• Mediante l’esplicitazione delle metodologie di analisi • facilitando la comparazione tra corpora diversi

39

Page 40: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

La costruzione di un corpus elettronico

Chiari, I. 2014. Introduzione ai corpora

raccolta corpus

segmentazione preparazione del corpus

etichettatura

interrogazione avanzata

concordanze / liste di frequenza

40

Page 41: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Epoca pre-elettronica

¡ Alexander Cruden (XVIII secolo), 1737 ¡  Concordanze della Bibbia in inglese

¡  2,370,000 parole

Chiari, I. 2014. Introduzione ai corpora

41

Page 42: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

I citation slips

Chiari, I. 2014. Introduzione ai corpora

42

Page 43: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Un po’ di storia della linguistica dei corpora ¡ Centrata sulla tradizione inglese,

oggi in chiave multilingue

¡  Anglo-centric bias

¡  Padre Roberto Busa ¡  1951, prima concordanza

informatizzata dei lavori di Tommaso d’Aquino.

¡  Index Thomisticus con IBM

¡  http://www.corpusthomisticum.org/it/index.age

Chiari, I. 2014. Introduzione ai corpora

43

Page 44: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Le schede perforate

Chiari, I. 2014. Introduzione ai corpora

44

Page 45: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Immagazzinare dati testuali: le schede perforate

Chiari, I. 2014. Introduzione ai corpora

45

¡  La scheda perforata è un supporto di registrazione atto a contenere informazioni da utilizzare nelle macchine per il trattamento automatico dei dati.

Page 46: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Chiari, I. 2014. Introduzione ai corpora

46

Page 47: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

La tradizione francese ¡ Alphonse Juilland ¡  Il français fondamental

¡  Corpus e lessicografia

¡  La nozione di alta disponibilità

¡  Pierre Guiraud ¡  Analisi delle proprietà statistiche del lessico

Chiari, I. 2014. Introduzione ai corpora

47

Page 48: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

The Survey o English Usage (SEU) corpus ¡  Randolph Quirk

¡  1959

Chiari, I. 2014. Introduzione ai corpora

48

Page 49: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

La tradizione sull’inglese ¡  Anni Sessanta (Brown Corpus, Kucera & Francis 1964)

¡  ICAME (the International Computer Archive of Modern English) ¡  network of scholars to cooperate in the development of ECL as a field

¡  University College London, Lancaster University, the University of Birmingham, the Universit´e Catholique de Louvain, the University of Nottingham and Northern Arizona University

¡  Scuola di Birmingham (John Sinclair, Elena Tognini-Bonelli, Susan Hunston, Wolfgang Teubert, Antoinette Renouf) ¡  Firthian approach

¡  COBUILD Collins

¡  1960-70

¡  The Bank of English

¡  Strumenti: Wordsmith Tools (Scott), uno dei primi programmi di esplorazione individuale di corpora disponibili

Chiari, I. 2014. Introduzione ai corpora

49

Page 50: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

La tradizione sull’inglese 2 ¡  Università di Lancaster ¡  Garnside, Leech

¡  CLAWS (the Constituent Likelihood Automatic Word-tagging System; Garside et al. 1987), 1980-82

¡  Université Catholique de Louvain ¡  Silviane Granger

¡  International Corpus of Learner English (ICLE) in 1990

¡  Oggi 4.5 million words arranged in sixteen subcorpora

Chiari, I. 2014. Introduzione ai corpora

50

Page 51: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Domande da porsi prima… ¡ Che tipo di testi è necessario includere per

rispondere alla domanda di ricerca?

¡ Quanti testi?

¡ Quanto lunghi?

¡ Devo confrontare le analisi con qualcos’altro? Esiste qualcosa di adatto a rispondere alla domanda di confronto?

¡ Come raccolgo i testi?

¡ Che tipo di trattamento e annotazione è necessario? Il trattamento è fattibile?

¡ Che tipo di interrogazione è necessaria? È possibile?

Chiari, I. 2014. Introduzione ai corpora

51

Page 52: I corpora - Alphabit.netI corpora multilingui e paralleli Chiari, I. 2014. Introduzione ai corpora Scopi • facilitare la costruzione di risorse didattiche, sistemi di traduzione,

Esercitazione/Discussione

1.

Che tipo di corpus è?

2.

È un corpus bilanciato?

3.

È rappresentativo?

Chiari, I. 2014. Introduzione ai corpora

52

§  Osservare la composizione del corpus (fittizio) dell’esempio.