Upload
alexandra-cristina-vlad
View
73
Download
0
Embed Size (px)
DESCRIPTION
prezentare corpus lingvistic
Citation preview
Lingvistica bazată pe corpus
Vlad Alexandra Cristina
Definiţie
Corpusul lingvistic este o colecţie de piese ale limbajului, selectate şi ordonate după un criteriu lingvistic cu scopul de a fi utilizat ca un eşantion al limbii (McEnery,2001:1)
ComponenţăUn corpus are o componenţă
heterogenă din punct de vedere
lingvistic.
Acesta poate fi împărţit în sub-corpuri care au aceleaşi proprietăţi, doar că sunt mai mici.
Un corpus sau un sub-corpus se copune din componenţi.
Un component este o colecţie omogenă de texte selectate în funcţie de anumite criterii lingvistice, ce îi asigură omogenitatea.
Limbajul ilustrat de un component se mai numeşte şi sub-limbaj.
Caracteristici ale corpusurilor- DIMENSIUNE (mărime)
- CALITATE (autenticitate)
- REPREZENTATIVITATE
- DOCUMENTARE (structură, convenţii)
Clasificarea corpusurilor
• Corpus textual (memorează limbajul scris) şi corpus de vorbire (bazat pe înregistrare)
• Corpus reprezentaţional şi corpus experimental
• Corpus public şi corpus privat
Clasificarea corpusurilorCorpusul special curpinde :
-texte de întindere mică, specifice, chiar fragmentare, clasificate în domeniul literar în funcţie de autor, gen, perioadă sau temă
-sau texte obţinute în condiţii experimentale sau artificiale, după nişte scenarii pregătite de lingvişti.
Clasificarea corpusurilor• Corpusul de referinţă:
• este foarte mare, cuprinde toate variaţiile relevante de limbă şi vocabularul comun al limbii;
• este folosit ca bază pentru gramatici fundamentale, dicţionare, tezaure şi alte materiale referitoare la limbă;
• este structurat ierarhic pe subcorpusuri şi componenţi
Clasificarea corpusurilor• Corpusul monitor introduce
dimensiunea diacronică a limbajului unui derivat al corpusurilor de referinţă pentru care activitatea de întreţinere se bazează pe noţiunea de “debit de limbă”.
• Acesta reprezintă volume constante de eşantioane de limbaj introduse în corpusul de referinţă.
Clasificarea corpusurilor
• Corpusul paralel este o colecţie de texte fiecare dintre ele fiind traduse în una sau mai multe limbi.
• Acesta ajută la conceperea unor instrumente de traducere cât mai adecvate şi sunt construite cu precădere pentru activităţile de comunicare în societăţile multilingve.
Clasificarea corpusurilor• Corpusurile comparabile sunt formate din două
sau mai multe corpusuri pentru limbi diferite ce conţin texte similare.
• Criteriile de similaritate sunt dificil de cuantificat, elementul esenţial referindu-se la sens.
Legătura cu lingvistica computaţională
• Un corpus este o colecţie computerizată de texte autentice adecvată prelucrării sau analizei automate sau semi-automate. Textele sunt selectate potrivit unor criterii explicite cu scopul de a capta regularităţile limbii, ale unei varietăţi de limbi sau ale unui sublimbaj.
Utilitatea corpusului- Lexicografie
- Teoria traducerii
- Invatarea limbii de catre vorbitori straini
- Observaţii asupra comportamentului lingvistic
- Cercetarea lingvistica
Bibliografie• McEnery Tony, Corpus Linguistics, Edinburgh University
Press Ltd, 2001• Tufiş Dan, Limbaj şi Tehnologie, Ed. Academiei
Române, Bucureşti, 1996• Cusen Gabriela, Language and society, Curs Optional,
Anul II, Semestrul II, Brasov, 2010• www.wikipedia.com