Upload
internet
View
105
Download
0
Embed Size (px)
Citation preview
Tratamento estatístico do conhecimento lingüístico
Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ
Questões básicas da ciência lingüística
• Chomsky, 1986:
(i) O que constitui o conhecimento lingüístico?
(ii) Como esse conhecimento é adquirido?
(iii) Como esse conhecimento é usado?
• Rizzi, 1998:
(iv) Como o conhecimento é representado na mente?
(v) Como esse conhecimento é acessado?
Postulação de um conhecimento inato (GU)
• Argumento da pobreza de estímulo
• Input degenerado
• Ausência de evidência negativa (Gold, 1967: linguagens formais não podem ser adquiridas / aprendidas somente com base em evidência positiva.
Abordagem estocástica do conhecimento lingüístico
• O uso lingüístico real é altamente variável, gradiente e rico em fenômenos contínuos;
• Há um conjunto de experimentos que demonstraram que os julgamentos dos falantes apresentam propriedades de contínuo e comportamento gradiente, e que a cognição humana é baseada em processamento probabilístico.
• A faculdade da linguagem apresenta propriedades probabilísticas presentes na representação, no processamento, na mudança, na aquisição e na produção.
Pressupostos Teóricos: Modelos baseados no Uso, Lingüística Probabilística, Fonologia de
Laboratório- “grammar is usage, and usage is grammar” (Bybee,2005): gramática é a organização cognitiva da experiência do falante com a
língua e aspectos dessa experiência têm impacto na representação, aquisição e mudança.
- abandono da doutrina do dualismo: “language as a cognitive system imputed to the individuals is thus to be
explained in terms of general facts of the physical world (...); in terms of specific capabilities of the human species which arose through evolution (...): and in terms of interactions of the organism with its environment (...). Social interaction is subsumed under the same umbrella, as a phenomenon of nature (Pierrehumbert, Beckman & Ladd, 2001)
- Modelagem probabilística da organização do conhecimento lingüístico: ”Knowledge of language can be understood not as a minimal set of categorical rules or constraints, but as a (possible redundant) set of gradient rules, which may be characterized by a statistical distribution” (Bod, Rens & Jannedy, 2003)
- As estruturas emergem do sistema de armazenagem
Gramática probabilística como solução para a ausência de
evidência negativa• Jurafsky, 2003
• Input lingüístico: contém ruído, ambíguo e não segmentado;
• Outras ciências cognitivas utilizam modelos estatísticos para lidar com problemas semelhantes:
– processamento visual humano (Rao et al. 2001; Weiss & Fleet 2001)– categorização (Tenenbaum 2000; Tenenbaum and Griffiths 2001b;
Tenenbaum and Griffiths 2001a)– compreensão humana da causatividade (Rehder 1999; Glymour and Cheng1998).
Proposição de um modelo probabilístico: - Modelo probabilístico é um modelo que serve para resolução de problemas
de tomada de decisão sob incerteza- Evidência positiva: possui uma quantidade suficiente de dados para
modelagem estatística- Generalizações baseadas em inferência estatística tornam-se mais
robustas
Probabilidades onde?
• “Everywhere”. Probabilities permeate linguistic system (Bod, Hay and Jannedy, 2002).
• Integração entre conhecimento lingüístico e uma perspectiva probabilística.
Processamento: “The complex houses married and single students and their families (Jurafsky, 1996)
“differences in sound change a word, ...”
“a bela casa na fazenda”
• Fonotática:
- Julgamentos fonotáticos e de boa formação apresentam característica de contínuo associados à freqüência de ocorrência de cada difone.
- Representação: efeito de freqüência de type e de token
Fonologia Probabilística
• Distribuição probabilística de qualquer unidade é atualizada através da experiência;
• conhecimento implícito de detalhes quantitativos da pronúncia faz parte da competência, e se desenvolve cedo a partir de uma predisposição inata de observar a fala.
• para modelar esse conhecimento são necessários dois ingredientes: um mapa cognitivo e uma representação análoga da realidade física.
• memórias extremamente detalhadas da experiência são estocadas. Essas percepções gradualmente preenchem uma região do mapa cognitivo correspondendo a uma categoria ou rótulo. Uma categoria encontrada várias vezes vai ser representada por numerosas memórias que povoam densamente a região correspondente ao rótulo ou categoria. Categorias menos freqüentes terão uma representação mais empobrecida.
• A classificação perceptual de um novo dado é realiza através uma regra de escolha estatística que computa o rótulo mais provável dada a localização e a contagem de distribuições competidoras, da região do novo dado.
• mesmo modelo para a produção: produção se realiza ativando um subregião do espaço de exemplar para uma categoria. As propriedades agregadas dessa subregião servem como metas de produção do planejamento articulatório.
• As crianças são sensíveis às freqüências de distribuição das formas lingüísticas no input, mas o efeito da freqüência de type e de token pode ser diferenciado em função do estágio aquisitivo (Henry,2002, Pierrehumbert, 2003).
• A variação sociofonética tem um papel na abstração de padrões fonológicos, uma vez que as variantes são formas fonéticas em competição da mesma palavra e podem refletir também competição entre padrões fonológicos.
CARACTERIZAÇÃO DOS TIPOS SIILÁBICOS C(l)V e C(r)V
C(l)V ~ C(r)V • p, b, k, g, f + (l) tl: limita-se à palavras
emprestadas: atlas, Atlântico, atleta
• Ausência de restrições fonéticas regulares. Condicionamento lexical. (Gomes, 1987, Cristófaro-Silva, 2003).
• [bisiklεtə] ~ [bisikrεtə]
• [‘bluzə] ~ [‘bruzə]
C(r)V ~ CøV
• p, b, t, d, k, g, f, v + (r)
• Ausência favorecida em sílabas finais átonas e em presença de outros grupos na palavra.
• Ex.: [kuatøu]; [pøo’blemə];
• Plosivas e obstruintes surdas (Mollica & Paiva, 1991)
• [‘prכpriu] ~ [‘prכpiu] • [pri’sizə]~[pi’sizə]• [‘otru] ~ [‘otu]
Freqüência dos Tipos de Onsets Complexos Coletado de Michaelis –
www. uol. com. br /michaelis/ por Cristófaro-Silva (2003)
Estrutura C(l)V
• Tipo menos freqüente• CV 279.083• CC 43.584• C(l) 7.971
Estrutura C(r)V
• Tipo mais freqüente• CV 279.083• CC 43.584• C(r) 35.613
AVALIAÇÃO SOCIAL VARIAÇÃO POR
FALANTE
C(l)V ~ C(r)V: Marcador social
C(r)V ~ CøV: Depende do
item lexicalNão percebido em:
[prכpriu] ~ [prכpiu]
Altamente estigmatizado em:
[progrãmə] ~ [pøgrãmə]
ROTACISMO
01020304050607080
0 10 20 30 40 50 60
falantes
%
DELEÇÃO DO (R)
0
1020
3040
5060
70
0 10 20 30 40 50 60
falantes
%
Estudos sobre a Aquisição do Padrão CCV no Português:
• Lamprecht (1991): CV e V > CVC > CCV
- aquisição pode iniciar pelos encontros com a lateral como com não lateral, fricativa ou plosiva
• Ribas (2004): CV, V >> CVV >> CVC >> CCV
adquirido até aos 4;0 >> aos 5;0
- não há ordem de domínio dos diferentes grupos de onset complexo.
- C(r)V: labial-r > dorsal-r > coronal-r
C(l)V: parece não haver preferência
Distribuição de Ocorrências de CCV nos dados da amostra AQUIVAR
AMOSTRA: 18 crianças entre 2;0 e 5;0
• Total de Dados: 666/1219
• Total de C(r)V: 551/1043
• Total de C(l)V: 115/176
Distribuição das ocorrências de CCV por faixa etária
2;0 2;6 3;0 3;6 4;0 5;0
4/108
4%
11/85
13%
94/210
45%
44/68
65%
297/512
58%
216/236
92%
0%10%20%30%40%50%60%70%80%90%
100%
2;0 2;6 3;0 3;6 4;0 5;0
CCV
Realização do padrão silábico CCV em função da idade e do tipo silábico
2;0 2;6 3;0 3;6 4;0 5;0 TotalC(l)V 2/14
14%
.13
5/25
20%
.18
18/28
64%
.61
6/6
100%
51/68
75%
.72
33/35
94%
.93
176
C(r)V 2/94
2%
.02
6/60
10%
.09
76/182
42%
.38
38/62
61%
.58
246/444
55%
.47
183/201
91%
.90
1043
Distribuição de ocorrências de C(l)V e C(r)V por idade
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
C(l)V
C(r )V
• X2=2108.337, df=23 p.val < 2.2 e-16
Evolução da sílaba C(r)V em função da tonicidade da sílaba
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
tônica
pretônica
postônica
atona fin.
Evolução da sílaba C(l)V em função da tonicidade da sílaba
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
tônica
pretônica
átona fin.
Comparação de C(l)V e C(r)V em sílabas tônicas
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
C(l)V - t.
C(r)V - t.
• X2=1150.991, df=23 p.val < 2.2 e-16
Realização do padrão silábico CCV em sílaba tônica em função da idade e do tipo silábico
2;0 2;6 3;0 3;6 4;0 5;0 TotalC(l)V 2/10
20%
.13
3/15
20%
.13
13/21
62%
.48
6/6
100%
34/44
77%
.66
24/26
92%
.87
122
C(r)V 1/38
3%
.02
3/30
10%
.06
38/100
38%
.26
15/28
54%
.40
145/222
65%
.52
110/114
96%
.94
532
Discussão
• As diferenças desenvolvimentais observadas para os dois tipos de cluster parecem indicar:
• A abstração é gradual, dependente do tipo estrutural e de contexto fonológico (tonicidade, por exemplo)
• As crianças abstraem o tipo C(l)V antes do C(r)V; uma vez que a variação no input - C(r)V ~ C_V – gera também a possibilidade de representação de itens sem a 2a. consoante no grupo.
0%10%20%30%40%50%60%70%80%90%
100%
2;0 2;7 3;0 3;3 3;7 4;6
medial
final N
final V
Conclusões Finais
• Há interação entre os dois processos: variabilidade desenvolvimental e reflexo da variação do input
• Diferenças na atuação de contextos estruturais são consistentes com o observado para as variáveis sociolingüísticas no input