13
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 168 BANCOS DE DADOS SOCIOLINGUÍSTICOS EM PORTUGUÊS Edila Vianna da SILVA 1 RESUMO O objetivo deste artigo é apresentar resultados preliminares do levantamento de corpora linguísticos em Português. Partindo do pressuposto de que bancos de dados linguísticos são fonte privilegiada para a descrição da língua e considerando a necessidade de divulgação dessas fontes de estudos, descrevemos características de importantes bancos constituídos sobre a língua portuguesa. O conhecimento mútuo do trabalho dos vários investigadores – que não ocorre com a devida sistematicidade entre brasileiros e portugueses e até mesmo entre pesquisadores das regiões brasileiras – pode propiciar uma visão ampla das variedades do português e facilitar a realização de estudos contrastivos não só entre dialetos brasileiros, mas também entre brasileiros e portugueses numa linha de investigação que certamente contribuirá para o esclarecimento de muitos fatos linguísticos em variação. PALAVRAS-CHAVE: Bancos de dados linguísticos. Política linguística. Difusão da Língua Portuguesa. ABSTRACT The purpose of this paper is to present some preliminary results of the research of linguistic corpora in Portuguese. Assuming that linguistic databases are privileged source for the description of language and considering the need for disclosure of sources of these studies, we describe characteristics of major banks made about the Portuguese language. Mutual knowledge of the work of several researchers, which does not occur systematically between Brazilian and Portuguese and even among researchers of the Brazilian regions, can provide a broad overview of the varieties of Portuguese and facilitate the realization of contrastive studies not only among Brazilian dialects but also between Brazilian and Portuguese ones in a line of research will certainly contribute to clear many linguistic variation facts. KEYWORDS: linguistic corpora; language police; diffusion of the Portuguese language. 1 Doutora em Letras Vernáculas (UFRJ). Professora Associada da UFF. Membro da Academia Brasileira de Filologia. Membro do GT de Sociolinguística da ANPOLL. É coautora de Dúvidas em português nunca mais (Lexikon, 3. ed., 2011) e possui várias publicações sobre descrição do português e variação linguística.

BANCOS DE DADOS SOCIOLINGUÍSTICOS EM PORTUGUÊS · de Sociolinguística da ANPOLL. É coautora de Dúvidas em português nunca mais (Lexikon, 3. ed., 2011) e possui várias publicações

Embed Size (px)

Citation preview

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 168

BANCOS DE DADOS SOCIOLINGUÍSTICOS EM PORTUGUÊS

Edila Vianna da SILVA1

RESUMO O objetivo deste artigo é apresentar resultados preliminares do levantamento de corpora linguísticos em Português. Partindo do pressuposto de que bancos de dados linguísticos são fonte privilegiada para a descrição da língua e considerando a necessidade de divulgação dessas fontes de estudos, descrevemos características de importantes bancos constituídos sobre a língua portuguesa. O conhecimento mútuo do trabalho dos vários investigadores – que não ocorre com a devida sistematicidade entre brasileiros e portugueses e até mesmo entre pesquisadores das regiões brasileiras – pode propiciar uma visão ampla das variedades do português e facilitar a realização de estudos contrastivos não só entre dialetos brasileiros, mas também entre brasileiros e portugueses numa linha de investigação que certamente contribuirá para o esclarecimento de muitos fatos linguísticos em variação. PALAVRAS-CHAVE: Bancos de dados linguísticos. Política linguística. Difusão da Língua Portuguesa. ABSTRACT The purpose of this paper is to present some preliminary results of the research of linguistic corpora in Portuguese. Assuming that linguistic databases are privileged source for the description of language and considering the need for disclosure of sources of these studies, we describe characteristics of major banks made about the Portuguese language. Mutual knowledge of the work of several researchers, which does not occur systematically between Brazilian and Portuguese and even among researchers of the Brazilian regions, can provide a broad overview of the varieties of Portuguese and facilitate the realization of contrastive studies not only among Brazilian dialects but also between Brazilian and Portuguese ones in a line of research will certainly contribute to clear many linguistic variation facts. KEYWORDS: linguistic corpora; language police; diffusion of the Portuguese language.

1 Doutora em Letras Vernáculas (UFRJ). Professora Associada da UFF. Membro da Academia Brasileira de Filologia. Membro do GT

de Sociolinguística da ANPOLL. É coautora de Dúvidas em português nunca mais (Lexikon, 3. ed., 2011) e possui várias publicações sobre descrição do português e variação linguística.

Bancos de dados sociolinguísticos em português

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 169

INTRODUÇÃO

A composição e disponibilização de corpora do Português tem sido ponto amplamente discutido em

vários encontros de linguistas, especialmente no âmbito dos congressos dedicados aos estudos de difusão da

lusofonia, uma vez que bancos de dados linguísticos são indubitavelmente fonte privilegiada para a descrição

da língua.

Partindo desse pressuposto e considerando a necessidade de divulgação dessas possíveis fontes de

estudos, desenvolvemos um projeto de levantamento, em nível nacional e internacional, dos bancos

constituídos sobre a língua portuguesa, com o objetivo de fornecer subsídios para estudos das variedades

transcontinentais do Português em suas modalidades oral e escrita.

A elaboração de um registro dos bancos de dados do português assenta-se na observação de que a

comunidade internacional tem um conhecimento precário das investigações sobre a língua portuguesa, que já

compõem um número significativo de trabalhos, mas que não encontram divulgação adequada entre os

estudiosos do Português. Consideramos importante, dessa forma, realizar o registro dos bancos como

contribuição preliminar para o diagnóstico da situação sociolinguística da língua portuguesa, de modo a basear

a constituição dos perfis sociolinguísticos das variedades faladas e identificar suas especificidades e

similaridades.

Consideramos na pesquisa, consequentemente, a existência de um conjunto de variedades linguísticas

na grande comunidade de fala da língua portuguesa. Dessa forma, o trabalho tem suporte nos princípios da

sociolinguística, uma vez que correlaciona os aspectos linguísticos e os sistemas sociais, em especial no

variacionismo de William Labov (2008).

Com base em questões formuladas para a caracterização de cada um dos conjuntos de dados:

parâmetros de constituição, posição teórica, pesquisas orientadas, sua representatividade e adequação etc.,

procuramos traçar um perfil desses corpora para orientar o acesso dos pesquisadores.

1. RETROSPECTIVA

Um retrospecto sobre alguns eventos científicos dedicados à discussão de bases e critérios para a

constituição de bancos mostra que essa preocupação não é recente. Desde os anos 50, as pesquisas linguísticas

já se baseavam em corpora, organizados inicialmente com a finalidade de elaboração de atlas linguísticos.

Somente a partir da década de 70, passaram a ser formados acervos de perfil sociolinguístico, entre os quais os

do projeto NURC, que se dedicou a descrever a fala das cinco capitais brasileiras que, em 1968 – início do

projeto no Brasil – tinham mais de um milhão de habitantes e, pelo menos, cem anos de fundação.

Edila Vianna da Silva

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 170

Sabemos da existência de grande número de acervos, mas o último levantamento de que se tem

notícia, de acordo com Brandão (2008, p. 143-154), foi apresentado em 1994, na Universidade Federal do

Espírito Santo, na 46ª Reunião Anual da SBPC, quando se realizou um encontro sobre “Informatização de

acervos de língua portuguesa”. Na oportunidade, Ataliba T. de Castilho, Giselle Machline de Oliveira e Silva e

Dante Lucchesi enumeraram algumas iniciativas no sentido de viabilizar o compartilhamento e a

informatização das amostras e apresentaram um levantamento, ainda que parcial, dos corpora existentes, feito

com base em ficha preparada por Rodolfo Ilari e enviada aos grupos de pesquisa.

Nessa reunião, ainda segundo Brandão, já foi possível identificar 51 acervos, constatando-se que: (a)

as amostras institucionais (84%) predominavam sobre as particulares (16%) e que a maior parte delas estava

sediada em universidades federais (67%); (b) havia maior número de acervos de língua falada (74,5%) do que

de língua escrita (20%) ou de ambas as modalidades (5.5%), e (c) que havia apenas cinco projetos na área do

Português arcaico e clássico.

Duas conclusões destacaram-se do levantamento apresentado: o fato de grande parte dos acervos já

estarem à época digitados e disponíveis e o interesse dos pesquisadores em disponibilizar corpora, o que

anteriormente não acontecia.

Desde o encontro mencionado, apesar do interesse que o tema passou a despertar, não se produziu

outro levantamento sistemático, com objetivo de subsidiar pesquisas sobre as variedades do português.

2. BANCOS DE DADOS

A descrição dos corpora, abaixo resumida em seus mais relevantes traços, baseou-se em um

levantamento preliminar de a) projetos de pesquisa de diferentes áreas e de diferentes quadros teóricos, que

contassem com amostras de dados e de b) bancos independentes.

2.1. Bancos de dados nacionais

PROJETO NURC

No Rio de Janeiro, iniciou-se, na UFRJ, a organização de corpora para estudos linguísticos, em função

da extensão ao domínio da Língua Portuguesa do Projeto de Estudo Coordenado da Norma Linguística Oral

Culta das Cidades da Iberoamérica e da Península Ibérica (CUNHA, 1985). As orientações metodológicas desse

projeto basearam a criação do Projeto NURC, que reunia amostras de fala das cinco capitais brasileiras que, à

época, tinham mais de um milhão de habitantes e pelo menos cem anos de fundação.

Bancos de dados sociolinguísticos em português

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 171

A partir de 1973, no Rio de Janeiro, uma das cidades escolhidas, começou, então, a formação da

amostra composta de elocuções formais (EF), diálogos entre informante e documentador (DID), diálogos entre

dois informantes (D2). Procurava-se caracterizar a fala de cariocas com nível superior, distribuídos por gênero

e três faixas etárias formando um corpus representativo da fala culta, posteriormente enriquecido com duas

outras amostras, a complementar e a de recontato, ambas da década de 90, num total de 394 informantes

(www.letras.ufrj.br/nurc-rj).

CORPUS CENSO / Programa de Estudos sobre o Uso da Língua (PEUL)

Em 1979, Anthony Naro reuniu um grupo de pesquisadores com a finalidade de estudar fenômenos

variáveis com base na fala carioca não-standard e organizou a Amostra Censo da Variação Linguística no Rio

de Janeiro, mais tarde conhecida por Corpus Censo, que conta com um total de 64 informantes, 48 deles adultos

distribuídos por três faixas etárias (e também estratificados por gênero e três níveis de escolaridade) e 16 crianças

entre 7 e 14 anos (Silva, 1996). A partir de finais da década de 80, com a diversificação de linhas de pesquisa

entre os pesquisadores, o grupo passou a denominar-se de Programa de Estudos sobre o Uso da Língua (PEUL)

e, ao longo do tempo, acrescentou-se à amostra Censo, além do corpus Mobral (a base do Censo), por iniciativa

de Miriam Lemle e Anthony Naro, o Projeto Competências Básicas do Português (Scherre, 1996), e outros

corpora de língua falada, inclusive de recontato, bem como de língua escrita (Paiva e Scherre, 1999),

disponibilizados na web, sob a denominação de Banco de Dados do PEUL.

PROJETO DO ATLAS ETNOLINGUÍSTICO DOS PESCADORES DO ESTADO DO RIO DE JANEIRO (Projeto

APERJ)

Em finais da década de 80 e ao longo da primeira década de 90, formou-se o corpus do Projeto do

Atlas Etnolinguístico do Estado do Rio de Janeiro (APERJ), sob a supervisão do Professor Celso Cunha e

participação de docentes da Faculdade de Letras da UFRJ. A amostra, com 178 horas de gravação, resultou de

entrevistas referentes à aplicação de Questionário e a elocuções livres realizadas em comunidades pesqueiras

da Região Metropolitana e sobretudo nas Regiões Norte e Noroeste. Em relação às duas últimas áreas, há 78

inquéritos, atualmente em vias de digitalização, realizados em 13 localidades daquela região, com indivíduos

analfabetos ou escolarizados até a quarta série do Ensino Fundamental, distribuídos por três faixas etárias. O

corpus vem sendo alargado para atingir as regiões das Lagunas Litorâneas, Metropolitana e Sul do Estado do

Rio de Janeiro, prevendo-se a inclusão de 36 outras comunidades. Além da recolha sistemática de dados

(constituição do Arquivo Sonoro referente à fala de 49 localidades do Estado), o Projeto desenvolve estudos nas

Edila Vianna da Silva

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 172

linhas sociolinguística variacionista e especificamente dialectológica, visando à descrição e análise de aspectos

fonético-fonológicos, morfossintáticos e léxicos da fala popular do Rio de Janeiro. Tem contado com a

colaboração de bolsistas de Iniciação Científica e contribuído para a formação de alunos de Mestrado e

Dourado. Foram defendidas dissertações e teses com base no corpus e orientações metodológicas do Projeto.

PROJETO DISCURSO E GRAMÁTICA (D&G)

O projeto Discurso e Gramática, de natureza interinstitucional, organizou sua amostra entre os anos

de 1993 e 1994, com dados recolhidos, no que se refere ao Rio de Janeiro, entre 93 informantes distribuídos

por gênero e seis níveis de instrução (alfabetização infantil e de adultos, 4ª. e 8ª. séries do Ensino Fundamental,

2ª série do Ensino Médio e último ano do Ensino Superior). Esses informantes produziram cinco tipos de textos

orais (narrativa de experiência pessoal, narrativa recontada, descrição de local, relato de procedimento e relato

de opinião) e, a partir deles, cinco textos escritos, procedimento metodológico que teve por objetivo garantir a

comparabilidade entre fala e escrita. Integra também a amostra os corpora organizados com base em parâmetros

semelhantes, registrados nas cidades de Niterói-RJ, Juiz de Fora-MG e Natal-RN.

PROJETO PARA UMA HISTÓRIA DO PORTUGUÊS BRASILEIRO – PHPB-Rio

Em 1998, organizou-se o PHPB, projeto de âmbito nacional, que iniciou a constituição de um corpus

diacrônico composto por documentos de administração pública e privada, documentos particulares e textos

literários que se distribuem do século XII ao XX, bem como por textos jornalísticos dos séculos XIX e XX. Alguns

desses materiais já se encontram na web (www.letras.ufrj.br/phpb.rj), a exemplo do que acontece com parte da

amostra (cartas pessoais e peças populares dos séculos XVII e XVIII) do Laboratório de História do Português

Brasileiro (Labor Histórico-RJ), criado em 2004 e concebido com “o principal objetivo de organizar e tornar

disponível o acervo documental do PHPB para estudos sobre mudança lingüística”

(www.letras.ufrj.br/laborhistorico). A estas iniciativas soma-se, ainda, o Projeto O português brasileiro: da

história social à história linguística em cujo site – www.letras.ufrj.br/socio-historia – encontram-se, no momento,

as cartas a Rui Barbosa, “escritas no período de 1866 a 1899, que constam do Arquivo de Rui Barbosa Inventário

Analítico da Série Correspondência Geral Vol. 1 – Correspondentes usuais: pessoas físicas (Fundação Casa de

Rui Barbosa, Rio de Janeiro).”

A página do PHPB na internet reúne, na verdade, uma prévia do chamado Corpus Comum Mínimo

(materiais de mesma natureza editados pelas equipes regionais para controle diatópico), bem como do

denominado Corpus Diferencial (corpora complementares para controle contrastivo com o corpus comum:

Bancos de dados sociolinguísticos em português

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 173

textos de portugueses, literários, gêneros textuais diversos etc. Cada material editado ainda figura conforme sua

normatização original, mas, posteriormente, pretende-se submeter todos os textos às Normas de Edição do

Projeto PHPB, com a constituição do corpus comum mínimo definitivo do Projeto.

PROJETO DO ATLAS LINGUÍSTICO DO BRASIL (PROJETO ALiB)

O ALiB propõe-se descrever a realidade do Português do Brasil, com base no registro da fala das

diversas áreas geográficas do País, representadas nos 250 pontos que constituem a rede escolhida para

investigação. Documenta-se a fala de 1100 informantes, distribuídos em duas faixas etárias (faixa I, de 18 a 30

anos e faixa II, de 50 a 65 anos), dois níveis de escolaridade nas capitais (fundamental e superior) e de um nível

nas demais regiões (fundamental) e com igual número de homens e mulheres.

Em 2003, foi criada a Coordenadoria Regional do ALiB-Rio, que se dedicou especialmente à realização

do trabalho de campo, seguida da transcrição das entrevistas e da organização do corpus, constituído de 60

entrevistas em 14 municípios do Estado (oito na capital e quatro em cada um dos demais pontos), conforme se

indica em www.letras.ufrj.br/posverna/projalibrio.htm. Realizaram-se recolhas em Arraial do Cabo, Barra

Mansa, Campos, Itaperuna, Macaé, Nova Friburgo, Nova Iguaçu, Niterói, Rio de Janeiro, Parati, Petrópolis, São

João da Barra, Três Rios e Valença, que se basearam em amostras de fala de informantes distribuídos por ambos

os sexos, por duas faixas etárias e dois níveis de escolaridade nas capitais (fundamental – até a 4ª série –, e

superior) e um nível de escolaridade nos demais municípios (nível fundamental), de acordo com as normas

estabelecidas.

Segundo informações recentes, estão concluídos em todos os estados os trabalhos de constituição do

corpus do ALiB que, embora ainda não publicado, está acessível, com as fotos das 250 localidades que

compõem a rede de pontos de inquérito, em www.alib.ufba.br. Deve-se salientar que, no momento, concluída

a constituição do corpus, caminha-se na direção da publicação dos primeiros volumes. Assim, estão previstos

três volumes referentes às capitais brasileiras: Volume 1 – Introdução, Volume 2 – Cartas linguísticas

(fonéticas/prosódicas, semântico-lexicais e morfossintáticas) e Volume 3 – análise dos dados cartografados. O

expressivo volume de informação referente às cidades que integram a rede de pontos em cada um dos estados

brasileiros está em processo de análise.

PROJETO VARPORT

O VARPORT (Análise Contrastiva de Variedades do Português) é um Projeto de Cooperação

Internacional Brasil / Portugal, financiado pela CAPES / ICCTI nº 63/00. O seu principal objetivo é consolidar e

Edila Vianna da Silva

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 174

intensificar a integração entre os trabalhos que vêm sendo realizados em Portugal e no Brasil sobre determinados

fenômenos da Língua Portuguesa, de modo a oferecer um quadro geral contrastivo de suas variedades

nacionais, com ênfase no desempenho de falantes representativos das variantes padrão e não padrão. Para

atingir sua meta principal, qual seja, propiciar não só o conhecimento das características comuns que se

mantêm nas diversas variedades do Português, mas também a aferição das diferenças que se vão revelando a

partir das mudanças linguísticas que se processaram e/ou se processam, independentemente, no Brasil, em

Portugal e em África, constituiu-se o Corpus Compartilhado VARPORT, formado entre 2000 e 2004, formado

por um total de 252.300 palavras ao qual se tem acesso por meio do site www.letras.ufrj.br/varport. A

constituição desse corpus corporifica a reunião de dados pertencentes a diferentes amostras segundo critérios

comuns. Disponibilizado, na íntegra, na web, com arquivos de texto e de voz conta com entrevistas

selecionadas dos corpora dos Projetos NURC-RJ (já mencionado neste trabalho), Português Fundamental e

Corpus de Referência do Português Contemporâneo (CRPC) e das elocuções livres do APERJ (também

mencionado) e do Atlas Linguístico-Etnográfico de Portugal e da Galiza (ALEPG).

PROJETO AVAL-RJ

O Projeto Acervo das Variedades Linguísticas Fluminenses – AVAL-RJ, de perfil geo-sociolinguístico,

desenvolve-se na Faculdade de Letras da UFRJ com o objetivo de basear pesquisas em duas vertentes, uma

voltada para a modalidade falada e outra para a escrita. A amostra, constituída em 2008-2009, abrange dados

da fala popular coletados em doze municípios representativos das oito regiões do Estado do Rio de Janeiro, a

saber: São Francisco de Itabapoana, Porciúncula, Santa Maria Madalena, Cabo Frio, Cachoeiras de Macacu,

Itaguaí, Parati, Valença, Três Rios, Quissamã e Resende (ALMEIDA, 2008), assim como em quatro municípios

localizados no entorno da Baía de Guanabara: Nova Iguaçu, Duque de Caxias, Magé e Itaboraí (LIMA, 2006).

Em cada sede de município, entrevistaram-se 18 indivíduos estratificados por gênero, faixa etária (três) e nível

de instrução (três) e recolheram-se 500 redações distribuídas por cinco níveis de ensino e dois tipos de texto. O

Projeto conta, ainda, com dados da fala popular e culta da cidade do Rio de Janeiro. A utilização de dados de

fala popular fundamenta-se, entre outros motivos, no fato de já haver trabalhos realizados com enfoque na

norma culta da cidade do Rio de Janeiro, sendo relevante, portanto, um estudo comparativo que investigue se

a fala carioca: a) se diferencia das demais localidades sob análise e em que medida; b) é norma irradiadora das

demais; e c) se há uma diferenciação entre o rural e o urbano, à medida que se pretende analisar também

municípios da região metropolitana.

Bancos de dados sociolinguísticos em português

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 175

PROJETO DO CORPUS DO PORTUGUÊS CLÁSSICO E MODERNO

Esse corpus ainda em constituição reúne (a) produção manuscrita no Brasil durante o Período Clássico

(séculos XVI, XVII e XVIII); e (b) produção manuscrita e impressa no Brasil durante o Período Moderno (séculos

XIX e XX).

PROJETO CORPUS BRASILEIRO

O projeto Corpus Brasileiro, do grupo GELC, que está sediado no Centro de Pesquisas, Recursos e

Informação de Linguagem (CEPRIL), Programa de Pós-Graduação em Linguística Aplicada (LAEL) da PUCSP,

com apoio da FAPESP, visa a construir e disponibilizar online (http://corpusbrasileiro.pucsp.br/cb/Inicial.html)

o Corpus Brasileiro, que será composto por um bilhão de palavras do português brasileiro contemporâneo, de

vários tipos de linguagem. Segundo os responsáveis por sua construção, o impacto social do Corpus Brasileiro

pode ser significativo, colocando à disposição dos cidadãos do país e do exterior uma vasta quantidade de

informação sobre a língua portuguesa. Entre os usuários do corpus incluem-se linguistas, pesquisadores da

linguagem, professores de língua materna e de português / língua estrangeira, de redação, jornalistas, escritores,

roteiristas, publicitários, alunos de diversos níveis, dicionaristas, gramáticos e uma ampla gama de profissionais

que lidam com a língua em uso.

CORPUS HISTÓRICO DO PORTUGUÊS TYCHO BRAHE

Trata-se de um corpus eletrônico anotado, composto de textos em português escritos por autores

nascidos entre 1380 e 1845. Atualmente, 64 textos (2.769.403 palavras) estão disponíveis para pesquisa livre,

com um sistema de anotação linguística em duas etapas: anotação morfológica (aplicada em 33 textos, num

total de 1.485.943 palavras); e anotação sintática (aplicada em 16 textos, num total de 671.694 palavras). O

Corpus tem sido desenvolvido em associação com os projetos temáticos:

Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística (1998-2003);

Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística, Fase 2 (2004-2008);

O português no Tempo e no Espaço: Contato linguístico, Gramáticas em Competição e Mudança Paramétrica (desde 2012) e pode ser acessado em: http://www.tycho.iel.unicamp.br/~tycho/corpus/en/index.html.

Edila Vianna da Silva

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 176

2.2. Bancos de dados internacionais

CORPUS DE REFERÊNCIA DO PORTUGUÊS CONTEMPORÂNEO (CRPC)

Organizado pelo Centro de Linguística da Universidade de Lisboa, o CRPC integra o corpus

compartilhado, base do Projeto VARPORT, caracterizado anteriormente. É um dos mais importantes bancos de

dados internacionais da língua Portuguesa, pois contém amostras das variedades nacionais e regionais do

português (português europeu, português do Brasil, português dos cinco países africanos de língua oficial

portuguesa e o português de Macau). Trata-se de um corpus linguístico, eletrônico, que contém atualmente 86,3

milhões de palavras, constituído por amostragens de diversos tipos de texto de discurso escrito (literários,

jornalísticos, técnicos, científicos, didáticos, econômicos, jurídicos, parlamentares etc.) e de discurso oral

(elocuções informais e formais).

Diacronicamente considerado, o corpus contém textos que vão desde a segunda metade do séc. XIX

até 1998, embora, em sua maior parte, sejam posteriores a 1970. Dá conta dos recursos linguísticos específicos

de cada língua, que, em associação com tecnologias adequadas à extração de dados e de conhecimentos,

constituem pré-requisitos indispensáveis a um grande conjunto de trabalhos de investigação e a vários tipos de

desenvolvimento e aplicações.

O CPRC tem, consequentemente, sido utilizado em numerosos trabalhos acadêmicos (essencialmente

dissertações de doutoramento e de mestrado) realizados em Portugal e no estrangeiro e em projetos de

investigação. Destes, salientam-se: Novo Dicionário da Língua Portuguesa em execução na Academia das

Ciências de Lisboa; Dicionário de Combinatórias do Português (1994-1997, Programa Lusitânia, inventário das

associações lexicais contínuas que ocorrem num subcorpus do CPRC de 12 milhões de palavras); Português

Falado, Variedades Geográficas e Sociais (1995-1997, Programa europeu LÍNGUA/SOCRATES em que o CLUL

é a instituição coordenadora e são parceiros as Universidades de Toulouse-Le Mirail e de Aix-en-Provence),

que conta com 80 amostragens do português falado, nas suas variantes europeia, brasileira, africanas e de

Macau, em CD-ROM, com a gravação sonora de produções autênticas e a correspondente transcrição

ortográfica alinhada, e, ainda, três volumes de estudos lexicais, morfossintáticos, sintáticos, enunciativos e

pragmáticos feitos com base no corpus de português falado (materiais em via de publicação).

CORPUS ELETRÔNICO DO CELGA – Português do Período Clássico (CEC – PPC)

O corpus CELGA, criado no Centro de Estudos de Linguística Geral e Aplicada (CELGA), da

Universidade de Coimbra, foi projetado como um conjunto organizado de materiais − textos, índices de formas

e concordâncias – destinados à realização de consultas e estudos da área da Linguística, e de outras áreas,

Bancos de dados sociolinguísticos em português

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 177

designadamente Literatura, História e Cultura portuguesas. Considerou-se também a possibilidade de que esses

materiais pudessem constituir recursos para realizações lexicográficas de que carece a língua portuguesa

(especialmente, dicionário histórico e Thesaurus).

Os materiais reunidos até ao presente dizem respeito à língua portuguesa dos séculos XVI e XVII,

especialmente a D. Francisco Manuel de Melo (1608-1666), autor de vasta e importante obra, em diversos

gêneros e estilos. Esta incidência justifica-se pela necessidade de se preencherem lacunas reconhecidas de

documentação e estudo do “Português clássico”, e em particular da produção em língua portuguesa do

mencionado autor seiscentista. A construção desse banco de dados tem em perspectiva a associação a outros

corpora de língua portuguesa, constituídos, ou a constituir, dentro e fora do CELGA, de modo a ampliar,

complementar e partilhar dados informativos. Desde 2006, já se verifica uma articulação com o Corpus do

Português, organizado pelos Profs. Mark Davies e Michael J. Ferreira (E.U.A.), acessível na Web. A pesquisa no

Corpus do Português permite obter informações facultadas pelos textos do CEC-PPC.

Os materiais que integram o CEC-PPC foram registados em suporte digital e, atualmente, estão

acessíveis a consulta em CD-ROM, na Sala de Leitura do CELGA, e, na maior parte, via Internet, na página do

Centro – www1.ci.uc.pt/celga/servicos/sec-ppc.htm. É importante salientar que esses materiais são

acompanhados de esclarecimentos sobre as suas características, em especial sobre procedimentos adotados na

elaboração de edições.

CORPUS DO PORTUGUÊS

O Corpus do Português, acessível na Web em http://corpus.byu.edu, foi constituído por Mark Davies,

professor de Linguística na Universidade Brigham Young (USA). Integra um conjunto de dez corpora, com dados

do inglês (a maioria deles) e de outras línguas como o espanhol e o português. Apresentam várias finalidades,

entre as quais se destacam: investigar o comportamento linguístico de falantes nativos, tanto na modalidade

oral como na escrita; observar fatos de variação linguística e mudança; estabelecer a frequência de uso de

palavras , frases e colocações; e projetar autênticos materiais e recursos de ensino de línguas.

Os materiais são utilizados por mais de 100.000 pessoas a cada mês (mais de 200 mil visitas), o que

os torna talvez os corpora mais usados entre os disponíveis atualmente. Eles também servem como base para

um crescente número de publicações realizadas por pesquisadores de todo o mundo.

No caso do português, o corpus conta com 45.000.000 de palavras datadas do período entre os anos

de 1300 e1900.

Edila Vianna da Silva

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 178

PROJETO DO CORPUS DIACRÔNICO DO PORTUGUÊS

O objetivo do projeto, financiado pela Fapesp (02/12005-2) no âmbito do Programa de Apoio a Jovens

Pesquisadores em Centros Emergentes, é possibilitar investigações em Linguística e em áreas afins, por meio da

constituição e a disponibilização de um banco de textos informatizados que reúne material representativo de

diferentes períodos da língua portuguesa – século XIII ao XX. Trata-se, mais especificamente, de uma amostra

de dados exemplares de uma variedade de gêneros e estilos, que pode ser acessada, mediante senha, nos

formatos textos e imagem. O acesso, após cadastramento, é feito pelo site http://www.cdp.ibilce.unesp.br.

3. ATLAS LINGUÍSTICOS

Os Atlas Linguísticos documentam in loco a língua em uso e descrevem essa língua em seus diferentes

níveis, mapeiam os dados em cartas linguísticas que são reunidas em forma de atlas. Segundo Aguilera (1998,

p. 145), o papel dos atlas linguísticos é justamente investigar variações de usos da língua em diferentes espaços

geográficos, dando-se especial atenção aos contextos culturais e situações informais em que se concretizam as

atividades linguísticas, que se evidenciam principalmente nos planos lexical e fonético/fonológico.

Desde o surgimento da primeira obra de cunho geolinguístico no século XX na França (GILLIERÓN,

1902-1910), os atlas linguísticos tradicionais e contemporâneos têm documentado a realidade linguística de

áreas geográficas distintas, dependendo da amplitude e dos objetivos do atlas, e se configurado como fonte

segura para estudos sobre a língua em uso num espaço e época determinados.

A recolha de dados com a formação de bancos valiosos é, obviamente, a base desses trabalhos que a

seguir se mencionam, de acordo com quadro retirado do artigo A geolingüística no Brasil: estágio atual

(AGUILERA, Revista da ABRALIN, 2006). A autora lista os Atlas, organizados entre 1963 e 2005, com data de

conclusão ou os estágios em que se encontravam em 2005.

1. Atlas Prévio dos Falares Baianos – APFB – 1963, volume único: publicado;

2. Esboço de um Atlas Linguístico de Minas Gerais EALMG – 1977, 4 volumes: um publicado, dois no

prelo;

3. Atlas Linguístico da Paraíba – ALPB – 1984, 3 volumes: dois publicados, v. I e II;

4. Atlas Linguístico de Sergipe – ALS – 1987, volume II: publicado;

5. Atlas Linguístico do Paraná – ALPR – 1994, 2º volume em andamento (Tese);

6. Atlas Linguístico e Etnográfico da Região Sul – ALERS I, II e III 2002, IV volume em andamento;

7. Atlas Linguístico de Sergipe – ALSE II – 2002, Concluído (Tese);

8. Atlas Linguístico Sonoro do Pará – ALiSPA – 2004, Concluído (CD-ROM);

Bancos de dados sociolinguísticos em português

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 179

9. Atlas Linguístico do Amazonas – ALAM – 2004, Concluído (Tese);

10. Atlas Linguístico do Mato Grosso do Sul – ALMS – Coleta concluída: em processo de análise dos

dados;

11. Atlas Linguístico do Pará – ALiPA – Coleta concluída: em processo de análise dos dados;

12. Atlas Linguístico do Maranhão – ALIMA – Em andamento;

13. Atlas Linguístico do Rio Grande do Norte – AliRN – Em andamento (Tese);

14. Atlas Linguístico do Paraná – ALPR II, vol. II – Em andamento (Tese);

15. Atlas Linguístico do Espírito Santo – ALES – Em andamento;

16. Atlas Linguístico do Rio de Janeiro – Em andamento;

17. Atlas Linguístico do Estado de São Paulo – ALESP – Sem informações sobre o estágio atual;

18. Atlas Linguístico do Ceará –ALECE – Sem informações sobre o estágio atual;

19. Atlas Linguístico do Estado do Acre – ALAC – Sem informações sobre o estágio atual.

3.1 Projeto do Atlas Linguístico do Brasil (projeto ALiB)

Conforme já se registrou anteriormente (seção 2.1), estão concluídos todos os trabalhos de constituição

do corpus do ALiB que, embora ainda não publicado, está acessível, com as fotos das 250 localidades que

compõem a rede de pontos de inquérito, em www.alib.ufba.br.

CONSIDERAÇÕES FINAIS

O conhecimento mútuo do trabalho dos vários investigadores – que não ocorre com a devida

sistematicidade entre brasileiros e portugueses e até mesmo entre pesquisadores das regiões brasileiras – pode

propiciar uma visão ampla das variedades do português e facilitar a realização de estudos contrastivos não só

entre dialetos brasileiros, mas também entre brasileiros e portugueses numa linha de investigação que

certamente contribuirá para o esclarecimento de muitos fatos linguísticos em variação.

A pesquisa apresentada resumidamente neste artigo pretende ser uma contribuição preliminar para a

divulgação desses trabalhos, que podem basear a constituição dos perfis sociolinguísticos das variedades faladas

do português.

Edila Vianna da Silva

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 180

REFERÊNCIAS

AGUILERA, V. A geolingüística no Brasil: estágio atual. Revista da ABRALIN, v. 5, n. 1 e 2, p. 215-238, dez. 2006.

BRANDÃO, Silvia F. Corpora lingüísticos no Rio de Janeiro. II CONGRESSO INTERNACIONAL DA LÍNGUA PORTUGUESA: identidade, difusão e variabilidade. UFRJ/ Faculdade de Letras, 2007.

CASTILHO, Ataliba T.; SILVA, Giselle M.O.; LUCCHESI, Dante. Informatização de acervos da língua portuguesa. Boletim da ABRALIN, n. 17, 1995, p. 143-154.

CUNHA, Celso. A questão da norma culta brasileira. Rio de Janeiro: Tempo Brasileiro, 1995.

MATEUS, Maria Helena Mira. O horizonte da investigação sobre o português. Atas do I Congresso Internacional da ABRALIN. Salvador: FINEP/UFBA, 1996, p. 25-48.

_______. Objectivos e estratégias de uma política lingüística. Lisboa: Faculdade de Letras da Universidade de Lisboa. Mesa-redonda sobre Uma política de língua para o português. [s/d]. Mimeografado.

________; VILLALVA (Org.). O essencial sobre Lingüística. Lisboa: Editorial Caminho, 2006.

MOLLICA, Maria Cecília; RONCARATI, Cláudia. Questões teórico-descritivas em sociolingüística e em sociolingüística aplicada e uma proposta de agenda de trabalho. Revista D.E. L.T.A., n. 17 (especial), 2001, p. 45-55.

NASCIMENTO, Maria Fernanda B. Construção e exploração de um corpus de variedades do português. II CONGRESSO INTERNACIONAL DA LÍNGUA PORTUGUESA: identidade, difusão e variabilidade. UFRJ/ Faculdade de Letras, 2007.

PAIVA, Maria da Conceição de; SCHERRE, Maria M. P. Retrospectiva sociolingüística: contribuições do PEUL. Lingüística, n. 11, 1999, p. 203-230.

RONCARATI, Cláudia; ABRAÇADO, Jussara. Português brasileiro – contato lingüístico, heterogeneidade e história. Rio de Janeiro: 7 Letras/FAPERJ, 2003.

______. Para uma agenda preliminar de cooperação e integração entre as Associações de Lingüística do Português. II CONGRESSO INTERNACIONAL DA LÍNGUA PORTUGUESA: identidade, difusão e variabilidade. UFRJ/ Faculdade de Letras, 2007.

SAVEDRA. Mônica Maria Guimarães, Política lingüística no Brasil, Revista Internacional de Estudos Políticos, v. 1, n. 1, abr. 1999, p. 209.

SCHERRE, Maria Marta Pereira. Breve histórico do Programa de Estudos sobre o Uso da Língua. In: SILVA, G. M. O; SCHERRE, M. M. P. (Org.). Padrões sociolinguísticos. Rio de Janeiro: Tempo Brasileiro, 1986, p. 27-50.

SCLIAR-CABRAL, Leonor. Definição da política lingüística no Brasil. Boletim da ABRALlN, Florianópolis, v. 23, 1999, p. 7-17.

SILVA, Edila V. Levantamento de bancos de dados e sua contribuição para o conhecimento e a difusão do português. Cadernos de Letras da UFF, Niterói, n. 39, 2009, p. 155-165.

SILVA, Giselle Machline de Oliveira e. Variáveis sociais e perfil do Corpus Censo. In: SILVA, G. M. O; SCHERRE, M. M. P. (Org.). Padrões sociolingüísticos. Rio de Janeiro: Tempo Brasileiro, 1996, p. 50-81.

VÔTRE, Sebastião. Para uma política de banco de dados. Boletim da ABRALIN, n. 6, 1984, p. 12-16.

Data de submissão: abr./2016. Data de aprovação: maio/2016.