1III Conf. da APSI
20 -22, Nov. 2002
XML na Demografia Histórica: Anotação de Registos Paroquiais
Rafael Félix,
Fernanda Faria,
Maribel Santos,
Pedro Henriques
Universidade do Minho
Guimarães/Braga - Portugal
20 -22, Nov. 2002
III Conf. da APSI 2
Objectivo da Comunicação
Propor a anotação em XML dos registos paroquiais (RPs) – baptizado, casamento e óbito – de modo a construir
uma base documental que suporte o estudo da evolução demográfica segundo o MRP (Método de Reconstituição de Paróquias)
20 -22, Nov. 2002
III Conf. da APSI 3
Objectivo da Comunicação
Constitui-se assim
uma base mais rica que as tradicionais bases de dados paroquiais
no sentido em que se abrem novas possibilidades de exploração da informação
20 -22, Nov. 2002
III Conf. da APSI 4
Plano da Comunicação
Caracterização do contexto de trabalho SEED XML
Os RPs e a Aquisição de dados Os RPs em XML
Anotação Edição e Validação Processamento
Potencialidades da Anotação
20 -22, Nov. 2002
III Conf. da APSI 5
Caracterização do contexto de trabalho
Estudo da Evolução Demográfica com base no levantamento dos registos paroquiais seguindo o MRP; o SEED
Processamento de documentos estruturados com base na sua anotação em XML
20 -22, Nov. 2002
III Conf. da APSI 6
SEED (estudo evolução demográfica)
Sistema informático para
Auxiliar os Demógrafos na realização das análises dos dados (indivíduos+famílias) que lhes permitem compreender a evolução do comportamento das populações (rurais e urbanas) ao longo dos séculos e em zonas distintas
20 -22, Nov. 2002
III Conf. da APSI 7
SEED: Objectivo do Estudo
Permite o estudo daFecundidadeNupcialidadeMortalidade.....
sendo suportado pelo MRP que se baseia no cruzamento de registos de
BaptizadoCasamentoÓbito
20 -22, Nov. 2002
III Conf. da APSI 8
5
4
3
1
2
Basede
DadosCentral
Módulo deConsolidação de Dados
Módulo de Descoberta deConhecim ento
Sistem a de I nform açãoGeográfica
Módulo Dedutivo
Módulo OLAP/ EI S
Sistem a de Raciocínio Baseadoem Casos
Sis
tem
a B
asead
o e
m C
on
hecim
en
to
Extracção deDados
T ransform açãode Dados
Aquisição de Dados
Bases deDados
SEED: Arquitectura para Análise de Dados e Extracção de Conhecimento
20 -22, Nov. 2002
III Conf. da APSI 9
Anotação de documentos em XML
XML: meta-linguagem para anotação de documentos organizados em tipos
Com XML podem definir-se sistemas de anotação (linguagens específicas) para:
cartas, memorandos, relatórios, manuais, poemas, certidões, declarações, petições, exames, pautas, horários, etc ...
20 -22, Nov. 2002
III Conf. da APSI 10
Anotação de documentos em XML
DTD ou XML-Schema: para cada tipo, define as marcas possíveis, seus atributos e a maneira como se agrupam
<!ELEMENT carta (remete, destino, data, assunto, abertura, corpo, fecho)>
< xs:element name = “carta”>
<xs:complexType>
<xs:sequence>
<xs:element name = “remete”>
...
<xs: element name = “fecho”>
</xs:sequence> </xs:complexType> </ xs:element >
20 -22, Nov. 2002
III Conf. da APSI 11
Anotação de documentos em XMLUm documento anotado: evidencia a sua
estrutura geral e a interpretação de elementos nele contidos, sem informação quanto à formatação ou transformação
<livro>
<abertura>Este livro hade servir ...</abertura>
<registo>
Aos <data valor=“18000102” deQue=“Bapt”>dois dias do mes de Janeiro do anno de mil e oitocentos</data>, n’esta <local>Igreja Paroquial da Villa das Lages do Pico</local> ...
</registo>
</livro>
20 -22, Nov. 2002
III Conf. da APSI 12
Anotação de documentos em XML
Um documento anotado: pode ser validado e posteriormente processado
Validar = verificar a estrutura face ao DTD/Schema (Parsing)
Processar = formatar | transformar | pesquisar | extrair
20 -22, Nov. 2002
III Conf. da APSI 13
Anotação de documentos em XML
XSL: linguagem para processamento de documentos anotados
XSLT – linguagem de transformação
Xpath – linguagem de selecção
XSL Formating Objects – linguagem para especificação de formatações
20 -22, Nov. 2002
III Conf. da APSI 14
Plano da Comunicação
Caracterização do contexto de trabalho SEED XML
Os RPs e a Aquisição de dados Os RPs em XML
Anotação Edição e Validação Processamento
Potencialidades da Anotação
20 -22, Nov. 2002
III Conf. da APSI 15
Os RPs e a Aquisição de dados
Como era
Leitura local e exaustiva dos RPs
extracção manual dos dados necessários para reconstituição de famílias
bases de dados paroquiais
20 -22, Nov. 2002
III Conf. da APSI 16
Os RPs e a Aquisição de dados
Como poderia ser
Digitalização integral do documento anotação
processamento automático bases de dados, etc. ...
20 -22, Nov. 2002
III Conf. da APSI 17
Os RPs e a Aquisição de dados
Devido às limitações actuais do SW para OCR,
Como tem de ser
Edição/Anotação manual auxiliada do documento integral
processamento automático
bases de dados, etc. ...
20 -22, Nov. 2002
III Conf. da APSI 18
Plano da Comunicação Caracterização do contexto de trabalho
SEED XML
Os RPs e a Aquisição de dados Os RPs em XML
Anotação Edição e Validação Processamento
Potencialidades da Anotação
20 -22, Nov. 2002
III Conf. da APSI 19
Anotação de RPs em XML
A Anotação dos Registos Paroquiais requer
a criação de um novo dialecto de XML específico para essa família de documentos: Schema-RP
20 -22, Nov. 2002
III Conf. da APSI 20
Anotação de RPs em XML
As grandes decisões: DTD versus XML-Schema 3 Sistemas de Anotação versus 1
único Escolha dos Elementos apropriados
e seus Atributos
20 -22, Nov. 2002
III Conf. da APSI 21
Anotação de RPs em XML
1ªfase:Elementos para identificar os dados explícitos
no texto: nome, morada, idade, profissão, ...
Elementos para identificar a “personagem” a quem os dados se referem:
noivo, noiva, falecido, pai, mãe, .......
O mesmo Elemento é aberto várias vezes com conteúdos diversos
20 -22, Nov. 2002
III Conf. da APSI 22
Anotação de RPs em XML
2ªfase:
Elementos que identificam em simultâneo os dados explícitos no texto e a “personagem” a quem se referem:
noivo.nome, noivo.morada, noiva.idade, noiva.profissão, ...
O número de Elementos distintos aumenta consideravelmente;
e a sua ortografia é pesada
20 -22, Nov. 2002
III Conf. da APSI 23
Anotação de RPs em XML
3ªfase:
Elementos genéricos que identificam os dados explícitos no texto:
nome, morada, idade, profissão, ...
combinados com Atributos cujos valores (“noivo”, “noiva”,
“pai”, “mãe”) especificam a “personagem” a quem se referem:
nome - deQuem, local - deQue,
Idade - deQuem, data - deQue, ...
O número de Elementos e Atributos é reduzido;
o sistema de anotação fica bem legível
20 -22, Nov. 2002
III Conf. da APSI 24
Anotação em Schema-RP: Exemplo de 1 Registo de casamento <registo>
<notaMargem>
<numero>6</numero>
<nome deQuem="individuo">Francisca Maria</nome>
</notaMargem>
<texto>Aos <data deQue="obito" deQuem="individuo" norm="1876-01-28">vinte e oito dias do mez de janeiro do anno de mil oitocentos setenta e seis</data>, ás <hora deQue="obito" deQuem="individuo" norm="02:00">duas horas da noite</hora>, <local deQue="obito" deQuem="individuo" tipo="lugar">em huma caza da Canada do Ajudante, ......
E para constar lavrei em duplicado este assento, que assigno. ???????.__
</texto>
<assinatura>O'Vigario Antonio Homem da Costa</assinatura>
</registo>
20 -22, Nov. 2002
III Conf. da APSI 25
Edição/Validação de RPs em XML
Características desejáveis para um Editor: Associação fácil do DTD/XML-Schema
ao novo documento Escrita ágil do novo texto base, ou fácil
abertura dum existente Indicação dos Elementos/Atributos que
se podem escolher em cada momento Indicação dos Valores possíveis para
cada Atributo Integração dum Parser
20 -22, Nov. 2002
III Conf. da APSI 26
Edição/Validação de RPs em XML
Alternativas: XML-Spy (Altova) X-Metal (SoftQuad) Document Editor (Altova)
Por satisfazer bem todos os requisitos a escolha recaiu sobre o XML-Spy
20 -22, Nov. 2002
III Conf. da APSI 27
Edição/Validação:Exemplo de uma sessão
20 -22, Nov. 2002
III Conf. da APSI 28
Edição/Validação de RPs em XML
Fases da Edição: Anotação com os Elementos (inserção
das “marcas” abertura/fecho) Anotação com os Atributos (adição dos
atributos a cada elemento e indicação do seu valor em função do contexto)
20 -22, Nov. 2002
III Conf. da APSI 29
Processamento de RPs em XML
Caso 1: Visualização em HTML
Foi criada uma style-sheet XSL para gerar páginas HTML a partir de um livro de registos anotado em Schema-RP
Assim, através de browser W W W é possível ver os registos num formato análogo ao original
20 -22, Nov. 2002
III Conf. da APSI 30
Visualização em HTML:Exemplo
20 -22, Nov. 2002
III Conf. da APSI 31
Processamento de RPs em XML
Caso 2: Geração de SQL para alimenção da BDP
Foi criada uma style-sheet XSL para gerar SQL com vista a inserir nas tabelas de Indivíduos e Famílias (da BDP) os dados relevantes que se podem extrair de cada registo anotado em Schema-RP
As complexas relações familiares e a dificuldade na identificação de Indivíduos não permitiu a alimentação automática (em 1 só passo) da BDP
20 -22, Nov. 2002
III Conf. da APSI 32
Processamento de RPs em XML
Caso 2: Geração de SQL para alimenção da BDP
Solução: sistema semi-automático, em 2 passos:
1ºpasso: via uma interface (interactiva) em VB todos os Indivíduos são identificados e certos campos codificados;daqui resulta um novo doc. XML sem ambiguidades e com “chaves”
2ºpasso: é gerado código SQL para inserção dos registos na BDP a partir desse novo documento XML
20 -22, Nov. 2002
III Conf. da APSI 33
Plano da Comunicação Caracterização do contexto de trabalho
SEED XML
Os RPs e a Aquisição de dados Os RPs em XML
Anotação Edição e Validação Processamento
Potencialidades da Anotação
20 -22, Nov. 2002
III Conf. da APSI 34
Potencialidades da Anotação
Para além da BD Paroquial que suporte as análises
fica-se com uma base documental com os documentos originais
disponíveis paraformatação (visualização/impressão)pesquisa e criação de índicesanálises linguísticas diversas (ortografia, estilos, análises de assinaturas, etc.) ...
20 -22, Nov. 2002
III Conf. da APSI 35
Conclusão
No contexto da Exploração de Registos Paroquiais com vista à construção dum Repositório de Conhecimento Demográfico,
Propôs-se o uso de uma linguagem específica XML para armazenamento integral dos documentos anotados,
Com vista a aumentar a automatização da aquisição e as potencialidades de exploração
20 -22, Nov. 2002
III Conf. da APSI 36
Conclusão
O XML-Schema para a linguagem Schema-RP foi criado
A edição está (semi-)resolvida
Foram desenvolvidas duas transformações (visualização HTML e geração de SQL)
O sistema está aberto a novas aplicações
... e a novas interfaces: multi-modais,
para PDAs
20 -22, Nov. 2002
III Conf. da APSI 37
Equipe
Os Autores Consultores
Orlando Belo Paulo Novais
Estagiários Grupos de Projecto (Opção 3)
20 -22, Nov. 2002
III Conf. da APSI 38
Colaboradores
Anália Lourenço Sérgio Passos Américo, Jorge,
Sandra Lopes Cristina, Sandra António, Celeste,
Paula
Alexandre, António, Manuel
Candida, M.Manuel, Nádea
Pedro, Solange Rafael Félix Patrícia Leite Fernanda Faria