Análise de Assunto

Universidade Federal de São Carlos (UFSCar)

Departamento de Ciência da Informação (DCI)

Biblioteconomia e Ciência da Informação (CBCI)

Análise de Assunto

• Ana Tereza de Pádua

• Andréa Cristina Dornelles Italiano

• Daniel André Rigo Guirra

• Josimeire Moura da Silva

• Rodrigo Rafael Mendonça dos Santos

• Walison Aparecido de Oliveira

Análise Documentária

Introdução

Análise de assunto é a operação-base para todo

procedimento de recuperação de informações.

É feita em dois momentos:

• Quando recebem o documento;

• Ao receberem um pedido de informação;

Maior problema da indexação: Descrever o

conteúdo dos documentos.

2

Análise Conceitual Documentos Análise de

Assunto

Tradução da Análise Conceitual em Termos

de Indexação Documentos

Perfil dos Documentos (Termos de Indexação)

Armazenagem

Arquivo de Busca Perfis

Doc. X Pedido

Tradução da Análise Conceitual em Termos

de Indexação

Perfis dos Pedidos (Estratégia de

Busca)

Vocabulário Controlado

Análise Conceitual

PedidosAnálise de Conteúdo

PEDIDOS DE DOCUMENTOS

DO ARQUIVO

Vocabulário Controlado

BUSCA

Fonte: LANCASTER, F.W. Vocabulary control for information retrieval. Washington, Information ResourcesPress, 1972. 233p. (ADAPTADO)

Recuperação da informação: Processo de entrada e saída

Documentos

3

Primeira etapa – compreensão do texto como um topo

• título

• introdução e subtítulos dos capítulos e parágrafos

• ilustrações, tabelas, diagramas

• conclusões

• palavras ou grupos de palavras graficamente diferenciadas

Segunda etapa – identificação de conceitos

• procedimento lógico

• categorias fundamentais

(objetos, materiais, processos, equipamentos)

Terceira etapa - seleção de conceitos

• objetivos do sistema

• necessidades do usuário

Estabelecendo um assunto 4

Antony Charles Foskett (1973) – “Abordagem temática da informação”

Especificidade

“extensão em que o sistema nos permite ser

precisos ao especificar um documento que

estejamos processando”

Exaustividade

“resultado de uma decisão administrativa, sendo

extensão com que analisamos um determinado

documento, a fim de estabelecer exatamente qual

o conteúdo temático que temos de especificar”

5

No que isso interfere?!

Sistema de Busca e Recuperação de

Informação

6

Revocação e Precisão

• Revocação

• mede a proporção de documentos relevantes recuperados

• Precisão

• mede quantos documentos relevantes foram recuperados

7

Curva de Recall x Precision (CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras. Lavras-MG, 20-?)

8


Itens não relevantes

Itens relevantes

9


Itens

recuperadosItens não

recuperados

AC

B

D

10


• Revocação

• Relevantes Recuperados / Total de itens relevantes

• A / (A+D)

11


Itens recuperados

Itens nãorecuperados

AC

B

D

12


• Revocação

• Relevantes Recuperados / Total de itens relevantes

• A / (A+D)

• Precisão

• Relevantes Recuperados / Total Recuperados

• A / (A+B)

13


Itens recuperados

Itens nãorecuperados

AC

B

D

14

Exaustividade

15

Especificidade

16

Estabelecido o assunto

Transformar os conceitos selecionados

em termos ou símbolos autorizados

para a representação no sistema

17

Thesauri

Listas de cabeçalhos de assunto

Sistemas de Classificação

Uso de instrumentos de

controle de linguagem

18

Domínio da linguagem-padrão

do sistema

Composta pelo vocabulário e sintaxe

19

A sintaxe estabelece

o modo pelo qual essas

unidades serão combinadas

para a efetiva comunicação do

pensamento.

O vocabulário compõe-se

de unidades isoladas;

20

Importante!!!

Impõe limitações ao número de termos

fixados para representar o conteúdo

estabelecidos pelas relações entre os

termos.

Sua existência não deve influenciar a

análise.

21

Conceitos não representados na

linguagem usada, o indexador

deverá usar descritores mais

genéricos ou dependendo do

sistema a admissão de novos

termos é aceito.

22

Controle de qualidade da indexação está ligada

a dois elementos básicos:

Ao desempenho do indexador;

À qualidade dos instrumentos de indexação.

23

A consistência da indexação!!

Deve ser regular considerando:

o fator tempo, um alto grau de

imparcialidade, uma submissão às

diretrizes da indexação adotadas pelo

sistema.

24

Suas dificuldades

Grupo grande;

Trabalho em diferentes locais;

Elementos de subjetividade interfiram.

25

Para Lancaster:

•O vocabulário controlado é indispensável;

•Operam de maneira eficiente pela experiência em sistemas

automatizados;

•O elemento humano de alto nível é muito mais necessário na

etapa de pesquisa do que no momento de indexação;

•É indiscutível o controle de qualidade para lucrar muito

através do estabelecimento de contato mais efetivo entre

indexador e o usuário, qualidade da linguagem adotada e um

fator importante, qualidade de atualização dessas linguagens

em resposta a novos desenvolvimentos na terminologia,

necessidades dos usuários e do próprio sistema.

26

A linguagem controlada pode

exercer duas funções:

Prescritiva – estabelece limites rígidos para a

representação dos conceitos, facilita a escolha

dos termos;

Sugestiva – mais flexível, indica as melhores

formas de representação, sem impô-las ao

indexador.

27

O sistema que permite a interação

usuário

indexador

sistemas

tem demonstrado ser mais eficiente

do que aqueles onde ela não existe.

28

Análise de coleções e documentos

• Os primeiros estudos visando a classificação

de documentos, dividiam-nas do geral para o

específico. É o caso das tradicionais

classificações bibliográficas, também

chamadas de hierárquicas, que criavam

cadeias de termos seguindo o princípio da

hierarquia;

• RANGANATHAN propôs a “Colon

Classification” – uma classificação geral que

divide o conhecimento humano com base nas

categorias fundamentais (Personalidade,

Matéria, Energia, Espaço, Tempo – PMEST);

29

Lancaster, apresenta quatro abordagens para se gerar um vocabulário controlado:

1. Gerar um vocabulário empiricamente com base na indexação de um conjunto representativo de documentos;

2. Modificar um vocabulário já existente;

3. Extrair o vocabulário de um outro já existente;

4. Reunir termos de diferentes fontes: especialista na área, dicionários, glossários, índices, etc.

30

A construção de Thesaurus of Engininnering andScientific Terms (TEST) obedeceu a alguns critérios na seleção dos termos:

• Aceitabilidade do termo em dicionários, enciclopédias, etc;

• Utilidade do termo em comunicações, em índices e em sistemas de recuperação de informação;

• O número de fontes que usam esse termo;

• A pertinência desse termo com outros já selecionados.

31

Quando nos baseamos apenas nasopiniões de especialistas temos asdesvantagens abaixo:

– Eles podem não estar familiarizados com aleitura, e mais importante, com asnecessidades dos usuários potenciais dosistema;

– Eles podem tomar decisões que não sãoúteis tendo em vista o objetivo de recuperarinformações;

– Podem dar mais importância a sua própriaespecialidade, causando desequilíbrio nosistema como um todo.

32

• Vocabulário controlado: Instrumento prático,

devendo ser capaz de representar conceitos

que realmente ocorrem na literatura do

assunto;

• Um vocabulário desenvolvido empiricamente a

partir da indexação da literatura da área, tem

grande garantia literária, enquanto que um

vocabulário desenvolvido por especialistas

pode não ter nenhuma.

33

A análise de documentos é um processo que ajuda a:

• Determinar as principais categorias de termos para uma área;

• Optar pelo melhor termo para representar um conceito;

• Estabelecer quais relações úteis entre os termos, tendo em vista a recuperação das informações;

• Estabelecer hierarquias necessárias.

34

Para o indexador , o conhecimento das

relações entre termos e categorias é de

extrema importância para se estabelecer

representações adequadas para assuntos

compostos e complexos.

35

Normalmente existem três relações entre os termos:

1- Relação de equivalência ou relações preferenciais:

Alguns conceitos podem ser representados por mais de um termo, que são semelhantes ou de significação quase idêntica. Nesse caso deve-se escolher o termo mais conhecido ou o menos ambíguo.

Ex: revista e periódico

Genética e hereditariedade

Curvatura ou flexão

36

2-Relações hierárquicas: expressam ideias de subordinação entre termos.

-relação gênero - espécie:

ex: processamento técnico

Registro

Catalogação

Classificação

Indexação

-relação parte/todo: nesse caso dá-se preferência aos assuntos mais específicos.

EX: árvore

Raiz

Tronco

Galhos

Folhas

37

3-Relações associativas ou de coordenação: conceitos ligados, cuja ideia de um faz lembrar a ideia do outro. Elas só devem ser mantidas na indexação quando facilitam realmente a recuperação da informação.

Ex:

Genética: pais e filhos

Causa efeito: ensino e aprendizagem

Instrumental: escrita e lápis

Material: papel e livro

Similaridade de processo: catalogação e classificação

38

Ao criar uma linguagem de indexação, deve-se

estabelecer uma ordem de prioridade entre os

diversos conceitos.

Essa ordem é determinada a partir da

importância que esse conceitos têm para os

usuários.

39

Vários autores criam regras básicas tentando estabelecer a

ordem de citação dos assuntos complexos.

Ex: -assunto antes da forma bibliográfica: Física-

dicionário.

- assunto antes do lugar (com a preposição em): “A

educação no Brasil”= Educação- Brasil

- Assunto depois do lugar (com a preposição de): Rios do

Brasil = Brasil-Rios

- Concreto, depois o processo: Tratamento de metais =

Metais-tratamento.

- Todo-parte: índices de revista = Revistas - índices

40

AUTOMAÇÃO

E

ANÁLISE DE ASSUNTO

41

• A primeira idéia de usar computadores noprocessamento lógico da análise de assunto dedocumentos foi proposta por LUHN em 1957.

• O sistema utilizado foi o KWIC (keyword andcontext), um sistema pré- coordenado, suavantagem era a velocidade do processamento deentrada de documentos.

• Indicava o uso de títulos dos documentos como“matéria prima” para a representação de assunto.

(SISTEMA PRÉ-COORDENADO: Combinação feita naetapa de entrada, na indexação)

42

• Um grande número de serviços de informaçõespublicaram bibliografias indexadas pelosistema KWIC : Bioresearch Index, BiologicalAbstracts, Chemical Abstracts, etc.

• Com o aperfeiçoamento e o aumento dacapacidade dos equipamentos deprocessamentos de dados, o tipo de lógicaempregado no sistema KWIC mostrou estaraquém da real capacidade dos computadores.

43

• Desenvolveram-se então sistemas usando um maior grau de lógica, baseando-se:

– Na estatística das palavras do texto;

– Na determinação de pesos para termos, de acordo com sua importância no assunto;

– Na frequência com que determinadas palavras ocorrem juntas nas frases ou parágrafos.

• Estas pesquisas foram desenvolvidas na década de 60, mas como alguns problemas não conseguiram ser superados, na década de 70 foram poucos os pesquisadores que se dedicaram ao assunto.

44

• Outra corrente que tem estudado a possibilidade de

aplicação dos computadores à analise de texto é

baseada na teoria da gramática transformacional de

CHOMSKY e HARRIS.

• O modelo transformacional acredita que existe um

conjunto finito de sentenças-padrão (Kernel

Sentences) para as quais todo conjunto infinito de

sentenças em linguagem natural poderia ser

transformado.

45

• Todas as línguas tem uma estrutura superficial

e uma estrutura profunda.

– Esta última é relativa ao modo como as idéias são

formadas na mente humana e portanto seria

universal, enquanto que a estrutura superficial

pode variar de acordo com as línguas.

– Ao colocarmos todo o texto nos termos de sua

estrutura profunda estaremos realmente analisando

este texto, chegando às sentenças-padrão.

46

• Experiências realizadas por Harris na

Universidade de Pensilvânia chegaram a

conjuntos de sentenças-padrão de

documentos, que muito se assemelhavam

aos resumos dos textos feitos com

intenção de disseminação de informação.

47

• Alguns autores como Anderson & Perez-Carballo(2001) em seu trabalho sobre a natureza daindexação, colocam que para a busca de informações,textos ou documentos em um sistema de informação,é necessário que os termos estejam descritos eindexados. A descrição requer alguns tipos deanálise,dos quais dois são destacados pelos autores: aanálise humana e a análise algorítmica realizada peloscomputadores.

48

• A análise humana examina o documento e

textos para considerar o contexto que

representam;

• A análise automática identifica e compara os

componentes do texto – os símbolos que

formam o texto.

49

• O ideal é que um sistema de recuperação da

informação ofereça as duas abordagens de

análise/indexação da informação: tornando o

processo de busca e recuperação da

informação mais exaustivo e eficiente e, com

resultados mais relevantes.

50

• Os autores argumentam ainda que , em se tratando deindexação de materiais especiais como imagem esom, por exemplo, a indexação automática apenasengatinha, uma vez que sua base é a linguagemcontida nos textos. O Altavista é uma ferramenta debusca na Web que utiliza a indexação automática deimagens desde 1998, tentando encontrar imagens quesejam visualmente similares ao comando de buscadeterminado pelo usuário.Imagem “visualmente”similar não é a mesma que imagem“conceitualmente” similar . Assim sendo, osresultados quase sempre parecem estar baseados nacor e na estampa e não em um detalhe particular daimagem.

51

Referência e Bibliografia

• ARAUJO, R.H.J., Precisão no processo de busca e recuperação da

informação.Brasilia. Thesaurus, 2007.176p.

• CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras. Lavras-MG, 20-?

• CESARINO, M. A. da N.; PINTO, M. C. M. F. Análise de assunto.

Revista de Biblioteconomia, Brasília, v. 8, n. 1, p. 32-43, jan.-jun. 1980.

Disponível

em:<http://www.tempusactas.unb.br/index.php/RBB/article/viewFile/244/224>.A

cesso em: 29 jul. 2010.

• FOSKETT, A.C. Abordagem temática da informação. São Paulo, Polígono,

1973, 347 p.

52

Documents

Análise de Assunto