Upload
phungnguyet
View
214
Download
0
Embed Size (px)
Citation preview
INPE-14439-TDI/1134
RECONHECIMENTO DE FACES USANDO REDES NEURAIS E
BIOMETRIA
Douglas Rodrigues Oliveira
Dissertação de Mestrado do Curso de Pós-Graduação em Computação Aplicada, orientada pelo Dr. Lamartine Nogueira Frutuoso Guimarães, aprovada em 30 de
setembro de 2003.
INPE São José dos Campos
2006
681.3.019 Oliveira, D. R. Reconhecimento de faces usando redes neurais e biometria/
D. R. Oliveira. – São José dos Campos: Instituto Nacional de Pesquisas Espaciais (INPE), 2003.
164 p.; - (INPE-14439-TDI/1134) 1. Reconhecimento de Faces. 2. Biometria. 3. Tipos
Faciais. 4. Morfologia Facial. 5. Redes Neurais. 6. Inteligência Artificial. I.Título.
Aprovado pela Banca Examinadora em cumprimento a requisito exigido para a obtenção do Título de Mestre em Computação Aplicada
Dr. José Demisio Simões da Silva Presidente Dr. Lamartine Nogueira Frutuoso Guimarães Orientador Dra. Sandra Aparecida Sandri Membro da Banca Dr. Walmir Matos Caminhas Membro da Banca
Convidado Candidato: Douglas Rodrigues Oliveira
São José dos Campos, 30 de setembro de 2003.
AGRADECIMENTOS
Inicialmente, agradeço ao meu orientador Dr. Lamartine pelo empenho, incentivo, compreensão e pelas críticas dispensadas na orientação deste trabalho, mesmo quando outras atividades profissionais e de cunho pessoal lhe exigiam intensa dedicação.
Agradeço aos meus colegas de república, Felipe, Mic e Joubert pelo companheirismo nas dificuldades do dia a dia. Também gostaria de lembrar os colegas conquistados no Laboratório da CAP e em São José dos Campos, Maurício, Fernanda, Élcio, Ana Paula, Fabrício, Talita, Adytia, Aritana, Juliana, Jaciara, Patrícia e todos os que de alguma forma foram fonte de inspiração, apoio e incentivo.
Especialmente, agradeço aos amigos Maurício e Élcio pelos inúmeros
favores e por toda amizade demonstrada por eles e pelas suas respectivas famílias durante o período em que residi em São José dos Campos.
Ao chefe da área de Sistemas Industriais da Açominas S.A., Mário Hermes
de Rezende, pelo incentivo dado para a conclusão desta dissertação e por ter sido extremamente tolerante com a minha necessária dedicação à escrita deste trabalho. Aos colegas de empresa Marlon Gouvea e Eduardo Vieira que deram contribuições importantes para escrita desta dissertação.
Ao Instituto Nacional de Pesquisas Espaciais e à CAP, pelo apoio, consideração e empenho em prover seus alunos com as condições necessárias para o desenvolvimento da pesquisa científica. Especialmente gostaria de citar: Dr. Haroldo e Dr. Demísio que por tantas vezes me receberam e buscaram os órgãos de financiamento para obtenção de bolsas para os alunos da CAP.
Minha profunda gratidão a Rafaella, cujo carinho, compreensão e auxílio,
buscando referências bibliográficas na área de Fonoaudiologia, também foram de grande valia para este trabalho.
Finalmente, agradeço à minha mãe e a meus irmãos, pelo amor e incentivo,
e ao meu pai, que sempre me apoiou em todas as etapas e decisões que tomei em relação a este mestrado.
RESUMO
O reconhecimento de faces é uma das ações mais corriqueiras no dia a dia de um ser vivo inteligente. Esta atividade executada com tanta naturalidade por organismos vivos, tem despertado o interesse de pesquisadores que trabalham com Visão Computacional e Inteligência Artificial. Esta dissertação tem por objetivo pesquisar a viabilidade de um sistema híbrido aplicado ao reconhecimento facial, mesclando características dos métodos geométricos para o reconhecimento de faces, aos métodos de inteligência computacional. Para a extração das métricas de componentes e regiões da face, usadas no método geométrico, foram feitos estudos sobre a anatomia da face humana usados em ortodontia, fonoaudiologia e reconstituição maxilo-facial. Estes estudos visaram a determinação de pontos de referência existentes na face e suas relações de interdependência para construir uma representação para as faces a serem analisadas. As medidas dos componentes e regiões faciais foram usadas na construção de vetores numéricos que identificam as faces de forma singular. Estes vetores de características métricas foram usados para treinar redes neurais, encarregadas de realizar o reconhecimento. Foram usadas, nos testes de reconhecimento, 37 imagens frontais de faces humanas de homens e mulheres adultos. Medidas de desempenho são utilizadas sob diversas condições (presença de ruído e imagens não vistas na etapa de treinamento), para ilustrar a viabilidade do sistema híbrido proposto, bem como a eficiência das métricas usadas para representar as faces.
FACE RECOGNITION USING NEURAL NETWORKS AND BIOMETRY
ABSTRACT
The recognition of faces is one of the simplest actions on a daily basis of an intelligent and living being. This activity performed so naturally by living organisms has been attracting the interest of researchers who work with Computer Vision and Artificial Intelligence. This dissertation has as the objective to study the feasibility of a system based on Neural Network and Biometry applied to face recognition, mixing characteristics of geometric methods for face recognition to computer intelligence methods. For the extraction of measurements of components and regions of the face, used in geometric method studies were developed of the anatomy of the human face used in orthodontist work, phonoaudiology and maxillary facial reconstitution. These studies seek to determine the existing reference points on faces and its interdependent relation to construct a representation of the faces to be analyzed. The components’ measurements and facial regions were used to construct numerical vectors, which identity the faces in a singular way. These vectors of characteristics were used for training neural networks, which are in charge of performing the recognition. 37 frontal face images of adult men and women were used. Performance measurements are used under various conditions (presence of noise and images not-seen during the training phase) in order to illustrate the feasibility of the proposed hybrid system as well as the efficiency of the metrics used to represent the faces.
SUMÁRIO
Pág.
LISTA DE FIGURAS
LISTA DE TABELAS
CAPÍTULO 1 - INTRODUÇÃO ................................................................................. 21
1.1. A Detecção de Faces...................................................................................... 23
1.2. O Reconhecimento de Faces ........................................................................ 26
1.3. Métodos Geométricos para Reconhecimento Facial ................................. 28
1.4. Objetivos desta dissertação .......................................................................... 31
1.5. Aplicações ...................................................................................................... 32
1.6. Organização ................................................................................................... 33
CAPÍTULO 2 - MÉTODOS CONEXIONISTAS NÃO LINEARES ....................... 35
2.1. Redes Neurais Artificiais .............................................................................. 36 2.1.1. Introdução ................................................................................................... 36 2.1.2. Definições ................................................................................................... 37
2.2. Redes multicamadas não- lineares ............................................................... 42 2.2.1. O processo de aprendizado ......................................................................... 44
2.3. Implementando um reconhecedor neural .................................................. 47 2.3.1. Etapa de descrição ...................................................................................... 48 2.3.2. Etapa de reconhecimento ............................................................................ 50
2.4. Conclusões ..................................................................................................... 51
CAPÍTULO 3 - MORFOLOGIA DA FACE HUMANA .......................................... 53
3.1. Introdução ..................................................................................................... 53
3.2. Arquitetura do Esqueleto Facial ................................................................. 56
3.3. Antropometria Facial ................................................................................... 59 3.3.1. Pontos Craniométricos ................................................................................ 60 3.3.2. Medidas Lineares ........................................................................................ 62 3.3.3. Índice Facial................................................................................................ 63
3.4. Estética Facial ............................................................................................... 65 3.4.1. Tipos Morfológicos .................................................................................... 66 3.4.2. Estruturas e Referências Faciais ................................................................. 71 3.4.3. Análise Facial ............................................................................................. 71
CAPÍTULO 4 - METODOLOGIA APLICADA ....................................................... 77
4.1. Introdução ..................................................................................................... 77
4.2. Descrição das etapas ..................................................................................... 78
4.3. Descrição das estruturas utilizadas ............................................................. 88
CAPÍTULO 5 - TESTES REALIZADOS ................................................................ 101
5.1. Testes realizados na rede da etapa de Reconhecimento .......................... 104
5.2. Testes da rede de associação a padrões conhecidos ................................. 128
5.3. Discussão sobre os testes realizados .......................................................... 133 5.3.1. As Métricas Usadas para Representação Facial ....................................... 134 5.3.2. Método conexionis ta Não- Linear Usado .................................................. 137
5.4. Resultados Obtidos ..................................................................................... 139 5.4.1. Comparação entre índices de reconhecimento ......................................... 140
5.5. Aplicabilidade do Trabalho ....................................................................... 141
CAPÍTULO 6 - CONCLUSÕES E PERSPECTIVAS PARA TRABALHOS FUTUROS ........................................................................................ 143
Perspectivas para trabalhos futuros ..................................................................... 148
REFERÊNCIAS BIBLIOGRÁFICAS ...................................................................... 149
LISTA DE FIGURAS
Pág.
1.1 - Etapas iniciais do processo de Visão Computacional, obtendo como resultado
parcial uma imagem contendo o objeto de interesse do sistema.. ...................... 22
1.2 - Etapas finais do processo de Visão Computacional. .............................................. 22
1.3 - Etapas do problema de reconhecimento automático de faces. .............................. 26
2.1 - Funcionamento básico de um elemento de processamento em uma rede neural
artificial. ................................................................................................................. 36
2.2 - Exemplo de topologias básicas de redes neurais .................................................... 38
2.3 - Camadas de uma rede neural artificial multicamadas. ........................................... 41
2.4 - Topologia de rede multicamada para extração de características. ......................... 43
3.1 - Regiões da face. ...................................................................................................... 55
3.2 - Arquitetura do esqueleto facial. .............................................................................. 57
3.3 - . Linhas de Resistência da mandíbula. ................................................................... 59
3.4 - Pontos craniométricos. ........................................................................................... 61
3.5 - Face Euriprosópica ................................................................................................. 64
3.6 - Face Leptoprosópica. .............................................................................................. 64
3.7 - A face humana segundo a concepção artística de Dürer. ....................................... 67
3.8 - Tipos faciais segundo Madame Schimmelpennick em seu livro "Ciência da
Beleza". ............................................................................................................... 68
3.9 - Tipos morfológicos segundo a classificação de Claud Sigaud. .............................. 69
3.10 - Posição natural da cabeça. .................................................................................... 72
3.11 - Tópicos a serem avaliados na visão frontal. ......................................................... 73
3.12 - Divisão da face em duas partes. ........................................................................... 73
3.13 - Divisões verticais da face. .................................................................................... 75
3.14 - Proporção 1:1 da distância vertical do subnasal à margem cutânea do vermelhão
do lábio inferior e deste ao tecido mole do mento .............................................. 76
4.1 - Tratamento de imagens buscando realçar características de interesse. .................. 79
4.2 - Coleta da medida do primeiro terço da face. .......................................................... 81
4.3 - Coleta da medida do segundo terço da face. .......................................................... 81
4.4 - Coleta da medida do terceiro terço da face. ........................................................... 81
4.5 - Coleta da medida da largura do olho. ..................................................................... 82
4.6 - Coleta da medida da altura do olho. ....................................................................... 83
4.7 - Coleta da medida da largura do nariz. .................................................................... 83
4.8 - Coleta da medida da altura do nariz. ...................................................................... 84
4.9 - Coleta da medida da largura da boca. ..................................................................... 84
4.10 - Coleta da medida da altura da boca. ..................................................................... 85
4.11 - Coleta da medida da largura da face .................................................................... 85
4.12 - Coleta da medida da altura da face. ...................................................................... 85
4.13 - Medidas puras dos componentes e regiões faciais do banco de imagens da
Açominas. ........................................................................................................... 90
4.14 - Medidas puras dos componentes e regiões faciais do banco de imagens de Yale. ..
................................................................................................................................ 90
4- 15 - Análise de componentes e Regiões da Face Banco de Imagens da Açominas. ......
................................................................................................................................ 92
4.16 - Relações entre componentes e Regiões da Face. (Banco de Imagens da
Açominas). .......................................................................................................... 93
4.17 - Esquema de funcionamento do sistema de reconhec imento facial. ..................... 96
4.18 - Relações métricas que mais variaram. ................................................................. 97
4.19 - Relações métricas que menos variaram. ............................................................... 98
5.1 - Curva de aprendizado usando relações métricas do Grupo1. ............................... 105
5.2 - Curva de aprendizado usando relações métricas do Grupo2. ............................... 107
5.3 - Curva de aprendizagem das métricas do Grupo5. ................................................ 111
5.4 - Curva de aprendizagem para padrões com baixa interferência de cabelo,
cavanhaque e barba (Grupo5.1). ...................................................................... 117
5.5 - Curva de aprendizagem das métricas do Grupo5.2. ............................................. 121
5.6 - Curva de aprendizagem das métricas do Grupo5.3. ............................................ 126
5.7 - Curva de aprendizagem dos 8 padrões da Classe 3. ............................................. 129
5.8 - Dificuldades de determinação do primeiro terço da face. ................................... 135
5.9 - Dificuldade de localização da região mentoniana, usada na determinação da altura
da face e do 3º terço facial. .................................................................................. 136
A1 – Iniciando novo projeto de rede neural..................................................................157 A.2 – Projeto XOR com as respectivas janelas de configuração...................................158 A.3 – Conteúdo do arquivo XOR.cf..............................................................................159 A.4 – Conteúdo do arquivo XOR.data..........................................................................160 A.5 – Conteúdo do arquivo XOR.data..........................................................................161 A.6 – Arquitetura da rede criada...................................................................................162 A.7 – Janela de parâmetros de treinamento da rede......................................................162 A.8 – Gráfico de evolução do erro médio quadrático....................................................163
LISTA DE TABELAS
Pág.
4-1 - Classificação facial segundo o índice facial apresentado..................................... 86
4-2 - Métricas das 22 faces do corpo de funcionários da açominas s.a ........................ 88
4-3 - Métricas das 15 faces do banco de faces da universidade de yale. ....................... 89
4-4a - Relações normalizadas dos 22 funcionários da açominas s.a. ............................ 94
4-4b - Relações normalizadas da 15 faces da universidade de yale. ............................. 95
5-1 - Distribuição das faces dentro das 5 classes. ....................................................... 102
5-2 - Relações métricas usadas para representar as faces. ......................................... 103
5-3 - Grupos de relações métricas usados no treinamento. ......................................... 104
5-4 - Resposta da rede aos padrões usados no treinamento (usando o grupo1) ......... 106
5-5 - Resposta da rede a padrões totalmente desconhecidos (usando o grupo1) ........ 106
5-6 - Comparação entre o acréscimo de 1 relação específica no vetor de identificação
(grupo2 x grupo3 x grupo4). ............................................................................... 108
5-7 - Resposta da rede aos padrões usados no treinamento (usando o grupo5) ......... 112
5-8 - Resposta da rede a padrões totalmente desconhecidos (usando o grupo5) ........ 113
5-9 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o grupo5)115
5-10 - Resposta da rede aos padrões usados no treinamento (usando o grupo5.1) .... 118
5-11 - Resposta da rede a padrões totalmente desconhecidos (usando o grupo5.1). .. 119
5-12 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o grupo5.1).
...................................................................................................................................... 120
5-13 - Resposta da rede aos padrões usados no treinamento (usando o grupo5.2) .... 122
5-14 - Resposta da rede a padrões totalmente desconhecidos (usando o grupo5.2). .. 122
5-15 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o grupo5.2).
...................................................................................................................................... 124
5-16 - Índice de acerto dos grupos em presença de ruídos. ......................................... 127
5-17 - Índice de acerto dos 8 grupos para 15 padrões desconhecidos, não presentes no
treinamento....................................................................................................... 127
5-18 - Relações métricas que compõem os padrões de emtrada da rede da etapa2.... 129
5-19 - Resposta da rede aos padrões usados no treinamento da classe 3. .................. 130
5-20 - Resposta da rede a padrões conhecidos acrescidos de ruído (etapa 2 de
reconhecimento). .............................................................................................. 131
5-21 - Resultados obtidos para as outras 4 classes (etapa 2 de reconhecimento)....... 132
21
CAPÍTULO 1
INTRODUÇÃO
O reconhecimento de faces é uma das ações mais corriqueiras no dia a dia de um ser vivo
inteligente. Esta atividade executada com tanta naturalidade por organismos vivos, tem
despertado o interesse de pesquisadores que trabalham com Visão Computacional e
Inteligência Artificial.
O intuito desses pesquisadores é construir sistemas artificiais que sejam aptos a realizar o
reconhecimento de faces humanas a fim de empregar esta capacidade nas mais diversas
atividades, como por exemplo: sistemas de vigilância, controles de acesso, definições
automáticas de perfis, entre outras. Pesquisas também vêm sendo desenvolvidas por
cientistas da computação no campo de reconhecimento de expressões faciais, para o
emprego em interfaces homem x máquina. Sistemas capazes de interpretar expressões de
raiva, tristeza ou alegria de seus usuários teriam grande aplicabilidade nos estudos de
interação Homem x Computador (Tian et al., 2001).
Devido à grande variedade existente de rostos humanos é muito difícil realizar um
casamento perfeito de padrões para o efetivo reconhecimento de um rosto, seguindo a
metodologia clássica usada em reconhecimento de padrões. Dificuldades como as
transformações a que um rosto pode estar sujeito, (óculos, maquiagem, barba, bigode, etc.)
interferem na confiabilidade das respostas dadas. A solução (Manjunath et al., 1992) para o
problema de reconhecimento de rostos pode englobar desde uma correlação simples de um
modelo facial versus o rosto em questão, até sofisticados sistemas baseados em
características.
A fim de solucionar esses problemas, o processo de Visão Computacional se divide em
etapas distintas, conforme ilustrado nas figuras 1.1 e 1.2 (Marr, 1982).
22
FIGURA 1.1 - Etapas iniciais do processo de Visão Computacional, obtendo como resultado parcial uma imagem contendo o objeto de interesse do sistema. FONTE: Oliveira (1997), p. 1.
No esquema mostrado na Figura 1.1, a aquisição da imagem pode ser feita usando-se um
scanner ou uma câmera. A imagem adquirida pode ser submetida a um pré-processamento,
através de técnicas de Processamento Digital de Imagens, (Fu et al., 1987) (Gonzalez e
Wintz, 1992) com a finalidade de filtrar ruídos, ajustar níveis de iluminação, entre outros
detalhes. A etapa de segmentação visa localizar os objetos e pontos relevantes presentes na
imagem, selecionando-se estas regiões de interesse. A partir da aquisição destas regiões,
passa-se a trabalhar de forma comum aos problemas clássicos de reconhecimento de
padrões, como mostra a Figura1.2.
FIGURA 1.2 - Etapas finais do processo de Visão Computacional. FONTE: Oliveira (1997), p. 2.
Após a etapa de segmentação tem-se a imagem do objeto, necessitando-se então da
determinação dos critérios para sua descrição de forma representativa. É preciso definir
quais as métricas e as relações entre elas, para que seja possível identificar o objeto.
Finda a etapa de descrição, o objeto é codificado em um vetor numérico denominado de
padrão ou vetor de características. Estes padrões, representando o objeto em questão, são
Imagem
Imagem
Aquisição Pré-processamento Segmentação
Objeto
Descrição Reconhecimento
Objeto
Padrão
Resposta
23
analisados um a um por um algoritmo de reconhecimento, que os separará em grupos
seguindo um determinado critério especial, definido na fase de descrição.
A última etapa do processo responde se o objeto em questão – um rosto humano por
exemplo – foi reconhecido ou não pelo sistema, e ainda qual a sua classificação em relação
aos objetos de mesma natureza.
1.1. A Detecção de Faces
Segundo (Sung et al., 1994), o reconhecimento de faces está diretamente relacionado à
detecção de tais objetos dentro das imagens apresentadas como entrada de um sistema
reconhecedor. Uma primeira etapa para um reconhecedor automático de faces é portanto a
detecção da presença de um rosto na imagem e, a partir daí, a comparação de tal rosto com
os modelos conhecidos pelo sistema.
Do ponto de vista acadêmico, a detecção de rostos é interessante devido ao desafio
representado por essa classe de objetos naturalmente estruturados, mas ligeiramente
deformáveis. Há muitas outras classes de objetos e fenômenos no mundo real que
compartilham de características similares às do rosto, como por exemplo as diferentes
grafias manuais e impressas da letra “A“, anomalias de um tumor em uma imagem MRI
(Interpretação por Ressonância Magnética) e defeitos de materiais em uma linha de
produção industrial.
Portanto, avanços obtidos em estudos de detecção de rostos podem ser aplicados em outras
atividades afins.
Segundo (Ben-Yacoub et al., 1999) a confiabilidade e o tempo de resposta de um sistema
de detecção de rostos influencia diretamente no desempenho e emprego desse sistema.
Pode-se definir a detecção de rostos, de acordo com (Sung et al., 1994), como a
determinação da existência ou não de um rosto na imagem e uma vez encontrado este
24
objeto, sua localização deve ser apontada através de um enquadramento ou retornando as
suas coordenadas dentro da imagem.
Sung et al. (1994) afirma ainda que a detecção de rostos é dificultada por três principais
razões enumeradas a seguir.
A primeira dessas razões afirma que embora a maioria dos rostos apresente estruturas
semelhantes, com as mesmas características faciais básicas (olhos, boca, nariz,
sobrancelhas, etc) e dispostas aproximadamente nas mesmas configurações de espaço, pode
haver um grande número de componentes não rígidos e texturas diferentes entre as faces.
Estes elementos de variabilidade são resultantes das diferenças básicas entre os rostos
humanos – pessoas podem apresentar o nariz mais adunco que outras, lábios mais ou menos
carnudos, olhos mais ou menos “puxados” etc. Outros fatores relevantes são as
flexibilizações causadas no rosto pelas expressões faciais.
O segundo ponto que dificulta a detecção de faces está relacionado com a presença de
adornos, como óculos ou bigodes, os quais podem estar presentes ou totalmente ausentes
em uma face. Estes adornos podem, quando presentes, ocultar características faciais básicas
importantes à detecção do rosto através do surgimento de sombras ou reflexos.
A terceira dificuldade na detecção de faces é a não previsibilidade das condições da
imagem em ambientes sem restrições de iluminação, cores e objetos de fundo. Devido ao
fato das faces apresentarem estruturas tridimensionais, a mudança na distribuição de fontes
de luz pode criar ou esconder sombras na face, resultando em uma variabilidade maior que
as manipuláveis em imagens bidimensionais.
Para tratar os problemas relacionados às dificuldades de detecção de faces, basicamente
existem três abordagens principais: (1) o uso da correlação das imagens capturadas com
modelos pré-existentes, (2) modelos deformáveis e (3) imagens espaciais invariantes.
25
Na correlação entre imagens e modelos fixos trabalha-se com o “casamento de filtros”
(matched filters). Nessa abordagem, registra-se a diferença medida entre um modelo
padrão fixo e a parte avaliada da imagem candidata naquele instante. O resultado da
convolução é a diferença entre o fragmento avaliado e o padrão. Quanto menor essa
diferença, maior a probabilidade da imagem candidata corresponder ao padrão procurado.
A suposição adotada por essa abordagem é de que o grau de elementos não rígidos de sub-
características da face (olhos, nariz, boca entre outros) seja pequeno o suficiente, a ponto de
ser descrito de forma adequada por poucos modelos fixos. Num estágio posterior, a técnica
infere a presença de faces analisando as inter-relações entre as sub-características
encontradas.
A abordagem de modelos deformáveis é similar, em princípio, à abordagem clássica de
correlação de modelos, exceto pelo fato de se comparar formas com componentes não-
rígidos. Esta abordagem (Yuille et al., 1992) faz uso de curvas e superfícies parametrizadas
para modelar os elementos não rígidos da face além de sub-características como olhos,
nariz e lábios. De acordo com (Sung et al., 1994) as curvas parametrizadas e superfícies são
fixadas elasticamente em um modelo global, permitindo uma menor variação posicional
entre as características faciais. O processo de combinação tenta alinhar o modelo com uma
ou mais partes da imagem pré-processada, como por exemplo os picos, vales ou bordas.
As premissas adotadas pela abordagem de imagens invariantes assumem que embora as
faces possam apresentar grandes variações na aparência, devido a diferentes razões, há
algumas relações espaciais comuns nestas imagens, possivelmente únicas para todos os
padrões de face. Um esquema baseado nesta abordagem observa um conjunto de brilhos
invariantes existentes entre as diferentes partes da face (Sinha, , 1994). Também nota-se
que enquanto a iluminação e outras mudanças podem alterar significativamente o nível de
brilho em diferentes partes da face, a estrutura ordinal local de distribuição de brilho
permanece praticamente sem modificações. Por exemplo, a região dos olhos de uma face
26
está quase sempre mais escura que a região das bochechas e da testa, exceto sob certas
condições particulares de iluminação.
Para a localização de uma face usando essa abordagem são avaliadas as partes claras e
escuras do modelo em comparação com a imagem candidata. Se todos os pares de regiões
claras e escuras entre os objetos comparados, bem como suas inter-relações coincidirem,
caracteriza-se então a presença de um rosto na imagem.
Esta dissertação de mestrado irá partir da premissa que há uma face na imagem estudada e
esta face está em posição bem definida dentro da imagem, evitando-se assim a etapa de
detecção. Entretanto, muitos dos conceitos e técnicas usadas para a detecção de uma face
dentro de uma imagem serão de grande importância para este trabalho, como será visto
mais à frente.
Para maiores detalhes sobre metodologias e abordagens para a detecção de rostos em
imagens seguem as referências (Lien et al., 2000), (Ben-Yacoub et al., 1999), (Han et al.,
1997), (Rowley et al., 1995), (Sung et al., 1994).
1.2. O Reconhecimento de Faces
O reconhecimento de faces é uma particularização (Oliveira, 1997) do problema geral de
reconhecimento de padrões. Portanto, pode ser ilustrado por um diagrama como o mostrado
na Figura 1.3.
FIGURA 1.3 - Etapas do problema de reconhecimento automático de faces.
FONTE: Oliveira (1997).
Face
Padrão
Reconhecimento Identificação Categorização
Descrição Reconhecimento
Resposta
27
Em geral a entrada do módulo de descrição é uma imagem de face na escala esperada,
tendo seus tons de cinza normalizados de acordo com um intervalo definido. Deste modo,
tem-se uma imagem de face contida em uma matriz de dimensões m x n, contendo os
valores de tons de cinza em cada pixel. Usando essa representação da face, forma-se um
vetor v de comprimento L definido como sendo L = mn. Tal vetor v contém os valores dos
pixels da imagem.
Uma coleção de faces, onde cada uma delas é representada por meio de um vetor, formará
o conjunto de faces que deverá ser reconhecido pelo sistema. A esse conjunto, dá-se o
nome de conjunto de treinamento, sendo aqui representado por TΦ . Dessa forma, para se
identificar N faces diferentes, o conjunto TΦ de vetores v deve ser o seguinte:
{ }NT vvvv ,...,,, 321=Φ (1.1)
O sistema de reconhecimento deverá passar por uma etapa de treinamento, usando o
conjunto TΦ . Um outro conjunto T'Φ deve ser definido, contendo representações de faces
conhecidas e desconhecidas para o sistema. Tal conjunto será usado na etapa de validação
do sistema de reconhecimento, que responderá sobre as novas faces apresentadas.
{ }NT vvvvvvv ...,,,,,, '33
'22
'11
' =Φ (1.2)
O tipo de resposta esperada do sistema de reconhecimento pode variar de acordo com a
aplicação. Pode-se verificar se a pessoa, cuja face v1’ se encontra no conjuto T'Φ , é
reconhecida pelo sistema (Oliveira, 1997). Pode-se listar dentro das imagens pertencentes
ao conjunto de treinamento as que mais se assemelham com a imagem apresentada. É
possível ainda retornar o nome associado à face representada pelo vetor v1’, indicar o seu
sexo, sua raça ou expressão facial.
28
Portanto, segundo (Oliveira, 1997) pode-se dividir as possíveis respostas do sistema de
reconhecimento automático em três tipos: o reconhecimento propriamente dito, a
identificação e a categorização de faces.
O reconhecimento consiste em confirmar se uma imagem de face é conhecida pelo sistema.
Não é necessário realizar a ligação da face a um nome e sim atribuir- lhe uma classificação:
conhecida ou desconhecida.
A identificação deve realizar o reconhecimento e associar uma identidade à face
apresentada.
Já a categorização, compreende as tarefas de identificação de sexo, raça ou estado
emocional da imagem apresentada. Ela pode também ser aplicada na definição de qual o
tipo facial a face se encaixa, segundo um padrão de estética adotado.
Nesta dissertação de mestrado serão abordadas as atividades de reconhecimento e
identificação de faces, como está descrito nos capítulos 4 e 5.
O próximo tópico trata de uma das metodologias aplicadas ao reconhecimento facial usadas
nesta dissertação.
1.3. Métodos Geométricos para Reconhecimento Facial
A primeira tentativa reportada de automatização do reconhecimento de faces, conforme
(Oliveira, 1997), foi realizado por W. Bledsoe na década de 60. Inicialmente, em (Chan e
Bledsoe, 1965) e mais tarde em (Bledsoe, 1966), onde é descrito um sistema semi-
automático de reconhecimento de faces. Bledsoe usou marcações feitas à mão em
fotografias indicando cantos dos olhos, boca e queixo. Após a extração dessas
características o vetor de medidas era submetido a um algoritmo de classificação numérica.
Um dos objetivos deste trabalho é substituir o uso desse algoritmo de classificação
numérica por uma ferramenta inteligente, aqui representada pelas redes neurais. O uso de
29
métodos inteligentes visa tornar o sistema de reconhecimento capaz de absorver pequenas
variações ocorridas no momento da coleta de medidas faciais. Espera-se portanto que o
sistema aqui proposto seja mais robusto a falhas e responda de forma mais confiável, pois
estarão sendo combinadas as vantagens dos métodos geométricos (robustez a variação de
iluminação e escala por exemplo) e as características das redes neurais (não linearidade,
mapeamento de entrada e saída, adaptabilidade, tolerância a falhas, capacidade de
generalização, entre outras). Uma tentativa de padronizar as características que deveriam
ser extraídas de uma imagem de face para seu reconhecimento, foi realizada por uma
equipe dos Laboratórios Bell e apresentada em (Goldstein et al., 1971). Porém, o vetor de
características definido por eles para identificar uma face era baseado em parâmetros como
por exemplo tamanho dos lábios e das orelhas, além de outras características não
geométricas e bastante subjetivas como a tonalidade do cabelo.
Ainda na década de 70, (Kanade, 1973) automatizou completamente a etapa de descrição
facial. Usando um robusto detector de características (construído a partir de módulos
simples usados dentro de uma estratégia “backtracking”), um vetor de 16 características
geométricas foi extraído de uma imagem de face binarizada. Análises de variações dentro
de uma mesma classe e entre classes diferentes de informações revelaram que alguns
parâmetros eram menos eficientes que outros, reduzindo assim a dimensionalidade do
vetor. Tal método chegou a atingir 75% de acerto no reconhecimento facial em uma base de
dados formada por 20 faces diferentes. Foram usadas duas imagens por pessoa, sendo a
primeira imagem a referência inicial e a segunda usada para teste. Já na década de 90, o
trabalho de (Kanade, 1973) foi revisto por (Brunelli e Poggio, 1991).
Brunelli e Poggio (1991) usaram o trabalho de Kanade como base para suas pesquisas. Os
procedimentos computacionais usados por eles não seguiram todo o rigor do trabalho de
Kanade, mas a base de dados usada por Brunelli e Poggio foi mais abrangente em termos
de diversidade de faces, pois o banco de faces era composto por 47 pessoas.
30
Foram usadas quatro instâncias para representar cada pessoa. As características usadas para
representar a face levavam em conta a simetria existente na face humana. O vetor era
composto por 35 medidas referentes aos olhos, sobrancelhas, nariz, boca, queixo e formato
da face.
Os diferentes métodos geométricos chegaram a atingir taxas de acerto de 90% para um
conjunto fixo e não muito grande de faces, segundo o levantamento realizado por (Oliveira,
1997). Entretanto, em muitos casos não era avaliada a capacidade do sistema de identificar
imagens ainda não vistas de faces conhecidas, pois as imagens empregadas na avaliação do
sistema eram as mesmas utilizadas na etapa de construção.
Os trabalhos do grupo de Vicki Bruce (Bruce et al., 1993), (Burton et al., 1993) e (Bruce e
Humphreys, 1994) tratam dos fundamentos psicológicos de utilizar uma abordagem
geométrica para o reconhecimento facial. Após rever a literatura sobre reconhecimento de
objetos e de faces, Bruce sugere diferenças básicas entre o processo humano de
reconhecimento de faces e o reconhecimento de objetos em geral. Afirma-se que a
identificação de objetos é baseada em suas partes e fortemente fundamentada na análise de
arestas, enquanto o reconhecimento de faces parece ser resultado de uma análise mais
global das formas e fundamentado em informações de textura (Bruce e Humphreys, 1994).
A partir de experiências, afirma-se em Bruce e Humphreys(1994) que as codificações feitas
pelo ser humano, relativas a objetos e faces, são processadas em áreas diferentes e de
maneiras diferentes no córtex cerebral. Estas descobertas levaram às abordagens baseadas
em características que trabalham com estruturas existentes no córtex visual. A abordagem
baseada em características pode fazer uso de "Wavelets" , em especial as "“Wavelets de
Gabor” para a extração dessas características e ainda usa uma arquitetura de grafos (grafos
topológicos, grafos elásticos, etc) para a representação da face, como pode ser visto em
(Manjunath, 1992), (Wiskott et al., 1996) dentro de aplicações voltadas para o
reconhecimento de faces e em (Lyons et al, 1998), (Lyons et al, 2000) no reconhecimento
de expressões faciais.
31
Esta dissertação também tem por objetivo principal explorar as métricas faciais tomando
por base os estudos anatômicos relacionados com a odontologia, reconstituição maxilo-
facial e fonoaudiologia, visando o reconhecimento de faces humanas. Os trabalhos
estudados até então para a confecção desta dissertação apresentam medidas características
da face, tomadas a partir de pontos faciais muitas vezes subjetivos, não havendo uma
padronização de quais são realmente as medidas relevantes para o discernimento de rostos.
Não se estabelece também ligações de tais medidas com sexo e raça do modelo.
Procura-se também neste trabalho, analisar a viabilidade de uma abordagemque faça uso de
uma metodologia antiga, como é o caso dos métodos geométricos, combinado a novas
tendências como as redes neurais artificiais.
1.4. Objetivos desta Dissertação
Conforme já mencionado no sub-tópico 1.1, esta dissertação irá partir da premissa que há
uma face na imagem estudada e esta face está em posição bem definida dentro da imagem,
evitando-se assim a etapa de detecção.
O objetivo principal desta dissertação é demonstrar a viabilidade de um sistema de
reconhecimento facial, usando uma rede neural multicamadas, tendo como entrada um
vetor composto pelas relações métricas entre componentes e regiões da face. Tais relações
métricas são obtidas com base no estudo da anatomia facial, usando as mesmas referências
e pontos chaves utilizados em ortodontia, fonoaudiologia e reconstituição maxilo-facial.
Os alvos de estudo deste trabalho podem ser listados como se segue:
• Verificar as dificuldades existentes na extração de características faciais
relevantes à tarefa de reconhecimento, buscando-se uma forma de orientar ou
alertar para a escolha correta das métricas mais aptas para esta tarefa.
32
• Explorar as métricas faciais tomando por base os estudos anatômicos relacionados
com a odontologia e fonoaudiologia, visando o reconhecimento de faces humanas.
• Verificar a viabilidade de substituir, em um sistema de reconhecimento facial, o
uso de algoritmos de classificação numérica por uma ferramenta inteligente, aqui
representada pelas redes neurais, buscando um sistema mais robusto a variações
causadas por expressões faciais diferentes ou mesmo causadas por ruídos durante
a etapa de coleta de dados.
• Analisar a viabilidade de uma abordagem que mescle uma metodologia antiga,
como os métodos geométricos, a novas tendências como as redes neurais
artificiais.
1.5. Aplicações
Embora o reconhecimento de rostos familiares, ou a identificação de semelhanças entre
fisionomias faciais, seja uma tarefa realizada pelos seres vivos inteligentes com certa
tranqüilidade e exatidão, o processo para a realização dessa tarefa ainda não é
completamente compreendido.
Estudos foram realizados descobrindo-se que partes do cérebro são usadas no
reconhecimento de faces. Porém, tais estudos não respondem como essas faces são
representadas internamente dentro de um cérebro. Não respondem também a questões
relativas a que partes da face são essenciais para o seu reconhecimento; qual o motivo para
haver tanta confusão por parte dos ocidentais em diferenciar faces de orientais; que
características e padrões exatos atribuem uma estética agradável a um rosto.
Apenas responder a estes questionamentos já seria uma boa aplicação para um estudo sobre
faces humanas e reconhecimento facial. Porém, há outros motivos para se realizar pesquisas
sobre o reconhecimento de faces e sobre as características relacionadas ao rosto humano.
33
O uso de sistemas de reconhecimento facial aplicado ao controle de acessos, ou na busca de
pessoas suspeitas em um grupo, é de grande aplicabilidade por se tratar de uma forma
menos invasiva, comparando-se a métodos como o scan de retina ou verificação de
impressões digitais. Mesmo que tais sistemas de reconhecimento baseados em faces não
sejam absolutamente infalíveis, até o momento, sempre é possível solicitar o auxílio
humano para validar a decisão ou classificação no reconhecimento de um rosto. Tal
situação seria inviável para um exame de retina.
A iteração homem X máquina também seria privilegiada por sistemas que reconhecessem
faces. Poder-se-ia definir perfis de usuários apenas identificando sua face. Atitudes
diferentes poderiam ser tomadas para determinados usuários, tendo em vista uma estimativa
de sua idade, expressão facial de raiva ou dor, ou ainda sabendo seu sexo.
A seguir será descrito como está organizada esta dissertação.
1.6. Organização
Esta dissertação está dividida em 6 partes, da seguinte forma.
O Capítulo 2 apresenta uma explanação sobre redes neurais e sobre seu uso na tarefa de
reconhecimento facial. É mostrada uma implementação realizada por (Oliveira, 1994)
usando redes neurais artificiais não lineares, com extração implícita de características úteis
ao reconhecimento facial.
No Capítulo 3 introduz-se os conceitos de morfologia facial, usados para a determinação
dos pontos chaves localizados na face. Tais referências são empregadas na criação dos
vetores caraterísticos de cada face. Neste capítulo são mostrados em detalhes a arquitetura
óssea da face, características referentes a pontos específicos do esqueleto facial,
interferência do esqueleto facial com a forma apresentada pelo rosto, além da forma de
obtenção das métricas usadas neste trabalho.
34
O Capítulo 4 descreve a metodologia utilizada para a extração das características da face, as
métricas obtidas através desta metodologia, bem como a estrutura e funcionamento
interligado das redes neurais usadas para o reconhecimento facial.
No Capítulo 5 são apresentados os resultados e a metodologia usada nos testes, incluindo os
parâmetros da rede e ruídos inseridos nos padrões de entrada para a realização dos testes.
Finalmente, são apresentadas as conclusões e perspectivas para trabalhos futuros.
35
CAPÍTULO 2
MÉTODOS CONEXIONISTAS NÃO LINEARES
As expressões faciais são os mais poderosos, naturais e imediatos meios para os seres
humanos comunicarem suas emoções e intenções. Freqüentemente as emoções são
expressas pela face antes mesmo de serem verbalizadas (Tian et al, 2001). Muitos trabalho
(Lien et al., 2000), (Tian et al., 2000a), (Bartlett et al., 1999), (Cohn et al., 1999), (Donato
et al., 1999), (Fukui e Yamaguchi, 1998), (Black e Yacoob, 1995), têm sido desenvolvidos
buscando construir sistemas computacionais capazes de compreender e usar esta forma
natural de comunicação.
Embora as expressões faciais sejam úteis e de grande interesse para a área de interação
homem x máquina, sob o ponto de vista do reconhecimento facial, elas formam um grande
obstáculo. Juntamente com as variações de iluminação, posição da face, escala, tamanho e
orientação da cabeça, as expressões faciais tornam extremamente complexa a tarefa do
reconhecimento facial. Graças a estas particularidades, uma mesma face pode ser
considerada completamente diferente para um sistema automático de reconhecimento.
Como uma tentativa de contornar, ou pelo menos minimizar, estas influências são usadas
neste trabalho as redes neurais artificiais, buscando usar sua capacidade de generalização,
dentre outras habilidades, para efetuar um reconhecimento facial eficiente.
O presente Capítulo faz uma descrição sobre os métodos conexionistas, especificamente
sobre redes neurais artificiais, descrevendo seus componentes, exemplificando possíveis
arquiteturas e também descrevendo o funcionamento de uma rede multicamadas. Também é
descrita aqui uma implementação realizada por (Oliveira, 1994) de um reconhecedor neural
de faces.
36
2.1. Redes Neurais Artificiais
(Oliveira, 1997) afirma que a partir da década de 80, os modelos conexionistas passaram a
ser uma ferramenta comum para a solução de problemas em diversos campos, sendo
principalmente representados pelas redes neurais artificiais não- lineares.
Este sub-tópico apresentará a descrição básica do funcionamento de uma rede neural,
mostrando vantagens e desvantagens do uso de métodos generalistas. Apresentará também
um modelo neural usado por (Oliveira, 1994) na solução do problema de reconhecimento
automático de faces.
2.1.1. Introdução
As Redes Neurais Artificiais representam uma tecnologia que possui raízes em muitas
disciplinas: neurociência, matemática, estatística, física, ciência da computação e
engenharia. (Haykin, 20011)
Uma rede neural artificial é um modelo computacional capaz de, entre outras funções,
armazenar, classificar padrões, realizar interpolação de funções não- lineares e apresentar
soluções heurísticas para problemas de otimização. Isso é conseguido através de um
processo denominado aprendizado. O aprendizado pode ser representado pela Figura 2.1,
onde o ambiente fornece alguma informação para um elemento de aprendizagem.
FIGURA 2.1 – Modelo simples de aprendizagem de máquina. FONTE: Haykin (2001), p. 61.
Ambiente
Elemento de aprendizagem
Base de conhecimento
Elemento de desempenho
37
O elemento de aprendizagem utiliza, então, esta informação para aperfeiçoar a base de
conhecimento, e finalmente o elemento de desempenho utiliza a base de conhecimento para
executar a sua tarefa. Normalmente, a informação que o ambiente fornece para a máquina é
imperfeita, resultando que o elemento de desempenho não sabe previamente como
preencher os detalhes ausentes ou ignorar os detalhes que não são importantes. Portanto, a
máquina opera inicialmente por suposição e depois recebe alimentação do elemento de
desempenho. O mecanismo de realimentação permite que a máquina avalie suas hipóteses e
as revise, se necessário (Haykin, 2001).
A aprendizagem de máquina envolve dois tipos bastante diferentes de processamento de
informação: o indutivo e o dedutivo. No processamento de informação indutivo, padrões
gerais e regras são determinados a partir dos dados brutos e da experiência. Por outro lado,
no processamento de informação dedutivo são utilizadas regras gerais para determinar fatos
específicos. A aprendizagem baseada em similaridade utiliza indução, enquanto que a
prova de um teorema é uma dedução baseada em axiomas conhecidos e em outros teoremas
existentes. A aprendizagem baseada em explanação utiliza tanto a indução quanto a
dedução (Haykin, 2001).
2.1.2. Definições
A operação realizada por uma rede neural é feita através de uma associação de elementos
de processamento e conexões. O elemento básico de um processamento de uma rede neural
é chamado de neurônio, ou nodo. A Figura 2.2 (Haykin, 2001) mostra o diagrama básico do
funcionamento de um neurônio artificial.
38
FIGURA 2.2 - Modelo não linear de um neurônio artificial. FONTE: Adaptado de Haykin (2001), p. 36.
Um neurônio é uma unidade de processamento de informação que é fundamental para a
operação de uma rede neural. Na Figura 2.2 pode-se identificar três elementos básicos do
modelo neuronal (Haykin, 2001):
1) Um conjunto de sinapses ou elos de conexão, cada uma caracterizada por um
peso ou força própria. Especificamente, um sinal xj na entrada da sinapse j
conectada ao neurônio k é multiplicado pelo peso sináptico Wkj. É importante
notar a maneira como são escritos os índices do peso sináptico Wkj. O primeiro
índice se refere ao neurônio em questão e o segundo se refere ao terminal de
entrada da sinapse à qual o peso se refere. Ao contrário de uma sinapse do
cérebro, o peso sináptico de um neurônio artificial pode estar em um intervalo que
inclui valores negativos bem como positivos (Haykin, 2001).
Junção aditiva
Saída yk
( ).ϕ
Wk1
Wkm
.
.
.
Sinais de entrada .
.
.
Wk2
x1
x2
xm
Σ
Bias bk
Pesos sinápticos
Função de ativação
39
2) Um somador para somar os sinais de entrada, ponderados pelas respectivas
sinapses do neurônio; as operações descritas aqui constituem um combinador
linear (Haykin, 2001).
3) Uma função de ativação para restringir a amplitude da saída de um neurônio. A
função de ativação é também referida como função restritiva já que restringe
(limita) o intervalo permissível de amplitude do sinal de saída a um valor finito.
Tipicamente, o intervalo normalizado da amplitude da saída de um neurônio é
escrito como o intervalo unitário fechado [0, 1] ou alternativamente [-1, 1]
(Haykin, 2001).
O modelo neural da Figura 2.2 também inclui um bias aplicado externamente, representado
por bk. O bias bk tem o efeito de aumentar ou diminuir a entrada líquida da função de
ativação, dependendo se ele é positivo ou negativo, respectivamente.
Em termos matemáticos, podemos descrever um neurônio k escrevendo o seguinte par de
equações:
∑ ==
m
j jk jk xwu1 (2.1)
e
( )kkk buy += ϕ (2.2)
onde x1, x2, ..., xm são os sinais de entrada; wk1, wk2, ..., wkm são os pesos sinápticos do
neurônio k; uk é a saída do combinador linear devido aos sinais de entrada; bk é o bias;
( ).ϕ é a função de ativação; e yk é o sinal de saída do neurônio. O uso do bias bk tem o efeito
de aplicar uma transformação afim à saída uk do combinador linear no modelo da Figura
2.2, como mostrado por:
40
kkk buv += (2.3)
O sinal de entrada de um dado neurônio vem de um outro nodo da rede ou de fontes
externas. Esse sinal viaja através das conexões que alimentam os neurônios. Estes
neurônios (Oliveira, 1997) trabalham em paralelo, podendo ser configurados sob a forma de
diferentes arquiteturas.
Os neurônios estão quase sempre dispostos em camadas ou níveis, e a força de cada uma
das conexões que os interliga é expressa por um valor numérico chamado peso.
O “conhecimento” é adquirido pela rede a partir do seu ambiente, através de um processo
de aprendizagem (Haykin, 20011). O processo de aprendizagem nada mais é do que o
ajuste dos pesos sinápticos da rede, de forma ordenada durante a etapa de treinamento, até
que a rede esteja devidamente treinada.
O número de nodos e níveis da rede, além do modo como estes elementos estão dispostos e
conectados, determinam a topologia da rede neural. A definição da topologia de rede a ser
adotada deve estar diretamente ligada à natureza do problema a ser resolvido. Há várias
topologias de redes, cada qual com suas particularidades e aplicações. Alguns tipos destas
topologias são mostrados na Figura 2.3.
41
FIGURA 2.3 – Exemplo de topologias básicas de redes neurais: (a) rede neural feedforward de 1 camada; (b) rede neural feedforward de várias camadas; (c) nodo simples com retro-alimentação; (d) rede recorrente de camada simples; (e) rede recorrente de múltiplas camadas FONTE: adaptado de Lin, C.T. (1996), p. 211.
Outro ponto a ser definido, em se tratando de redes neurais, é o algoritmo a ser usado para
corrigir os pesos das conexões sinápticas. A esse algoritmo dá-se o nome de algoritmo de
treinamento. Assim, a cada rede neural é associada uma estrutura topológica pré-definida
além de um conjunto de técnicas usadas para o treinamento dessa rede. Na fase de
treinamento, os pesos são ajustados de forma a fazer com que a rede aprenda uma dada
tarefa.
Além das arquiteturas mostradas na Figura 2.2, podem ser citadas ainda as redes ANFIS
(Adaptative-Network-based-Fuzzy-Inference), ART (Adaptative Resonance Theory), redes
morfológicas, entre outras. Maiores detalhes sobre arquiteturas e critérios de treinamento de
redes neurais, além de um histórico evolutivo, podem ser encontradas em (Carpenter e
42
Grossberg 1987a,b, 1988,1990), (Haykin, 20011), (Lin, e Lee, 1996), (Senna, 1996),
(Hertz et al., 1991) e (Zurada, 1992).
2.2. Redes Multicamadas Não-Lineares
Pesquisadores com conhecimento em redes neurais artificiais não-lineares começaram a
estudar a possibilidade de aplicação das redes multicamadas não- lineares no tratamento de
faces (Oliveira, 1997). Em (Cottrell e Munro, 1988), afirma-se que assinalar imagens de
faces com diferentes expressões da mesma pessoa é um problema de separação não- linear.
Haykin, 2001As redes multicamadas possuem características importantes como capacidade
de classificação eficiente de padrões, sendo também robustas a entradas ruidosas ou
incompletas. Outra importante característica deste tipo de rede é sua boa generalização,
sendo capaz de realizar separações não- lineares no conjunto de dados.
Em Haykin (2001), diz-se que uma rede generaliza bem quando há um mapeamento de
entrada-saída computado de forma correta (ou aproximadamente correta) para dados de
teste não utilizados na criação ou treinamento da rede. O treinamento de uma rede
multicamadas é feito de forma supervisionada, geralmente por um algoritmo conhecido
como algoritmo de retropropagação do erro (error backpropagation). Este algoritmo é
baseado na regra de aprendizagem por correção do erro. Ao receber uma entrada, a rede é
instruída sobre como deve responder, e a diferença entre a resposta desejada e a obtida é
repassada à rede, servindo como regra de ajuste dos pesos.
A estrutura de uma rede multicamadas lembra a de um grafo bipartido, dirigido e com
pesos. As conexões ligam cada nodo de uma camada a todos os nodos da camada
imediatamente superior a ele, podendo-se ainda deixar alguns nodos sem conexão
caracterizando uma rede parcialmente conectada. As camadas são de três tipos, como pode
ser visto na Figura 2.3.
43
FIGURA 2.3 - Camadas de uma rede neural artificial multicamadas.
Camada de entrada : recebe os dados de entrada. Os nodos nesta camada não realizam
processamento local, pois apenas propagam os dados para os nodos da próxima camada.
Existe apenas uma única camada de entrada em uma rede multicamadas.
Camada de saída : contém a resposta da rede. Após a entrada ser propagada e processada,
os valores de ativação dos nodos desta camada representam a resposta da rede. Assim como
a camada de entrada, a camada de saída é sempre única.
Camada oculta: são as camadas situadas entre as camadas de entrada e de saída. Podem
existir várias camadas ocultas. Em Haykin (2001), afirma-se que para determinados
problemas, como aproximação de funções, é útil o uso de duas camadas ocultas. A primeira
camada oculta se encarrega da extração de características locais enquanto a segunda
camada extrai as características globais. Dessa forma, usando-se duas camadas, o processo
de aproximação (ajuste da curva) se torna mais gerenciável.
Os tamanhos das camadas de entrada e saída são estabelecidos de acordo com as
características do problema a ser tratado. Já o número de nodos das camadas ocultas é
determinado por experiência, dependendo da complexidade do problema (Oliveira, 1997).
Camada de
entrada
Camada
de Saída.
Camada oculta.
44
2.2.1. O processo de aprendizado
A propriedade que é de importância primordial para uma rede neural é a sua habilidade de
aprender a partir de seu ambiente e de melhorar o seu desempenho através de
aprendizagem. A melhoria do desempenho ocorre com o tempo de acordo com alguma
medida preestabelecida. Uma rede neural aprende acerca do seu ambiente através de um
processo interativo de ajustes aplicados a seus pesos sinápticos e níveis de bias. Idealmente,
a rede se torna mais instruída sobre o seu ambiente após cada iteração do processo de
aprendizagem (Haykin, 2001).
Há atividades demais associadas à noção de “aprendizagem” para justificar a sua definição
de forma precisa (Haykin, 2001). Uma definição de aprendizagem segundo o contexto de
redes neurais, adaptada de Mendel e McClarem (1970) é feita a seguir:
“Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são
adaptados através de um processo de estimulação pelo ambiente no qual a rede está
inserida. O tipo de aprendizagem é determinado pela maneira pela qual a modificação dos
parâmetros ocorre.”
A definição do processo de aprendizagem implica nos seguintes eventos (Haykin, 2001):
1) A rede neural é estimulada por um ambiente;
2) A rede neural sofre modificações nos seus parâmetros livres como resultado desta estimulação;
3) A rede neural responde de uma maneira nova ao ambiente, devido às modificações ocorridas na sua estrutura interna.
Um conjunto bem estabelecido de regras bem-definidas para a solução de um problema de
aprendizagem é denominado um algoritmo de aprendizagem. Não há um algoritmo único
para o projeto de redes neurais. Basicamente, os algoritmos de aprendizagem diferem entre
si pela forma como é definido o ajuste de um peso sináptico de um neurônio.
45
Em Haykin (2001) são descritas 5 regras de aprendizagem (aprendizado por correção de
erro, aprendizagem baseada em memória, aprendizagem hebbiana, aprendizagem
competitiva e aprendizagem de Boltzmann) básicas para o projeto de redes neurais. Cada
uma das regras citadas tem aplicação mais eficaz em uma determinada tarefa.
Um outro fator a ser considerado é a maneira pela qual uma rede neural, constituída de um
conjunto de neurônios interligados, se relaciona com o seu ambiente. Haykin (2001) explica
dois paradigmas de aprendizado: aprendizado supervisionado e aprendizado não-
supervisionado. A escolha de um ou outro método tem ligação direta à natureza do
problema que se deseja resolver.
Em alguns casos (como heteroassociação, classificação de padrões, reconhecimento de
padrões entre outros) usa-se o paradigma de aprendizagem supervisionada (ou
aprendizagem com um professor). Conceitualmente pode-se considerar o “professor” como
sendo um elemento com um conhecimento sobre o ambiente, sendo este conhecimento
representado por um conjunto de exemplos de entrada-saída. Entretanto o ambiente é
desconhecido pela rede neural de interesse. Portanto, no primeiro passo o professor e a rede
neural são expostos a um vetor de treinamento (i.e., exemplo) retirado do ambiente. Em
virtude do conhecimento prévio apresentado pelo “professor”, ele é capaz de fornecer à
rede uma resposta desejada para aquele vetor de treinamento. Na verdade, a resposta
desejada representa a ação ótima a ser realizada pela rede neural. Os parâmetros da rede são
ajustados sob a influência combinada do vetor de treinamento e do sinal de erro. O sinal de
erro é definido como a diferença entre a resposta desejada e a resposta real da rede. Este
ajuste é realizado passo a passo, iterativamente, com o objetivo de fazer a rede neural
emular o professor (Haykin, 2001). Desta forma, o conhecimento do ambiente disponível
ao professor é transferido para a rede neural através de treinamento, da forma mais
completa possível. Quando esta condição é alcançada, pode-se então dispensar o
“professor” e deixar a rede neural lidar com o ambiente inteiramente por si mesma.
46
Já em outras situações (extração de características e autoassociação por exemplo) opta-se
pelo uso do aprendizado não-supervisionado. Na aprendizagem não-supervisionada ou
auto-organizada, não há um professor externo ou um crítico para supervisionar o processo
de aprendizado. Em vez disso, são fornecidas condições para realizar uma medida
independente da tarefa da qualidade de representação que a rede deve aprender, e os
parâmetros livres da rede são otimizados em relação a esta medida. Uma vez que a rede
tenha se ajustado às regularidades estatísticas dos dados de entrada, ela desenvolve a
habilidade de formar representações internas para codificar as características da entrada e,
desse modo, de criar automaticamente novas classes (Becker, 1991).
Maiores detalhes sobre os tipos de aprendizado, paradigmas, aplicações bem como
comparativos de desempenho, podem ser encontrados em (Haykin, 2001), (Randall e
Jatinder, 2000) e (Lin e Lee, 1996).
Esta dissertação fará uso do algoritmo de retropropagação do erro para realizar o
treinamento das redes neurais multicamadas, empregadas no reconhecimento facial. Este
algoritmo é baseado na regra de aprendizagem por correção do erro.
Basicamente, a aprendizagem por retropropagação do erro consiste de dois passos através
das diferentes camadas da rede: um passo para frente, a propagação, e um passo para trás, a
retropropagação. No passo para frente, um padrão de atividade (vetor de entrada) é
aplicado aos nós sensoriais da rede e seu efeito se propaga através da mesma. Durante o
passo de propagação, os pesos sinápticos da rede são todos fixos. Durante o passo para trás,
por outro lado, os pesos sinápticos são todos ajustados de acordo com uma regra de
correção de erro. Especificamente, a resposta real da rede é subtraída de uma resposta
desejada (alvo) para produzir um sinal de erro (Haykin, 2001). O objetivo do treinamento é
minimizar o erro médio quadrático entre a saída da rede e a resposta desejada (Zurada,
1992). Este sinal de erro é então propagado para trás através da rede, na direção oposta a
das conexões sinápticas. Os pesos sinápticos são ajustados para fazer com que a resposta
47
real da rede se mova para mais perto da resposta desejada, em um sentido estatístico
(Haykin, 2001).
O processo de aprendizagem realizado com o algoritmo é chamado de aprendizagem por
retropropagação. O próximo tópico ilustra uma implementação possível para um
reconhecedor neural de faces usando uma rede multicamadas treinada por retropropagação.
2.3. Implementando um Reconhecedor Neural
Uma imagem de face é um vetor if de P pixels, sendo que cada um destes pixels pode
apresentar um valor de tom de cinza entre 0 e t . Assim, cada imagem pode ser considerada
um vetor geométrico ifr
, em um espaço P-dimensional Pε , que compreende todas as Pt
imagens representáveis com t tons de cinza.
Como as faces são objetos semelhantes, com olhos, boca e nariz nas mesmas posições
relativas, afirma-se que a distribuição espacial de tons de cinza das imagens de faces faz
com que os vetores ifr
estejam concentrados em um sub-espaço muito menor que
Pε (Turk e Petland, 1991). Portanto, para se representar uma face, a fase de descrição
desta face deve implementar uma redução na dimensionalidade dos vetores ifr
, para uma
distribuição mais concentrada e eficiente.
Após a fase de descrição, cada imagem é codificada em um padrão iP de dimensões muito
menores que as dimensões das imagens originais. Esses padrões podem então ser
processados por um algoritmo de classificação ou agrupamento, que compreende a etapa de
reconhecimento.
Considerando-se então uma rede multicamada não- linear que, de posse de uma imagem if ,
consiga agir de maneira análoga a um compressor de dados. Isto pode ser feito treinando
48
uma rede de três níveis para repetir a imagem de entrada na camada de saída, passando por
uma camada oculta com um número de nodos consideravelmente menor que o número de
pixels da imagem. Se esta rede for capaz de reproduzir imagens de face com um desvio
pequeno, as informações contidas na camada oculta podem ser consideradas como uma
representação reduzida da face. Esta estrutura para compactação foi implementada por
(Oliveira, 1994) e obteve bons resultados comparados aos métodos tradicionais (Oliveira,
1997).
2.3.1. Etapa de Descrição
Uma rede como a mostrada na Figura 2.4 (Oliveira, 1997) treinada com o algoritmo de
retropropagação do erro é capaz de realizar a compactação citada, e pode ser usada para
implementar a etapa de descrição do processo de reconhecimento de faces.
FIGURA 2.4 - Topologia de rede multicamada para extração de características. Apesar de não mostrado na figura para melhor visualização, cada nodo é totalmente conectado com os nodos da camada seguinte. FONTE: Oliveira (1997), p. 29.
Imagem de entrada
Imagem de saída
49
Seja TΦ um conjunto de faces usadas para o treinamento da rede. O conjunto TΦ contém
imagens de face if de N pessoas diferentes, com i variando de 1 ao número total de
pessoas: N.
Para que os dados sejam tratados corretamente pela rede, é preciso que os valores
numéricos em TΦ sejam codificados de modo a não apresentarem uma ordem de grandeza
muito diferente da encontrada nas funções de ativação e dos pesos da rede. Esta modelagem
inicial é um processo que depende da topologia e do tipo de treinamento escolhido para a
rede, e não obedece a um procedimento específico.
No caso específico da aplicação proposta por (Oliveira, 1994), os padrões if apresentam
valores de tons de cinza entre 0 e t, onde t é usualmente igual a 127 ou 255. Sugere-se que
os valores de tons de cinza sejam mapeados de acordo com a imagem da função de ativação
utilizada, tornando os valores de ativação de todos os nodos da rede compreendidos em
uma mesma faixa.
A função sigmoidal escolhida para a rede implementada em (Oliveira, 1994) é mostrada na
equação 2.4, e portanto os tons de cinza originais – de 0 a 127 – foram mapeados em
valores entre 0 e 1. As imagens de face if possuíam dimensões de 64x64, portanto a rede
de compressão tinha 4.096 nodos na camada de saída e de entrada. Após vários testes, a
camada oculta foi fixada em 330 nodos. Os resultados obtidos na compressão podem se
encontrados com detalhes em (Oliveira, 1994).
( )θϕ −−+= ve
v1
1)( (2.4)
50
2.3.2. Etapa de Reconhecimento
A etapa de compactação das imagens de faces presentes no conjunto TΦ , funciona como
um extrator de características relevantes destas faces. Tais características ficaram
codificadas nos pesos da rede. De posse desta rede treinada (Oliveira, 1997) para realizar
compactação de imagens, ou seja, capaz de extrair as características aptas à diferenciação
entre as facesparte-se para a construção de uma rede para reconhecimento de padrões.
Assim, utiliza-se a informação codificada na camada oculta da rede de compressão como
entrada para um classificador.
Esse classificador é uma rede não linear de três camadas, assim como a utilizada para a
extração de características. Apesar disso, existem algumas mudanças na topologia:
• Camada de entrada possui um número de nodos igual ao número utilizado na
camada oculta da rede de extração de características.
• A camada de saída possui N nodos iο , onde i varia de 1 a N e onde N é o número
de pessoas distintas de TΦ .
• A camada oculta deve possuir um número de nodos necessário para a
convergência do treinamento, sendo N-1 uma sugestão para o número inicial de
nodos.
A rede de reconhecimento recebe como entrada os valores de ativação dos nodos da
camada oculta da rede de extração de características, cujos pesos já se encontram fixos após
o treinamento. Treina-se então a rede de reconhecimento através do algoritmo de
retropropagação para realizar a classificação dos padrões.
Cada nodo de saída iο é assinalado a uma pessoa cuja imagem está em TΦ . Assim, ao
receber uma imagem de teste fi, um dos nodos de saída iο deve responder com um valor de
51
ativação sensivelmente maior que os restantes. Quanto mais próximo de 1 for esse valor,
maior a probabilidade de que a pessoa da imagem de teste fi seja a mesma representada na
saída iο , onde i é o nodo com maior resposta.
Após o treinamento da rede de reconhecimento, pode-se construir uma rede única para
realizar a identificação das pessoas em TΦ . Para isso, mantêm-se fixos os pesos entre as
camadas de entrada e oculta da rede de descrição, e concatena-se à camada oculta a rede
treinada para o reconhecimento.
Uma abordagem similar foi proposta em (Bouattour et al., 1992), onde se descreve uma
rede cujos pesos das camadas ocultas são inicializados de modo a filtrar as informações de
entrada. Assim, ao invés da inicialização randômica, a rede implementa filtros conhecidos,
fazendo com que a fase de descrição seja mais robusta e menos sensível a diferenças na
iluminação.
2.4. Conclusões
A implementação do reconhecedor neural de faces mostrada no tópico anterior, usa uma
rede neural para realizar uma decodificação de um conjunto de valores compreendidos
entre 0 e 127, que representam a face da foto, em uma nova representação mais compacta.
Essa nova representação é composta pelos pesos sinápticos da rede neural, obtidos na etapa
de compressão de dados.
Fatores como variações de iluminação influenciam os pixels da imagem (valores
compreendidos entre 0 e 127 que representam a face). Porém, a rede neural, com sua
capacidade de generalização, consegue associar uma ent rada ruidosa (não exatamente igual
à entrada vista na etapa de treinamento) à respectiva saída desejada.
Outra variação que pode interferir no reconhecimento facial é a distância entre a câmera e a
face fotografada. Pode haver distorções na quantidade de pixels que representam um
52
determinado componente facial. Assim, um olho que antes era representado por 9 pixels
dispostos bidimensionalmente 3x3 sob uma determinada distância, pode vir a ser
representado por 4 pixels dispostos 2x2 se a face se aproxima da câmera.
A implementação descrita anteriormente transfere para a rede neural a tarefa de definir e
estruturar a representação da face. Perde-se dessa forma, a noção da importância ou não de
determinado componente ou região específica da face na tarefa de reconhecimento. Na
estrutura mostrada, tem-se uma visão global da face e a partir daí busca-se a representação
mais próxima da face analisada, comparando-se o resultado obtido pela rede com aqueles
conseguidos durante o treinamento.
O sistema híbrido inteligente aplicado ao reconhecimento facial proposto nesta dissertação,
visa mensurar o grau de participação de componentes e regiões da face na tarefa de
reconhecimento facial. O sistema híbrido tem como entrada as relações métricas de
componentes e regiões faciais. Cada conjunto de relações métricas representa uma face.
Dessa forma, busca-se um controle mais refinado de quais os componentes e regiões
realmente contribuem para o sucesso ou insucesso do reconhecimento.
O uso das relações métricas de componentes faciais também visa minimizar a interferência
da variação de distâncias entre câmera e face, bem como variações de iluminação.
53
CAPÍTULO 3
MORFOLOGIA DA FACE HUMANA
As medidas e relações métricas que são usadas nesse trabalho foram pesquisadas de forma
a se encontrar respaldo técnico e embasamento anatômico na obtenção de resultados e
conclusões. Dessa forma, torna-se necessário um conhecimento mínimo da anatomia
estrutural dos componentes faciais para o entendimento do problema e conseqüente
desenvolvimento da dissertação.
As considerações anatômicas expostas a seguir são de extrema importância para o
desenvolvimento desse trabalho, uma vez que elas interferem diretamente na formação
estética da face e podem ser decisivas na diferenciação entre rostos de pessoas distintas.
3.1. Introdução
Segundo (Graziani, 1986), a face tem a forma de uma pirâmide triangular com a base para
baixo que se adapta e articula com a superfície inferior do crânio. É formada por partes
ósseas e partes moles, onde as partes ósseas constituem um arcabouço – o esqueleto facial –
com a função de sustentar as partes moles que a ele se adaptam, formando as várias regiões
superficiais e profundas do rosto. Para se conhecer a face humana é necessário que se avalie
o seu esqueleto e suas partes moles.
Algumas partes do esqueleto facial e pontos importantes de referência craniométrica podem
ser analisadas sem a necessidade de uma radiografia (Graziani, 1986). São estas medidas e
referências, perceptíveis a olho nu, que interessam nesta dissertação, visto que não será
aplicada nenhuma técnica “invasiva” para obtenção das medidas faciais. Serão tomadas
somente as fotos frontais dos modelos a uma distância aproximadamente constante e sob
uma iluminação regular.
54
O esqueleto facial é a estrutura óssea de sustentação da face, formada por um conjunto de
catorze ossos. Esse conjunto é geralmente chamado “maciço facial”. Os ossos que o
compõem estão divididos em seis pares (maxilares superiores, nasais, lacrimais malares,
palatinos e cornetos) e dois ímpares (vômer e mandíbula).
O conjunto é dividido em duas partes, uma superior fixa e outra inferior móvel. A parte
inferior é constituída por um único osso, o maxilar inferior ou mandíbula. A parte superior
compreende todos os demais ossos, os quais se articulam entre si formando uma só peça
que em anatomia se denomina maxilar superior ou maxila.
Os tecidos moles revestem o esqueleto facial. As partes moles são constituídas pela pele,
tecido celular subcutâneo, camadas musculares correspondentes às diversas regiões da face,
vasos e nervos além das glândulas salivares. Uma membrana epitelial reveste internamente
as cavidades formadas entre os ossos (cavidade nasal, cavidade bucal) e as cavidades
existentes no interior dos ossos (seios da face).
Para a conveniênc ia do seu estudo anatômico, a face é dividida arbitrariamente em um
determinado número de regiões. Nos estudos relativos à prótese facial, também
aproveitáveis nos estudos desse trabalho, convém a divisão adotada por Harry Shapiro
mostrada na Figura 3.1 (Graziani, 1986):
1. regiões orbitária (ou palpebral);
2. infra-orbitária;
3. zigomática;
4. nasal;
5. bucal;
6. mentoniana;
7. bucinadora;
8. parotídeo-masseterina;
9. auricular;
10. temporal.
55
FIGURA 3.1 - Regiões da face. FONTE: (Graziani, 1986), p. 6.
Dos tecidos moles que recobrem o esqueleto facial, a pele é um dos mais importantes,
sob o enfoque de prótese restauradora e também sendo um importante tópico para os
estudos aqui realizados. Sob a pele estão situados os músculos da expressão facial, que
são relevantes na diferenciação entre pessoas, através de uma foto frontal. Estes
músculos ainda são úteis em aplicações que objetivem reconhecer expressões faciais.
A Morfologia Facial pode ser melhor estudada quando subdividida em 3 partes:
1) arquitetura do esqueleto facial;
2) antropometria;
3) estética facial.
Nos próximos tópicos a seguir estarão sendo detalhadas cada uma destas partes.
56
3.2. Arquitetura do Esqueleto Facial
O conjunto de quatorze ossos que formam o arcabouço da face constitui uma unidade
funcional, cujos elementos componentes não estão colocados casualmente uns ao lado
dos outros. Eles são dependentes de leis particulares internas e têm uma importante
conexão estrutural. Os ossos do esqueleto facial têm sua arquitetura adaptada às
exigências funcionais: as zonas sobre as quais atuam as maiores forças de pressão e
tração são justamente as mais reforçadas, sob o ponto de vista mecânico (Graziani,
1986).
Fatores como tipo de alimentação, hábitos alimentares e culturais das pessoas e ainda
fatores vinculados à etnia, podem ter influência no desenvolvimento exagerado ou
atrofia de estruturas do esqueleto facial, interferindo por sua vez na forma estética
apresentada pela face. O reforço estrutural, decorrente de tais fatores, pode ocorrer de
duas maneiras: pelo espessamento das lâminas compactas ou pelo espessamento e
condensação das trabéculas esponjosas que formam o esqueleto facial.
No conjunto esqueleto-facial podem ser observados elementos arquitetônicos dispostos
de forma a resistir à ação de poderosos músculos, sendo capazes de suportar as forças
exercidas durante a mastigação (Graziani, 1986). Tais estruturas podem ser
suficientemente desenvolvidas a ponto de caracterizar uma face de forma a diferenciá- la
de outra.
Podem ser verificadas importantes diferenças entre a arquitetura do maxilar superior e a
da mandíbula. Tais particularidades serão descritas a seguir.
Maxilar superior ou Maxila:
O maxilar superior, aqui considerando também os ossos do conjunto facial que se
agregam a ele, se articula com o conjunto crânio-facial por meio de uma série de
sinartroses dotadas de grande eficiência mecânica. Estas sinartroses permitem à maxila
resistir às forças exercidas pela a ação dos músculos mastigadores, além de distribuir
estas forças (Graziani, 1986). O exercício exagerado desses músculos, bem como a
57
ausência de estímulos, pode causar respectivamente hipertrofias ou atrofias que
influenciam no desenho facial. A observação do comportamento dessas estruturas pode
ser um importante diferencial para o discernimento entre pessoas e raças distintas.
Um exemplo de características ligadas a raças ou padrões comportamentais é o arco
supra-orbitário (estrutura 4 da Figura 3.2) super desenvolvidos em algumas raças
primitivas. Segundo (Graziani, 1986), o arco supra-orbitário, é constituído pela arcada
orbitária do frontal. Ele une cada pilar canino (estrutura 1 da Figura 3.2) com o pilar
zigomático (estrutura 2 da Figura 3.2) do respectivo lado. A borda supra-orbitária sofre
o contrachoque das forças da pressão mastigatória. O reforço de tecido compacto do
arco superciliar é uma conseqüência disso, explicando-se o maior desenvolvimento
desse arco em algumas raças humanas primitivas e nos antropóides, (torus supraorbitais)
cuja alimentação exigia maior pressão mastigatória.
FIGURA 3.2 - Arquitetura do esqueleto facial. 1: Pilar canino. 2: Pilar zigomático. 3:
Arco infranasal. 4: Arco supra-orbitário. 5: Arco infra-orbitário. 6: Arco supranasal. FONTE: Graziani (1986), p. 7.
58
A maxila (ou maxilar superior) forma uma armação em forma de pirâmide apoiada à
base do crânio, apresentando pilares de apoio, denominadas linhas de força. Entre esses
pilares formam-se as cavidades orbitárias, nasais e as cavidades pneumáticas acessórias
nasais (ou seios da face). Os pilares são reunidos por arcos de reforço que com eles
constituem a base, o forte da armação. Já os espaços entre eles são frágeis paredes de
cavidades, constituindo verdadeiros espaços mortos, mecanicamente.
O sistema de colunas de sustentação é formado por três pilares principais: 1. Pilar
canino, 2. Pilar zigomático, 3. Pilar pterigóideo. Os pilares canino e zigomático,
podem ser vistos na Figura 3.2, correspondendo às estruturas de número 1 e 2.
A seguir serão descritas algumas particularidades da Mandíbula.
Mandíbula:
A arquitetura da porção móvel do esqueleto facial (Graziani, 1986) – a mandíbula –
diferencia-se bastante da porção fixa. A mandíbula é um osso móvel, isolado, sujeito a
forças de potentes e desenvolvidos músculos. Ela tem, necessariamente, que ser um
osso de grande resistência.
De início, apresenta uma grande linha de resistência, chamada trajetória basilar
(estrutura 1 da Figura 3.3), formada pelo espessamento ao longo da sua borda inferior.
Esta trajetória, conforme vemos na Figura 3.3 , inicia-se no côndilo, caminha para a
borda inferior, passando um pouco adiante do ângulo e depois de caminhar ao longo da
borda inferior, até o nível do canino, curva-se para cima e termina na borda superior, já
na região mentoniana.
59
Região doCônidilo
Regiãomentoniana
FIGURA 3.3 – Linhas de resistência da mandíbula. 1: Trajetória basilar. 2: Trajetória alveolar. 3: Trajetória coronoidal. 4: Trajetória condileana. FONTE: Graziani (1986), p. 8.
A região do mento tem então, quando observada de frente, um sistema de resistência em
forma de “V” invertido, constituindo um reforço à zona mais ameaçada pelas forças de
flexão e na qual pode-se observar fraturas, sobretudo em crianças e em feridos de
guerra.
Outra linha de resistência é observada ao longo do processo alveolar (estrutura 2 da
Figura 3.3), partindo da apófise coronóide, até atingir a linha mediana (trajetória
aveolar). Na apófise coronóide, a linha de resistência destinada à força de tração do
músculo temporal constitui a trajetória coronoidal (estrutura 3 da Figura 3.3).
Finalmente, a trajetória condileana (estrutura 4 da Figura 3.3) assinalada também na
Figura 3.3 , parte do côndilo e toma a direção da borda posterior do ramo ascendente.
3.3. Antropometria Facial
Segundo (Graziani, 1986), os métodos antropométricos têm sido usados em algumas
especialidades da odontologia, como por exemplo em ortodontia, odontologia legal e
prótese restauradora. Alguns pontos e medidas antropológicas são de sumo interesse
60
para a prótese maxilo-facial pois servem de guia para a reconstrução facial, sem
desprezar as características originais da face.
A confecção de uma prótese facial exige que um grande número de detalhes seja levado
em consideração, tais como a estética da face, a sua estrutura óssea e a construção de
formas harmoniosas que se encaixem melhor ao perfil original. Tais medidas e
direcionamentos, usados pelos profissionais de odontologia, são úteis também para a
tarefa de encontrar pontos relevantes ao reconhecimento facial. A seguir serão
detalhadas algumas dessas características.
3.3.1. Pontos Craniométricos
Os pontos e medidas craniométricas (Graziani, 1986) ou mais precisamente,
prosopométricas, permitem o conhecimento exato da forma e dimensões da face,
possibilitando o diagnóstico preciso das deformidades e a apreciação dos detalhes e
variações individuais e raciais.
Os pontos craniométricos estão situados sobre o esqueleto e são utilizados como
referência para as mensurações e as relações crânio-faciais. Infelizmente para essa
dissertação, muitos desses pontos não podem ser precisamente determinados em
indivíduos vivos, ou ainda só são determinados através de raios-X e aparelhos especiais.
Portanto, serão usadas neste trabalho apenas medidas e referências possíveis de se obter
sem a necessidade de métodos invasivos como radiografias ou ressonâncias magnéticas.
A Figura 3.4 mostra a localização de todos pontos craniométricos.
61
FIGURA 3.4 - Pontos craniométricos.
FONTE: Graziani (1986), p. 8.
Outra limitação para a escolha dos pontos craniométricos a serem usados nesta
dissertação é o fato do tecido epitelial e dos músculos da face estarem presentes quando
se analisa uma foto frontal de um indivíduo vivo. Porém, alguns desses pontos
mostrados na Figura 3.4 podem ser determinados com boa precisão através da análise de
imagens frontais da face de indivíduos vivos. Pode-se também estabelecer certas
relações usando estas referências craniométricas e suas relações métricas como é feito
na odontologia. Especialmente neste caso, tais informações serão usadas com a
finalidade de diferenciar indivíduos e não para correções de feições da face.
Dentre os pontos craniométricos que podem ser determinados com certa precisão em
indivíduos vivos e em fotos frontais, seguem-se:
1) Ófrio: situado no meio do diâmetro frontal mínimo (logo acima da glabela).
Corresponde à altura do assoalho endocraniano.
2) Glabela: é uma proeminência situada no osso frontal, entre as duas cristas
superciliares, logo acima da raiz do nariz. No vivo, corresponde às
extremidades internas das sobrancelhas.
62
3) Násio: Situado no cruzamento do plano sagital com a sutura naso-frontal,
podendo ser também determinado no vivo.
4) Gnátio: chamado também ponto mentoniano, situa-se no ponto mais inferior
e mais anterior da mandíbula.
5) Gônio: situado no vértice do ângulo da mandíbula, podendo ser facilmente
determinado no indivíduo vivo;
6) Zigio: ponto lateral mais proeminente da arcada zigomática;
3.3.2. Medidas Lineares
De posse dos pontos craniométricos citados no tópico anterior é possível realizar
algumas medidas lineares importantes a este estudo de reconhecimento, tais como:
• Diâmetro transverso máximo, bizigomático ou bimalar: distância entre os
dois zígios.
• Altura morfológica da face ou naso-mentoniana: distância em projeção que
vai do násio ao gnátio; representa a altura total da face.
• Altura ófrio-alveolar: distância que vai do ófrio ao próstio.
• Altura násio-alveolar: distância entre o násio e o próstio, que corresponde à
altura facial superior.
• Altura nasal: distância entre o násio e o naso-espinhal.
• Largura nasal: distância máxima da abertura nasal.
• Largura interorbitária: distância entre os dois pontos lacrimais.
• Largura orbitária: distância entre o dácrio e a borda externa da órbita.
63
• Altura orbitária: distância entre a borda superior e a borda inferior da órbita,
perpendiculares à linha da largura.
• Diâmetro bigoníaco: distância entre os dois gônios.
• Comprimento do ramo ascendente da mandíbula: distância entre o gônio e o
vértice do côndilo.
Para cirurgias reparadoras e ainda confecção de próteses maxilo-faciais, pode-se contar
com medidas angulares tomadas da face. Neste estudo, tais medidas não são válidas
uma vez que elas devem ser tomadas com o indivíduo em posição perfilada e esta
dissertação se destina a estudos de faces frontais.
3.3.3. Índice Facial
É denominado Índice Facial a relação existente entre a distância násio-gnática,
multiplicada por 100 e dividida pela distância bizigomática (distância entre os dois
zígios).
De acordo com esse índice, tem-se uma classificação das faces em baixas, largas,
médias, altas e estreitas. Temos então indivíduos:
• Hipereuriprosópicos abaixo de 80
• Euriprosópicos de 80 a 85
• Mesoprosópicos de 85 a 90
• Leptoprosópicos de 90 a 95
• Hiperleptoprosópicos acima de 95
O indivíduo Euriprosópico, mostrado na Figura 3.5 tem a face larga, fossas nasais e
abóbada palatina largas e baixas, zigomas salientes e arcadas dentárias largas e curtas.
Há preponderância das medidas transversais.
64
FIGURA 3.5 - Face Euriprosópica. FONTE: Graziani (1986), p. 12.
O indivíduo leptoprosópico, mostrado na Figura 3.6 tem caracteres opostos: face
comprida e estreita, órbitas altas, fossas nasais elevadas e estreitas, zigomas pouco
salientes, abóbada palatina e arcadas dentárias alongadas. Predominam as dimensões
verticais.
FIGURA 3.6 - Face leptoprosópica. FONTE: Graziani (1986), p. 12.
65
Os indivíduos mesoprosópicos apresentam características intermediárias àquelas
mostradas nas figuras 3.5 e 3.6. Já os indivíduos que se encontram nos extremos da
classificação segundo o índice facial, apresentam o achatamento facial (indivíduos
hipereuriprosópicos) ou um perfil extremamente comprido (indivíduos
hiperleptoprosópicos) como suas principais características.
3.4. Estética Facial
A estética facial é definida por (Graziani, 1986) como sendo a combinação perfeita de
diferentes partes entre si, formando um todo concorrendo para um mesmo fim. É
importante discernir entre os conceitos do “belo” e do “harmonioso”. A beleza de uma
face muitas vezes é algo subjetivo e depende de questões pessoais e até culturais. Já
uma face harmoniosa, normal, é algo mais palpável e possível de ser conceituado. Pode-
se portanto considerar uma face como normal, quando ela não apresenta grandes
distorções em sua simetria vertical e grandes variações de proporção entre componentes
e regiões. O estudo da face normal e o estudo da arte, em sua relação com a estética e a
beleza facial, são pontos chave para cirurgiões voltados para a reconstituição facial e
certamente fornecem pistas importantes para a diferenciação entre rostos humanos.
O uso de métricas e modelos faciais segundo (Chiche e Pinault, 1996) tem sido
aplicado, no meio clínico, para encontrar uma composição agradável no sorriso,
podendo também ser aplicadas em reconstituições faciais, de modo a criar um arranjo
dos vários elementos estéticos para uma proporção ou relação adequada, conforme os
princípios conhecidos.
Ainda segundo (Chiche e Pinault, 1996), há quatro fatores de composição estética que
podem ser fácil e efetivamente aplicados especificamente ao sorriso. Eles servem para
auxiliar o clínico a determinar a apresentação adequada dos dentes, seu tamanho,
arranjo e orientação em relação à face durante o diagnóstico estético e o tratamento.
Esses fatores são:
• Estruturas e referências: sistema de construção que dá a forma; um padrão para
medir ou construir.
66
• Proporção e idealismo: relação de uma parte com a outra ou com o todo em
relação à grandeza, à quantidade ou ao grau; um padrão de perfeição, beleza ou
excelência.
• Simetria: correspondência de tamanho, forma e posição relativa das partes em
lados opostos de uma linha divisória - ou plano mediano - ou ainda ao redor de
um centro ou eixo.
• Perspectiva e ilusão: técnica ou processo de representar, em um plano ou
superfície curva, a relação espacial de objetos como eles poderiam parecer sob o
nosso olhar.
A intenção deste tópico é estudar as noções de simetria, estruturas e referências
presentes nos elementos de tecido mole que compõem o rosto humano, bem como suas
inter-relações, com o objetivo de se criar uma heurística aplicável à diferenciação de
rostos humanos. Uma vez encontrada essa heurística, poder-se-ia aplicá-la em sistemas
automáticos de reconhecimento de rostos.
Nos tópicos seguintes serão apresentadas mais algumas características úteis à
classificação e diferenciação entre faces humanas.
3.4.1. Tipos Morfológicos
Enquanto estudiosos e artistas estabeleciam as relações da expressão facial com os
estados da alma, e a Estética se preocupou com a harmonia da forma, outros cientistas
trataram de investigar as relações entre os caracteres funcionais ou étnicos, classificando
o aspecto exterior da face em tipos morfológicos (Graziani, 1986).
Diversas classificações sobre tipos morfológicos podem ser encontradas na literatura.
Na renascença, Dürer – artista da época – dividia as formas faciais em seis tipos
diferentes, conforme a Figura 3.7.
67
FIGURA 3.7 - A face humana segundo a concepção artística de Dürer. FONTE: Graziani (1986), p. 21.
As formas faciais continuaram despertando interesse, como mostrou em 1815 a autora
inglesa Madame Schimmelpennick, em seu livro “Ciência da Beleza”, onde ela
realizava a classificação das faces de acordo com a sua semelhança a 5 formas
geométricas: quadrado, retângulo, círculo, elipse e o triângulo, como mostrado na
Figura 3.8.
68
FIGURA 3.8- Tipos faciais segundo Madame Schimmelpennick em seu livro "Ciência da Beleza". FONTE: Graziani (1986), p. 13.
Já em 1910, Cláudio Sigaud, um médico de Lyon, e ainda Chaillon Mac Auliff em
1912, estabeleceram 4 tipos morfológicos principais:
1) Tipo cerebral;
2) Tipo respiratório;
3) Tipo digestivo;
4) Tipo muscular.
Esses tipos de face são definidos através da criação de 2 linhas de referência na face,
delimitando-a em 3 regiões mostradas na Figura 3.9. A primeira das linhas deve passar
pela raiz do nariz e a segunda pela base do nariz.
Dividida dessa forma, a face passa a ter a parte superior, acima da linha traçada na raiz
do nariz, sendo chamada de cerebral, compreendendo o frontal ao nível dos lóbulos
anteriores do cérebro. O segmento médio, chamado de respiratório é constituído pela
zona do nariz e cavidades sinusais. O seguimento inferior é chamado de digestivo,
69
sendo compreendido pela região da boca, maxilares e arcadas dentárias. Os quatro tipos
de face podem ser vistos na Figura 3.9.
FIGURA 3.9 - Tipos morfológicos segundo a classificação de Claud Sigaud. FONTE: Graziani (1986), p. 13.
O tipo cerebral caracteriza-se pela predominância do segmento superior. A face
apresenta a forma de uma pirâmide invertida, resultando no maior volume do crânio,
sendo que seus contornos estão inscritos em um triângulo de cúspide inferior. É o
indivíduo de face oval alongada, a fronte larga e elevada. Sua maxila, seios maxilares,
boca e mandíbula são de pequenas dimensões.
O tipo respiratório caracteriza-se pela predominância do segmento médio. Nariz, fossas
nasais e cavidades sinusais volumosas, zigomas salientes. Espaço inter-ocular
aumentado, a fronte baixa e estreita. O seu segmento inferior também apresenta altura e
largura reduzidas.
No tipo digestivo a predominância é do segmento inferior. Boca grande, lábios grossos,
dentes largos, mandíbula larga, gônios salientes. Muitas vezes, apresenta prognatismo
70
mandibular. A fronte é estreita e baixa, os olhos quase sempre pequenos e as pálpebras
geralmente infiltradas por tecido adiposo. O segmento médio é de reduzidas proporções.
A face apresenta a forma de um cone truncado ou de um trapézio.
O tipo muscular apresenta os três segmentos iguais, caracterizando-se pela igualdade
das zonas cerebral, respiratória e digestiva. A face tem a forma retangular. É retangular
também a inserção frontal dos cabelos. Possui os limites laterais da fronte no mesmo
plano dos zigomas e da região masseterina. Os olhos, boca e nariz são de dimensões
medianas.
Raramente encontram-se esses tipos faciais sob a sua forma pura, existindo entre eles as
formas de transição (tipos mistos) quase sempre difíceis de serem distinguidos.
Outras classificações faciais são encontradas nos estudos da fonoaudiologia.
Analisando-se os tipos faciais é possível associar a eles certas patologias relacionadas a
distúrbios da fala e distúrbios respiratórios, que por sua vez vêm a interferir na estética
do rosto.
Os tipos de face, segundo a classificação usada em fonoaudiologia, são os seguintes
(DE Felício, 1999):
• Dólico-facial: possuem a musculatura elevadora da mandíbula mais delgada,
quando comparada aos outros dois tipos faciais, sendo a inserção do masseter
próxima ao ângulo da mandíbula e de forma oblíqua. Esse tipo facial apresenta
tendência de crescimento facial no sentido vertical, sendo comum a verificação
de má-oclusão caracterizada por mordida aberta esquelética.
• Bráqui- facial: características inversas às apresentadas pelo dólico-facial, isto é,
sua musculatura elevadora da mandíbula é espessa e sua inserção no corpo da
mandíbula é ampla. A tendência do crescimento da mandíbula é no sentido
horizontal (anti-horário), sendo comum a presença de sobre-mordida.
• Meso-facial: estágio intermediário entre os outros dois tipos de face.
71
3.4.2. Estruturas e Referências Faciais
Segundo Chiche e Pinault, (1996), os artistas desenham dentro de uma estrutura
mensurável geral que é quadrada, retangular ou circular. Esta fórmula é posteriormente
refinada com estruturas internas e pontos de referência imaginários, de modo a
relacionar as partes entre si e a estrutura básica.
Na estética facial, as cirurgias plásticas de reconstrução de partes duras (ósseas) ou
moles (cartilagens, músculos entre outros) do rosto em decorrência de acidentes, má-
formação ou ainda para correção de patologias, devem sempre observar a inter-relação e
harmonia com todas as estruturas que compõem este rosto.
Graziani, (1986) afirma que em presença de uma deformidade maxilofacial, o
especialista deverá estabelecer um padrão de normalidade de acordo com a raça e o tipo
do paciente.
Existem estruturas referencias específicas que são usadas pelos profissionais de estética
para se orientarem no trabalho de reconstrução ou correção facial. Estas mesmas
estruturas e inter-relações são usadas neste trabalho para a tarefa de reconhecimento
dentre pessoas diferentes. Como exemplo de algumas dessas referências, podemos citar:
linhas de referência horizontais, linhas de referência verticais, linha mediana da face,
terços da face entre outros.
A seguir, serão descritos os procedimentos e estratégias para se realizar uma análise
facial.
3.4.3. Análise Facial
O ponto mais importante em uma análise formal da estética facial é a utilização de um
padrão clínico (Suguino et. al, 1996). O modelo é instruído a sentar-se na posição ereta,
olhando para frente na linha do horizonte ou diretamente para um espelho na parede à
sua frente. Esta posição, chamada de posição natural da cabeça, é a que o paciente se
conduz em seu dia-a-dia.
72
A posição natural da cabeça, relação cêntrica (posição mais superior do côndilo), e
postura labial relaxada, devem ser observadas a fim de que os dados possam ser
coletados adequadamente (Suguino et. al, 1996).
Esta é a posição de referência, mostrada na Figura 3.10, que será utilizada nessa
dissertação para que se possa obter dados faciais-esqueléticos confiáveis a fim de
reforçar a segurança e qualidade dos resultados.
FIGURA 3.10 – Posição natural da cabeça. A linha vertical verdadeira é perpendicular ao solo. A horizontal verdadeira é paralela ao solo e definida a partir da pupila dos olhos. FONTE: Suguino et al (1996), p. 87.
Na visão frontal, a face deve ser examinada com os seguintes propósitos (Suguino et. al,
1996):
• Avaliação da simetria bilateral, conforme mostrado na Figura 3.11.A;
• Avaliação das proporções de tamanho da linha mediana até as estruturas
laterais (Figura 3.11.B);
• E avaliação da proporcionalidade vertical (Figura 3.11.C).
73
(A) (B) (C) FIGURA 3.11 – Tópicos a serem avaliados na visão frontal. (A) Análise facial vista
frontal: simetria; (B) Análise facial vista frontal: dimensões laterais; (C) Análise facial vista lateral: proporcionalmente vertical. FONTE: Suguino et al (1996), p. 92.
Inicialmente observa-se a simetria direita e esquerda, traçando-se uma linha vertical
verdadeira (glabela - ponta de nariz e lábios), cruzando perpendicularmente à linha da
visão (horizontal verdadeira) dividindo a face em duas partes como mostrado na Figura
3.12.A (Viazis, 1996).
(A) (B) (C) FIGURA 3.12 – Divisão da face em duas partes. (A) Análise facial vista frontal: linha
vertical verdadeira = simetria; (B) (C) Assimetria aceitável FONTE: Suguino et al (1996), p. 92.
74
Certamente não há face perfeitamente simétrica, contudo a ausência de algumas
assimetrias é necessária para uma boa estética facial (Epker e Fish, 1986).
Essa “assimetria normal”, a qual resulta de uma pequena diferença de tamanho entre os
dois lados de um rosto humano ilustrada na Figura.3.12.B e C, pode ser utilizada para
caracterizar indivíduos diferentes, da mesma forma como é usado para personalizar
exames clínicos ortodônticos.
O balanço geral da face (proporcionalidade vertical) é determinado a seguir, baseado no
equilíbrio dos terços superior, médio e inferior da face, aproximadamente iguais em
altura vertical.
1) Terço Superior da Face – (Linha do Cabelo até as Sobrancelhas)
O terço superior da face é definido como sendo a porção entre a linha da raiz do cabelo
e a linha das sobrancelhas. É altamente variável dependendo do estilo do cabelo, o que o
torna uma medida não tão confiável (Suguino et al., 1996). Contudo, pode-se observar
anormalidades na configuração geral e simetria da calvária, especificamente de áreas
temporal, frontal e sobrancelhas. As anormalidades nestas áreas são freqüentemente
associadas com várias síndromes craniofaciais. Estas áreas usualmente são normais em
deformidades dentofaciais (Epker e Fish, 1986).
2) Terço Médio da Face – Sobrancelhas a Subnasal
O terço médio é definido como a faixa compreendida entre a linha das sobrancelhas e a
base do nariz (linha subnasal) (Suguino et al., 1996), (DE Almeida et al., 1999).
Nesta região, avaliam-se os olhos, as órbitas, o nariz, as bochechas e as orelhas. São
determinadas as medidas das distâncias intercantal e interpupilar. Segundo (Suguino et
al., 1996), o valor médio destas medidas não sofre grandes variações de um indivíduo
para outro, embora pessoas de raça negra freqüentemente apresentem valores maiores
para a distância intercantal e interpupilar. Estes valores são estabelecidos por volta dos 6
a 8 anos de idade e não mudam significantemente após esta época (Epker e Fish, 1986).
75
Juntamente à horizontal verdadeira, a face principal pode ser dividida em três terços:
largura ocular direita, largura nasal e largura ocular esquerda conforme mostra a Figura
3.13.A (Suguino et al., 1996).
A face como um todo, de um olho a outro, em relação à horizontal verdadeira, também
pode ser dividida em terços iguais: largura facial direita, largura da boca e largura facial
esquerda mostrado na Figura 3.13.B (Suguino et al., 1996).
(A) (B) FIGURA 3.13 – Divisões verticais da face.
(A) Largura ocular direita, largura nasal, largura ocular esquerda; (B) Largura facial direita, largura da boca, largura facial esquerda. FONTE: Suguino et al (1996), p. 93.
Na avaliação das bochechas, é observado a eminência malar, borda infraorbital e áreas
paranasais. Finalmente, as orelhas são observadas. A simetria, nível e projeção são
importantes (Suguino et al., 1996).
3) Terço Inferior da Face - Subnasal ao Mento
O terço inferior é definido como a faixa compreendida entre a linha subnasal e o mento
(Suguino et al., 1996), (DE Almeida et al., 1999).
76
O comprimento vertical normal do terço inferior da face é aproximadamente igual ao do
terço médio da face quando existe uma boa estética. Além disso, a proporção da
distância vertical do subnasal ao estômio do lábio superior, e deste ao tecido mole do
mento é em torno de 1:2.
A proporção da distância vertical do subnasal à margem cutânea do vermelhão do lábio
inferior e deste ao tecido mole do mento é de 1:1, como ilustrado na Figura 3.14. Estas
medidas devem ser realizadas com a musculatura facial em repouso.
FIGURA 3.14 - Proporção 1:1 da distância vertical do subnasal à margem cutânea do vermelhão do lábio inferior e deste ao tecido mole do mento. FONTE: Suguino et al (1996), p. 92.
Um outro ponto importante para o exame da face é a avaliação da linha média. A linha
média dentária deveria ser coincidente entre si e com a linha média facial.
O mento é avaliado quanto à sua simetria, relações verticais e morfologia ou forma. A
forma é comparada com o resto da face. Muito freqüentemente o mento é mais
pronunciado do que o resto da face.
Por fim, os ângulos mandibulares são avaliados com atenção para a assimetria e
volume, podendo ser deficientes, normal ou excessivo (Suguino et al., 1996).
Desta forma, completa-se a avaliação estética frontal.
77
CAPÍTULO 4
METODOLOGIA APLICADA
A metodologia usada nesta dissertação visa ressaltar a importância e aplicabilidade das
medidas geométricas da face humana na tarefa de distinção entre diferentes rostos. As
medidas faciais extraídas e usadas aqui seguem padrões anatômicos utilizados em outras
ciências (ortodontia, fonoaudiologia e reconstituição facial) que tratam da beleza
estética, simetrias e anomalias da face humana.
Procura-se, durante todo o trabalho, observar as relações existentes entre a morfologia
do rosto, a raça, o sexo e as anomalias.
Nos próximos tópicos serão descritas as etapas seguidas neste trabalho para executar o
reconhecimento facial.
4.1. Introdução
Como foi visto no Capítulo 1, os métodos geométricos começaram a ser usados no
discernimento de faces na década de 60, chegando a atingir índices de acerto da ordem
de 90%. O interesse por esse método decaiu devido a sua vulnerabilidade, apresentada
na época, em tratar situações adversas como as rotações da imagem, baixa robustez no
tratamento de entradas com ruídos, além da dificuldade de se padronizar quais medidas
e relações eram realmente capazes de realizar a tarefa de reconhecimento facial.
A seguir, descreve-se uma metodologia usada para construir um sistema com base em
redes neurais artificiais e estudos relacionados à biometria capaz de realizar o
reconhecimento de faces. Este sistema proposto combina as vantagens dos métodos
geométricos (robustez a variação de iluminação e escala por exemplo) e as
características das redes neurais (não linearidade, mapeamento de entrada e saída,
adaptabilidade, tolerância à falhas, capacidade de generalização, entre outras).
78
O sistema aqui descrito estuda quais são as métricas relevantes para o reconhecimento
facial, levando em consideração padrões anatômicos faciais ligados ao sexo, raça e
simetria. Descrevem-se também limitações ambientais, heurísticas e o uso de
inteligência computacional, através do uso de redes neurais artificiais, a fim de
aumentar a robustez do sistema, tornando possível a sua aplicação a uma situação real
de reconhecimento de faces.
4.2. Descrição das Etapas
O sistema aqui descrito, parte da premissa que sempre haverá um rosto presente na foto
avaliada. Considera também que a posição desse rosto é bem conhecida. Portanto a
primeira premissa, relacionada à detecção da presença de um rosto na imagem se
encontra satisfeita.
Com relação à aquisição de imagens de faces, foi criado um banco de fotos, contendo
22 faces de funcionários da Açominas S.A. e 15 fotos de faces do banco de imagens
disponibilizadas pela Universidade de Yale. Todas as fotos são de faces em posição
frontal.
As imagens foram coletadas sem grandes variações na iluminação da cena e também
buscando não variar muito a distância entre a pessoa fotografada e a câmera. Entre as
pessoas fotografadas há homens e mulheres adultos de diferentes etnias para garantir
uma coerência do banco de imagens com o mundo real.
Conforme descrito no Capítulo 3, sub-item 3.4.3 referente à análise facial, o modelo é
instruído a sentar-se na posição ereta, olhando para frente na linha do horizonte,
permanecendo com sua expressão facial neutra. Esta posição, chamada de posição
natural da cabeça, é aquela na qual a pessoa normalmente se encontra em seu dia-a-dia.
Após a aquisição das imagens que serão usadas na etapa de extração de características,
inicia-se a fase de tratamento das fotos, com o objetivo de realçar as características de
interesse para o reconhecimento facial. Foram usados filtros construídos com base nas
técnicas de processamento digital de imagens. Esses filtros podem ser aplicados sobre
79
as fotos para melhorar a identificação de arestas e saliências na face, além de
possibilitar o isolamento de texturas que não interessam ou que atrapalhem a coleta das
métricas faciais. A Figura 4.1 mostra um dos filtros implementados sendo aplicado a
uma foto.
FIGURA 4.1 - Tratamento de imagens buscando realçar características de interesse.
A próxima fase, após o tratamento das imagens, é a coleta das métricas faciais. A coleta
das métricas segue as orientações fornecidas no Capítulo 3 desta dissertação, referente a
“Morfologia da Face”. As métricas usadas estão baseadas em pontos de referência
faciais e medidas lineares úteis à ortodontia e reconstituição maxilofacial. São usadas
também características do tecido mole da face visando a distinção de tipos faciais
diferentes como os mostrados nas figuras 3.7, 3.8 e 3.9 do Capítulo 3 .
As 13 medidas coletadas foram as seguintes:
• 1º terço da face (T1);
• 2º terço da face (T2);
• 3º terço da face (T3);
• altura do olho direito (ODY);
• largura do olho direito (ODX);
• altura do olho esquerdo (OEY);
• largura do olho esquerdo (OEX);
• altura do nariz (NY);
80
• largura do nariz (NX);
• altura da boca (BY);
• largura da boca (BX);
• altura da face (FY);
• largura da face (FX).
Estas medidas foram determinadas de forma manual, usando-se o ambiente de coleta de
métricas faciais. Tal ambiente permite que seja posicionada uma linha de referência
sobre a face, variando suas coordenadas X (em caso de coleta de distâncias horizontais)
e Y (em caso de distâncias verticais), de forma a definir a variação de pixels entre o
início e o fim da área ou componente facial medido.
O funcionamento do ambiente de coleta é bem simples. Uma vez que a imagem se
encontra na janela de coleta, pressiona-se o botão de coleta de métricas. Surge neste
momento uma solicitação para o posicionamento da linha que aparece sobre a imagem,
no ponto inicial da região ou componente da face que se deseja medir. A movimentação
da linha é feita através das teclas de setas do teclado ou através dos botões de rolagem
presentes no formulário.
Uma vez posicionada a linha no ponto de início da medida desejada, pressiona-se
novamente o botão de coleta de métricas. O valor da coordenada inicial é então
armazenado e solicita-se que se posicione a linha no ponto final da região de interesse.
Após o posicionamento, pressiona-se o botão de coleta e o valor da coordenada final é
armazenado. De posse dos valores das coordenadas inicial e final de interesse é feita
uma subtração simples e se obtém o valor em pixels da região medida.
A seguir descreve-se como foi determinada cada uma das regiões de interesse na face.
A face humana foi subdividida horizontalmente em 3 regiões chamadas terços faciais. O
primeiro terço (T1) corresponde à distância vertical compreendida entre a linha da raiz
do cabelo e a linha das sobrancelhas como é mostrado na Figura 4.2.
81
FIGURA 4.2 - Coleta da medida do primeiro terço da face.
O segundo terço (T2) da face é a distância vertical compreendida entre a linha das
sobrancelhas e a linha sub-nasal como mostrado na Figura 4.3.
FIGURA 4.3 - Coleta da medida do segundo terço da face.
Finalmente, o terceiro terço (T3) da face é a distância compreendida entre a linha sub-
nasal e a linha mentoniana, (linha tangente ao queixo) como mostrado na Figura 4.4.
FIGURA 4.4 - Coleta da medida do terceiro terço da face.
82
As medidas referentes aos olhos foram tomadas da seguinte forma:
Largura do olho direito (ODX): é a distância horizontal compreendida entre o canto
externo do olho direito e a lateral externa (ou asa) do nariz, como mostrado na Figura
4.5. Evitou-se tomar a distância entre os cantos externos e internos do olho como sendo
a largura ocular, para contornar problemas relativos a rotações da cabeça no momento
da foto. Tais rotações podem ocultar o canto interno do olho.
A medida da largura ocular não é igual para os dois olhos, devido a pequenas variações
de posicionamento que podem ocorrer no momento da foto, ou mesmo por motivos de
assimetria facial. Pequenas diferenças são normais não só comparando-se os olhos, mas
também quando se avalia o lado direito da face em relação ao esquerdo (assimetria
normal da face).
FIGURA 4.5 - Coleta da medida da largura do olho.
Altura do olho direito (ODY): foi definida aqui como a medida vertical compreendida
entre a linha horizontal que passa pela parte visível superior da íris e a linha horizontal
que passa pela parte inferior visível da íris, como mostra a Figura 4.6:
83
FIGURA 4.6 - Coleta da medida da altura do olho.
As métricas referentes ao nariz foram obtidas da seguinte forma:
Largura nasal (NX): é a distância horizontal compreendida entre as partes externas das
narinas, conforme mostrado na Figura 4.7.
FIGURA 4.7 - Coleta da medida da largura do nariz.
Altura do nariz (NY): é a distância vertical compreendida entre a raiz do nariz (linha que
tangencia a parte superior visível da íris) e a linha sub-nasal, mostrado na Figura 4.8.
84
FIGURA 4.8 - Coleta da medida da altura do nariz.
As métricas referentes à boca foram coletadas com se segue:
Largura da boca (BX): é a medida da distância horizontal compreendida entre os cantos
da boca, mostrado na Figura 4.9.
FIGURA 4.9 - Coleta da medida da largura da boca.
Altura da boca (BY): é a medida da distância vertical compreendida entre as linhas
horizontais tangentes ao lábio superior e inferior, como mostrado na Figura 4.10.
85
FIGURA 4.10 - Coleta da medida da altura da boca.
São necessárias ainda as medidas da largura da face (FX), que é representada pela
distância entre os dois zigios, como mostra a Figura 4.11 e a altura da face (FY), que é
definida aqui como a distância násio-mentoniana mostrada na Figura 4.12.
FIGURA 4.11 - Coleta da medida da largura da face
FIGURA 4.12 - Coleta da medida da altura da face.
86
De posse dessas métricas, realiza-se uma classificação prévia do tipo de face com o qual
se está trabalhando. As faces são então classificadas em 5 classes:
• hipereuriprosópico;
• euriprosópico;
• mesoprosópico;
• leptoprosópico;
• hiperleptoprosópico.
A distribuição das faces dentro das 5 classes é feita avaliando-se o índice facial
apresentado pelas faces analisadas. O índice facial é a relação existente entre a altura
facial (distância násio-gnátio ou násio-mentoniana) dividida pela largura facial
(distância bizigomática – distância entre os zígios da face) e multiplicada por 100.
De acordo com esse índice, tem-se a classificação das faces em baixas
(hipereuriprosópico), largas (euriprosópico), médias (mesoprosópico), altas
(leptoprosópico) e estreitas (hiperleptoprosópico) segundo as relações de intervalos
descritas na Tabela 4.1 abaixo:
TABELA 4.1 - Classificação facial segundo o índice facial apresentado.
hipereuriprosópico à abaixo de 80
Euriprosópico à de 80 a 85
Mesoprosópico à de 85 a 90
Leptoprosópico à de 90 a 95
hiperleptoprosópico à acima de 95
87
Cada face será representada por um vetor definido na etapa de estruturação dos vetores
de métricas faciais. Esse vetor será a entrada para a rede de reconhecimento facial.
A etapa de reconhecimento, será realizada em duas fases distintas. A intenção ao dividir
a tarefa de reconhecimento em duas fases complementares segue a estratégia "dividir
para conquistar".
Primeiramente faz-se uma pré-seleção entre os padrões, para se evitar comparar detalhes
entre faces que nada têm em comum. Uma vez separadas as faces em classes distintas,
contendo características em comum, parte-se para a segunda fase, o "ajuste fino", onde
são observados os detalhes de cada uma das faces daquela classe a fim de diferenciá-las.
Na primeira fase deverá ser sinalizado se a face é conhecida ou não. Nessa fase, existem
5 redes neurais independentes, uma para cada classe de face. Cada rede é responsável
por avaliar se a face apresentada na sua entrada é conhecida ou não. Em caso positivo,
ela será submetida à segunda etapa de reconhecimento. Em caso de respostas negativas
apresentadas pelas 5 redes, o padrão será sinalizado como desconhecido e uma ação
referente ao desconhecimento da face será disparada (para o caso de um sistema de
acesso por exemplo, poderia ser solicitada uma senha numérica, ou o auxílio de um
operador humano). Todas as 5 redes terão o mesmo número de neurônios, a mesma
estrutura de camadas, sendo também treinadas com o mesmo algoritmo, o
retropropagação do erro.
A segunda etapa do reconhecimento facial consiste em realizar a associação entre a
entrada, sinalizada como “conhecida” pela fase 1 e uma das faces que estavam presentes
na etapa de treinamento. Apenas uma saída das 5 redes da etapa 1 poderá estar ativa,
pois a entrada deverá ser apresentada a somente uma das 5 redes da etapa 2. As 5 redes
neurais da segunda etapa também são independentes, porém apenas 1 delas pode estar
ativa num dado momento. A configuração das redes dentro de cada etapa é idêntica,
bem como o algoritmo usado no treinamento.
No próximo tópico serão descritas as estruturas usadas nos testes.
88
4.3. Descrição das Estruturas Utilizadas
Durante a etapa de coleta das métricas faciais, foram obtidas 13 medidas de faces de 22
pessoas pertencentes ao corpo de funcionários da Açominas S.A.. Também foram
usadas 15 imagens de faces pertencentes à Universidade de Yale. As métricas dos dois
grupos estão descritas nas Tabelas 4.2 e 4.3 a seguir. A primeira linha da tabela
corresponde à abreviação usada para representar o componente ou região da face, de
acordo com a nomenclatura apresentada no tópico anterior. Já a primeira coluna à
esquerda se refere à identificação de cada face usada. Os valores das medidas são dados
em pixels.
TABELA 4.2 - Métricas das 22 faces do corpo de funcionários da açominas s.ª.
T1 T2 T3 ODX ODY OEX OEY NX NY BX BY FY FX 100365 47 61 62 28 10 27 10 33 43 48 19 106 125 100525 56 79 76 35 12 31 13 48 51 62 20 127 150 100539 48 60 70 27 10 26 10 36 48 51 18 119 117 101604 64 66 70 32 12 27 12 37 52 54 14 124 135 104743 52 62 58 27 10 26 11 36 44 52 15 102 123 107147 49 55 61 29 10 28 9 29 42 46 10 104 105 107879 54 58 63 24 9 26 6 38 46 47 23 111 126 12646 50 62 70 24 10 24 9 38 42 48 13 111 135
304768 60 61 60 29 10 25 9 36 46 42 22 106 118 88643 48 62 58 27 10 25 10 36 48 46 14 106 113
912380 46 56 68 31 12 27 11 43 43 60 28 111 130 100160 59 62 61 25 9 29 10 35 47 53 16 109 122 100270 45 58 71 33 10 31 10 32 41 47 21 112 121 100370 49 58 60 29 10 27 10 35 45 50 12 103 119 100560 46 66 70 27 12 28 12 36 53 48 20 122 117 100636 43 62 65 30 11 27 11 34 49 43 21 112 119 104730 50 67 62 23 11 22 11 42 51 50 16 111 131 104790 42 57 58 23 8 22 8 29 42 46 16 100 98 39609 44 63 60 24 9 23 11 37 49 57 15 110 109 46506 43 72 64 29 10 26 12 44 55 58 10 120 140 50454 47 58 62 29 11 18 10 44 43 54 10 100 131
912715 41 69 63 29 10 25 11 38 53 53 16 115 125
89
TABELA 4.3 - Métricas das 15 faces do banco de faces da universidade de yale.
T1 T2 T3 ODX ODY OEX OEY NX NY BX BY FY FX pessoa1 54 73 84 33 11 33 13 46 57 69 20 140 161 pessoa2 75 83 79 34 13 39 12 47 68 49 18 144 151 pessoa3 50 78 72 33 11 31 11 41 57 60 23 132 139 pessoa4 55 90 78 36 11 34 10 48 67 62 27 144 161 pessoa5 73 83 90 36 10 29 10 43 59 64 19 151 160 pessoa6 53 83 74 38 12 35 10 46 59 64 21 137 163 pessoa7 47 77 83 28 11 32 12 43 57 56 22 140 150 pessoa8 79 89 65 34 14 25 14 47 68 56 21 136 161 pessoa9 56 75 76 36 13 34 14 39 59 54 20 134 145
pessoa10 52 81 77 40 12 28 12 46 57 63 27 140 161 pessoa11 0 79 70 38 14 40 12 45 66 71 17 140 158 pessoa12 80 87 90 35 12 36 12 48 62 79 19 153 161 pessoa13 40 76 68 32 13 26 10 43 58 54 19 126 137 pessoa14 48 87 71 36 8 39 9 49 63 62 21 132 158 pessoa15 53 81 72 35 10 32 11 40 63 63 20 132 155
As Figuras 4.13 e 4.14 mostram uma avaliação gráfica dos valores coletados em ambas
as bases de imagens. Avaliando a curva dos gráficos, é possível notar o comportamento
semelhante apresentado pelos dois grupos de faces. Porém, nota-se que há uma
separabilidade, ainda que pequena, entre as linhas que representam cada pessoa nos
dois bancos de imagens. Com base nesta observação, o objetivo do sistema híbrido
inteligente é conseguir separar as faces usando as informações referentes às medidas
coletadas.
90
Medidas Puras de Componentes e Regiões Faciais - Banco de imagens Açominas -
0
20
40
60
80
100
120
140
160
T1 T2 T3ODX ODY OEX OEY NX NY BX BY
Face
YFa
ceX
Componentes / Regiões
Val
ores
(em
pix
els)
100365
100525
100539
101604
104743
107147
107879
12646
304768
88643
912380
100160
100270
100370
100560
100636
104730
FIGURA 4.13 – Medidas puras dos componentes e regiões faciais do banco de imagens da Açominas.
Medidas Puras de Componentes e Regiões Faciais - Faces do banco de imagens de Yale -
0
20
40
60
80
100
120
140
160
180
Terço
1Te
rço2
Terço
3
OlhoDx
OlhoDy
OlhoEx
OlhoEy
NarizX
NarizY
BocaX
BocaY
Face
YFa
ce X
Componente / Região Facial
Val
ore
s (e
m p
ixel
s)
pessoa1
pessoa2
pessoa3
pessoa4
pessoa5pessoa6
pessoa7
pessoa8
pessoa9pessoa10
pessoa11
pessoa12
pessoa13
pessoa14pessoa15
FIGURA 4.14 – Medidas puras dos componentes e regiões faciais do banco de imagens de Yale.
91
A partir destas medidas, foram criadas relações entre a altura e largura de componentes
da face (olho, nariz e boca) e regiões (T1, T2 e T3) aí presentes. Também foram geradas
métricas relacionando os componentes e as regiões faciais, visando buscar relações
ímpares que sejam capazes de distinguir uma face da outra.
A princípio, pensou-se em realizar todas as combinações possíveis entre as métricas
coletadas, o que resultaria em 78 combinações ( )132 C para alimentar as redes de
reconhecimento. Após a realização de alguns testes preliminares percebeu-se que
determinadas relações estabelecidas eram redundantes. Estas relações ainda
dificultavam o aprendizado da rede, apresentavam alta vulnerabilidade a variações de
aparência e pouco contribuíam para o discernimento das faces.
Desta forma, optou-se por eliminar a avaliação de um dos olhos (OEX e OEY), pois as
informações eram redundantes em relação ao outro olho. Eliminou-se também as
relações onde havia a presença do primeiro terço facial (T1), pois esta métrica se
mostrou muito sensível a variações de penteados.
O número de combinações a serem avaliadas caiu para 45 possibilidades ( )102 C , mas
ainda não era possível determinar quais combinações eram mais aptas à tarefa de
reconhecimento facial.
Através da análise do gráfico de variações dos componentes e regiões da face, mostrado
na Figura 4.15, pode-se perceber quais as medidas que variam mais de pessoa para
pessoa e assim, selecionar de forma mais inteligente quais as relações métricas que
facilitam o trabalho de reconhecimento.
92
FIGURA 4.15 – Análise de componentes e Regiões da Face Banco de Imagens da
Açominas.
A Figura 4.16 mostra o gráfico das relações métricas estabelecidas tomando por base a
variação dos componentes faciais. Nestas relações já estão descartadas as medidas que
apresentam como um de seus elementos, o primeiro terço facial (T1), a largura do olho
esquerdo (OEX) e a altura do olho esquerdo (OEY) .
Análise da Variação dos Componentes e Regiões da Face
0
20
40
60
80
100
120
140
160
1003
65
1005
25
1005
39
1016
04
1047
43
1071
47
1078
79
1264
6
3047
68
8864
3
9123
80
1001
60
1002
70
1003
70
1005
60
1006
36
1047
30
1047
90
3960
9
4650
6
5045
4
9127
15
Identificação das Faces
Val
ores
(em
pix
els)
T1T2T3ODXODYOEXOEYNXNYBXBYFaceYFaceX
93
Avaliação das Relações entre Componentes e Regiões da Face
0,0000
0,2000
0,4000
0,6000
0,8000
1,0000
1,2000
1003
65
1005
25
1005
39
1016
04
1047
43
1071
47
1078
79
1264
6
3047
68
8864
3
9123
80
1001
60
1002
70
1003
70
1005
60
1006
36
1047
30
1047
90
3960
9
4650
6
5045
4
9127
15
Identificação das faces
Val
ore
s n
orm
aliz
ado
s
T2/T3Ox/OyNx/NyBx/ByNx/FxFy/FxT2/FyT3/FyT2/FxT3/Fx
FIGURA 4.16 – Relações entre componentes e Regiões da Face.
Banco de Imagens da Açominas.
As relações mostradas na Figura 4.16 foram definidas com base nas observações
anatômicas da face usadas por outras ciências, na tentativa de estabelecer ligação entre
componentes com relação direta. Não foram avaliadas neste trabalho as relações
existentes entre os componentes, olho X boca, olho X nariz e nariz X boca pois há uma
certa proporcionalidade entre esses elementos, segundo (Graziani, 1986). A princípio,
imagina-se que esta proporcionalidade poderia tornar a informação obtida redundante e
pouco expressiva com base na morfologia facial e nos estudos das medidas e relações
existentes entre estes componentes.
O uso de relações proporcionais, ao invés das medidas puras adquiridas na fase de
coleta das métricas, se deve a preocupação em tornar o sistema menos vulnerável a
variações de distância entre a câmera e a pessoa fotografada. O valor em pixels,
determinado durante uma coleta na imagem, pode variar significativamente com uma
94
aproximação ou afastamento da câmera. Porém a relação entre a altura e largura de um
componente facial e ainda as proporções apresentadas por dois diferentes componentes,
permanecem constantes.
Os valores obtidos das proporções de um componente facial e entre diferentes
componentes foram normalizadas e se encontram descritos nas Tabelas 4.4A e 4.4B a
seguir.
TABELA 4.4A - Relações normalizadas dos 22 funcionários da açominas s.a. Pessoas T2
/T3 ODX /ODY
NX /NY
BX /BY
NX / FX
FY /FX
T2/ FY
T3 /FY
T2 /FX
T3 /FX
100365 0,8746 0,8485 0,7500 0,4356 0,7777 0,8132 0,9251 0,9227 0,8390 0,8290 100525 0,9240 0,8838 0,9198 0,5345 0,9427 0,8120 1,0000 0,9440 0,9055 0,8469 100539 0,7619 0,8182 0,7330 0,4885 0,9064 0,9754 0,8106 0,9279 0,8817 1,0000 101604 0,8381 0,8081 0,6954 0,6650 0,8074 0,8809 0,8557 0,8905 0,8405 0,8667 104743 0,9502 0,8182 0,7996 0,5977 0,8622 0,7953 0,9772 0,8970 0,8666 0,7882 107147 0,8015 0,8788 0,6748 0,7931 0,8136 0,9499 0,8502 0,9252 0,9006 0,9710 107879 0,8183 0,8081 0,8073 0,3523 0,8885 0,8448 0,8400 0,8953 0,7914 0,8357 12646 0,7873 0,7273 0,8842 0,6366 0,8292 0,7885 0,8979 0,9948 0,7896 0,8667
304768 0,9037 0,8788 0,7648 0,3292 0,8988 0,8615 0,9251 0,8929 0,8888 0,8499 88643 0,9502 0,8182 0,7330 0,5665 0,9385 0,8996 0,9403 0,8631 0,9433 0,8579
912380 0,7320 0,7828 0,9773 0,3695 0,9744 0,8189 0,8110 0,9664 0,7406 0,8743 100160 0,9035 0,8418 0,7278 0,5711 0,8451 0,8568 0,9144 0,8828 0,8737 0,8357 100270 0,7261 1,0000 0,7627 0,3859 0,7791 0,8877 0,8325 1,0000 0,8241 0,9808 100370 0,8593 0,8788 0,7601 0,7184 0,8665 0,8301 0,9052 0,9189 0,8380 0,8427 100560 0,8381 0,6818 0,6638 0,4138 0,9064 1,0000 0,8697 0,9051 0,9699 1,0000 100636 0,8479 0,8264 0,6781 0,3530 0,8417 0,9026 0,8899 0,9155 0,8958 0,9130 104730 0,9606 0,6336 0,8048 0,5388 0,9445 0,8126 0,9704 0,8811 0,8793 0,7911 104790 0,8736 0,8712 0,6748 0,4957 0,8718 0,9786 0,9163 0,9149 1,0000 0,9892 39609 0,9333 0,8081 0,7379 0,6552 1,0000 0,9678 0,9207 0,8604 0,9937 0,9201 46506 1,0000 0,8788 0,7818 1,0000 0,9259 0,8220 0,9646 0,8413 0,8842 0,7641 50454 0,8315 0,7989 1,0000 0,9310 0,9895 0,7321 0,9324 0,9780 0,7612 0,7911
912715 0,9735 0,8788 0,7007 0,5711 0,8956 0,8823 0,9646 0,8642 0,9491 0,8424
95
TABELA 4.4B - Relações normalizadas da 15 faces da universidade de yale.
Pessoas T2 /T3
ODX /ODY
NX /NY
BX /BY
NX / FX
FY /FX
T2/ FY
T3 /FY
T2 /FX
T3 /FX
pessoa1 0,5289 0,8690 0,6347 3,0000 0,6667 0,8070 3,4500 0,8261 0,9103 0,8696 pessoa2 0,7811 1,0506 0,7673 2,6154 0,5812 0,6912 2,7222 0,6518 0,9917 0,9536 pessoa3 0,5714 1,0833 0,7912 3,0000 0,6667 0,7193 2,6087 0,6246 0,9398 0,9496 pessoa4 0,5802 1,1538 0,8427 3,2727 0,7273 0,7164 2,2963 0,5498 0,9499 0,8944 pessoa5 0,6674 0,9222 0,6735 3,6000 0,8000 0,7288 3,3684 0,8065 0,8563 0,9438 pessoa6 0,5893 1,1216 0,8192 3,1667 0,7037 0,7797 3,0476 0,7297 0,8991 0,8405 pessoa7 0,4659 0,9277 0,6775 2,5455 0,5657 0,7544 2,5455 0,6095 0,9133 0,9333 pessoa8 1,0000 1,3692 1,0000 2,4286 0,5397 0,6912 2,6667 0,6385 0,9301 0,8447 pessoa9 0,6063 0,9868 0,7207 2,7692 0,6154 0,6610 2,7000 0,6465 0,8569 0,9241 pessoa10 0,5556 1,0519 0,7683 3,3333 0,7407 0,8070 2,3333 0,5587 0,9103 0,8696 pessoa11 0,0000 1,1286 0,8242 2,7143 0,6032 0,6818 4,1765 1,0000 0,9074 0,8861 pessoa12 0,7314 0,9667 0,7060 2,9167 0,6481 0,7742 4,1579 0,9956 0,9499 0,9503 pessoa13 0,4840 1,1176 0,8163 2,4615 0,5470 0,7414 2,8421 0,6805 1,0000 0,9197 pessoa14 0,5562 1,2254 0,8949 4,5000 1,0000 0,7778 2,9524 0,7069 0,9881 0,8354 pessoa15 0,6057 1,1250 0,8216 3,5000 0,7778 0,6349 3,1500 0,7542 0,8222 0,8516
Após a normalização das 10 relações métricas das faces usadas como padrões de
entrada para a rede neural, o próximo passo foi definir a estrutura de rede que
efetivamente fará o papel de reconhecimento das faces.
Para tanto, definiu-se que haveria 2 etapas para o reconhecimento dos rostos como
descrito anteriormente. A primeira etapa caracteriza-se pela sinalização de que a face
apresentada é conhecida ou não. A segunda etapa está relacionada com a associação da
entrada apresentada à rede, com uma das pessoas conhecidas pela rede ativa naquele
momento.
Cada uma das 5 classes de faces, determinadas pelos índices faciais, possui uma rede
especializada em afirmar se o padrão de entrada é conhecido ou não. Se a face
apresentada na entrada da rede é sinalizada como "não conhecida" por todas as 5 redes
da primeira etapa de reconhecimento, a face é imediatamente rechaçada, não chegando a
ser apresentada para nenhuma das 5 redes seguintes. Estas 5 redes da segunda etapa
associam as faces na entrada a padrões aprendidos durante o treinamento. Quando a face
é sinalizada como "conhecida", por mais de uma das 5 redes, ela também é rechaçada.
Caso uma e apenas uma, das 5 redes da etapa de reconhecimento sinalize positivamente,
afirmando que o padrão de entrada é conhecido por ela, as métricas específicas dessa
face são fornecidas como entrada para a segunda rede da classe que manifestou
“conhecê-la”. Essa rede irá então associar a entrada a um de seus padrões conhecidos. A
96
Figura 4.17 abaixo mostra o esquema de funcionamento do sistema de reconhecimento
facial aqui proposto.
FIGURA 4.17 - Esquema de funcionamento do sistema de reconhecimento facial.
Como pode ser visto, através do esquema de funcionamento do sistema de
reconhecimento, as relações métricas usadas como entrada da rede na etapa 1, podem
não ser as mesmas usadas na etapa 2. Isto acontece, porque algumas das relações entre
as métricas faciais, se mostraram mais propícias ao reconhecimento, na primeira etapa,
em comparação à associação das entradas aos padrões aprendidos pela rede, na segunda
etapa.
Foram usados vetores de 5 posições para as redes da camada de reconhecimento e
vetores de 7 posições para as redes da camada de associação. Chegou-se a esse número
de relações métricas, usadas como entradas, após a realização de vários testes usando as
37 faces do banco de imagens desta dissertação e avaliando os gráficos de relações entre
as métricas.
Métricas Faciais
Classe1
Classe3
Classe2
Classe4
Classe5
Saída do sistema de reconhecimento
facial
Redes da etapa de reconhecimento
Redes da etapa de associação das entradas conhecidas aos padrões da
respectiva classe selecionada
Entrada para a camada de rede de
reconhecimento
Entrada para a camada de rede de associação
97
As medidas que apresentaram maiores discrepâncias entre as faces, ou seja, aquelas que
diferenciam bem uma face da outra, foram usadas nas redes da etapa 1. A Figura 4.18
mostra as medidas que mais variaram e a Figura 4.19 mostra as medidas que menos
variaram.
Métricas com Maior Variação
0,0000
0,2000
0,4000
0,6000
0,8000
1,0000
1,2000
1003
65
1005
25
1005
39
1016
04
1047
43
1071
47
1078
79
1264
6
3047
68
8864
3
9123
80
1001
60
1002
70
1003
70
1005
60
1006
36
1047
30
1047
90
3960
9
4650
6
5045
4
9127
15
Identificação das Faces
Val
ore
s n
orm
aliz
ado
s
Ox/OyNx/Ny
Bx/ByNx/Fx
FIGURA 4.18 – Relações métricas que mais variaram.
98
FIGURA 4.19 – Relações métricas que menos variaram.
A rede neural da camada de reconhecimento é uma rede multicamadas "feedforward"
com 5 entradas, 4 neurônios na camada oculta e 1 neurônio na camada de saída. Além
das 4 relações que mais variaram, mostradas na Figura 4.18, usou-se entre outras, a
relação FY/FX pois ela também se mostrou muito útil para o discernimento entre faces
por se tratar da altura e largura da própria face.
Para a rede da segunda camada foi usada uma rede multicamadas "feedforward" com 7
entradas, 6 neurônios na camada oculta e 4 neurônios na camada de saída. O algoritmo
usado para o treinamento em ambas as redes foi o algoritmo de retropropagação do
erro, implementado internamente no simulador neural T-LEARN.
O Anexo I traz maiores informações sobre o funcionamento e recursos apresentados
pelo T-LEARN.
As medidas usadas nesta etapa foram na sua maioria, as apresentadas na Figura 4.19 e
ainda a relação BX/BY, que se mostrou bastante apta para realizar diferenciação entre
Métricas com menor Variação
0,0000
0,2000
0,4000
0,6000
0,8000
1,0000
1,2000
1003
65
1005
25
1005
39
1016
04
1047
43
1071
47
1078
79
1264
6
3047
68
8864
3
9123
80
1001
60
1002
70
1003
70
1005
60
1006
36
1047
30
1047
90
3960
9
4650
6
5045
4
9127
15
Identificação das Faces
Val
ore
s n
orm
aliz
ado
s
T2/T3
Fy/Fx
T2/Fy
T3/Fy
T2/Fx
T3/Fx
99
diferentes faces. BX/BY trata da relação entre a largura e a altura da boca do modelo,
que pode variar significativamente de pessoa para pessoa.
O próximo capítulo descreve os testes realizados com o sistema de reconhecimento
facial aqui proposto.
101
CAPÍTULO 5
TESTES REALIZADOS
Os testes descritos neste capítulo foram elaborados com o intuito de demonstrar a
viabilidade do uso do sistema híbrido inteligente aqui proposto, no reconhecimento de
faces frontais.
Durante os testes foram usadas faces frontais de homens e mulheres adultos, totalizando
um conjunto de 37 padrões divididos em 2 grupos. Um primeiro grupo de 22 faces foi
utilizado, sendo subdividido em 5 classes, de acordo com o índice facial obtido na
etapa de extração das métricas faciais.
Estas faces, em suas respectivas classes, foram usadas para treinar as redes neurais da
etapa de reconhecimento e também da etapa de associação. As 15 faces do segundo
grupo foram usadas para verificar a capacidade da rede em rejeitar faces totalmente
desconhecidas.
Os passos para a execução dos testes seguiram as etapas descritas no tópico 4.2 dessa
dissertação.
As 22 faces usadas no treinamento ficaram distribuídas dentro das 5 classes
especificadas, como mostra a Tabela 5.1.
102
TABELA 5.1 - Distribuição das faces dentro das 5 classes.
Código
Classe 1 FACE BAIXA
Classe 2
FACE LARGA
Classe 3
FACE MÉDIA
Classe 4
FACE ALTA
Classe 5
FACE ESTREITA 100365 x 100525 x 100539 x 101604 x 104743 X 107147 x 107879 x 12646 X 304768 x 88643 x 912380 x 100160 x 100270 x 100370 x 100560 x 100636 x 104730 x 104790 x 39609 x 46506 x 50454 x 912715 x Total de
Faces por Classe 1 2 8 6 5
As relações métricas usadas como componentes dos vetores de identificação das faces
nos testes são mostradas na Tabela 5.2.
103
Convencionou-se aqui, ao se referir às relações entre largura e altura dos olhos, boca e
nariz, chamá-las de relações entre componentes locais da face. As relações entre os
terços faciais, altura e largura da face são chamadas de relações entre componentes
globais da face.
TABELA 5.2 – Relações métricas usadas para representar as faces.
ODX / ODY
Relações entre medidas de componentes locais. NX / NY
BX / BY
Relação entre medida de componente local e global. NX / FX
FY / FX
T2 / FY
Relações entre medidas de componentes globais. T3 / FY
T2 / FX
T3 / FX
T2 / T3
As relações métricas da Tabela 5.2 foram agrupadas, formando vetores capaz de
representar individualmente cada face. Algumas combinações de componentes locais e
globais se mostraram mais eficientes que outras na tarefa de representar a face de forma
ímpar, evitando confusões ao sinalizar se um rosto é conhecido ou não. Essa capacidade
fica visível ao se avaliar o número de iterações necessárias para se treinar a rede, como
poderá ser visto nos testes realizados no próximo tópico.
As relações métricas usadas como componentes dos vetores de identificação das faces
também estão descritas na Tabela 5.2.
Os testes nas redes da etapa 1 e 2 ocorreram em separado. Foram realizados testes
inserindo erros na aquisição das medidas, aqui representados por acréscimo de pixels
nas medidas horizontais e verticais da métricas puras, visando verificar a tolerância das
redes à entradas com medidas distorcidas. Também foram feitos testes usando faces
que não estiveram presentes na etapa de treinamento para a validação do sistema, como
será visto nos tópicos seguintes.
104
5.1. Testes Realizados na Rede da Etapa de Reconhecimento
Durante os testes, procurou-se verificar quais as relações métricas que melhor se
adaptam à tarefa de sinalizar a "familiaridade" ou "não-familiaridade" de uma face
humana. Para tanto foram avaliadas 8 combinações de métricas faciais compondo o
padrão de entrada da rede.
A avaliação de quais as relações métricas mais propícias ao reconhecimento facial foi
realizada usando o conjunto de faces da Classe 3, contendo 8 faces sinalizadas como
"conhecidas" e ainda outras 6 faces tomadas aleatoriamente entre as demais classes
representando padrões "não conhecidos".
A escolha da Classe 3 para a realização dos testes foi devido ao seu maior número de
padrões, de acordo com a classificação feita pelo índice facial.
Os 8 conjuntos de relações métricas que compõem os padrões de entrada da rede da
etapa 1 são mostradas na Tabela 5.3.
TABELA 5.3 – Grupos de relações métricas usados no treinamento.
Grupo1: OX/OY NX/NY BX/BY
Grupo2: OX/OY NX/NY BX/BY FY/FX
Grupo3: OX/OY NX/NY BX/BY T2/T3
Grupo4: OX/OY NX/NY BX/BY NX/FX
Grupo5: OX/OY NX/NY BX/BY NX/FX FY/FX
Grupo5.1: OX/OY NX/NY BX/BY NX/FX T2/FX
Grupo5.2: T3/FX T2/FX T3/FY T2/FY FY/FX
Grupo5.3: BX/BY NX/FX T3/FY T2/FY FY/FX
Inicialmente, foram tomadas 3 relações métricas dentre àquelas que apresentaram maior
variação de face para face durante a análise gráfica da Figura 4.16. As 3 medidas usadas
a princípio foram OX/OY (relação entre a largura e a altura do olho direito), NX/NY
(relação entre a largura e a altura do nariz), BX/BY (relação entre a largura e a altura da
105
boca). Acredita-se, com base na análise gráfica, que usando estas relações métricas , a
tarefa de discernimento se torne mais fácil.
A seguir serão descritos os testes realizados com cada um dos grupos mostrados na
Tabela 5.3.
Grupo1
Usando as 3 métricas do Grupo1 foi possível treinar a rede neural da etapa 1, fazendo
com que a rede aprendesse a sinalizar os 8 padrões pertencentes à Classe 3 como sendo
"conhecidos" e os 6 padrões das outras classes como "não conhecidos".
A curva de aprendizado é mostrada na Figura 5.1.
FIGURA 5.1 – Curva de aprendizado usando relações métricas do Grupo1.
Para analisar a robustez das relações métricas presentes no Grupo1, foram coletadas as
mesmas medidas das 15 faces do banco de imagens da Universidade de Yale. As
medidas destes 15 padrões não foram apresentados à rede nem como exemplos de
padrões "conhecidos" nem como exemplo de padrões "não conhecidos".
As Tabelas 5.4 e 5.5 abaixo mostram os resultados do treinamento em relação aos
padrões vistos durante o aprendizado e aqueles não vistos.
106
TABELA 5-4 – Resposta da rede aos padrões usados no treinamento (usando o Grupo1).
Padrão Saída desejada Saída obtida Status Classe3 1 0.990 OK! Classe3 1 1.000 OK! Classe3 1 0.984 OK! Classe3 1 1.000 OK! Classe3 1 0.955 OK! Classe3 1 1.000 OK! Classe3 1 0.997 OK! Classe3 1 0.987 OK!
Estranho1 0 0.000 OK! Estranho2 0 0.018 OK! Estranho3 0 0.045 OK! Estranho4 0 0.018 OK! Estranho5 0 0.006 OK! Estranho6 0 0.006 OK!
A Tabela 5.4 mostra a saída desejada definida como 1 (face conhecida) para os
primeiros 8 padrões pertencentes à Classe3. É mostrado também, para os 6 padrões
seguintes que não pertencem à classe avaliada, a saída definida como 0 (face
desconhecida). O limiar adotado para considerar uma saída como 1, foi definido como
valores iguais ou acima de 0,5. Os valores inferiores a 0,5 são considerados 0. A quarta
coluna apresenta o "Status" do reconhecimento. Como pode ser observado, a rede
respondeu corretamente aos 14 padrões.
TABELA 5.5 – Resposta da rede a padrões totalmente desconhecidos (usando o Grupo1)
Padrão Saída desejada Saída obtida Status Estranho1 0 0.631 ERRO! Estranho2 0 1.000 ERRO! Estranho3 0 0.997 ERRO! Estranho4 0 0.996 ERRO! Estranho5 0 0.000 OK! Estranho6 0 0.718 ERRO! Estranho7 0 1.000 ERRO! Estranho8 0 1.000 ERRO! Estranho9 0 0.202 OK! Estranho10 0 1.000 ERRO! Estranho11 0 0.000 OK! Estranho12 0 0.000 OK! Estranho13 0 1.000 ERRO! Estranho14 0 1.000 ERRO! Estranho15 0 0.000 OK!
107
A Tabela 5.5 possui a mesma estrutura e interpretação definidas para a Tabela 5.4.
Avaliando-se a coluna "Status", percebe-se que a rede não consegue sinalizar
corretamente para os 15 padrões que não estavam presentes na etapa de treinamento.
Usando o vetor formado pelos componentes do Grupo1, a rede se mostrou capaz de
aprender corretamente os 14 padrões vistos no treinamento, sinalizando corretamente
para cada um deles. Porém a rede não possui informações em quantidade e qualidade
suficientes para sinalizar que todos os 15 padrões não presentes na etapa de aprendizado
são faces "não conhecidas".
Grupo2
A próxima bateria de testes foi realizada usando o Grupo2. Este grupo possui um
diferencial: a relação entre a altura e a largura da face (FY / FX) que não estava presente
no grupo anterior.
Usando a estrutura da rede e os parâmetros citados no início deste capítulo, a rede não
converge até a iteração de número 1.000.000, como mostra a Figura 5.2a. Após algumas
tentativas, alterando-se o parâmetro da taxa de aprendizado de 0.07 para 0.12, a rede
converge rapidamente como mostrado na Figura 5.2b.
(A) (B)
FIGURA 5.2 – Curva de aprendizado usando relações métricas do Grupo2.
A rede, com este novo vetor de identificação, aprende os 14 padrões apresentados na
etapa de treinamento e erra apenas 5 faces das 15 que não estavam presentes na etapa de
treinamento.
108
Apesar da necessidade da mudança da taxa de aprendizagem para evitar a estagnação da
rede na etapa de aprendizado, fica claro que o aumento de mais uma informação no
conjunto de relações que representam a face, dá maior capacidade de discernimento à
rede.
Grupo3 e Grupo4
Os testes usando o Grupo3 e o Grupo4 visam avaliar o potencial das outras duas
relações usadas, em comparação com a relação FY/FX (altura facial / largura facial)
pertencente ao Grupo2. O resultado da comparação entre FY / FX (altura facial / largura
facial), T2 / T3 (2º terço da face / 3º terço da face ) e NX / FX (largura do nariz / largura
da face) está mostrado na Tabela 5.6.
TABELA 5.6 – Comparação entre o acréscimo de 1 relação específica no vetor de identificação (grupo2 x grupo3 x grupo4).
Tópicos avaliados FY/FX T2/T3 NX/FX Converge com erro médio quadrático menor que 0.02? Sim Sim Sim
Aprende os 14 padrões apresentados no treinamento? Sim Sim Sim Nº de erros (15 faces não presentes no treinamento). 5 4 1 Nº de iterações necessárias para atingir erro mínimo. 235186 492854 921321
Através dos resultados mostrados na Tabela 5.6, nota-se a maior eficiência do Grupo4,
contendo a relação NX/FX, em diferenciar corretamente os padrões que não estavam
presentes no treinamento. Isso mostra que o Grupo4 possui maior capacidade de
generalização do que os apresentados pelos Grupos 2 e 3.
Os parâmetros usados no treinamento da rede, foram alterados apenas quando usou-se o
Grupo2, a fim de evitar a estagnação da rede na etapa de aprendizado. Os demais grupos
foram treinados usando os mesmos parâmetros padrão, descritos a seguir.
Percebe-se durante a comparação dos Grupos 2, 3 e 4 que determinadas relações
métricas têm a capacidade de tornar a rede mais apta para a tarefa de diferenciar entre
padrões faciais "conhecidos” e "não conhecidos". Isto pode ser visto através da
substituição da relação T2/T3 pela relação NX/FX. Só com a mudança dos parâmetros,
109
o número de erros cometidos na avaliação das faces não presentes no treinamento foi
reduzido de 4 erros para apenas 1.
Usando a rede treinada com o Grupo4, que apresentou o melhor índice de acerto até o
momento, foram feitas algumas experiências variando-se o número de neurônios
buscando uma melhor resposta em relação às faces não presentes na etapa de
aprendizagem. Durante tais testes, ao aumentar o número de neurônios da camada
escondida de 5 para 6 neurônios, o número de padrões identificados de forma errada
subiu de 1 para 2. E ao subtrairmos 1 neurônio, o número de erros sobe de 1 para 11
erros em 15 padrões apresentados.
Portanto, a estrutura proposta a seguir fica sendo, para esta dissertação, a mais adequada
para o reconhecimento. Outros testes também foram realizados com a rede recebendo
outros padrões de entrada. Porém o número de acertos mais significativos foram
atingidos com a estrutura descrita a seguir.
A arquitetura final das redes da etapa 1, responsáveis por sinalizar se o padrão
apresentado é conhecido ou não é a seguinte:
o Número total de neurônios: 5; o Arquitetura: rede multicamadas de 5 entradas, 4 neurônios ocultos, 1 neurônio
de saída; o Alimentação da rede: "feedforward"; o Algoritmo de aprendizado: "Retropropagação do erro".
Os parâmetros usados no treinamento foram:
o Taxa de aprendizado usada no treinamento: 0.07; o Momentum: 0.8; o Erro Médio Quadrático: inferior a 0.02; o Semente inicial para os pesos: 5 .
Vale ressaltar que o número de neurônios usados na camada oculta pode variar em caso
de aumento do número de padrões a serem aprendidos em cada classe. Assim, os 4
neurônios que para este caso são suficientes para realizar a tarefa de sinalizar se um
determinado padrão é "conhecido" ou "não conhecido", podem ser insuficientes para
110
realizar a mesma tarefa, se a classe avaliada contiver mais de 8 padrões aprendidos
como "conhecidos" e 6 como "não conhecidos".
Para as redes da etapa 2, responsáveis pela associação do padrão sinalizado como
“conhecido” ao um padrão mais “parecido” da classe ativa, foi definido, após a
realização de vários testes, a configuração ótima que se segue:
o Número total de neurônios: 10; o Arquitetura: rede multicamadas de 7 entradas, 6 neurônios ocultos, 4 neurônios
de saída; o Alimentação da rede: "feedforward"; o Algoritmo de aprendizado: "Retropropagação do erro".
Os parâmetros usados no treinamento foram:
o Taxa de aprendizado usada no treinamento: 0.07; o Momentum: 0.8; o Erro Médio Quadrático: inferior a 0.02; o Semente inicial para os pesos: 5.
Cada uma das 5 redes independentes dessa etapa possui 4 neurônios de saída. Esta
estrutura possibilita a cada uma dessas redes, mapear 16 padrões de face seguindo a
codificação binária (0000, 0001, 0010, etc) associada a cada padrão. A capacidade total
de mapeamento da estrutura de rede apresentada é de 80 faces, sendo 16 faces em cada
uma das 5 classes.
Em casos onde o número de padrões a serem reconhecidos ultrapasse 16 faces, será
necessário um número maior de neurônios de saída além de um aumento também no
número de neurônios da camada oculta.
Para o próximo teste, usando o Grupo5, foi acrescentada mais uma informação ao
padrão de entrada da rede. Usou-se o Grupo4 como base, para verificar se apenas a
inclusão de uma nova informação seria suficiente para se obter um ganho significativo
no índice de acerto da rede.
Grupo5
111
Avaliando o conjunto de métricas pertencentes ao Grupo5, percebe-se, através da Figura
5.3, que a aprendizagem da rede é muito rápida.
FIGURA 5.3 - Curva de aprendizagem das métricas do Grupo5.
A rede convergiu em 480544 iterações, apresentando um erro médio quadrático de
0.020349. Os 14 padrões foram aprendidos com sucesso pela rede, como mostra a
Tabela 5.7 a seguir.
112
TABELA 5.7 - Resposta da rede aos padrões usados no treinamento (usando o Grupo5).
Padrão Saída desejada Saída obtida Status Classe3 1 0.984 OK! Classe3 1 0.981 OK! Classe3 1 0.990 OK! Classe3 1 1.000 OK! Classe3 1 0.981 OK! Classe3 1 0.966 OK! Classe3 1 0.983 OK! Classe3 1 0.990 OK! Estranho 0 0.000 OK! Estranho 0 0.017 OK! Estranho 0 0.007 OK! Estranho 0 0.023 OK! Estranho 0 0.044 OK! Estranho 0 0.000 OK!
A Tabela 5.7 mostra a sinalização correta da rede para os 8 padrões pertencentes à
Classe3 e também para os 6 padrões pertencentes a outras classes, sinalizados como
"não conhecidos", como pode ser observado analisando a coluna "Status".
Avaliando-se a saída da rede para os 15 padrões não presentes na etapa de treinamento,
obteve-se o seguinte resultado mostrado na Tabela 5.8:
113
TABELA 5.8 - Resposta da rede a padrões totalmente desconhecidos (usando o Grupo5)
Padrão
Saída esperada
Saída obtida
Status
Descrição do erro
1 0 0.000 OK!
2 0 0.000 OK!
3 0 0.000 OK!
4 0 0.014 OK!
5 0 0.000 OK!
6 0 0.000 OK!
7 0 0.000 OK!
8 0 0.000 OK!
9 0 0.000 OK!
10 0 0.000 OK!
11 0 0.142 OK!
12 0 0.043 OK!
13 0 0.000 OK!
14 0 0.379 OK!
15 0 0.000 OK!
Fica claro, através da análise dos resultados mostrados na Tabela 5.8, que o acréscimo
da informação FY / FX (altura facial / largura facial) no vetor de identificação da face
torna a representação do padrão avaliado mais específico, possibilitando um índice de
acerto maior quando são apresentados os 15 padrões que não estavam presentes no
treinamento.
Um novo teste, a partir do Grupo5, será realizado para se avaliar a resposta da rede a
ruídos durante a coleta das métricas.
A fim de simular erros durante a coleta das medidas faciais, são inseridos ruídos (aqui
representados pelo acréscimo de pixels) em medidas horizontais e verticais de
componentes e regiões da face. A Tabela 5.9 ilustra este teste.
Na coluna "Pixels adicionados" informa-se em quantas unidades as medidas faciais,
descritas na coluna "Medidas afetadas", estão sendo incrementadas. Após a introdução
do erro, as relações métricas "contaminadas" são usadas para validar a rede já
114
devidamente treinada. Foram criados 22 tipos diferentes de “contaminação” nas
medidas faciais, através de incrementos de pixels em medidas verticais e horizontais dos
padrões. Estas contaminações (erros inseridos na aquisição das medidas) foram
aplicadas aos 14 padrões faciais usados nesta dissertação, gerando portanto 308 novos
padrões (308 = 22 * 14).
O número de erros cometidos pela rede está indicado na coluna "Nº de erros em 14
padrões" e a coluna "Descrição do erro" informa o tipo de engano cometido pela rede.
Pode-se verificar o resultado da avaliação de robustez da rede neural usando as
”medidas contaminas”, através da Tabela 5.9 a seguir.
115
TABELA 5.9 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o Grupo5)
Pixels adicionados
Medidas afetadas
Nº de erros em 14 padrões
Descrição do erro
Inserindo ruído em medidas verticais
1 pixel T2; T3; Fy 1 Reconheceu 1 "face não conhecida".
2 pixels T2; T3; Fy 1 Reconheceu 1 "face não conhecida".
3 pixels T2; T3; Fy 1 Reconheceu 1 "face não conhecida".
4 pixels T2; T3; Fy 1 Reconheceu 1 "face não conhecida".
5 pixels T2; T3; Fy 1 Reconheceu 1 "face não conhecida".
Inserindo ruído em medidas horizontais
1 pixel Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
2 pixels Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
3 pixels Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
4 pixels Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
5 pixels Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
Inserindo ruído em medidas verticais e horizontais
1 pixel T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
2 pixels T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
3 pixels T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
4 pixels T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
5 pixels T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
10 pixels T2; T3; Fy; Nx; Bx; Fx 2 Reconheceu 1 "face não conhecida". Não reconheceu 1 "face conhecida".
Adicionando os ruídos aleatórios nas respectivas medidas verticais e horizontais
8 3 6 2 4 8 T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
4 7 3 7 4 5 T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
8 16 12 12 14 14 T2; T3; Fy; Nx; Bx; Fx 2 Reconheceu 1 "face não conhecida". Não reconheceu 1 "face conhecida".
14 4 0 16 8 8 T2; T3; Fy; Nx; Bx; Fx 1 Reconheceu 1 "face não conhecida".
6 21 18 9 0 0 T2; T3; Fy; Nx; Bx; Fx 5 Reconheceu 2 "face não conhecida". Não reconheceu 3 "face conhecida".
20 0 12 20 16 8 T2; T3; Fy; Nx; Bx; Fx 2 Reconheceu 1 "face não conhecida". Não reconheceu 1 "face conhecida".
116
Os testes foram separados pela inserção de “contaminação” em medidas verticais,
horizontais e medidas verticais e horizontais juntas. Foram inseridos ainda
“contaminações” representadas por acréscimo escolhidas aleatoriamente nas medidas
informadas na coluna de "Medidas afetadas".
A cada novo ruído inserido nas respectivas métricas foram gerados 14 novos padrões,
sendo 8 da Classe3 e 6 padrões pertencentes às outras classes. Aos 8 padrões da Classe3
a rede deveria sinalizar como "conhecidos" e aos outros 6 padrões, pertencentes às
outras classes, a sinalização deveria ser "não conhecidos".
A rede, usando as relações do Grupo5, cometeu 29 erros de classificação em 308
padrões apresentados, totalizando um índice médio de acerto de 90,58%.
Embora a rede tenha atingido um índice médio de acerto muito bom, houve vários casos
de sinalizações positivas indevidas para faces "não conhecidas", após a inserção de
ruídos. A esta situação, dá-se o nome de falso-positivo. Para a situação inversa, onde
faces "conhecidas" são indevidamente sinalizadas como "não-conhecidas", dá-se o
nome de falso-negativo.
Isto mostra que se esse grupo de métricas fosse usado para controlar o acesso de pessoas
a um dado local, pessoas não autorizadas conseguiriam ter acesso à área restrita. Isto
aconteceria desde que um ruído ou um erro durante a aquisição das medidas faciais
distorcesse, de forma favorável ao invasor, as métricas faciais como simulado pela
“contaminação” das medidas (erro na aquisição das medidas).
No pior caso, (onde ocorreram 2 falso-positivos e 3 falso-negativos em 14 padrões
apresentados) considerando que uma distorção no momento da coleta das métricas
faciais favorecesse a falsa identificação de um estranho, este teria 14,29% de chances de
entrar em um local restrito sem autorização. Haveria também 21,43% de chances de um
indivíduo autorizado ser barrado. Já para o melhor caso atingido pela rede (onde ocorreu
1 erro em 14 padrões apresentados), as chances do indivíduo não autorizado obter
acesso caem para 7,14% usando o conjunto de métricas do Grupo5.
117
Grupo5.1
O Grupo5.1 possui estrutura básica similar ao Grupo5, trocando-se apenas a relação
FY/FX pela relação T2/FX a fim de avaliar o desempenho da rede com uma relação
métrica que não sofresse influência de cabelo, barba ou cavanhaque. Os resultados estão
apresentados a seguir.
A curva de aprendizagem usando o Grupo5.1 é mostrada na Figura 5.4:
FIGURA 5.4 - Curva de aprendizagem para padrões com baixa interferência de cabelo, cavanhaque e barba.
A rede convergiu em 447077 iterações, com erro médio quadrático de 0.020111 e
aprendendo todos os padrões, como mostrado na Tabela 5.10.
118
TABELA 5.10 - Resposta da rede aos padrões usados no treinamento (usando o Grupo5.1)
Padrão Saída desejada Saída obtida Status Classe3 1 0.999 OK! Classe3 1 0.983 OK! Classe3 1 1.000 OK! Classe3 1 1.000 OK! Classe3 1 0.964 OK! Classe3 1 0.973 OK! Classe3 1 0.978 OK! Classe3 1 0.995 OK! Estranho 0 0.008 OK! Estranho 0 0.007 OK! Estranho 0 0.022 OK! Estranho 0 0.015 OK! Estranho 0 0.042 OK! Estranho 0 0.000 OK!
A Tabela 5.10 mostra que todos os 14 padrões foram sinalizados corretamente após o
treinamento da rede. Não houve nenhum engano por parte da rede usando as relações
presentes no Grupo5.1.
Para o teste com as 15 faces que não estiveram presentes na etapa de treinamento, o
resultado é mostrado na Tabela 5.11 abaixo:
119
TABELA 5.11 - Resposta da rede a padrões totalmente desconhecidos (usando o Grupo5.1).
Padrão
Saída esperada
Saída obtida
Status
Descrição do erro
1 0 0.000 OK!
2 0 0.000 OK!
3 0 0.000 OK!
4 0 0.013 OK!
5 0 0.000 OK!
6 0 0.000 OK!
7 0 0.000 OK!
8 0 0.000 OK!
9 0 0.000 OK!
10 0 0.000 OK!
11 0 0.000 OK!
12 0 0.000 OK!
13 0 0.000 OK!
14 0 0.113 OK!
15 0 0.000 OK!
O Grupo 5.1 se mostrou muito bom para sinalizar como "não conhecidos", os 15
padrões que não estiveram presentes na etapa de treinamento e não pertenciam à
Classe3, como mostra a coluna "Status" da Tabela 5.11.
120
A Tabela 5.12 apresenta os resultados obtidos usando os padrões que estavam presentes
na etapa de treinamento, acrescidos de ruído.
TABELA 5.12 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o Grupo5.1).
Pixels
adicionados
Medidas afetadas
Nº de erros em 14
padrões
Descrição do erro
Inserindo ruído em medidas horizontais
1 pixel Nx; Bx; Fx 0
2 pixels Nx; Bx; Fx 0
3 pixels Nx; Bx; Fx 0
4 pixels Nx; Bx; Fx 0
5 pixels Nx; Bx; Fx 0
10 pixels Nx; Bx; Fx 0
Adicionando os ruídos aleatórios nas respectivas medidas verticais e horizontais
6 2 8 Nx; Bx; Fx 0
3 7 5 Nx; Bx; Fx 0
12 12 14 Nx; Bx; Fx 0
0 16 8 Nx; Bx; Fx 0
18 9 0 Nx; Bx; Fx 5 Reconheceu 3 "faces não conhecidas". Não reconheceu 2 "faces conhecidas".
12 20 8 Nx; Bx; Fx 2 Reconheceu 2 "faces não conhecidas".
Como os valores verticais, que eram "contaminados" com os ruídos, não pertencem ao
Grupo5.1, exceto a medida T2, não se avaliou a inserção de ruídos em relações verticais
para este grupo.
Para este grupo de métricas, o índice médio de acerto foi de 95,83%. No pior caso
observado considerando que uma distorção no momento da coleta das métricas faciais
favorecesse a falsa identificação de um estranho, este teria 21,43% de chances de
acessar um local restrito. Haveria ainda 14,29% de chances de pessoas autorizadas
serem barradas.
121
Embora o índice médio de acerto do Grupo5.1 tenha sido melhor que o apresentado pelo
Grupo5, haveria maior possibilidade de um estranho acessar indevidamente uma área
restrita, se fossem usadas as métricas do Grupo5.1.
Grupo5.2
As relações métricas que compõem o Grupo5.2 são formadas por regiões globais da
face. Não há a participação de componentes locais como olhos, nariz ou boca entre os
elementos presentes nestas relações.
Este grupo foi formado com a finalidade de avaliar a capacidade das medidas globais
em diferenciar faces, sem a participação de componentes locais. Os resultados são
mostrados a seguir.
A curva de aprendizagem da rede usando o Grupo5.2 é descrita na Figura 5.5 abaixo:
FIGURA 5.5 - Curva de aprendizagem das métricas do Grupo5.2.
A rede convergiu em 954106 iterações, apresentando um erro médio quadrático de
0.020197. Todos os 14 padrões apresentados à rede foram aprendidos como mostra a
Tabela 5.13 a seguir.
122
TABELA 5.13 - Resposta da rede aos padrões usados no treinamento (usando o Grupo5.2)
Padrão Saída desejada Saída obtida Status Classe3 1 0.996 OK! Classe3 1 0.979 OK! Classe3 1 1.000 OK! Classe3 1 1.000 OK! Classe3 1 0.957 OK! Classe3 1 1.000 OK! Classe3 1 0.986 OK! Classe3 1 0.999 OK! Estranho 0 0.001 OK! Estranho 0 0.043 OK! Estranho 0 0.000 OK! Estranho 0 0.000 OK! Estranho 0 0.026 OK! Estranho 0 0.010 OK!
A Tabela 5.14 mostra o comportamento da rede para padrões não vistos no treinamento.
TABELA 5.14 - Resposta da rede a padrões totalmente desconhecidos (usando o Grupo5.2).
Padrão
Saída esperada
Saída obtida
Status
Descrição do erro
1 0 0.000 OK!
2 0 0.000 OK!
3 0 0.000 OK!
4 0 0.000 OK!
5 0 0.000 OK!
6 0 0.854 ERRO! Reconheceu "desconhecido"
7 0 0.000 OK!
8 0 0.594 ERRO! Reconheceu "desconhecido"
9 0 0.000 OK!
10 0 0.000 OK!
11 0 0.000 OK!
12 0 0.000 OK!
13 0 0.000 OK!
14 0 0.007 OK!
15 0 0.000 OK!
123
Como pode ser observado nas Tabelas 5.13, os 14 padrões foram aprendidos
corretamente durante a etapa de treinamento. Não há erros ao sinalizar os membros da
Classe3 e os que não pertencem a esta classe, como descrito na coluna "Status".
A Tabela 5.14 mostra que houve 2 falso-positivos cometidos pela rede ao identificar
como "conhecidos" 2 dos 15 padrões que não pertencem à Classe3 e não estiveram
presentes na etapa de treinamento da rede, totalizando um erro de 13,33% do total de
faces analisadas.
A Tabela 5.15 mostra os resultados do Grupo5.2 aplicado ao reconhecimento de faces
que estiveram presentes na etapa de treinamento, mas agora se encontram
"contaminadas" com ruídos.
124
TABELA 5.15 - Resposta da rede a padrões conhecidos acrescidos de ruído (usando o Grupo5.2).
Pixels adicionados
Medidas afetadas
Nº de erros em 14
padrões
Descrição do erro
Inserindo ruído em medidas verticais 1 pixel T2; T3; Fy 0 2 pixels T2; T3; Fy 0 3 pixels T2; T3; Fy 0 4 pixels T2; T3; Fy 0 5 pixels T2; T3; Fy 0
Inserindo ruído em medidas horizontais 1 pixel Nx; Bx; Fx 0 2 pixels Nx; Bx; Fx 0 3 pixels Nx; Bx; Fx 0 4 pixels Nx; Bx; Fx 0 5 pixels Nx; Bx; Fx 0
Inserindo ruído em medidas verticais e horizontais 1 pixel T2; T3; Fy; Nx; Bx; Fx 0 2 pixels T2; T3; Fy; Nx; Bx; Fx 0 3 pixels T2; T3; Fy; Nx; Bx; Fx 0 4 pixels T2; T3; Fy; Nx; Bx; Fx 0 5 pixels T2; T3; Fy; Nx; Bx; Fx 0 10 pixels T2; T3; Fy; Nx; Bx; Fx 1 Não reconheceu 1 "face conhecida"
Adicionando os ruídos aleatórios nas respectivas medidas verticais e horizontais 8 3 6 2 4 8 T2; T3; Fy; Nx; Bx; Fx 0 4 7 3 7 4 5 T2; T3; Fy; Nx; Bx; Fx 0 8 16 12 12 14 14 T2; T3; Fy; Nx; Bx; Fx 3 Não reconheceu 1 "face conhecida"
Reconheceu 2 "faces não conhecidas".
14 4 0 16 8 8 T2; T3; Fy; Nx; Bx; Fx 0 6 21 18 9 0 0 T2; T3; Fy; Nx; Bx; Fx 5 Não reconheceu 3 "faces
conhecidas" Reconheceu 2 "faces não conhecidas".
20 0 12 20 16 8 T2; T3; Fy; Nx; Bx; Fx 0
125
Este grupo de métricas apresentou o índice médio de acerto igual a 97,08%. No pior
caso observado, um estranho teria 14,29% de chances de acessar um local restrito, se
suas métricas fossem adulteradas favoravelmente por ruídos ou erros durante a etapa de
coleta de medidas. Haveria ainda 21,43% de chances de pessoas autorizadas serem
barradas.
Embora o índice médio de acerto do Grupo5.2 tenha sido o melhor, comparando com o
Grupo5 e com o Grupo 5.1, sua capacidade em barrar faces aprendidas como "não
conhecidas" em presença de erros durante a aquisição das métricas se mostra igual à
apresentada pelo Grupo5. Já a capacidade de suas métricas em sinalizar como "não
conhecidos" os 15 padrões que não estiveram presentes na etapa de treinamento (e eram
"não conhecidos") se mostrou inferior à dos outros 2 grupos.
126
Grupo5.3
Por fim, para demonstrar indícios de que a escolha do conjunto de relações também
influencia na capacidade de discernimento entre as faces e não somente o número de
entradas, foram realizados os testes com o Grupo5.3.
Este grupo é formado por relações entre componentes faciais e globais. A
predominância é de relações entre regiões globais da face, assim como o Grupo5.2. O
que diferencia é a presença de 1 relação mista (NX/FX – largura no nariz pela largura da
face) e 1 relação entre medidas locais (BX/BY – largura pela altura da boca). Os
parâmetros usados para este grupo foram os mesmos usados nos testes anteriores. Os
resultados são mostrados abaixo.
FIGURA 5.6 - Curva de aprendizagem das métricas do Grupo5.3.
Como pode ser visto pela curva de aprendizado mostrada na Figura 5.6, o Grupo5.3
parece não conter as relações métricas mais adequadas para a tarefa de reconhecimento,
usando-se mesmas condições e parâmetros de treinamento válidas para os demais
grupos.
Percebe-se claramente que não há uma tendência de convergência da curva de
aprendizagem da rede para os padrões usando as relações deste grupo.
127
Os índices de acerto atingidos utilizando-se os 4 últimos grupos em presença de ruído,
estão resumidos na Tabela 5.16 a seguir.
Tabela 5.16 – Índice de acerto dos grupos em presença de ruídos.
Grupo Erro médio quadrático
Nº de iterações
Nº de erros
Total de padrões apresentados
% média de acertos
Grupo5
0.020349 480544 29 308 90,58% Grupo5.1
0.020111 447077 7 168 95,83% Grupo5.2
0.020197 954106 9 308 97,08% Grupo5.3 Rede não converge usando os mesmos parâmetros
dos demais grupos
Foram apresentados os 14 padrões de teste para cada inserção de ruídos. E foram
testados 22 grupos de ruídos, totalizando 308 ocorrências no caso dos Grupos 5 e 5.2.
Para o Grupo 5.1 foram testados 12 grupos de ruídos apenas, totalizando 168 padrões
apresentados à rede.
Os índices de acerto atingidos para os 15 padrões que não pertencem à Classe 3 e não
estavam na etapa de treinamento, encontram-se na Tabela 5.17. Foram comparados os 8
grupos de métricas apresentados anteriormente na Tabela 5.3.
TABELA 5.17 – Índice de acerto dos 8 grupos para 15 padrões desconhecidos, não presentes no treinamento.
Grupo Nº de erros Nº de
padrões % média de
acertos
Grupo1 10 15 33,33%
Grupo2 5 15 66,67%
Grupo3 4 15 73,33%
Grupo4 1 15 93,33%
Grupo5 0 15 100%
Grupo5.1 0 15 100%
Grupo5.2 2 15 86,67%
Grupo5.3 Rede não converge usando os mesmos parâmetros
dos demais grupos
128
Os valores mostrados na Tabela 5.17 se referem às respostas apresentadas pela rede aos
15 padrões "não conhecidos" e não usados na etapa de treinamento, para cada um dos 8
grupos de métricas. Estes resultados estão ligados às Tabelas 5.5, 5.6, 5.8, 5.11, 5.14
desta dissertação.
Avaliando-se os resultados dos testes, verifica-se que uma aplicação onde não se deseja
permitir que pessoas não autorizadas tenham acesso a um determinado local, as métricas
dos Grupos 5 e 5.1 se mostraram mais confiáveis quando comparadas às métricas do
Grupo 5.2, para este conjunto de faces utilizado nos testes.
No próximo tópico serão apresentados os testes e resultados obtidos pela rede
responsável por associar faces classificadas como "conhecidas", na etapa 1, à face com
relações métricas mais próximas aprendidas durante a fase de treinamento.
5.2. Testes da Rede de Associação a Padrões Conhecidos
Nesta etapa avalia-se a confiabilidade da rede em mapear um conjunto de entradas em
um valor previamente aprendido. Como foi descrito anteriormente no sub-tópico 4.3
desta dissertação, há 5 redes nesta segunda etapa, sendo cada uma delas responsável por
mapear padrões da sua classe específica.
Os testes abaixo foram realizados usando as 5 classes obtidas do conjunto de 22 faces
do banco de imagens da Açominas S.A. Após o treinamento da rede, foram inseridos
ruídos nas métricas faciais, com a finalidade avaliar o desempenho do mapeamento das
faces realizado pela rede.
Cada face de determinada classe foi codificada previamente em uma combinação de 4
dígitos formados por 0's e 1's. E esta codificação foi fornecida à rede como saída
desejada na etapa de treinamento.
Na validação da rede, os 4 dígitos que codificam a face são obtidos das 4 saídas da rede
desta etapa. Assim, a saída 0001 representa uma face, a saída 0010 representa outra face
e assim por diante.
129
As 7 relações métricas que compõem os padrões de entrada da rede são apresentadas na
Tabela 5.18.
TABELA 5.18 – Relações métricas que compõem os padrões de emtrada da rede da etapa2.
Relações Bx/By Nx/Fx Fy/Fx T2/Fy T3/Fy T2/Fx T3/Fx
A curva de aprendizagem para as 8 faces pertencentes à Classe 3 é mostrada na Figura
5.7:
FIGURA 5.7 - Curva de aprendizagem dos 8 padrões da Classe 3.
O erro médio quadrático obtido foi de 0.019988 após 397957 iterações.
Apresentando-se novamente à rede, o conjunto de padrões usados durante a etapa de
treinamento, percebe-se que todos os padrões foram aprendidos, como é mostrado na
Tabela 5.19.
130
TABELA 5.19 - Resposta da rede aos padrões usados no treinamento da classe 3.
Padrão Saída desejada Saída obtida Status 1 0 0 0 1 0.000 0.000 0.011 0.999 OK! 2 0 0 1 0 0.000 0.017 0.988 0.014 OK! 3 0 0 1 1 0.000 0.011 0.981 1.000 OK! 4 0 1 0 0 0.000 0.990 0.012 0.008 OK! 5 0 1 0 1 0.000 0.990 0.021 0.987 OK! 6 0 1 1 0 0.007 1.000 0.983 0.009 OK! 7 0 1 1 1 0.000 0.984 1.000 0.988 OK! 8 1 0 0 0 0.992 0.008 0.001 0.000 OK!
A Tabela 5.19 mostra na coluna "Saída desejada" a codificação estabelecida para cada
padrão da Classe3. Usando-se esta codificação binária é possível representar até 16
faces para cada classe.
A coluna "Saída obtida" mostra a resposta da rede aos padrões usados no treinamento
após os pesos já estarem fixos. Os valores na saída da rede serão considerados 1 se
forem maiores ou iguais a 0,5. Serão considerados 0 aqueles valores inferiores a 0,5.
Percebe-se então, avaliando-se a coluna "Status", que a rede aprendeu os 8 padrões
vistos no treinamento.
A Tabela 5.20 mostra a saída da rede quando são apresentados os padrões
"contaminados" com ruídos.
131
TABELA 5.20 - Resposta da rede a padrões conhecidos acrescidos de ruído (etapa 2 de reconhecimento).
Pixels adicionados
Medidas afetadas
Nº de erros em 8
padrões
Descrição do erro
Inserindo ruído em medidas verticais 1 pixel T2; T3; Fy 0 2 pixels T2; T3; Fy 0 3 pixels T2; T3; Fy 0 4 pixels T2; T3; Fy 0 5 pixels T2; T3; Fy 0
Inserindo ruído em medidas horizontais 1 pixel Nx; Bx; Fx 0 2 pixels Nx; Bx; Fx 0 3 pixels Nx; Bx; Fx 0 4 pixels Nx; Bx; Fx 0 5 pixels Nx; Bx; Fx 0
Inserindo ruído em medidas verticais e horizontais 1 pixel T2; T3; Fy; Nx; Bx; Fx 0 2 pixels T2; T3; Fy; Nx; Bx; Fx 0 3 pixels T2; T3; Fy; Nx; Bx; Fx 0 4 pixels T2; T3; Fy; Nx; Bx; Fx 0 5 pixels T2; T3; Fy; Nx; Bx; Fx 0
10 pixels T2; T3; Fy; Nx; Bx; Fx 1 Não associou a entrada a nenhuma face
Adicionando os ruídos aleatórios nas respectivas medidas verticais e horizontais 8 3 6 2 4 8 T2; T3; Fy; Nx; Bx; Fx 0 4 7 3 7 4 5 T2; T3; Fy; Nx; Bx; Fx 0
8 16 12 12 14 14 T2; T3; Fy; Nx; Bx; Fx 0
14 4 0 16 8 8 T2; T3; Fy; Nx; Bx; Fx 0 6 21 18 9 0 0 T2; T3; Fy; Nx; Bx; Fx 2
Confundiu 1 face, associando as métricas de entrada à face errada Não mapeou a entrada a nenhuma face
20 0 12 20 16 8 T2; T3; Fy; Nx; Bx; Fx 1 Não mapeou a entrada a nenhuma face
A média de acertos atingida pela rede, avaliando os padrões da Classe 3, foi de 97,73%.
132
A coluna "Medidas afetadas", a exemplo do que ocorre nos testes da etapa 1, mostra
quais as medidas que serão contaminadas com o número de pixels descritos na coluna
"Ruído". A coluna "Nº de erros em 8 padrões", informa o número de equívocos
cometidos pela rede ao classificar os 8 padrões da Classe3 contaminados com os ruídos.
Por fim, a coluna "Descrição do erro" mostra qual o equívoco cometido pela rede na
tarefa de associação (associação errada entre a face avaliada e uma das faces aprendidas
ou a não associação da face avaliada a nenhuma das faces aprendidas).
Os 8 padrões da Classe 3 foram apresentados a cada inserção de um novo conjunto de
ruídos.
A Tabela 5.21 mostra os resultados obtidos para todas as 5 classes, seguindo o mesmo
padrão de testes com ruídos descritos na Tabela 5.20.
TABELA 5.21 - Resultados obtidos para as outras 4 classes (etapa 2 de reconhecimento).
Classe Nº padrões por Classe
Nº de erros Nº padrões submetidos à
rede
% média de acertos
1 1 0 22 100
2 2 0 44 100
3 8 4 176 97,73
4 6 0 132 100
5 5 1 110 99,10
A primeira coluna da Tabela 5.21 informa qual a Classe avaliada. A coluna “Nº Padrões
por Classe” informa quantas faces foram enquadradas em cada Classe específica, de
acordo com o índice facial. A coluna "Nº de erros" informa quantos erros ocorreram ao
se introduzir os 22 tipos de erros na etapa de aquisição das métricas faciais dos 14
padrões avaliados. Esta coluna informa o número de erros observados em relação ao
número total de padrões submetidos à rede para a dada Classe. Na coluna “Nº de
padrões submetidos à rede” tem-se o total de padrões apresentados à rede em cada
133
Classe na etapa de aquisição das métricas, após a contaminação com os 22 tipos de erros
já mencionados. Dessa forma, a Classe 1 que continha 1 padrão, após a contaminação
com 22 tipos de erros passou a ter 22 padrões apresentados à sua rede específica (22 = 1
padrão * 22 tipos de erros avaliados), seguindo-se o mesmo raciocínio para as demais
classes. Por fim a coluna "% média de acerto" informa o índice de acerto para cada
Classe individualmente, avaliando os erros em relação ao total de padrões apresentados
para a Classe específica.
Não foram feitas outras combinações referentes às métricas usadas para representar as
faces nesta segunda etapa, pois os resultados até aqui alcançados já mostram que é
possível realizar o reconhecimento de faces usando-se as relações métricas definidas
neste trabalho.
A avaliação de outros conjuntos de relações nas 2 etapas é proposta como possível
trabalho futuro, juntamente com outros testes no capítulo final desta dissertação.
O próximo tópico é dedicado aos comentários a respeito dos testes realizados.
5.3. Discussão Sobre os Testes Realizados
O foco desta dissertação foi a utilização de métricas faciais para o reconhecimento de
faces. Buscou-se mostrar a viabilidade do uso dessas medidas para reconhecer um rosto.
Os estudos vistos durante o desenvolvimento desta dissertação sobre reconhecimento
facial usam poucos recursos geométricos para a tarefa de reconhecimento, por acreditar
que as medidas de componentes faciais, por si só, são incapazes de efetuar o
discernimento eficiente entre faces distintas.
Os resultados atingidos, apresentados nos tópicos 5.1 e 5.2 desta dissertação, mostram
que uma vez escolhidas as métricas faciais e relações proporcionais adequadas e
usando-se a capacidade de generalização das redes neurais, é possível a diferenciação
entre rostos "conhecidos" e "não conhecidos", através de um sistema que combine
características geométricas de representação facial e características presentes em redes
134
neurais artificiais, como o proposto por este trabalho. Tal sistema também se mostra
apto para mapear uma face apresentada na entrada da rede, na face mais semelhante
aprendida na fase de treinamento.
Desta forma, o sistema aqui proposto pode certamente ser usado como ferramenta de
reconhecimento ou como apoio a outros sistemas baseados em metodologias diferentes
como álgebra linear, modelos deformáveis e filtros baseados em wavelets, a fim de se
atingir um bom índice de acerto no reconhecimento facial.
No próximo tópico serão descritos alguns comentários sobre detalhes do uso das
métricas faciais no reconhecimento facial.
5.3.1. As Métricas Usadas para Representação Facial
A imagem contendo uma face é a informação básica que deve ser trabalhada por um
sistema de reconhecimento automático de faces. As representações mais usuais em
sistemas desse tipo são feitas através de matriz de pixels (informações de iluminação),
modelos tridimensionais ou até mesmo por uma mistura das duas formas (Oliveira,
1997).
A partir da imagem de entrada devem ser extraídas características para a representação
do rosto de forma manipulável pelo sistema de reconhecimento. A extração dessas
características pode ser feita de 2 formas: implícita ou explícita (Oliveira, 1997).
A extração implícita é utilizada por todos os métodos que fazem uso de algoritmos de
categorização implícitos ou que usem propriedades da imagem para gerar
representações sem se basear em informações locais de componentes.
Já a extração explícita compreende os métodos que partem de características
previamente estabelecidas, tais como medidas entre pontos-chaves utilizados pelos
métodos geométricos. A extração explícita de características foi o método adotado por
esta dissertação, buscando o embasamento na anatomia facial para a determinação das
relações métricas que representam individualmente cada face.
135
Através da extração explícita de características visou-se determinar quais dos
componentes e áreas da face eram realmente importantes para o discernimento facial.
Os componentes dos vetores, usados para representar a face durante as 2 etapas de
reconhecimento, foram escolhidos levando-se em consideração as dificuldades
encontradas em se mensurar tais regiões. Algumas áreas e componentes da face se
mostraram muito suscetíveis a variações do tipo: corte de cabelo ou presença de barba,
bigode e cavanhaque.
Foi observado que determinados cortes de cabelo impediam a determinação correta do
1º terço facial, pois a franja obstruía a determinação da linha da raiz do cabelo, como
mostrado na Figura 5.8.A. A determinação do 1º terço da face também se mostrou
imprecisa em casos onde o modelo é calvo, ilustrado na Figura 5.8.B.
(A) (B)
FIGURA 5.8 - Dificuldades de determinação do primeiro terço da face. (A) Linha da raiz do cabelo é ocultada pela franja. (B) Encontra-se a dificuldade de determinar o ponto de início da linha da raiz do cabelo.
Outro problema encontrado foi a determinação da linha tangente à região
mentoniana, usada na determinação do 3º terço e da altura facial. Neste caso, ilustrado
na Figura 5.9, a dificuldade é causada pelo uso de barba ou cavanhaque que cobre e
prolonga o queixo, impedindo-se a determinação da linha tangente a esta região.
136
FIGURA 5.9 - Dificuldade de localização da região mentoniana, usada na determinação da altura da face e do 3º terço facial.
Através destas observações, optou-se por não utilizar as medidas extraídas do 1º terço
da face. Para o caso da altura facial, assumiu-se que a linha deveria ser tangente ao final
da face. Caso houvesse a presença de barba ou cavanhaque, a linha seria tangente ao
final desse adorno. Não foi possível descartar esta região pois ela é usada na
determinação da altura facial, sendo uma das medidas necessárias à determinação do
índice facial.
Determinadas métricas apresentaram maior adaptabilidade que outras, quando avaliado
o seu desempenho nas 2 etapas que compõem o reconhecimento facial aqui descrito.
A principal estratégia usada neste trabalho foi a classificação de faces com formatos
variados em grupos com características básicas semelhantes, através da determinação do
índice facial. Dessa forma, não foram feitas comparações entre faces totalmente
diferentes ("faces baixas" comparadas a "faces estreitas" por exemplo) usando os
componentes apropriados para a tarefa de ajuste fino, como algumas das relações
métricas usadas nesta dissertação (ODX/ODY, NX/NY, NX/FX, entre outras).
As redes não convergiam em testes realizados antes dessa classificação pois um
conjunto de características próprias de uma face sofria interferência do conjunto de
características do outro tipo de face. Os ajustes feitos nos pesos da rede, para atender ao
reconhecimento de faces de uma dada classe, não eram os mesmos ajustes necessários
para o reconhecimento de outra classe distinta. Por isso a rede não aprendia os padrões.
Isso mostra que em certas situações, os detalhes ou certas particularidades dos
componentes faciais são um diferencial importante na tarefa de discernimento entre uma
137
face "conhecida" e o "não conhecida". Porém uma pré-seleção de grupos de faces com
características gerais similares deve ser feita antes do treinamento para um melhor
aprendizado.
A seguir serão feitas algumas observações sobre a rede neural usada no sistema de
reconhecimento facial.
5.3.2. Método Conexionista Não-Linear Usado
Segundo (Haykin, 2001) o poder de generalização de uma rede neural está diretamente
relacionado com a sua estrutura maciçamente paralela e distribuída. A generalização se
refere ao fato da rede produzir saídas adequadas para entradas que não estavam
presentes durante o treinamento. É a chamada "aprendizagem".
A generalização é uma das principais características que tornam as redes neurais aptas à
tarefa de reconhecimento facial. Esta característica pôde ser percebida durante os testes,
como mostram os resultados apresentados nas Tabelas 5.5, 5.6, 5.8, 5.11 e 5.14.
Durante toda a fase de testes a estrutura da rede foi alterada na busca de uma
configuração que atendesse à tarefa de reconhecimento. A capacidade de adaptação das
redes também foi testada alterando-se os parâmetros de aprendizagem, experimentando-
se novas combinações de métricas faciais, novos erros mínimos aceitáveis, degradando-
se a estrutura da rede para verificar a interferência causada nos resultados, entre outros
experimentos.
A boa tolerância a falhas apresentada pelas redes neurais também foi alvo de testes
realizados neste trabalho. Esta característica pôde ser avaliada durante os testes de
tolerância a falhas, no processo de aquisição de dados, como mostram especificamente
os resultados das Tabelas 5.9, 5.12, 5.15, 5.20 e 5.21. Nestes testes, variou-se de forma
controlada os valores das métricas de componentes da face, observando-se até quando,
com o aumento dos níveis de ruído, a rede ainda conseguiria obter a resposta correta nos
neurônios de saída.
138
Foi observado que o desempenho da rede degrada suavemente sob condições de
operação adversas. Devido à natureza distribuída da informação armazenada na rede
(Haykin, 2001), o dano que por ventura venha a ser causado em sua estrutura deve ser
extenso para que a resposta global seja degradada seriamente.
O papel da rede neural neste sistema foi substituir as comparações entre padrões de
faces utilizando algoritmos de classificação numérica, por um sistema inteligente capaz
de lidar com pequenos erros e presença de ruídos, realizando ainda assim, um
reconhecimento eficiente. Os testes realizados comprovaram que as redes neurais são
uma boa ferramenta para tratar a inexatidão e variabilidade dos padrões faciais. Através
do uso das redes neurais, pequenas variações de expressão observadas na face do
modelo podem ser desconsideradas no momento de verificar se uma face é conhecida
ou não. Esta informação adulterada não impede a realização do reconhecimento facial
correto, como foi visto nos testes com inserção de ruídos.
A configuração final da rede, capaz de realizar o reconhecimento nas etapas 1 e 2, foi
atingida após uma série de testes envolvendo várias combinações de métricas
representando as faces.
Na etapa 1, apenas 1 neurônio na camada de saída é suficiente para informar se o padrão
facial de entrada é conhecido ou não. Já o número de neurônios da camada oculta deve
ser alterado para casos onde o número de faces seja superior aos 14 padrões usados
aqui. Sugere-se um aumento gradativo de neurônios na camada escondida, bem como de
relações métricas (na composição do vetor de identificação) que garantam a unicidade
de cada face a fim de que a rede continue com um bom índice de acerto.
Na etapa 2, foram usados 4 neurônios de saída, o que torna cada rede capaz de
representar até 16 faces. Em casos onde o número de faces por classe for maior que 16,
o número de neurônios da camada oculta, os número de neurônios da camada de saída,
bem como o número de elementos que representem a face, devem ser alterados. Novos
neurônios devem ser adicionados à rede (e novas relações métricas acrescentadas ao
vetor de identificação das faces), na medida em que sejam aumentados o número de
faces de cada classe e o desempenho da rede comece a cair.
139
O aumento no número de neurônio se justifica pelo fato da rede ter a necessidade de
armazenar informações das novas faces, distribuídas nos pesos dos novos neurônios. A
necessidade de novas informações para representar um número maior de faces é
justificada pelo fato da rede precisar de novos critérios de desempate para realizar o
reconhecimento facial.
A seguir serão comentados os resultados obtidos nos testes.
5.4. Resultados Obtidos
Os índices de reconhecimento obtidos durante a fase de testes e apresentados nas
Tabelas 5.16 e 5.17 mostram que o uso de métricas faciais aplicadas ao reconhecimento
facial é viável para pequenos grupos de faces.
Utilizando-se apenas um conjunto de 13 medidas (apresentadas nas Tabelas 4.2 e 4.3 )
extraídas de fotos frontais e estabelecendo as relações proporcionais entre tais medidas
(mostradas nas Tabelas 4.4A e 4.4B), foi possível diferenciar entre faces "conhecidas" e
"não conhecidas". Também foi possível associar ao vetor de métricas faciais na entrada
da rede, a codificação da face que mais se assemelhou a esse vetor dentro do conjunto
de padrões vistos na fase de aprendizado.
Foram obtidas médias de acerto acima de 95% nas redes da etapa 1 (mostradas nas
Tabelas 5.6 e 5.16), para padrões vistos na fase de treinamento acrescidos de ruídos.
Também nesta etapa foram alcançados índices de acerto superiores a 85%, quando
apresentados padrões que não estavam presentes na fase de treinamento (mostrado na
Tabela 5.17).
Para as redes da etapa 2 de reconhecimento, os acertos foram superiores a 97%
(conforme as Tabelas 5.20 e 5.21). As variações nos índices de acerto se devem ao uso
de um vetor contendo um grupo com relações métricas mais ou menos aptas para
discernir entre as várias faces avaliadas.
Os resultados obtidos reforçam a idéia de que a definição de um vetor de características
baseado em pontos chaves da face (como os pontos craniométricos ou mesmo outros
140
pontos anatômicos usados em odontologia e reconstituição facial) é robusto o suficiente
para ser aplicado ao reconhecimento de faces, dentro de um grupo limitado de pessoas.
Um ponto importante observado nos testes refere-se à estratificação das faces a serem
reconhecidas dentro de grupos com características semelhantes. Esta estratificação deve
ser realizada para que sejam comparadas, usando as relações métricas de ajuste fino
mostradas nesta dissertação, somente aquelas faces com as mesmas características
globais. Assim tem-se um aprendizado rápido das características das faces de cada
grupo.
Fica claro ainda que deve-se escolher bem os componentes faciais para se extrair as
métricas e definir apropriadamente as relações entre elas. Dessa forma assegura-se uma
boa representação das particularidades de cada face, tornando o discernimento entre
estes padrões mais fácil.
5.4.1. Comparação entre Índices de Reconhecimento
Segundo (Oliveira, 1997), os estudos realizados por (Bledsoe, 1966), (Goldestein et
al.1971), (Kanade, 1973), (Brunelli e Poggio, 1991) utilizando métodos geométricos
aplicados ao reconhecimento facial obtive ram índices de acerto que variaram enter 45 e
90% de acerto.
Alguns desses estudos usavam marcações feitas à mão em fotos de faces frontais,
indicando os cantos dos olhos, boca, nariz e queixo, como as realizadas nesta
dissertação. Porém não era levado em consideração as características dos pontos
craniométricos e as relações lineares existentes entre estes pontos. As comparações
entre as medidas que representavam as faces (determinando se um vetor de medidas
características pertencia ou não a uma determinada face) eram realizadas por algoritmos
de classificação numérica.
Os índices de reconhecimento obtidos nesta dissertação (acima de 90%), apresentam um
forte indício de que o uso de um conhecimento prévio sobre a anatomia facial, levando
em consideração suas particularidades na escolha das métricas para representar a face,
141
são um ponto importante para se realizar um reconhecimento eficiente. Outro ponto a
ser considerado é o uso de redes neurais em substituição dos algoritmos de classificação
numérica. Através do uso das redes neurais, pode-se trabalhar melhor a imperfeição
ocorrida na coleta das métricas.
Não se está afirmando aqui que o sistema híbrido proposto nesta dissertação é melhor
ou pior do que os descritos em trabalhos anteriores. Esta afirmação não poderia ser feita
uma vez que os testes não foram realizados usando-se o mesmo número de padrões, as
mesmas faces, sob as mesmas condições de iluminação e resolução.
O que se quer mostrar é que o uso de uma heurística na determinação dos pontos a
serem medidos na face e a aplicação de métodos inteligentes na comparação dessas
medidas, geram bons índices de acerto no reconhecimento facial, como podem ser visto
se comparados apenas os índices de reconhecimento dos testes aqui apresentados com
os índices vistos em outros trabalhos.
O próximo tópico apresenta possíveis aplicações para este trabalho.
5.5. Aplicabilidade do Trabalho
Avaliando-se os resultados desta dissertação, conclui-se que é viável a implementação
de um sistema híbrido de reconhecimento automático de faces, se o mesmo for guiado
pela aplicação que se deseja.
Se a aplicação desejada for um sistema de controle de acesso, usando o reconhecimento
da faces, espera-se colaboração daqueles que vão utilizar tal sistema. Portanto
preocupações do tipo: posicionamento da face de forma correta em frente a câmera de
aquisição de imagens, expressão facial neutra apresentada pelo usuário no momento da
validação do acesso, presença ou ausência de adornos como óculos por exemplo, não
representam grandes problemas pois os usuários estarão cientes das exigências para o
perfeito funcionamento do sistema. Assim, as faces dificilmente estarão em uma
posição diferente da esperada, estando ainda a uma distância conhecida da câmera.
142
O ambiente de aquisição das imagens é perfeitamente controlável, no que se refere a
luminosidade, ou presença de objetos que possam ocultar partes de interesse da face a
ser analisada. Como o número de pessoas que terá acesso a um determinado local não
deve ser muito grande, um sistema com as características do sistema híbrido
apresentado nesta dissertação, atenderia às necessidades exigidas para o controle de
acesso a determinados ambientes.
Para o caso de reconhecimento de faces de criminosos, dentro de uma banco de fotos, as
características referentes ao posicionamento frontal da face, controle de iluminação e
"background" também atenderiam às necessidades de funcionamento do sistema
híbrido. Porém o grande número de faces presentes em um banco de fotos policial,
geralmente em torno de milhares, pode ser um elemento que dificultaria o
reconhecimento.
A melhor estratégia para este caso, seria uma estratificação das faces em número maior
de classes que o apresentado nesta dissertação. Dessa forma, diminuir-se- ia o número de
elementos presentes em cada classe de faces. Para o caso onde a rede não consiga
determinar exatamente a face procurada, ela poderá apontar a face que mais se
assemelha ao objetivo, segundo as métricas avaliadas.
Além das aplicações citadas acima, que podem ser satisfeitas pelo sistema híbrido, ainda
é possível utilizá- lo como apoio para outros sistemas de reconhecimento facial, fazendo
com que ele gere um parecer paralelo e depois se compare os dois resultados obtidos.
Em caso de duplo positivo, isto é, ambos os sistemas reconheceram a face, uma dada
ação poderia ser executada. Caso pelo menos um dos sistemas apresentasse resposta
divergente, uma nova verificação poderia ser exigida, ou então uma intervenção humana
solicitada. E em caso de duplo negativo, a ação correspondente ao "não
reconhecimento" seria disparada.
O sistema aqui proposto pode ainda ser adaptado para determinação de sexo, raça,
auxílio em análises faciais buscando por problemas de assimetria facial, auxílio a
ortodontia entre outras aplicações.
143
CAPÍTULO 6
CONCLUSÕES E PERSPECTIVAS
PARA TRABALHOS FUTUROS
Esta dissertação apresenta um protótipo de avaliação para a construção de um sistema
híbrido inteligente, direcionado ao reconhecimento de faces. Tal sistema procura
mesclar as características locais e globais da face, usadas nos métodos geométricos, com
a capacidade de generalização e robustez à falhas, observadas nos métodos inteligentes
baseados em redes neurais artificiais.
A aplicação dos métodos geométricos ao reconhecimento facial teve início na década de
60. Eram usadas medidas de componentes e regiões da face, coletadas manualmente,
para formar um vetor de medidas características que representaria cada padrão de forma
única. A escolha das características a serem medidas era feita de forma subjetiva, não
havendo nenhuma explicação lógica ou embasamento teórico para escolher este ou
aquele componente facial. Além disso, a comparação feita entre dois vetores,
verificando se tais representações faziam referência à mesma face, era feita através de
algoritmos de classificação numérica. Esta forma de comparação era altamente
suscetível a variações causadas por ruídos ou por imperícia no momento da coleta de
medidas.
Buscou-se neste trabalho, levantar embasamentos científicos para auxiliar na escolha
dos componentes a serem examinados na face. Observou-se também, quais medidas
deveriam ser consideradas para se realizar o reconhecimento facial. Estudos foram
realizados sobre a morfologia da face humana, buscando encontrar pontos de referência
que justificassem a escolha deste ou daquele componente, para se extrair as medidas
responsáveis por representar uma face de forma única.
Os fundamentos seguidos aqui para determinar os pontos de referência, componentes e
medidas faciais relevantes para o reconhecimento de faces foram encontrados em
estudos anatômicos da área de ortodontia, fonoaudiologia e reconstituição maxilo-facial.
144
Avaliando-se as referências destas ciências, descobriu-se que as faces podem ser
estratificadas em classes, de acordo com a determinação do seu índice facial. Este
índice, que é composto pela razão entre a altura facial e a distância bizigomática, pode
ser determinado sem dificuldades e de forma satisfatoriamente precisa em fotos de faces
frontais. Ainda nos estudos realizados sobre a anatomia facial, foram encontrados
pontos de referência sobre o esqueleto da face (denominados pontos craniométricos) e
relações entre estes pontos (denominadas medidas lineares). Estas relações são usadas
por profissionais de ortodontia e reconstituição maxilo-facial em exames, tratamentos e
cirurgias corretivas.
O uso destes pontos de referência durante os testes aqui realizados, bem como o uso das
medidas lineares estabelecidas entre eles, mostrou-se eficiente na formação de vetores
capazes de representar faces de forma única, possibilitando assim o seu reconhecimento.
Após este estudo, um dos problemas apontados originalmente para o uso dos métodos
geométricos (subjetividade na determinação de quais medidas devem ser usadas para
representar uma face) pôde ser resolvido. Adotou-se como referência, para a
determinação das medidas características de uma face, o uso dos pontos craniométricos
e das medidas lineares existentes entre eles. Todos os pontos de referência usados aqui
estão presentes em todas as faces humanas e são possíveis de serem determinados sem
maiores problemas.
O segundo problema, apontado em estudos anteriores sobre os métodos geométricos, foi
a vulnerabilidade a ruídos. Originalmente os métodos geométricos usavam algoritmos
de classificação numérica para a comparação entre 2 vetores, a fim de determinar se
ambos eram referentes à mesma face. Foi proposto nesta dissertação a substituição
desses algoritmos por métodos baseados em inteligência computacional.
Para tornar a tarefa de reconhecimento facial mais simples, este trabalho usou a
estratégia "dividir para conquistar". Tal estratégia prega a quebra de problemas grandes
e de difícil solução, em problemas menores que apresentem soluções mais
simplificadas.
145
Optou-se então por quebrar a tarefa de reconhecimento facial em 2 tarefas menores. A
primeira tarefa é verificar se uma determinada face é conhecida. Em caso positivo
inicia-se segunda tarefa, que é a procura (dentro do grupo de faces vistas na etapa de
treinamento) daquela face que mais se assemelha ao padrão analisado no momento.
Foram usadas redes neurais multicamadas, alimentadas adiante e treinadas por
retropropagação do erro, a fim de verificar se um padrão era conhecido ou não (etapa 1).
Usou-se também (etapa 2) outra rede com as mesmas características estruturais, um
número maior de entradas e de neurônios escondidos, para avaliar a similaridade entre
os padrões vistos na etapa de treinamento e o padrão avaliado naquele momento. Cada
uma das cinco classes de faces possui um par dedicado de redes (uma para a etapa 1 e
outra para a etapa 2). O uso da estratégia se mostrou eficaz pois foram obtidos bons
índices de acerto no reconhecimento facial.
A estratificação das faces em diferentes classes contendo padrões com características
semelhantes, antes de apresentá-las às redes neurais, foi importante para otimizar o
aprendizado dessas redes. Foi observado, durante a etapa de testes, que antes de usar a
estratificação em classes, um determinado número de faces era aprendido pela rede sem
maiores problemas. Alterando-se os padrões para um segundo grupo, com o mesmo
número de elementos, a rede apresentava dificuldades em aprendê- los. Mais tarde,
descobriu-se que essa dificuldade estava diretamente ligada às características de faces
pertencentes a classes extremas. Durante a etapa de treinamento, os ajustes feitos para
satisfazer o aprendizado de um determinado padrão de uma classe entravam em
contradição com os ajustes nos pesos para atender o padrão da outra classe. Esta
situação levava a rede a não convergência.
Analisando os testes realizados, pode-se perceber que o emprego de um sistema híbrido
que combina características de métodos geométricos e características de inteligência
computacional, é perfeitamente viável para a tarefa de reconhecimento facial.
Foram alcançados índices de acerto acima de 95% para as redes da etapa 1, avaliando-se
padrões vistos na fase de treinamento acrescidos de ruídos. E foram alcançados índices
de acerto superiores a 85%, quando apresentados padrões que não estava m presentes na
146
fase de treinamento. As redes da etapa 2 de reconhecimento obtiveram acertos
superiores a 97%.
Observou-se durante os testes a influência sofrida por algumas regiões da face a
variações estéticas como cortes de cabelo, presença ou ausência de barba, bigode e
cavanhaque. As regiões mais afetadas por estas variações foram as relações faciais que
envolviam o 1º terço facial (T1), o 3º terço facial (T3) e a altura da face (FY).
Em presença de certos adornos (barba e cavanhaque) ou penteados (com franjas
cobrindo a testa) percebeu-se uma grande dificuldade para a determinação exata dessas
medidas, principalmente na determinação de T1. Foram feitos testes sem o uso de
relações métricas que contivessem essas 3 medidas, e foi possível realizar o
reconhecimento da etapa1 sem problemas. A medida FY foi usada apenas para a
determinação do índice facial, no caso desse teste.
No decorrer dos testes foi possível também perceber que a etapa que deve ser tratada
com mais cuidado é a etapa 1. Nela devem ser usadas as relações que apresentaram
maior poder de diferenciação entre faces, a fim de garantir uma sinalização precisa
sobre a face ser "conhecida" ou "não-conhecida".
O estudo do poder de discernimento de uma relação métrica entre duas medidas pode
ser feita através de uma avaliação gráfica, como foi mostrado no capítulo 4 desta
dissertação. Através da variação apresentada por uma relação métrica entre uma face e
outra, pode-se ter a noção se ela tem um alto poder de diferenciação (quando há
oscilação significativa de face para face) ou não (quando a trajetória da linha
permanecer aproximadamente constante variando-se de face para face).
Avaliando-se a etapa 2 do reconhecimento, observa-se que ela funciona como um ajuste
fino para encontrar um determinado padrão dentro de um conjunto de padrões com
características próximas. Como as características não são exatamente as mesmas, a
tarefa de mapeamento de um padrão em um dos outros padrões do conjunto não se
mostra muito complexa para um número não muito grande de elementos. Para um
147
número maior de elementos do conjunto a idéia de não complexidade se mantém, desde
que existam variações suficientes entre os valores que compõem os padrões.
Deve-se estar atendo ao número de entradas a serem usadas para representar cada face
na etapa 2. Pode-se conseguir um bom índice de acerto usando um número pequeno de
entradas, mas a robustez a ruídos pode ficar comprometida com a redução dos padrões
de desempate.
Ainda com relação à composição dos vetores que representam as faces, o uso das
relações métricas entre medidas de componentes e regiões da face, ao invés do uso das
medidas puras, se mostrou muito útil para eliminar variações que podem existir entre a
distância da face e da câmera no momento da foto. Além disso, cria-se a oportunidade
de aumentar o número de possíveis componentes do vetor que representa a face.
Por fim, podem ser citados como contribuição oferecida por este trabalho os seguintes
tópicos:
• Uso de pontos de referência anatômicos e suas relações na criação de
uma representação facial aplicável à tarefa de reconhecimento;
• Avaliação na substituição de algoritmos numéricos por métodos
inteligentes na tarefa de comparação entre vetores contendo métricas
faciais;
• Avaliação da estratificação de um conjunto de faces em classes menores
antes de iniciar as etapas de treinamento e também na etapa do
reconhecimento facial propriamente dito;
• Avaliação e alertas sobre regiões da face que devem ser evitadas, dentro
do possível, para se representar uma face (devido a suscetibilidade a
variações estéticas);
148
Os artigos publicados durante a confecção deste trabalho estão citados nas referências
bibliográficas (Oliveira e Guimarães, 2001a) e (Oliveira e Guimarães, 2001b).
Perspectivas para trabalhos futuros
Inicialmente deve-se realizar um estudo das melhorias que seriam agregadas ao sistema,
se juntamente com as fotos frontais fossem analisadas também as fotos perfiladas dos
modelos. De posse dessas informações, seria possível também fazer uso de outras
distâncias e ângulos faciais usados pela ortodontia, aplicando-as ao reconhecimento
facial. Dessa forma o sistema híbrido poderia se tornar mais robusto a falhas.
Ainda com relação às métricas faciais, novas combinações poderiam ser testadas na
etapa 2. Deseja-se assim verificar outras medidas que também se mostrem aptas ao
"ajuste fino" do reconhecimento facial feito por esta etapa.
Além desse estudo, outro ponto a ser desenvolvido é a extração automática das métricas
faciais. Dessa forma, seria possível ter a certeza que nenhum conhecimento implícito ao
operador que extrai as métricas está sendo usado na coleta. Uma sugestão para essa
extração automática é a divisão da tela em regiões onde espera-se que estejam presentes
os componentes a serem medidos. A partir dessa divisão, seguida de seguimentações e
filtragens em cada uma das regiões definidas a fim de realçar as características
desejadas, seriam determinados os pontos de interesse e as respectivas medidas entre
eles.
149
REFERÊNCIAS BIBLIOGRÁFICAS
Adhiwiyogo, M., Chong, S., Huang, J., Teo, W.. Fingerprint Recognition [on line]
http://www.andrew.cmu.edu/~jchuang/551/final/fnalreport.html, 1999.
Angelo, N. P., Haertel, V.. Avaliação dos Parâmetros dos Filtros de Gabor na
Classificação Supervisionada de Imagens Digitais, Revista de Informática Teórica e
Aplicada, vol. 9, no 1, Ago. 2002.
Bartlett, M., Hager, J., Ekman, P., Sejnowski, T.. Measuring facial expressions by
computer analysis. Psychophysiology, 36:253-264, 1999.
Ben-Yacoub, S., Fasel, B., Luttin, J.. Fast face detection using MLP and FFT. In
Second International Conference on Audio and Video-Based Biometric Person
Authentication, p. 31-35, 1999.
Bianchini, E. M. G.. Articulação Temporomandibular – Implicações, Limitações e
Possibilidades Fonoaudiológicas, 1 ed, Pró-fono Departamento Editorial. 401 pág.,
2000.
Black, M. J., Yacoob, Y.. Tracking and recognizing rigid and non-rigid motions using
local parametric models of image motion. In Proc. Of International conference on
Computer Vision, pág. 374-381, 1995.
Bledsoe, W. W.. Man-machine facial recognition. Relatório técnico, Panoramic
Research Inc., Palo Alto, CA, 1966.
Bouattour, H., Soulié, F. F., Viennet, E.. Neural nets for human face recognition.
IJCNN92, III:700-704, 1992.
Bruce, V., Burton, A. M., Hanna, E., Healey, P., Mason, O.. Sex discrimination: how do
we tell the difference between male and female faces. Perception, 22:131-152, 1993.
150
Bruce, V., Humphreys, G. W.. Recognizing objects and faces. Visual Cognition, pág.
141-180,1994.
Brunelli, R., Poggio, T.. Face recognition: Features versus templates. Relatório técnico,
I.R.S.T., 1991.
Burton, A. M., Bruce, V., Dench, N.. What's the difference between men and women?
Evidence from facial measurement. Perception, 22:153-176, 1993.
Carpenter, G. A., Grossberg, S.. A massively parallel architecture for a self organizing
neural pattern recognition machine. Comput. Vision Graphics Image Process. 37:54-
115, 1987a.
Carpenter, G. A., Grossberg, S.. ART2: Self-organization of stable category recognition
codes for analog input patterns. Appl. Opt. 26:4919-4930, 1987b.
Carpenter, G. A., Grossberg, S.. The ART of adaptative pattern recognition by a self-
organization neural network. Computer 21(3):77-88, 1988.
Carpenter, G. A., Grossberg, S.. ART3: Hierarchical search using chemicla transmitters
in self-organizing pattern recognition architectures. Neural Networks 3(2):129-152,
1990.
Chan, H., Bledsoe, W. W.. A man-machine facial recognition: some preliminary results.
Relatório técnico, Panoramic Research Inc., Palo Alto, CA, 1965.
Chiche, G. I., Pinault, A.. Princípios Científicos e Artísticos aplicados à Odontologia
Estética, 1 ed, Quintessence Books. 201 pág., 1996.
Cohn, J. F., Zlochower, A. J., Lien, J., Kanade, T.. Automated face analysis by feature
point tracking has high concurrent validity with manual facs coding.
Psychophysiology, 36:35-43, 1999
Cottrell, G. W., Munro, P.. Principal component analysis of images via
backpropagation. Proc. Soc. of Photo-Optical Instr. Eng., 1988.
151
Daugman, J. G.. Complete Discrete 2-D Gabor Transforms by Neural Networks for
Image Analysis and Compression, IEEE Trans. on Acoustics, Speech, and Signal
Processing, vol. 36, no. 7, Jul. 1988.
DE Almeida, R. C., DE Almeida, M. H. C.. A Assimetria Facial no Exame Clínico
Frontal da Face, Revis ta da Sociedade Paulista de Ortodontia – Revista Ortodontia,
vol. 32, no. 2, pp.82 – 86, 1999.
DE Felício, C. M.. Fonoaudiologia Aplicada a Casos Odontológicos – Motricidade Oral
e Audiologia, 1 ed, Pancast Editora Com. e Representações LTDA. 243 pág., 1999.
Donato, G., Bartle, M. S., Hager, J. C., Ekman, P., Sejnowski, T.. Classifying facial
actions. IEEE Trasaction on Pattern Analysis and Machine Intelligence, 21(10):974-
989, Oct 1999.
Epker, B. N., Fish, L.. Evaluation and Treatment Planning. Dentofacial Deformities . v.
1, p. 9, 1986.
Fu, K. S., Gonzales, R., Lee, C.. Robotics: Control, Sensing, Vision and Intelligence.
McGraw-Hill, 1987.
Fukui, K., Yamaguchi, O.. Facial feature point extraction method based on combination
of shape extraction and pattern machine. System and Computers in Japan, 29(6):49-
58, 1998.
Goldstein, H., Lesk.. Identification of human faces. Proceedings IEEE, 59:748, 1971.
Gonzalez, R. C., Winitz, P.. Digital Image Processing. Addison- Wesley Publishing
Company, 1992.
Graziani, M.. Cirurgia Buco-Maxilo-Facial, 7 ed., Guanabara Koogan, 717 pág., 1986.
Han, C. C., Liao, H. Y. M. G., Yu, K. C., Chen, L. H.. Fast face detection via
morphologybased pre-processing. Taipei / Taiwan: Academia Sinica, 1997. 21p.
(TR-IIS-97-001).
152
Haykin, S.. Redes Neurais – princípios e prática, 2 ed., Brookman, 900 pág., 2001.
Hertz, J., Krogh, A., Palmer, R. G.. Introduction to the Theory of Neural Computation,
volume 1 de Computation and neural system series. Allan M. Wylde, 1991.
Kalocsai, P. Malsburg, C. von der and Horn, J.. Face recognition by statistical analysis
of feature detectors. Image And Vision Computing, 18(4):273-278, March 2000.
Kanade, T.. Picture Processing System by Computer Complex and Recognition of
Human Faces. Tese de Doutorado, Dept. of Information Science, Kyoto University,
1973.
Lades, M., Vorbruggen, J.C., Buhmann, J., Lange, J., Malsburg, C. v. d., Wurtz, R. P.,
Konen, W.. Distortion Invariant Object Recognition in the Dynamik Link
Architecture. IEEE Transactions on Computers, vol.42, no.3, p. 300-311, Mar. 1993.
Lampinen, J.; Oja, E.. Distortion tolerant pattern recognition based on self-organizing
feature extraction, IEEE Transactions on Neural Networks, 1995.
Lien, J., Kanade T., Cohn, J. F., Li, C. C.. Detection, tracking, and classification of
action units in facial expression. Journal of Robotics and Autonomous System,
31:131-146, 2000.
Lin, C. T.; Lee, C. S. G.. Neural Fuzzy Systems – A Neuro-Fuzzy Synergism to
Intelligent Systems. New Jersey: Prantice Hall, 797 pág., 1996.
Lyons, M. J., Akamatsu, S., Kamachi, M., Gyoba, J.. Coding Facial Expressions with
Gabor Wavelets, Proceedings, 3rd IEEE International Conference on Automatic Face
and Gesture Recognition, pp. 200-205, Apr. 1998.
Lyons, M. J., Budynek, J., Plante, A., Akamatsu, S.. Classifying Facial Attributes Using
a 2-D Gabor Wavelet Representation and Discriminant Analysis, Proceedings, 4th
International Conference on Automatic Face and Gesture Recognition. 28-30 March,
2000, Grenoble France, IEEE Computer Society, pp. 202-207.
153
Maio, D., Maltoni, D., Rizzi, S.. Topological Clustering Of Maps Using A Genetic
Algorithm. Pattern Recognition Letters, vol. 16, no. 1, pp. 89-96, 1995.
Manjunath, B. S.. Perceptual Grouping and Segmentation Using Neural Networks,
Signal and Image Processing Institute, University og Southern California, 119 pág.,
Dez. 1991.
Manjunath, B. S., Chellappa, R., Malsburg, C. v. d.. A feature based approach to face
recognition. California: Computer Vision Laboratory, Center for Automation
Research , Univ. of Maryland., Janeiro 1992. 35p. (CAR-TR-604 and CS-TR-2834)
Maren, A., Harston, C., Pap, R.. Handbook of Neural Computing Applications.
Academic Press, Inc. San Diego, 1990. 450p.
Marr, D.. Vision. W. H. Freeman & Company, New York, 1982.
McMinn, R. M. H., Hutchings, R. T., Logan, B. M.. Atlas Colorido de Anatomia da
Cabeça e Pescoço, 2 ed., Editora Artes Médicas LTDA, 247 pág., 2000.
Oliveira, D. R., Guimarães, L. N. F.. Sistema Híbrido Inteligente Aplicado ao
Reconhecimento de Faces, Simpósio de Ciências Exatas e da Terra, UNIVAP, São José
dos Campos – SP, 2001a. (painel).
Oliveira, D. R., Guimarães, L. N. F.. Sistema Híbrido Inteligente Aplicado ao
Reconhecimento de Faces, I Workshop de Computação Aplicada (I WORCAP), INPE,
São José dos Campos – SP, 2001b. (painel).
Oliveira, Y. G.. Implemantação de um reconhecedor neural de faces. Projeto Orientado
em Ciência da Computação, 1994.
Oliveira, C., Silva, F., Oliveira, T.. Processamento de Língua Natural: Uma Abordagem
Simbólica ou Conexionista? São José dos Campos: Instituto Nacional de Pesquisas
Espaciais, 1996. 50p. (INPE-5971-PRP/194).
154
Oliveira, Y. G.. Classificação de Metodologias para Reconhecimento Automático de
Faces Humanas. Dissertação de Mestrado, Universidade Federal de Minas Gerais,
1997.
Pedroza, L. C. C., Pedreira, C. E.. Uma Nova Metodologia para Treinamento em Redes
Neurais Multicamadas, vol. 11 no. 1, pp. 49-54, 2000.
Petrelli, E.. Ortodontia Contemporânea, 2 ed., Sarvier, 370 pág., 1993.
Pham, D., Liu, X.. Neural Networks for Identification, Prediction and Control. Springer-
Verlag, 1995, 238p.
Plunkett, K. Elman, J. L.. Exercises in Rethinking Innateness – A Handbook for
Connectionist Simulations, 3 ed., MIT Press/Bradford Books, 313 pág., 1997.
Polikar, R. The Wavelet Tutorial, [on line] <http://www.public.iastate.edu/
%7erpolikar/WAVELETS/WTtutorial.html>, 1995.
Porat, M., Zeevi, Y.. The Generalized Gabor Scheme of Image Representation in
Biological and Machine Vision, IEEE, 1988.
Proffit , W. R.. Diagnóstico e Planejamento de Tratamento. Ortodontia Contemporânea.
p.138, 1991.
Randall S. S., Jatinder N. D. G.. Comparative evaluation of genetic algorithm and
backpropagation for training neural networks, Information Sciences, 2000.
Rempel, E. L.. Reconhecimento de Padrões Invariantes a Rotação Utilizando uma Rede
Morfológica Não-Supervisionada. São José dos Campos: Instituto Nacional de
Pesquisas Espaciais, 2000. 81p. (INPE-7994-TDI/748).
Rowley, H. A., Baluja, S., Kanade, T. Human face detection in visual scenes. Pittsburg:
Carnegie Mellon University, November 1995. 24p. (CMU-CS-95-158R).
Rowley, A. H., Baluja, S., Kanade, T.. Rotation Invariant Neural Netwoar-Based Face
Detection. Technical Report. CMU-CS-97-201, Carnegie Mellon University, 1997.
155
Senna, A. L.. Previsão de qualidade de aglomerados de finos de minério utilizando
redes neurais. Dissertação de Mestrado, Universidade Federal de Minas Gerais, 1996.
Shioyama, T., Wu, H. Mitani, S.. Segmentation with Gabor Filters and Cumulative
Histograms, IEEE, 1999.
Sinha, P.. Object Recognition via Image Invariants: A Case Study. In Investigative
Ophthalmology and Visual Science, vol 35, pp. 1735-1740, May, 1994.
Suguino, R., Ramos, A. L., Tereda, H. H., Furquin, L.Z., Maeda, L., DA Silva Filho, O.
G.. Análise Facial. Revista Dental Press de Ortodontia e Ortopedia Maxilar, vol. 1,
no. 1, pp. 86-107, 1996.
Sung, K.K., Poggio, T.. Example-based Learning for View-based Human Face
Detection. Massachusetts: Massachusetts Institute of Technology, December 1994.
20p. (AIM-1521/C.B.C.L. No 112).
Tian, Y., Kanade, T., Cohn, J.. Recognizing upper face actions for facial expressions
analysis. In Proceedings Of CVPR'2000, pág. 294-301, 2000a.
Tian, Y., Kanade, T., Cohn, J.. Recognizing lower face actions for facial expression
analysis. In Proceedings Of International Conference on Face and Gesture
Recognition, pág. 484-490, Mar. 2000b.
Tian, Y., Kanade, T., Cohn, J. F.. Recognizing Facial Actions by Combining Geometric
Features and Regional Appearance Patterns. Pittsburg: Carnegie Mellon University,
January 2001. 31p. (CMU-RI-TR-01-01).
Viazis, A.D.. Avaliação do Tecido Mole. Atlas de Ortodontia. Princípios e Aplicações
Clínicas. p. 49, 1996.
Wasserman, P.. Neural Computing – Theory and Pratice. Van Nostrand Reinhold. New
York, 1989. 230p.
156
Wiskott, L., Fellous, J.-M.; Kruger, N., Malsburg, C.von.der.. Face recognition by
elastic bunch graph matching. Germany: Institut fur Neuroinformatik, Ruhr-
Universitat Bochum. 1996. 23p. (IR-INI 96-08 / D44780).
Yuille, A., Halliman, P., Cohen, D.. Feature Extraction from Faces using Deformable
Templates. International Journal of Computer Vision, 8 (2): 99-111,1992.
Zurada, J. M.. Introduction to Artificial Neural Systems. St Paul, USA, 1992.
Zhang, Z., Lyons, M., Schuster, M., Akamatsu, S.. Comparison Between Geometric-
Based and Gabor-Wavelets-Based Facial Expression Recognition Using Multi-Layer
Percetron. Proceedings, 3rd IEEE International Conference on Automatic Face and
Gesture Recognition, April 1998, Nara Japan, p. 454-459.
157
APÊNDICE A
O T-learn foi escolhido para ser o simulador neural desta dissertação por ser fácil de
usar e flexível a alterações rápidas de estrutura e parametrização. Além disso, ele possui
uma gama de ferramentas úteis à avaliação e análise das arquiteturas de rede neurais
implementadas.
O simulador de redes neurais T- learn foi programado para ser compatível com diversas
plataformas incluindo Macintoshes, Windows e muitas máquinas UNIX que executam o
X-windows. O T- learn pode ser adquirido via ftp (File Transmission Protocol) anônimo
no endereço: ftp.psych.ox.ac.uk ou pelo endereço http://crl.ucsd.edu/innate.
A seguir será descrito, de forma sucinta, o funcionamento básico do T- learn e de alguns
de seus recursos.
Para iniciar o processo de construção de uma nova rede neural usando o T- learn,
seleciona-se o item “Network” na barra de menu, como mostrado na Figura A1:
FIGURA A1 – Iniciando novo projeto de rede neural.
Após escolher o nome do projeto e a pasta onde deseja armazená- lo, 3 arquivos serão
criados pelo T- learn para gerenciar o projeto. Para ilustrar o processo de criação de uma
158
rede neural com o T- learn, será criada aqui uma rede capaz de solucionar o problema da
porta lógica XOR.
Portanto, após escolher o nome XOR para o projeto, 3 arquivos com o mesmo
nome são automaticamente criados, cada qual com sua função e extensão específica,
como mostrado na Figura A2.
FIGURA A.2 – Projeto XOR com as respectivas janelas de configuração.
Cada janela será usada para a entrada de informações relevantes a diferentes aspectos da
arquitetura da rede e ambiente de treinamento.
A janela referente ao arquivo XOR.cf é usada para definir o número de nodos da rede e
os padrões iniciais de conexão entre estes nodos antes do início do treinamento.
A janela do arquivo XOR.data define quantos são os padrões de entrada da rede, e o
formato através do qual eles estão representados no arquivo.
Por fim, a janela referente ao arquivo XOR.teach define os padrões esperados na saída
da rede, detalhando quantos são estes padrões, e o formato que eles estão representados.
Por convenção, o T- learn necessita que qualquer projeto de simulação possua os 3
arquivos listados anteriormente. Ele espera ainda que estes arquivos possuam as
extensões .cf, .data e .teach. Todos os arquivos pertencentes a um mesmo projeto devem
ter o mesmo nome. As informações do projeto são armazenadas em um arquivo especial
sem extensão criado no momento da escolha do nome do projeto. No caso do exemplo
aqui apresentado, foi criado automaticamente o arquivo XOR. Este arquivo identifica o
projeto e faz a ligação com os outros 3 arquivos específicos para cada função. Para abrir
159
um projeto já existente no T-learn, deve-se abrir este arquivo principal no menu
“Network”, opção “Open Project”, e ele se encarrega de abrir os demais arquivos
específicos (.cf, .data e . teach).
O T-learn é sensível a letras maiúsculas e minúsculas, além de espaços em branco.
Portanto, deve-se estar atento na digitação dos comandos específicos de cada uma das
janelas descritos a seguir.
O arquivo XOR.cf contém 3 sessões:
• A sessão NODES especifica o número total de unidades da rede e
identifica quais nodos executam o papel de entrada e saída da rede.
• A sessão CONNECTIONS especifica como as unidades são
interconectadas.
• A sessão SPECIAL fornece informações que determinam o valor inicial
das conexões e especifica as unidades cujos valores de ativação estão
disponíveis para inspeção.
O arquivo XOR.cf deve ter o conteúdo mostrado na Figura A3.
FIGURA A.3 – Conteúdo do arquivo XOR.cf.
Note que as sessões são delimitadas, sendo escritas em letras maiúsculas e seguidas de
dois pontos “:”. As instruções têm as seguintes funções:
160
“NODES:” define o início do bloco de nodos;
“nodes = 3” define quantos nodos farão parte da rede; “inputs = 2” define o número de entradas da rede; “outputs = 1” define quantos serão os neurônios de saída da rede; “output node is 3” define qual dos neurônios será a saída da rede; “CONNECTIONS:” define o início da sessão que estabelece as conexões entre
nodos; “groups = 0” diz ao T-learn quantos grupos de conexões são restritos a ter o
mesmo valor. Na rede atual, não há nenhuma restrição, portanto define-se que ‘groups = 0’;
“1-2 from i1- i2” define que os neurônios 1 e 2 recebem entradas de i1 e i2; “3 from 1-2” define que o neurônio 3 recebe as saídas dos neurônios 1 e 2 como
entradas; “1-3 from 0” define que os 3 neurônios da rede recebem entradas de um ‘bias’; “SPECIAL:” define o início de uma nova sessão; “selected = 1-3” diz ao T-learn quais unidades estão sendo selecionadas para
impressão especial; “weight-limit = 1.00” define que o intervalo de inicialização dos pesos deve
estar enter 0 e 1. O arquivo XOR.data define os padrões de entrada que serão apresentados ao T-
learn. A entrada dos dados deve ser feita como mostrado na Figura A.4.
FIGURA A.4 – Conteúdo do arquivo XOR.data.
A primeira linha desse arquivo deve ser o comando “distributed”. A linha seguinte
define o número de padrões que devem ser apresentados à rede em i1 e i2, já citados no
arquivo “XOR.cf”.
161
O arquivo XOR.teach é mostrado na Figura A.5. A primeira linha de arquivo segue o
mesmo padrão descrito no arquivo “XOR.data”. A linha seguinte determina a
quantidade de padrões de saída para as respectivas entradas apresentadas no arquivo
“XOR.data”. A cada uma das linhas do arquivo XOR.teach, está relacionada a entrada
presente no arquivo “XOR.data”. Então, para o padrão de entrada “0 0”, espera-se a
saída “0” e assim por diante.
FIGURA A.5 – Conteúdo do arquivo XOR.data.
Desta forma, termina-se a etapa de parametrização da rede. Pode-se verificar a
arquitetura rede criada usando-se o menu “Displays” e escolhendo a opção “Network
Architecture”.
Para a rede construída no exemplo citado aqui, tem-se a arquitetura ilustrada na Figura
A.6.
162
FIGURA A.6 – Arquitetura da rede criada.
Após a definição da estrutura, conexões, padrões de entrada e saídas desejadas, é
necessário definir os parâmetros de treinamento. Isso é feito através do menu
“Networks”, escolhendo-se a opção: “Training options”. A tela de configuração dos
parâmetros de treinamento é mostrada na Figura A.7.
FIGURA A.7 – Janela de parâmetros de treinamento da rede.
163
Através desta tela é possível se configurar os parâmetros de treinamento da rede, tais
como número de épocas, valor do ‘bias’, taxa de aprendizado, momentum, erro médio
quadrático aceitável, etc.
Feitas as devidas configurações, para efetuar o treinamento da rede, através do menu
“Network”, escolhe-se a opção “Train the network”.
Para acompanhar o gráfico de evolução do erro durante o treinamento, seleciona-se
através do menu “Displays”, a opção “Error display”. O gráfico resultante é mostrado
na Figura A.8.
FIGURA A.8 – Gráfico de evolução do erro médio quadrático. A verificação do real aprendizado da rede é feita através do menu “Networks”
escolhendo-se a opção “Verify network has learned”. Nesse momento, são novamente
apresentados à rede os padrões usados no treinamento e são avaliados os valores de
saída apresentados pela rede.
Para o exemplo aqui mostrado, os valores de saída obtidos após 4000 iterações com os
parâmetros usados no treinamento foram:
164
Output activations using XOR-4000.wts and XOR.data (Training Set) 0.023 0.976 0.976 0.030
As saídas mostram que a rede realmente aprendeu os padrões apresentados.
Para a apresentação de padrões que não estavam presentes no treinamento da rede,
formando um conjunto de validação de dados, basta criar um novo arquivo
“novels.data” através do menu “File” opção “New”. Nesse arquivo, seguindo os
mesmos padrões do arquivo “.data”, entra-se com os novos valores. No menu
“Networks”, opção “Testing options” deve-se alterar a opção “Testing set” para “Novel
data” e colocar na caixa de texto ao lado, o nome do arquivo de testes (novels.data aqui
descrito).
Feito isso, para submeter os novos padrões à rede, basta acessar o menu “Networks” e
escolher a opção “Verify network has learned”. O novo conjunto de padrões será
submetido à rede e serão apresentadas as respostas da rede a esses padrões.
O T- learn oferece muitos outros recursos, como análise de componentes principais,
análise de ‘clusters’, verificação gráfica da ativação dos nodos sob a presença dos
padrões de ent rada entre outras ferramentas de análise.
Maiores detalhes do funcionamento e recursos do T- learn podem ser encontrados no
endereço: http://crl.ucsd.edu/innate ou no livro “Exercises in Rethinking Innateness – a
Handbook for Connectionist Simulations”, presente nas referências bibliográficas desta
dissertação.