114
Agrafo Agrupador Automático de Fotografias Digitais João Pedro António Mota Dissertação para obtenção do Grau de Mestre em Engenharia Informática e de Computadores Júri Presidente: Professor Doutor Joaquim Armando Pires Jorge Orientador: Professor Doutor Manuel João Caneira Monteiro da Fonseca Vogais: Professor Doutor Daniel Jorge Viegas Gonçalves Professor Doutor Luis Manuel Pinto da Rocha Afonso Carrico Setembro 2008

Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

Agrafo Agrupador Automático de Fotografias Digitais

João Pedro António Mota

Dissertação para obtenção do Grau de Mestre em

Engenharia Informática e de Computadores

Júri Presidente: Professor Doutor Joaquim Armando Pires Jorge Orientador: Professor Doutor Manuel João Caneira Monteiro da Fonseca Vogais: Professor Doutor Daniel Jorge Viegas Gonçalves Professor Doutor Luis Manuel Pinto da Rocha Afonso Carrico

Setembro 2008

Page 2: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

1

Page 3: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

2

Abstract

With the fast growth in the number of digital photo cameras, the organization and management of thousands of pictures became a problem to professional and amateur photographers. Here in Agrafo, we use a different approach to automate these processes. To that end, we used several photo features: semantic, meta-data, and low-level features (color, texture, shape).

While most relevant studies, use only a short group of features (time information and user manual inserted information), in our solution we use a bigger number of features. This way we enrich the feature vector of each photo and increase the flexibility of the automated photo grouping process.

Using the three kinds of features mentioned before, this work extracts different independent feature vectors to describe each characteristic. Next, our solution combines these descriptors to obtain a measure of distance between photos. That distance will be then used to create the groups of our photo collection.

In Agrafo the user also has the possibility to interactively choose the grouping features and the way they will be combined. That possibility helps the user to achieve a clustering that corresponds to his needs. To complement the automatic grouping mechanism we also developed a visual interface, which turns the process enjoyable and easier.

Experimental tests with Agrafo reveal good results. The functionalities offered by Agrafo give a great improvement in organization and selection of photos. The user’s satisfaction observed during the photo management and during the tests, let us conclude that our system is very useful. The high flexibility of grouping, possible mainly due to the high number of criterions has a big influence in the application usability. Another relevant aspect is the graphic component. Our simple, intuitive and attractive visual interface, enhance the usability of our solution to levels above applications like Picasa.

Keywords

Digital Photos Automatic grouping Feature Vectors Groups of Photos Interactive Grouping

Page 4: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

3

Resumo

Com a crescente popularidade das máquinas fotográficas digitais, a organização, gestão e agrupamento de milhares de fotografias tornou-se um problema enfrentado por fotógrafos profissionais e amadores. Nesta dissertação abordamos diversas estratégias e métodos utilizados na automatização desses processos, onde são consideradas várias características das fotografias digitais: informação semântica, meta-informação, e características de conteúdo ou características de baixo-nível (cor, textura, forma).

Enquanto, os estudos actualmente mais relevantes nesta área, apenas utilizam um conjunto limitado de características das fotografias digitais (informação temporal, informação introduzida pelos utilizadores), a nossa abordagem concilia um elevado número de características. Deste modo enriquecemos os descritores de cada fotografia digital, e consequentemente aumentamos a flexibilidade no mecanismo de agrupamento e organização fotográfica.

Utilizando os três tipos de características mencionados acima, este trabalho extrai diversos descritores independentes entre si, para descrever cada uma das características. Posteriormente, a nossa solução combina esses descritores de modo a obter uma medida de distância entre fotos, que utilizamos no processo de criação dos grupos da colecção fotográfica.

Outra das inovações propostas pelo nosso trabalho está na possibilidade do utilizador poder escolher de forma interactiva as características de agrupamento assim como a combinação das mesmas para obter a divisão desejada do conjunto de fotografias. Como complemento aos mecanismos de agrupamento automático desenvolvidos, também estudámos e desenvolvemos uma interface visual, que torna o processo de agrupamento mais aprazível e fácil.

Os testes realizados à solução desenvolvida revelam resultados animadores. Todos os recursos que a aplicação coloca à disposição do utilizador traduzem-se numa melhoria significativa na organização e selecção de fotografias representativas. Relativamente à satisfação dos utilizadores, demonstrada durante a realização das tarefas de gestão fotográfica, ela permite-nos concluir que se trata de um sistema de grande utilidade. A flexibilidade de agrupamento, possibilitada pela diversidade de critérios disponibilizados, tem grande peso na determinação da utilidade da aplicação. Outro aspecto em destaque é a componente gráfica. O conjunto de diversos critérios de agrupamento e a interface visual simples, e atraente, elevam a nossa solução a patamares de usabilidade superiores aos de aplicações como o Picasa.

Palavras Chave

Fotografias Digitais Agrupamento Automático Vectores de Características Grupos de Fotografias Agrupamento interactivo

Page 5: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

4

Agradecimentos

Em primeiro lugar gostaria de agradecer aos meus dois orientadores, o Prof. Manuel João Fonseca e o Prof. Daniel Gonçalves, por todos estes meses de apoio e paciência. Foram eles os responsáveis pelo sucesso deste trabalho. Sem as suas contribuições seria muito mais difícil o desenvolvimento e implementação da ideia que agora aqui descrevo.

Gostaria também de agradecer ao grupo de IMMI (Intelligent MultiModal Interfaces), pela ajuda que colocaram à minha disposição.

Tenho ainda a agradecer a todos aqueles que se dispuseram a ajudar-me na realização desta tese e nos testes à aplicação desenvolvida. Nesse conjunto de pessoas destaco o meu grupo de amigos intitulado “Spot”, aos quais agradeço a paciência.

Por fim dedico esta tese a todos os que me apoiaram na sua realização em particular a família que a vê como conclusão do curso ao qual me dediquei e se dedicaram ao longo estes últimos anos.

Lisboa, Setembro 2008

João Pedro António Mota

Page 6: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

5

Page 7: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

6

Conteúdo

Abstract ___________________________________________________ 2

Resumo ____________________________________________________ 3

Agradecimentos _____________________________________________ 4

Conteúdo __________________________________________________ 6

Lista de Figuras _____________________________________________ 9

Lista de Tabelas ____________________________________________ 12

1. Introdução _____________________________________________ 13

1.1 Problemas _________________________________________________________ 13

1.2 Objectivos _________________________________________________________ 14

1.3 Solução Desenvolvida ________________________________________________ 14

1.4 Resultados Atingidos ________________________________________________ 16

1.5 Estrutura da dissertação _____________________________________________ 16

2. Análise e Agrupamento de Fotografias Digitais _______________ 18

2.1 Agrupamento Baseado em Eventos, Data/Tempo _________________________ 18

2.2 Agrupamento Baseado em Anotações/Legendas __________________________ 24

2.3 Agrupamento por Conteúdo de Imagem ________________________________ 26

2.3.1 CBIR – Content Based Image Retrieval ________________________________________ 26

2.3.1.1 Cor_________________________________________________________________ 27

2.3.1.2 Textura _____________________________________________________________ 28

2.3.1.3 Formas _____________________________________________________________ 28

2.3.2 “Content Based Image Grouping” ____________________________________________ 29

2.4 Discussão __________________________________________________________ 31

3. Compreender as Tarefas Fotográficas ______________________ 35

4. Agrafo - Agrupamento Automático de Fotografias Digitais _____ 39

4.1 Sistema ___________________________________________________________ 39

4.1.1 Componentes _____________________________________________________________ 40

Data / Tempo _________________________________________________________________ 40

Faces ________________________________________________________________________ 40

Interiores / Exteriores _________________________________________________________ 40

Urbano / Natureza ____________________________________________________________ 40

Cor Global / Local ____________________________________________________________ 41

Texturas _____________________________________________________________________ 41

Page 8: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

7

4.1.2 Clustering ________________________________________________________________ 41

5. Agrupamento Baseado no Conteúdo ________________________ 43

5.1 Data / Tempo _____________________________________________________________ 43

5.2 Faces ___________________________________________________________________ 44

5.3 Interior / Exterior __________________________________________________________ 46

5.4 Urbano / Natureza _________________________________________________________ 48

5.5 Cor Global / Local _________________________________________________________ 51

5.6 Textura __________________________________________________________________ 52

5.7 Tags ____________________________________________________________________ 53

5.8 Persistência de dados _______________________________________________________ 53

5.9 Clustering _______________________________________________________________ 53

5.9.1 Algoritmos de clustering ____________________________________________________ 53

5.9.2 Algoritmo Utilizado________________________________________________________ 55

5.9.3 Matriz de Distâncias _______________________________________________________ 55

5.9.4 Agrupamento _____________________________________________________________ 57

5.10 Computação Paralela _______________________________________________________ 60

6. Interface _______________________________________________ 61

6.1 Estrutura __________________________________________________________ 61

6.2 Grupos ____________________________________________________________ 62

6.3 Fotos _____________________________________________________________ 65

6.3.1 Sequência Carrossel________________________________________________________ 66

6.3.2 Mesa ____________________________________________________________________ 67

6.3.3 Mesa em grelha ___________________________________________________________ 70

6.4 Interacções ________________________________________________________ 71

6.5 Critérios de agrupamento ____________________________________________ 72

6.6 Barra de Ferramentas _______________________________________________ 74

6.7 Limitações técnicas __________________________________________________ 74

7. Resultados Experimentais ________________________________ 76

7.1 Avaliação do nosso sistema ___________________________________________ 76

7.1.1 Avaliação Individual dos Critérios ____________________________________________ 77

7.1.2 Avaliação de Critérios Combinados ___________________________________________ 81

7.2 Testes com utilizadores ______________________________________________ 85

7.2.1 Teste ____________________________________________________________________ 85

7.2.2 Resultados _______________________________________________________________ 85

8. Conclusões e Trabalho Futuro _____________________________ 90

8.1 Sumário da dissertação ______________________________________________ 90

8.2 Conclusões finais e discussão __________________________________________ 91

8.2.1 Benefícios da solução ______________________________________________________ 91

8.2.2 Limitações _______________________________________________________________ 92

8.2.3 Contribuições para o trabalho ________________________________________________ 93

8.2.4 Contribuições _____________________________________________________________ 93

Page 9: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

8

8.3 Trabalho Futuro ____________________________________________________ 93

Bibliografia _______________________________________________ 95

ANEXOS ________________________________________________ 100

Inquérito (Análise de Tarefas) _______________________________ 101

Resultados dos inquéritos (Análise de Tarefas) _________________ 105

Questionário (Testes Usabilidade): ___________________________ 109

Page 10: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

9

Lista de Figuras

Figura 1 – Interface da aplicação proposta por Girgensohn e al, com a árvore de eventos bem demonstrada no lado esquerdo da figura. .................................................................................... 19

Figura 2 – Matriz de similaridade utilizada em [Cooper and Foote 2001] ................................. 19

Figura 3 – Interface da aplicação proposta por [Cooper 2005], que propõe melhorias à abordagem de [Girgensohn 03]. Neste screen shot podemos observar o utilizador a ajustar os resultados obtidos pela detecção automática de eventos. ............................................................ 21

Figura 4 – PhotoToc: aplicação proposta por [Platt 2003] .......................................................... 22

Figura 5 - Interface da proposta de agrupamento de [Loui e Savakis 2003]. Na primeira imagem é possível observar o conjunto de fotos a agrupar, e nas duas imagens seguintes encontramos os agrupamentos efectuados ao conjunto de fotografias, onde são detectados 2 eventos................ 23

Figura 6 – Interface da aplicação FotoFile. ................................................................................. 25

Figura 7 – MiAlbum: Interface da solução proposta por [Liu 2000a] ........................................ 26

Figura 8 – Interface de pesquisa de fotografias proposta por [Gargi 2003a] .............................. 30

Figura 9 – Interface do sistema de [Lu 2004] (em cima) e resultados do agrupamento efectuado pelo sistema (em baixo)............................................................................................................... 31

Figura 10 – Tipo de fotógrafos inquiridos: esporádico (apenas fotografa em ocasiões especiais, com fins de recordar o momento, ex: aniversários, casamentos, festividades); amador (fotografa por prazer, passatempo, gosto pela fotografia); profissional (fotografa com objectivos profissionais) ............................................................................................................................... 36

Figura 11 – Quantidade de fotos tiradas por evento. ................................................................... 36

Figura 12 – Quantidade de fotografias organizadas por sessão. ................................................. 37

Figura 13 – Tempo disponibilizado nas sessões de organização fotográfica (em minutos). ....... 37

Figura 14 – Arquitectura do sistema. .......................................................................................... 39

Figura 15 - Resultados de clustering por data e tempo de fotografias, com alteração do grau de semelhança entre fotos do mesmo grupo. Na primeira linha temporal, cada ponto representa uma fotografia. Com um grau de semelhança baixo o número de grupos criados tende a ser baixo ( b) ) . Se for seleccionado um grau de semelhança elevado o número de grupos criados aumenta também ( c) ). ................................................................................................................ 44

Figura 16 – Exemplo de detecção de faces realizada pela solução da Intel [Intel OpenCV]. ..... 45

Figura 17 – Relevância das faces presentes nas fotografias. Na foto da esquerda são detectadas três faces relevantes para o conteúdo das fotografias. Na foto da direita são detectadas duas faces com dimensão inferior a 1% da imagem, e consequentemente consideradas irrelevantes. 45

Page 11: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

10

Figura 18 – Processo de classificação de uma foto em foto de interior ou exterior (indoor/outdoor). ......................................................................................................................... 47

Figura 19 – Exemplos de fotografias urbanas e respectivos contornos. Nestes exemplos podemos observar grande coerência na direcção dos contornos, constituindo linhas rectas bem definidas. ..................................................................................................................................... 49

Figura 20 – Exemplos de fotografias que retratem a natureza. Ao contrário dos exemplos da Figura 19, neste caso os contornos demonstram grande variação da sua direcção. .................... 49

Figura 21 – Cálculo do bin do histograma correspondente a uma cor no espaço de cores HSV, com 256 (8 bits) valores por componente. .................................................................................. 51

Figura 22 – Conjunto de matrizes descritivas da distância entre N imagens. Cada matriz descreve a distância entre cada par de imagens, calculada em relação a uma determinada característica. Cada valor de distância é normalizado, compreendendo valores no intervalo [0 1]. A matriz final, contém a distância final entre cada par de imagens. ........................................... 56

Figura 23 – Algoritmo QTClust, aceita como entradas um conjunto de descritores e o limite máximo de diâmetro de clusters e retorna um conjunto de clusters. ........................................... 57

Figura 24 – Resultados de clustering por data e tempo de fotografias, com alteração de limite de raio máximo de cluster: a)grupo de fotografias original, b) raio = 0.6, identificados dois eventos; c) raio = 0.52, identificados três eventos; d) raio = 0.44, identificados 4 eventos. ..................... 59

Figura 25 – Interface do sistema Agrafo, onde é visível a divisão em duas principais áreas: no topo observamos a barra de grupos onde são visíveis os agrupamentos efectuados, em baixo e ocupando a maioria da área da janela encontramos a área de visualização de fotografias. ........ 61

Figura 26 – Barra de grupos. ....................................................................................................... 62

Figura 27 - Aqui poderão ser vistos dois exemplos de representação do mesmo grupo de fotografias. No exemplo à esquerda o grupo ainda não foi visualizado e no exemplo à direita a pilha representa o mesmo grupo, depois de ter sido visualizado. ............................................... 63

Figura 28 – Exemplo de arrastamento de um grupo/pilha para uma posição distinta na sequência de pilhas. ..................................................................................................................................... 64

Figura 29 - Acções disponíveis a todas as fotografias, qualquer que seja a perspectiva utilizada ..................................................................................................................................................... 66

Figura 30 – Perspectiva carrossel. ............................................................................................... 66

Figura 31 – Perspectiva Mesa. .................................................................................................... 68

Figura 32 – Selecção de múltiplas fotografias. ........................................................................... 69

Figura 33 – Perspectiva Mesa com fotos em grelha. ................................................................... 71

Figura 34 – Conjunto de fotos do grupo em visualização a serem arrastadas para um novo grupo. .......................................................................................................................................... 71

Figura 35 – Conjunto de fotos do grupo em visualização a serem arrastadas para outro grupo. 72

Page 12: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

11

Figura 36 - Interface de manipulação dos critérios de agrupamento ........................................... 72

Figura 37 – Barra de ferramentas da interface do “Agrafo” ........................................................ 74

Figura 38 – Exemplos de fotos mal classificadas. Fotos classificadas como não tendo faces. ... 78

Figura 39 – Exemplo de fotos mal classificadas. As 3 primeiras classificadas como fotos de interiores, e as restantes classificadas como exteriores. .............................................................. 79

Figura 40 – Exemplo de fotos classificadas como Natureza. Fotos de paisagens de cidades são frequentemente classificadas como Natureza devido À falta de contornos fortes. ..................... 80

Figura 41 – Resultados dos agrupamentos através da utilização individual dos critérios. .......... 81

Figura 42 - Precisão global dos agrupamentos através da utilização individual dos critérios de agrupamento. ............................................................................................................................... 81

Figura 43 – Resultados dos agrupamentos através da utilização combinada dos critérios. ........ 84

Figura 44 – Precisão globail dos agrupamentos através da utilização combinada dos critérios. 84

Figura 45 – No gráfico estão representados os valores do tempo utilizado na realização da tarefa pelos utilizadores em ambas as aplicações. ................................................................................. 86

Figura 46 – Classificação de cada aplicação referente à interacção com a mesma. .................... 87

Figura 47 – Características dos utilizadores que realizaram os testes de usabilidade. ................ 89

Page 13: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

12

Lista de Tabelas

Tabela 1 – trabalhos mais relevantes de agrupamento de imagens. ............................................ 32

Tabela 2 – Grupos resultantes do agrupamento através do critério Faces. ................................. 77

Tabela 3 - Grupos resultantes do agrupamento através do critério interiores/exteriores. ........... 78

Tabela 4 - Grupos resultantes do agrupamento através do critério Urbanas/Natureza. .............. 79

Tabela 5 – Resultados dos agrupamentos através da utilização individual dos critérios. ........... 80

Tabela 6 - Grupos resultantes da combinação dos critérios Interiores/Exteriores e Faces. ......... 82

Tabela 7 - Grupos resultantes da combinação dos critérios Urbanas/Natureza e Faces. ............. 83

Tabela 8- Resultados dos grupos resultantes da utilização combinada dos critérios de agrupamento ................................................................................................................................ 84

Tabela 9 – Conjunto de aspectos positivos e aspectos negativos apontados pelos utilizadores a cada uma das aplicações em estudo. Aspectos apresentados pela ordem de importância. .......... 87

Page 14: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

13

1. Introdução

O aparecimento de câmaras fotográficas digitais e a sua forte aceitação, permitiu aos adeptos da fotografia despreocuparem-se com os custos de revelação e consequentemente acumularem uma elevada quantidade de fotografias. Esta evolução tecnológica, ao provocar a mudança da imagem em papel para a imagem digital, originou alterações nas práticas dos utilizadores. Os reduzidos custos das fotografias digitais deixaram de limitar a liberdade para fotografar, desencadeando o crescimento das colecções fotográficas e uma crescente tendência para o aparecimento de fotografias muito similares, por vezes quase indiferenciáveis. Não só o utilizador passou a tirar mais fotografias, intensificando o aumento das imagens da sua colecção, como a partilha das mesmas passou a estar mais facilitada e a ser uma experiência mais global, como mostram alguns locais na Internet, como por exemplo o Flicker.

Ao longo deste capítulo apresentamos os problemas que estão na origem do nosso trabalho, assim como os seus objectivos. De seguida apresentamos resumidamente a solução desenvolvida e os resultados obtidos. Por fim sintetizamos o restante conteúdo da dissertação.

1.1 Problemas

Todas estas recentes alterações na actividade fotográfica, em particular o aumento drástico do número de fotografias, exigem novas ferramentas que ajudem o utilizador na organização, gestão e procura automática das mesmas. Foi nesse sentido que surgiu este trabalho, que tenta facilitar a organização de colecções fotográficas pessoais.

Embora, de acordo com Frohlich et al. [Frohlich 2002], sejam poucos os utilizadores que sistematicamente organizam as suas colecções fotográficas, é dessa organização que dependem as futuras actividades de gestão e pesquisa de fotos. O desenvolvimento de uma aplicação que agrupe essa diversidade de fotos, de maneira a gerar colecções organizadas leva-nos à necessidade de conhecer quais os factores de agrupamento mais relevantes.

O principal objectivo, quer dos sistemas analisados, quer do sistema proposto neste documento, é automatizar os processos de agrupamento de fotos, que até hoje são efectuados manualmente pelos utilizadores. Contudo, uma questão se levanta: “quais as práticas mais comuns na gestão e organização de fotografias?” A resposta a esta questão [Kirk 2006] [Frohlich 2002] [Rodden and Wood 2003] identifica as características de agrupamento de fotografias mais relevantes para o utilizador: o evento ou ocasião em que a foto foi realizada, semelhanças visuais e categorias ou temas abordados através das fotos.

Apesar de termos identificado os hábitos mais comuns dos utilizadores, outros problemas persistem. Cada utilizador tem costumes próprios na organização das suas fotos e cada foto simboliza um momento que poderá não ser descrito pela própria imagem ou informação a ela anexada. Por vezes o contexto e a situação em que foi tirada influência o método de organização no respectivo álbum, e é na identificação e descrição desse contexto que se situa a maior dificuldade.

A dificuldade em anotar todas as fotos, com todas as palavras-chave que descrevam todo o conteúdo e contexto da fotografia, origina colecções fotográficas onde a interpretação das fotografias é subjectiva, e a tarefa de organização e agrupamento torna-se mais difícil.

Page 15: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

14

Visto que a utilização de palavras-chave atribuídas às fotos não traduz o conceito de automatismo que pretendemos atribuir ao nosso sistema, outras formas de caracterização das fotos terão que ser utilizadas. A solução mais frequentemente utilizada é a utilização da informação temporal. A organização cronológica das fotos permite identificar diferentes eventos. Porém, para fotos sem informação temporal fiável, tal solução torna-se inútil. E será que o utilizador quer agrupar as fotos por eventos, ou prefere agrupar as fotos por similaridade ou qualquer outra informação que as contextualize? Toda essa informação contextual terá que ser considerada para obtenção de um sistema flexível às necessidades de agrupamento.

1.2 Objectivos

Como principal objectivo deste trabalho, pretende-se desenvolver uma solução que permita automatizar o agrupamento e organização de bibliotecas fotográficas domésticas. Uma vez que o número de fotografias disparou exponencialmente com a introdução do digital, a necessidade de ferramentas que auxiliem o utilizador na sua organização revelou-se indispensável. Como tal, o nosso trabalho pretende não só facilitar o processo de organização e gestão, como também torná-lo numa actividade agradável para o utilizador minimizando o tempo e esforço dispendidos.

Tendo como objectivo primário a organização automática de fotos, definimos como objectivo secundário o desenvolvimento de uma aplicação interactiva, com uma interface visual que permita tirar partido da solução obtida. Ao longo do desenvolvimento da nossa solução definimos também como objectivo, a implementação de uma solução que permita uma fácil introdução de novos mecanismos de análise da imagem, ou melhoramento dos que já existem. Deste modo facilitaremos futuros melhoramentos à aplicação, permitindo também o aumento dos critérios de agrupamento disponíveis.

Por fim, será nosso objectivo conseguir medidas de desempenho para podermos avaliar a eficácia e utilidade da solução desenvolvida. Pretendemos obter estas medidas através da realização de testes com potenciais utilizadores.

1.3 Solução Desenvolvida

Todo o trabalho desenvolvido e agora descrito nesta dissertação, traduz o esforço na obtenção de uma solução capaz de integrar várias das soluções abordadas por diversos sistemas de classificação e organização de fotografias digitais.

Nos diferentes sistemas de classificação e agrupamento de fotografias digitais analisados nesta dissertação, são abordadas diversas técnicas e métodos de processamento e extracção de características de imagens fotográficas. Porém, cada um desses sistemas apenas utiliza um número limitado de características para efectuar as respectivas classificações. A inovação que propomos com o nosso trabalho fundamenta-se na utilização de um maior número de vectores de características (feature vectors), tornando o processo de agrupamento mais flexível.

Nesta solução propomos o desenvolvimento de componentes capazes de analisar um conjunto de fotos e gerar estruturas de dados que reflictam a semelhança visual entre estas,

Page 16: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

15

tendo em conta determinados aspectos (por exemplo: cor, presenças de determinados objectos, formas, etc.).

No nosso trabalho, começámos por desenvolver sete componentes, para medir as semelhanças entre as fotografias:

1. Descritor data e tempo da realização da foto: Esta informação é gerada pelos dispositivos fotográficos e descreve a data e hora em que a fotografia foi tirada;

2. Detector de faces: Este descritor permite identificar as fotografias onde se encontram faces relevantes para o contexto da fotografia;

3. Diferenciador entre fotos de Interiores/Exteriores: Utilizando características de cor e textura, este componente tenta extrair um vector de valores que posteriormente, com o auxílio de um conjunto controlado de fotografias de treino, consiga classificar a foto numa destas duas categorias.

4. Diferenciador entre fotos urbanas/natureza: Tal como no diferenciador de fotos de interiores e fotos exteriores, voltamos a recorrer a dois conjuntos controlados de fotografias que nos permitem classificar a foto em análise num desses mesmos conjuntos. Porém neste caso as características extraídas e analisadas estão relacionadas com a presença de contornos fortes nas imagens fotográficas. Dado que, em ambientes urbanos, a presença de objectos e estruturas construídas por humanos apresentam um elevado número de arestas e segmentos de recta, a classificação de uma foto poderá ser realizada através da presença ou ausência dessas mesmas características.

5. Componentes de análise de Cores globais e Cores Locais: Do mesmo modo que as cores são analisadas em alguns dos componentes anteriores, a extracção de histogramas também é realizada. Através de dois tipos de histogramas, obtemos dois vectores distintos de classificação de uma foto. No primeiro a análise da cor presente nas fotografias é realizada globalmente, ou seja, o histograma obtido caracteriza a foto na sua totalidade. O segundo histograma faz uma análise local obtendo um histograma capaz de caracterizar a imagem localmente. Este refinamento na análise da cor permite-nos solucionar casos de imagens muito diferentes mas caracterizadas por histogramas globais muito semelhantes.

6. Texturas: A textura é mais uma característica da diversidade visual das imagens. Assim como a cor, a textura também nos permite obter valores que caracterizem uma imagem, e através desses valores obter dados que meçam o distanciamento entre fotografias.

Esta dissertação propõe um sistema onde seja possível a extracção de diversas características visuais e contextuais, e posteriormente o agrupamento de uma colecção fotográfica conforme as características analisadas. Mas a relevância desta ideia não está apenas na quantidade ou diversidade de características possíveis de serem analisadas em cada imagem. A originalidade e contribuição desta tese, dada a subjectividade presente na análise de fotografias, estão na concepção de uma ferramenta que permite ao utilizador combinar de forma interactiva o conjunto de características de modo a desencadear um agrupamento personalizado e adaptado aos seus interesses.

Page 17: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

16

1.4 Resultados Atingidos

Como primeiro resultado temos o protótipo desenvolvido e que implementa a solução descrita ao longo desta tese. O protótipo consiste numa aplicação a ser utilizada em computadores domésticos, permitindo aos utilizadores visualizar e organizar as suas fotos. Através do Agrafo,

é possível visualizar as fotos presentes em qualquer directoria seleccionada pelo utilizador, e consequentemente, organizar essas fotos de acordo com diferentes critérios também eles seleccionados pelo utilizador. A organização fotográfica é realizada através da divisão automática de grandes conjuntos de fotos, em conjuntos mais pequenos e constituídos por fotos que partilhem características semelhantes.

Os resultados obtidos pelos dois conjuntos de testes realizados ao protótipo desenvolvido são animadores. No primeiro conjunto de testes mostramos a funcionalidade do sistema, medindo valores de precisão superiores a 80% para cada critério de classificação aplicado individualmente. A precisão apenas baixou para níveis inferiores com a combinação desses mesmos critérios. Essa diminuição explica-se com a propagação dos erros de cada critério quando utilizados em modo combinado. No segundo grupo de testes, a avaliação da usabilidade do sistema através da comparação do mesmo com uma aplicação bastante conhecida e utilizada (Picasa do Google) permitiu-nos comprovar a usabilidade da nossa solução assim como a aceitação da mesma pelos utilizadores. Os testes realizados revelam diferentes abordagens à organização fotográfica, originadas pelas aplicações utilizadas. Para tarefas iguais, o método de realização das mesmas difere. Contudo, os utilizadores apontam a nossa solução como a mais completa, em relação aos mecanismos de agrupamento automático. O Agrafo é ainda apontado como a solução mais simples, de fácil utilização e visualmente agradável.

O trabalho aqui apresentado foi ainda proposto e posteriormente apresentado na conferência internacional AVI'08 (Advanced Visual Interfaces), a qual decorreu no final do mês de Maio de 2008 em Nápoles, Itália ([Agrafo 2008]).

1.5 Estrutura da dissertação

O resto desta dissertação encontra-se estruturado em 7 outros capítulos.

No capítulo 2 é realizada a análise dos trabalhos mais relevantes nesta área. Ao longo da análise aos trabalhos de investigação, faremos a correlação com os problemas que pretendemos solucionar de modo a irmos de encontro aos objectivos pretendidos nesta tese. Como complemento aos trabalhos desenvolvidos com o objectivo de agrupamento e organização de fotografias digitais, também iremos abordar a área de recuperação de imagens baseada no seu conteúdo (CBIR – Content Based Image Retrieval). Esta área, apesar de trabalhar na resolução de um problema distinto, contribui bastante no que se refere ao processamento e análise de imagem. No final deste capítulo apresentamos uma discussão geral dos trabalhos analisados bem como a influência dos mesmos no desenvolvimento da nossa solução.

O 3º capítulo é dedicado à análise dos hábitos dos utilizadores. Neste capítulo tentamos complementar algumas evidencias descritas em outros trabalhos. O capítulo descreve o trabalho

Page 18: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

17

que realizámos junto dos utilizadores, assim como as conclusões obtidas acerca das tarefas praticadas na gestão e organização fotográfica.

No 4º capítulo é apresentado o Agrafo. Neste capítulo fazemos uma descrição geral do sistema e seus componentes. Neste capítulo é apresentada a arquitectura do sistema.

O capítulo 5 é dedicado à descrição da solução que propomos nesta dissertação. Neste capítulo descrevemos os diferentes processos de análise das fotografias. Para cada característica analisada, descrevemos também a sua representação e o método utilizado na obtenção da medida de distância entre fotos, considerando cada característica. Obtidos os descritores de cada imagem, apresentamos também o método utilizado na combinação desses mesmos descritores e por fim o processo de agrupamento utilizado na divisão do conjunto das fotos.

No capítulo 6 introduzimos a interface do protótipo desenvolvido para o sistema que aplica a solução apresentada nesta dissertação. Sendo uma interface destinada aos objectivos de agrupamento propostos, também ela terá influência nos resultados e expectativas dos utilizadores finais do sistema. Sendo uma aplicação de utilização doméstica, a facilidade e auxílio do agrupamento automatizado será fortemente complementado por uma interface simples, clara e inteligível.

O capítulo 7 reporta os resultados experimentais que justificam algumas das escolhas das soluções desenvolvidas para os diferentes componentes destinados à análise de imagem. Neste capitulo também apresentamos os resultados dos testes efectuados a possíveis utilizadores do sistema, de modo a determinarmos a utilidade e aceitação do mesmo.

No 8º e último capítulo apresentamos as nossas conclusões e algumas questões passíveis de debate acerca do trabalho desenvolvido. Iremos também discutir e sugerir novas linhas de estudo, possíveis variações e melhoramentos ao trabalho realizado.

Por fim, concluímos esta dissertação com a apresentação dos apêndices que complementam a dissertação.

Page 19: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

18

2. Análise e Agrupamento de Fotografias Digitais

Ao longo deste capítulo iremos abordar alguns dos trabalhos realizados recentemente na área de análise de imagem com a finalidade de agrupamento e ou recuperação. A cada trabalho descrito, iremos efectuar um pequeno comentário, evidenciando a utilidade e importância para a solução que apresentamos nesta dissertação. No final avaliamos as diferentes soluções desenvolvidas, apontando as faltas que tentamos colmatar com o nosso trabalho.

Durante os últimos anos tem-se observado um crescente interesse na área da análise de imagem, principalmente devido ao crescimento massivo das máquinas fotográficas digitais. Desde então, os utilizadores têm exigido aplicações que os ajudem a gerir e organizar as suas fotografias de modo eficiente e simples.

Entre as diferentes abordagens desenvolvidas para o agrupamento de imagens, encontramos uma grande incidência na utilização da informação temporal como critério base dessa organização. A complementar este critério são frequentemente utilizadas abordagens da área de recuperação de imagens baseada no conteúdo (Content-Base Image Retrieval - CBIR). A análise do conteúdo das imagens é efectuada através da extracção de características descritoras das mesmas, denominadas por características de baixo-nível e características semânticas. No conjunto de características de baixo-nível encontramos 3 categorias: cor, textura e forma. Entre as características semânticas, as mais comuns são as legendas que os utilizadores têm que associar manualmente a cada fotografia.

Adquirido o conjunto de descritores de cada fotografia, procede-se ao seu agrupamento, frequentemente efectuado através de técnicas de clustering ou usando métricas de cálculo de similaridade de conteúdo e ou de contexto.

Nas secções seguintes são descritas as três técnicas mais usadas para agrupar imagens, sendo elas: agrupamento baseado em eventos e data/tempo, baseado em anotações/legendas e baseado no conteúdo de imagem. São também abordadas diversas técnicas de recuperação de imagens que, como já foi referido anteriormente, estão associadas ao agrupamento baseado no seu conteúdo.

2.1 Agrupamento Baseado em Eventos, Data/Tempo

Girgensohn et al propõem uma aplicação de organização de fotos baseada em eventos [Girgensohn 2003]. Nessa aplicação encontramos uma “light table” onde apresentam os thumbnails das diferentes fotos (ver Figura 1). Complementando a ”light table” ainda dispomos de uma vista em árvore que suporta a navegação pela colecção. A divisão da colecção em diferentes categorias é efectuada pela detecção automática de eventos, sendo possível ajustar manualmente as fronteiras de cada evento.

Esta abordagem permite a organização em diversas categorias (ex: pessoas, lugares, eventos) através da filtragem de meta-informação associada às fotografias (informação GPS ou reconhecimento de faces). Este género de filtragem é efectuado automaticamente quando este tipo de informação se encontra disponível. O utilizador ainda dispõe de mecanismos de criação

Page 20: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

19

de meta-informação através da associação manual das fotografias às categorias desejadas ou aos eventos criados. Estes autores defendem que, na maioria das vezes, a similaridade do conteúdo das imagens é menos significativa que a meta-informação para a detecção de eventos. No seguimento dessa ideia, adaptam o algoritmo proposto em [Cooper and Foote 2001] para realizar o clustering das fotografias com timestamps semelhantes. A primeira etapa dessa técnica consiste na ordenação temporal das fotografias. Posteriormente é construída uma matriz de similaridades que contém valores de similaridade temporal entre as fotos a agrupar. As linhas e colunas da matriz são indexadas por foto, em ordem temporal, e a matriz tem dimensão NxN, sendo N o número de fotos a agrupar (ver Figura 2). A representação gráfica da matriz mostra que as zonas representativas de maior semelhança localizam-se ao longo da diagonal da matriz (índice coluna = índice linha). Ao longo dessa diagonal, a cada fronteira das zonas de maior similaridade, corresponde os limites de cada evento. A Figura 2 exemplifica uma matriz de similaridades, onde são visíveis as zonas de maior similaridade e as respectivas fronteiras.

Figura 1 – Interface da aplicação proposta por Girgensohn e al, com a árvore de eventos bem demonstrada no lado esquerdo da figura.

Figura 2 – Matriz de similaridade utilizada em [Cooper and Foote 2001]

Estes autores demonstram a ideia inicial de [Graham 2002][Gargi 2003], que defendem que a organização temporal das fotografias aumenta a performance em tarefas de recuperação.

Page 21: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

20

Embora estejamos de acordo com esta perspectiva, achamos que pode ser melhorada. Uma das limitações desta abordagem acontece quando tiramos fotografias do mesmo evento mas distanciadas por um intervalo de tempo considerável. Em contrapartida, também é comum tirarmos fotografias separadas por curto espaço de tempo mas que consideramos como pertencentes a eventos diferentes. Outro problema ainda mais comum acontece quando pretendemos juntar à nossa colecção, fotografias de um familiar ou amigo. Neste caso a nossa colecção expande e provavelmente passa a conter fotografias de eventos diferentes realizados em datas e tempos semelhantes. Se considerarmos eventos diferentes, talvez queiramos que sejam organizados separadamente, e consequentemente a informação temporal não será suficiente.

Outra impossibilidade deste sistema é a organização das fotografias por similaridade de conteúdo. Ao considerarem apenas a meta-informação associada às fotografias limitam as possibilidades de associação entre imagens, e como é referido por diferentes investigadores, este tipo de informação não é muito frequente em fotografias e quando existe é muito reduzida.

Mais recentemente, Cooper et al apresentam-nos um método de clustering de colecções de fotos [Cooper 2005], que vem no seguimento dos seus trabalhos anteriores, um dos quais foi apresentado acima. Este método já permite a divisão da colecção de fotos baseada apenas na similaridade temporal ou conjugando as características temporais com as características de conteúdo. Esta nova preocupação com o conteúdo das imagens vem no seguimento da tentativa de responder aos 3 maiores tipos de procuras efectuadas pelos utilizadores e reportadas por [Rodden and Wood 2003]:

1. procurar fotografias pertencentes a um determinado evento; 2. procurar uma fotografia em particular; 3. procurar um conjunto de fotografias pertencentes a diferentes eventos mas que

partilhem atributos semelhantes (ex:. determinada pessoa). Sem desprezar o conteúdo das imagens, o foco deste estudo localiza-se fundamentalmente na organização temporal das colecções fotográficas em várias escalas. A Figura 3 mostra a interface do sistema onde é visível a variação da escala de eventos através da árvore de eventos representada à esquerda. Este método é automático não necessitando de qualquer parâmetro de threshold ou treino. A similaridade é calculada entre todos os pares fotos numa vizinhança local e a avaliação dessa similaridade é efectuada para diferentes escalas temporais. A cada escala é calculado um valor de correlação para determinar novos pontos de informação que eles designam por “novel scores”. As fronteiras de cada evento são determinadas através da escolha da melhor escala para segmentação da colecção. Por fim são apresentados alguns métodos para avaliação dos clusters associados às diferentes fronteiras detectadas.

Uma das limitações deste algoritmo de detecção de eventos é a sua complexidade quadrática no número de fotos. Para resolução desta restrição, são apresentadas duas variações: uma baseada no critério de informação de Bayes (Bayes information criterion -BIC) e outra baseada em programação dinâmica. Apesar de não serem estudados resultados, a inserção da possibilidade de considerar semelhanças de conteúdo de imagem melhoram o agrupamento. Outro aspecto positivo desta abordagem é o facto de não utilizar thresholds ou outro género de assumpções, permitindo generalizar o sistema a diferentes tipos de colecções de imagens.

Page 22: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

21

Figura 3 – Interface da aplicação proposta por [Cooper 2005], que propõe melhorias à abordagem de [Girgensohn 03]. Neste screen shot podemos observar o utilizador a ajustar os resultados obtidos pela detecção automática de eventos.

O trabalho descrito por Platt em [Platt 2000], apresenta dois métodos de clustering, o primeiro através da data e hora em que as fotos foram tiradas e o segundo através do conteúdo das imagens. A solução desenvolvida permite a utilização independente dos dois tipos de clustering ou a combinação de ambos. Uma das possibilidades de combinação proposta baseia-se na utilização sequencial dos dois tipos de clustering: primeiro são criados grupos de fotos baseados no tempo e posteriormente para cada um desses grupos é efectuado o clustering através do conteúdo. O AutoAlbum, o sistema que implementa esta solução, utiliza agrupamento probabilístico para obter uma melhor performance de clustering baseado no conteúdo das imagens. O modelo probabilístico utilizado é o Left-Right Hidden Markov Model (HMM).

Novamente encontramos uma solução onde são propostos dois métodos de clustering que poderão ser utilizados simultaneamente e combinados de diversas maneiras. Essa combinação permitirá obter diferentes perspectivas de agrupamento, dado que a noção de agrupamento é muito subjectiva entre utilizadores.

Em [Platt 2003] é apresentado o PhotoTOC (Photo table of Contents)(Figura 4), um sistema de organização de fotografias, que vem no seguimento do projecto AutoAlbum. Este sistema efectua o agrupamento de fotos através do clustering das datas de criação e das cores das fotografias. Os autores voltam a apresentar dois algoritmos de clustering: o primeiro é baseado no tempo de criação da fotografia para efectuar o agrupamento. O segundo é baseado no conteúdo, utilizando as cores da fotografia para detectar similaridades. Neste segundo algoritmo, o tempo de criação é apenas utilizado para ordenação das fotos e é a cor que é utilizada para efectuar o clustering. Os autores dão preferência à utilização do algoritmo

Page 23: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

22

baseado no tempo, utilizando o segundo como algoritmo de recurso, para quando a informação temporal não é credível.

Do nosso ponto de vista, esta abordagem torna-se bastante redutiva ao utilizar principalmente a informação temporal. Tal como referimos atrás, o automatismo da geração de agrupamentos de fotografias não poderá basear-se apenas na data de criação das fotografias. Caso assim seja, limitamos as possibilidades de formação de grupos, obtendo apenas grupos com similaridade temporal. Outra limitação desta abordagem está no algoritmo de clustering utilizado, que necessita de thresholds calculados empiricamente e não compara todas as fotos. O algoritmo apenas ordena cronologicamente as fotos e efectua comparações ao longo de uma janela de dimensão n, sendo n também calculado empiricamente (neste estudo foi utilizado o valor 10).

Figura 4 – PhotoToc: aplicação proposta por [Platt 2003]

Loui e Savakis apresentam-nos um algoritmo que automatiza a criação de álbuns de fotografias [Loui and Savakis 2003], usando dois algoritmos base: um de clustering de eventos e outro de detecção de imagens de baixa qualidade. Aqui, iremos apenas analisar o algoritmo de clustering de eventos.

A técnica de clustering desenvolvida utiliza a data e tempo para a detecção de eventos e conjuga a utilização da cor para agrupar as imagens de cada evento. Nesta abordagem os eventos são obtidos através de um algoritmo de clustering k-means [Jain and Dubes 1988]. Na análise da cor é utilizada uma técnica de correlação de histogramas de cor baseados em blocos da imagem. O objectivo desta abordagem é a organização de fotografias em eventos e sub-eventos através de dois tipos de informação: data e tempo de captura das fotos, reflectindo as actividades implícitas nas fotos, e na similaridade de conteúdo. O algoritmo utilizado demonstra ser útil na

Page 24: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

23

organização das nossas colecções quando pretendemos uma organização por eventos, e considerarmos um evento como uma actividade limitada por características temporais. A divisão dos eventos através da análise de conteúdo de imagem já permite uma aproximação a outro género de agrupamento, muitas vezes do interesse do utilizador, e efectivamente complementa a organização temporal. Podemos observar os resultados desses dois tipos de análise através da Figura 5.

Figura 5 - Interface da proposta de agrupamento de [Loui e Savakis 2003]. Na primeira imagem é possível observar o conjunto de fotos a agrupar, e nas duas imagens seguintes encontramos os agrupamentos efectuados ao conjunto de fotografias, onde são detectados 2 eventos.

Um aspecto que poderá ser melhorado corresponde à melhoria das técnicas de análise de conteúdo. Poderá ser vantajoso a combinação de diferentes técnicas de extracção de semelhanças de conteúdo. Este trabalho mostra-se limitado quando comparado com os

Page 25: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

24

objectivos de agrupamento propostos no nosso estudo. Os resultados obtidos por Loui e Savakis mostram-se bastante dependentes da característica temporal.

Encontramos ainda muitos outros apologistas da utilização do tempo como característica base na organização e browsing de fotos digitais pessoais. Todos estes estudos defendem a ideia de que fotos semanticamente relacionadas têm também um relacionamento temporal [Graham 2002][Huynh 2005][Gargi 2003b].

2.2 Agrupamento Baseado em Anotações/Legendas

Kuchinsky et al desenvolveram o FotoFile (Figura 6), um sistema para recuperação e organização multimédia [Kuchinsky 1999]. Neste sistema, tal como os autores referem, foi aplicada uma abordagem híbrida. Foram desenvolvidas diversas técnicas que facilitam a tarefa de efectuar anotações, e que posteriormente são utilizadas nas actividades de organização e procura de elementos multimédia, incluindo fotografias. São também utilizadas várias técnicas de indexação baseadas no conteúdo das imagens, aumentando assim as capacidades de organização. O sistema proposto tenta combinar as vantagens das anotações efectuadas manualmente pelos utilizadores e as vantagens da extracção automática de características de conteúdo. Tal como na maioria dos trabalhos nesta área, também neste estudo é consensual a importância e dificuldade inerente às anotações dos elementos multimédia. É nesse sentido que o FotoFile dispõe de mecanismos que facilitam a realização dessas anotações. Mas mesmo com o trabalho facilitado, o utilizador terá que despender bastante atenção e tempo na anotação das fotos. A necessidade de anotação manual torna o sistema bastante dependente do utilizador e o conceito de automatização fica bastante relaxado. É por isso que a utilização de mecanismos de extracção de características, aumenta a automatização do processo e facilita a organização das fotos. Neste sentido, é de evidenciar o esforço realizado na análise de conteúdo, procurando detectar faces. Esta funcionalidade permite uma organização específica de fotografias, explorando bastante bem as potencialidades da análise de conteúdo.

Um aspecto ainda por analisar e fulcral para a análise do sucesso do sistema será o estudo comportamental dos seus utilizadores. Visto que o processo de anotação é a actividade que menos atrai os utilizadores na organização das suas colecções e sendo a razão para o desenvolvimento destes sistemas, será importantíssimo saber se os mecanismos implementados atraem os utilizadores para essa tarefa.

Page 26: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

25

Figura 6 – Interface da aplicação FotoFile.

Em 2000 Liu et al apresentaram um sistema de gestão de fotografias familiares denominado MiAlbum [Liu 2000a] (interface representada na Figura 7). Este sistema é baseado na anotação semiautomática das fotos. Liu Wenyin et al defendem que uma procura eficiente de imagens requer a ajuda das anotações, de modo a efectuar uma procura baseada em palavras-chave. Para tal é utilizado o método de anotação de imagens proposto em [Liu 2000b]. O processo de anotação semiautomática encontra-se inserido nos processos de recuperação de imagens e respectivo feedback. Quando um utilizador pesquisa uma determinada fotografia através de um conjunto de palavras-chave, poderá proporcionar um feedback ao sistema relativamente à resposta que este lhe deu como resultado da pesquisa. Através deste feedback o sistema actualiza as relações entre as imagens e as palavras-chave utilizadas. Deste modo a anotação da base de dados do sistema é aperfeiçoada com o aumento progressivo de pesquisas e feedback.

Quando o utilizador importa novas fotografias, o sistema realiza uma pesquisa automática, procurando as fotografias do álbum que mais se assemelhem visualmente às imagens importadas. Essa pesquisa é efectuada utilizando as tradicionais técnicas de recuperação de imagens baseada no conteúdo. Obtidas as imagens mais semelhantes, são seleccionadas as palavras-chave mais frequentes nesse grupo de imagens e associadas à nova fotografia. Essa associação só será validada pelo utilizador através do feedback de uma futura pesquisa. A ideia traduzida neste sistema está direccionada à procura de imagens específicas. O utilizador quando pretende visualizar um conjunto de fotografias já tem de ter especificado um objectivo, que traduzirá numa palavra-chave de pesquisa. No nosso caso pretendemos gerar associações entre imagens para permitir ao utilizador observar a sua colecção inteira através desse agrupamento de associações. No nosso estudo o objectivo não será uma imagem específica mas permitir ao utilizador uma organização da sua colecção fotográfica que vá de encontro aos seus objectivos.

Outro problema desta abordagem foca-se no facto do sistema necessitar de ser utilizado bastantes vezes para produzir resultados aceitáveis. Com este sistema não conseguimos ter uma organização da colecção imediatamente após importarmos as nossas fotos. Se não tivermos o sistema treinado, não conseguiremos criar um álbum com as fotografias que acabámos de

Page 27: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

26

descarregar dos nossos dispositivos fotográficos. O ponto positivo a retirar deste sistema reflecte-se na possibilidade do utilizador dar feedback às operações efectuadas automaticamente.

Figura 7 – MiAlbum: Interface da solução proposta por [Liu 2000a]

2.3 Agrupamento por Conteúdo de Imagem

O principal problema no agrupamento automático de imagens através do conteúdo, ou seja da própria imagem, está na identificação e análise das características que melhor as identifiquem. Essas características também terão que definir uma medida de semelhança ou relação visual.

Este problema não só é confrontado nos sistemas de agrupamento automático como também nos sistemas de pesquisa ou recuperação de imagens baseadas no conteúdo.

De seguida apresentamos os três principais tipos de características analisadas nos sistemas de recuperação de imagens baseada no conteúdo. Posteriormente continuamos a análise de outros sistemas de agrupamento automático de fotografias que também utilizam estas características.

2.3.1 CBIR – Content Based Image Retrieval

Dado que a organização e gestão de colecções fotográficas é realizada para facilitar as futuras tarefas de pesquisa e procura de fotos, será interessante analisar os mecanismos utilizados na área da recuperação de imagens (CBIR), na medida em que estes poderão ser utilizados na sua organização. Esta abordagem de cálculo de similaridade já é seguida por alguns autores, cujo trabalho é descrito nesta secção.

Dentro da análise de conteúdo de imagem existem três grandes categorias de descritores: a cor, a textura, e a forma geométrica. Usando estes descritores são definidas métricas de similaridade, a partir das quais se agrupam as fotos.

Page 28: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

27

2.3.1.1 Cor

Das três categorias de características de baixo-nível referidas, a cor é a característica mais trivial de analisar, sendo portanto, a característica mais utilizada.

Os histogramas são a técnica mais conhecida neste tipo de características. Mas a simples utilização de histogramas não nos fornece informação suficiente. Diversos estudos têm expandido a utilização dos histogramas a técnicas mais complexas e obtentoras de descritores de imagem mais precisos. A combinação da cor com o espaço de imagem é um desses exemplos: utilizar histogramas diferentes para segmentos de imagem diferentes.

Outra técnica de extracção de descritores de imagem é apresentada em [Alghbari 2006]. Nesta abordagem é gerado o histograma da imagem, através do qual a imagem é segmentada em regiões de cores diferentes. Através dessas regiões poderemos extrair as cores representativas da imagem e utilizá-las na comparação das imagens.

Outro estudo [Huang 1997] analisa a similaridade das imagens através da correlação entre as cores presentes na imagem. Este estudo utiliza a relação espacial entre cores para caracterizar as imagens e posteriormente definir a similaridade das mesmas.

Wei e al abordam o problema da recuperação de imagens através da combinação das características da cor e da textura [Wei 2005]. As imagens são segmentadas através da cor e textura, obtendo regiões pertencentes a objectos e a regiões de fundo.

A transformação da imagem do domínio espacial para o domínio da frequência também tem vindo a ser explorada, obtendo resultados satisfatórios. No seguimento desta abordagem, Biren

N. Shah propõe uma descrição da imagem através da quantização da cor [Shah 2004]. Biren N.

Shah através da representação da frequência da imagem propõe a selecção das cores representativas da imagem. No seu ponto de vista as cores não uniformemente distribuídas são as que melhor representam as imagens. O autor utiliza a variância de cada cor para definir a importância dessa cor na imagem.

Outra técnica que dá ênfase às cores menos dominantes, não desprezando as cores mais dominantes, é proposta por Chitkara et al. [Chitkara 2000]. Esta técnica permite a obtenção de uma performance 50% superior à obtida com o uso de histogramas de cor globais (GCH) e de 25% relativamente ao uso de color coherence vectors (CCV). Para além da performance esta técnica permite poupar 75% de espaço de armazenamento quando comparado com GCH e 85.5% em relação a CCV, pois cada imagem é quantificada num número fixo de cores.

Por vezes também nos deparamos com questões de limitação de recursos, para tal também são abordadas técnicas que permitem contornar essas limitações mantendo as capacidades de análise. Numa dessas abordagens [Smith and Chang 1995] o objectivo passa pela redução da dimensão do espaço de cores e ao mesmo tempo adquirir a capacidade de localizar informação de cor no espaço das imagens. Ao criar uma representação mais compacta das imagens diminui a complexidade de análise provocada pelo elevado número de cores característico das imagens fotográficas.

A cor é uma das características com melhores resultados no agrupamento e recuperação de imagens. Quando associada a outro género de técnicas de agrupamento, como por exemplo a detecção de formas geométricas, a eficácia da análise de cores aumenta substancialmente. A cor

Page 29: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

28

é uma característica que apresenta elevado número de possibilidades de análise, permitindo uma conjugação eficiente dos resultados obtidos em cada uma dessas análises. Sendo assim, a cor é indispensável à análise do conteúdo de imagens.

2.3.1.2 Textura

A textura é uma particularidade da organização das cores das imagens. Sendo uma particularidade das cores, as texturas permitem obter resultados mais eficazes na identificação de similaridades. De seguida descrevem-se algumas das técnicas de análise de texturas mais relevantes.

Em [Saha 2004] Saha et al utiliza a textura como característica descritora de uma imagem. Através da imagem é construída uma matriz denominada texture co-occurance matrix que reflecte os padrões de intensidade observados. Após obtida a matriz, são calculadas medidas estatísticas como a entropia, energia e texture moments, e utilizam-se essas medidas para definir níveis de semelhança entre imagens.

Outra utilização da textura é apresentada em [Jalaja 2005], onde são descritos métodos estruturais de análise da textura, visando aproximação à visão humana. São apresentadas duas caracterizações de padrões locais: a primeira é uma extensão ao espectro de textura de He e Wang [He and Wang 1990][He and Wang 1991] para uma janela de 5x5 com novas características estruturais que permitem a captura de padrões locais tais como faixas verticais e horizontais, alternância de pontos escuros e pontos brilhantes, etc. A segunda é um método que caracteriza padrões como variações de contrastes em janelas de 5x5.

No estudo efectuado por Rivaz e Kingsbury [Rivaz 1999], é exposta uma nova complex wavelet

transform que tem como objectivo a aproximação das características da técnica de Gabor e a derivação de uma métrica de distância baseada em hipóteses estatísticas, que obtenha melhor performance que as métricas usuais. Esta técnica combina velocidade e precisão, sendo um bom método de extracção de características de texturas.

Sendo a textura definida como uma particular organização das cores, a sua análise tenta retratar a distribuição das cores no espaço da imagem. Assim, tal como o estudo da cor é indispensável na análise de conteúdo de imagens, também a análise de texturas é importante na comparação de imagens com distribuição de cores peculiares. A extracção e utilização de descritores de textura mostra-se bastante útil quando o objectivo é a comparação de imagens específicas, como por exemplo tecidos, rochas, etc.

2.3.1.3 Formas

A detecção de formas geométricas em imagens é outra estratégia utilizada para a detecção de objectos semelhantes em várias imagens. Esta estratégia é de grande utilidade, visto que o agrupamento de fotografias é frequentemente efectuado pela verificação de objectos comuns nas imagens.

Em 1999 Lu e Sajjanhar [Lu 1999] propõem um método de caracterização de imagens através das formas geométricas dos objectos nela contidos. Nesta solução, a representação geométrica é invariante em relação à escala, translação e rotação. No estudo também é comparada a solução com o método baseado no descritor de Fourier, obtendo o método deles melhor performance e maior precisão, mas custos computacionais idênticos.

Page 30: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

29

Outro algoritmo de análise de formas geométricas numa imagem é apresentado em [Nabil 1996]. A estratégia explorada neste trabalho baseia-se nas relações espaciais entre os objectos da imagem, utilizando métodos de representação interna de projecção 2D. A ideia base deste método está no relacionamento das projecções dos diversos objectos da imagem nos eixos dos x’s e y’s. Uma 2D-PIR (2D-Projection Internal Representation) é definida como um conjunto de 3 elementos (a,b,c), em que ‘a’ define uma relação topológica e ‘b’ e ‘c’ definem relações de intervalos nos eixos dos x’s e y’s respectivamente. Esta técnica constrói um grafo que relaciona os objectos da imagem através das 2D-PIRs. A similaridade entre imagens é então obtida através da comparação dos respectivos grafos. Através desta estratégia conseguimos extrair relações entre objectos da imagem, que são boas medidas de calculo de similaridade. O maior problema desta abordagem é detectado quando temos duas imagens e uma delas é uma rotação ou reflexão da primeira. Nestes casos terá que ser detectada a existência de objectos idênticos nas duas imagens e posteriormente efectuar o posicionamento das imagens relativamente a esses objectos. Só então será possível aplicar o algoritmo e obter os resultados esperados.

A utilização da análise de formas permite-nos o reconhecimento dos objectos mais relevantes numa imagem. Dado que o agrupamento de imagens dá menos enfase aos pormenores existentes nas imagens, esta técnica permite a obtenção de resultados satisfatórios, particularmente quando integrada com os outros tipos de extracção de características. A identificação de formas permite abordar as semelhanças entre imagens com objectos idênticos ou relacionados, sem que haja a necessidade de ambas as imagens estarem relacionadas entre si. Assim como as cores e texturas são mais eficazes, na identificação de semelhanças entre fotos relacionadas entre si, quer por pertencerem ao mesmo evento ou por terem sido realizadas no mesmo local, as formas permitem categorizar as fotos quando não existe nenhuma relação entre elas. Por outro lado, quando devido a diferenças de iluminação, duas fotos do mesmo cenário são identificadas como diferentes através da análise de cor, a análise de formas identifica semelhanças entre os objectos nelas contidos e consequentemente semelhanças entre as imagens.

2.3.2 “Content Based Image Grouping”

Gargi et al [Gargi 2003a] apresentam algumas técnicas de gestão e procura em colecções de imagens digitais utilizadas na aplicação ilustrada na Figura 8. Apesar de não se focar muito em métodos automáticos de organização e agrupamento de imagens, este estudo explora bem a necessidade do utilizador ter ao seu dispor diferentes formas de agrupar as fotos. A gestão de fotografias proposta neste trabalho incide bastante na possibilidade de oferecer diferentes perspectivas da colecção. O método usual de organização temporal é expandido a uma organização mais flexível, de acordo com o propósito do utilizador. Neste trabalho é também abordado o problema de gestão de álbuns criados. A ligação entre cada álbum e os ficheiros das imagens é efectuada através de ligações que permitem a actualização dos álbuns quando uma foto é movida ou removida. É introduzido ainda o conceito de “álbum virtual”, que define o conjunto de ligações que definem a perspectiva de cada álbum em relação à colecção. Nos processos de procura disponibilizam técnicas de similaridade baseadas na meta-informação disponibilizada pelas câmaras fotográficas, nas características de baixo-nível das imagens e na detecção de faces. Sendo estas técnicas utilizadas na procura de imagens, será útil inclui-las na automatização do agrupamento das mesmas.

Page 31: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

30

Figura 8 – Interface de pesquisa de fotografias proposta por [Gargi 2003a]

No trabalho de Lu et al apresentado em [Lu 2004], podemos observar uma das poucas abordagens deste problema que não está estritamente dependente das características temporais. Neste estudo são apresentadas técnicas de organização e clustering de fotos utilizando o domínio da frequência DCT (Transformada Discreta do Coseno - Discrete Cosine Transform). Esta técnica utiliza os primeiros coeficientes DCT diferentes de zero para calcular histogramas de energia no domínio da frequência. A similaridade entre as fotos é obtida através da comparação desses histogramas. Esta perspectiva permite a organização das fotos através do seu conteúdo, obtendo resultados satisfatórios, tal como podemos observar no exemplo da Figura 9. Se combinarmos este método com os restantes métodos de extracção de características, poderemos aperfeiçoar a detecção de similaridades e consecutivamente melhorar esta técnica de agrupamento. Esta abordagem vem resolver algumas lacunas de alguns dos estudos anteriores, evidenciando que a similaridade de conteúdos de imagens é importante para o utilizador organizar as suas colecções [Rodden 2001].

Page 32: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

31

Figura 9 – Interface do sistema de [Lu 2004] (em cima) e resultados do agrupamento efectuado pelo sistema (em baixo).

2.4 Discussão

Tal como é possível observar pela Tabela 1, existem diversas formas de agrupamento de fotografias: baseadas no tempo, baseadas no conteúdo e baseadas nas anotações e legendagem efectuadas às fotografias.

Na Tabela 1 resumimos cada uma das abordagens descritas e analisadas anteriormente. Para cada estudo são assinaladas as características em que se apoiam as técnicas de agrupamento desenvolvidas (tempo, cor, textura, forma, detecção de faces, meta-informação e informação semântica). Na última coluna da tabela é apresentado o foco de estudo de cada abordagem, por exemplo: em [Cooper 2005] são utilizadas características temporais e características de conteúdo de imagem, sendo que a ideia base de agrupamento centra-se na informação temporal.

Page 33: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

32

Tabela 1 – trabalhos mais relevantes de agrupamento de imagens.

Caracteristicas Temporais

Cor Textura Formas Geométricas

Detecção de faces

Meta-informação

Informação Semântica

Foco

[Girgensohn 2003]

� - - - � - - Detecção eventos (data/tempo)

[Cooper 2005]

� (1) - - Detecção eventos (data/tempo)

[Platt 2000] � � � � - - - Detecção eventos (data/tempo)

[Platt 2003] � � - - - - - Detecção eventos (data/tempo)

[Loui and Savakis 2003]

� � - - - - - Detecção eventos (data/tempo)

[Kuchinsky 1999]

- � � � � - � Utilização de anotações/legendas

[Liu 2000a] - (2) - - � Utilização de anotações/legendas

[Gargi 2003a]

� � � � � (3) -

Detecção eventos (data/tempo) e agrupamento por conteúdo

[Lu 2004] - � - - - - -

Análise da cor através de histogramas de energia

1 o algoritmo possibilita a inserção de descritores de características de baixo-nível no calculo de similaridades mas não é efectuado nenhuma abordagem a estas características.

2 Nesta abordagem apenas utilizam as tradicionais técnicas de content based retrieval durante a importação de novas fotografias, para obterem informação meta-informação.

3 Este método utiliza informação específica disponibilizada pelas máquinas fotográficas: aperture e SubjectDistance.

A maioria das abordagens aposta na importância da data/tempo na organização das fotografias. Neste tipo de perspectiva conseguimos facilmente aproximar a organização das fotografias digitais à organização normalmente efectuada com as fotografias em papel. Este género de agrupamento é um dos mais utilizados pelos utilizadores e consequentemente é exigido a qualquer aplicação de gestão de fotografias que a ofereça. No entanto, esta é uma abordagem que reduz bastante as capacidades de organização de fotografias dos utilizadores, mas se associada a outros métodos de agrupamento poderá originar agrupamentos eficazes e interessantes. Esta técnica poderá ainda ser utilizada como agrupamento base e posteriormente ser utilizado outro género de sub-agrupamentos. Por outro lado, poderemos utilizar este e outros tipos de agrupamento e aplicá-los no mesmo nível, atribuindo pesos diferentes a cada um dos métodos, de modo a adaptar o mecanismo de agrupamento a cada utilizador.

Mas será que a organização por eventos satisfaz suficientemente os utilizadores? A resposta a esta pergunta é não, como está argumentada em [Rodden2001][Rodden and Wood 2003]. A organização por eventos não satisfaz as necessidades dos utilizadores. O utilizador

Page 34: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

33

frequentemente cria associações entre fotografias distantes no tempo e pertencentes a eventos distintos. Para complementar a falha existente nas abordagens por eventos foram estudadas as propostas de análise semântica e análise de conteúdo.

Nos sistemas FotoFile [Kuchinsky 1999] e MiAlbum [Liu 2000a], é focada a importância da informação semântica associada às fotografias. Este género de informação embora seja bastante difícil de obter porque exige bastante trabalho por parte dos utilizadores, é informação importante na descrição das fotos. Esta é uma das melhores formas que o utilizador tem para descrever o contexto em que a fotografia foi tirada. O contexto é uma característica fundamental no agrupamento de fotografias. O grande inconveniente da organização semântica está na dependência do utilizador para a legendagem das fotos. Nestes dois sistemas referidos existe um esforço na automatização da criação de anotações das fotos, diminuindo o trabalho realizado pelos utilizadores. Apesar de originar anotações e legendas menos precisas que as anotações e legendas realizadas pelos utilizadores, estas abordagens permitem utilizar a potencialidade da informação semântica, e combinar essa informação com a informação extraída na comparação das restantes características das imagens. A introdução da informação semântica no agrupamento automático das fotografias permite a correlação dos contextos das fotografias. Apesar de importante, a adopção desta abordagem necessita de ser complementada com outra técnica que torne o agrupamento mais eficaz ou que possa ser utilizada como recurso quando nos depararmos com a habitual falta de informação semântica.

Nos dois últimos trabalhos apresentados [Gargi 2003a][Lu 2004], são analisadas com maior pormenor as características de conteúdo das imagens. A análise de conteúdo de imagens pode ser efectuada por inúmeras técnicas, onde cada uma delas extrai características específicas. Este género de extracção de similaridades e relacionamento de imagens, é bastante utilizado na área da recuperação de imagens (CBIR) e pode ser eficazmente introduzido no agrupamento de fotografias digitais. A análise e comparação do conteúdo das fotografias, permite criar grupos de fotos com semelhanças no aspecto visual. A comparação visual das imagens possibilita o relacionamento de imagens que podem ser temporal e semanticamente distintas, cobrindo mais um tipo de agrupamento.

Para além dos baixos custos da fotografia digital, a representação digital de fotografias veio proporcionar ao utilizador outro tipo de vantagens, como por exemplo o aumento do número de fotografias das colecções ou a utilização de diversos tipos de organização simultânea das fotografias. Gargi et al defende em [Gargi 2003a] a introdução de um novo conceito de organização fotográfica denominado álbum virtual, que permite melhorar a organização de fotografias, na medida em que podemos ter diversas perspectivas da mesma colecção fotográfica em substituição da organização usual dos álbuns tradicionais. Em vez de continuarmos a utilizar apenas um tipo de agrupamento, tal como acontecia com as fotografias em papel onde utilizávamos o agrupamento por eventos, passamos a dispor de diversas maneiras de agrupar e organizar as fotos. Passamos a poder ter uma fotografia pertencente a diversos álbuns. É nesse sentido que será importante conciliar as técnicas utilizadas pelos três conjuntos de agrupamento. Esse novo tipo de agrupamento permitirá qualquer um dos agrupamentos demonstrados nas abordagens descritas, permitindo ainda a conjugação dos mesmos.

Se pegarmos nas ideias de anotação semântica de [Kuchinsky 1999][Liu 2000a] e nas ideias de conteúdo de imagem de [Gargi 2003a][Lu 2004] e as inserirmos nas técnicas utilizadas pelo grupo de detecção de eventos, acrescentamos valor a cada uma das técnicas quando utilizadas

Page 35: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

34

de modo independente. Outra possibilidade de melhoramento será ainda a introdução das técnicas de recuperação de imagem (CBIR), que possibilitam o aumento de performance e eficácia na detecção de similaridades.

Tendo como objectivo o desenvolvimento de diversas possibilidades de agrupamento, consideramos todas as abordagens para uma possível integração. Obtendo uma integração eficaz das estratégias, conseguiremos um sistema de geração de diferentes tipos de álbuns virtuais, onde cada um destes álbuns reflecte uma perspectiva da colecção de fotografias. Assim o utilizador poderá seleccionar o ou os que mais se enquadram com os seus objectivos.

Por fim, estudadas as abordagens mais relevantes de agrupamento de fotografias e analisadas as falhas de cada uma delas é altura de propor uma solução que concilie a resolução das falhas encontradas e implemente as ideias já referidas durante a discussão dessas mesmas soluções.

Enquanto a maioria dos estudos desenvolvidos focam o agrupamento das fotos num conjunto específico de características, o sistema desenvolvido, abrange várias técnicas capazes de identificar fotos tiradas no mesmo contexto ou em contextos muito próximos. Seguindo a ideia de [Rodden 2001], que refere a necessidade de agrupamento de fotos por similaridade, integramos mecanismos para detecção de fotografias semelhantes. Outro aspecto a evidenciar no nosso sistema é a possibilidade do utilizador parametrizar os pesos que cada tipo de análise terá no agrupamento final.

O nosso sistema tenta analisar as fotos por diversas perspectivas, tentando concentrar num único sistema, grande parte das características e técnicas descritas pelo conjunto de trabalhos analisados. Ao dispor de elevada diversidade de análise das fotos, o utilizador atribuirá o peso que cada uma dessas análises tem no agrupamento desejado.

Resumindo, a nossa solução foca as características temporais, as características de baixo-nível e a meta-informação disponível nas fotografias. Foi nossa preocupação desenvolver um sistema que origine uma entrada na tabela 1 onde todas as colunas, ou quase todas estejam preenchidas e o foco da solução seja não só um tipo de característica mas o maior conjunto de características. A solução que propomos nesta tese e que descrevemos com maior detalhe no capítulo seguinte, tenta utilizar o máximo de informação descritiva da imagem capaz de a distinguir das restantes.

No próximo capítulo apresentamos a análise e os resultados da pesquisa efectuada aos hábitos dos utilizadores de fotografia digital. Esses resultados, em conjunto com os trabalhos analisados neste capítulo, servem de sustento a algumas das ideias desenvolvidas nesta tese assim como justificam a necessidade e utilidade de um sistema deste género.

Page 36: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

35

3. Compreender as Tarefas Fotográficas

Antes de começarmos o desenvolvimento do sistema de agrupamento automático de fotografias digitais, fizemos uma análise aos hábitos e necessidades dos utilizadores de fotografias digitais. Procuramos identificar junto dos futuros utilizadores do sistema alguns aspectos ligados à gestão e organização fotográfica. Só assim poderíamos adequar o sistema à verdadeira utilidade que iria ter.

A importância dos hábitos e tarefas executadas pelos utilizadores definem o caminho a percorrer no desenvolvimento de um sistema deste tipo. Em [Kirk 2006] é possível perceber que não é apenas a tarefa de organização que afecta as escolhas a tomar num trabalho como o nosso. Nesse estudo torna-se nítida a importância dos hábitos adquiridos pelos utilizadores durante a realização das fotografias e na utilização futura destas. Um exemplo é a quantidade de fotografias tiradas à mesma cena, que poderá implicar a futura utilização de sistemas de detecção de cópias ou fotos muito semelhantes. O modo como os utilizadores organizam as suas fotografias, a maneira como partilham ou usam as fotografias num futuro distante, todos esses aspectos tornam-se importantes na definição das necessidades dos utilizadores. Um aspecto também bastante importante no trabalho de [Kirk 2006] é a utilidade que os fotógrafos dão ao software que normalmente acompanha os dispositivos fotográficos. A fraca utilização desse software ajuda-nos a perceber onde estão as falhas e optar por soluções que possam trazer mais utilidade aos utilizadores.

Foi neste sentido que realizámos um inquérito, disponibilizado electronicamente em fóruns nacionais e internacionais dedicados à fotografia digital. Ao longo da realização do inquérito obtivemos 103 respostas a partir das quais chegámos aos resultados apresentados a seguir.

O principal objectivo do inquérito era conhecer os possíveis utilizadores do sistema assim como as suas necessidades. De entre a informação recolhida destacamos a seguir alguns dos pontos mais relevantes para o nosso trabalho. O inquérito e os respectivos resultados podem ser consultados no anexo.

• Quem são os possíveis utilizadores do sistema e qual a sua experiência fotográfica.

Em princípio todos os tipos de fotógrafos são abordados, no entanto, a maior parte das respostas (63%) foram de fotógrafos amadores (ver Figura 10).

Page 37: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

36

Figura 10 – Tipo de fotógrafos inquiridos: esporádico (apenas fotografa em ocasiões especiais, com fins de recordar o momento, ex: aniversários, casamentos, festividades); amador (fotografa por prazer, passatempo, gosto pela fotografia); profissional (fotografa com objectivos profissionais)

• Quantidade de fotografias utilizadas em tarefas de organização.

Esta informação é-nos útil para podermos adaptar a nossa solução à complexidade computacional aceitável para uma aplicação doméstica. Verificamos que o número de fotografias organizadas em simultâneo, em média, ronda as duas centenas, tendo sido poucos os casos onde o número é superior a 400 (ver Figura 11). O número de fotografias tiradas e o número de fotos organizadas não varia muito. Podemos concluir que para a maioria dos utilizadores (amadores), o conjunto de fotografias organizadas é o mesmo que as fotografias tiradas. Isto permite-nos inferir que os utilizadores organizam as suas fotografias independentemente das fotografias tiradas em sessões anteriores.

Figura 11 – Quantidade de fotos tiradas por evento.

Page 38: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

37

Figura 12 – Quantidade de fotografias organizadas por sessão.

• Tempo disponibilizado pelos utilizadores na organização das fotografias.

Esta informação permite-nos saber a dedicação que os utilizadores dão a esta actividade. O cruzamento desta informação com o restante inquérito permite-nos saber se esse tempo se deve aos sistemas utilizados, e estabelecer medidas de teste e usabilidade das soluções implementadas. Os resultados obtidos mostram que os utilizadores gastam algum tempo a organizar as fotografias (ver Figura 13). Mais de 60% dos utilizadores dedicam mais de 10 minutos na realização desta tarefa e 26% dedicam mais de 30 minutos. Estes valores permitiram-nos fixar valores máximos para o tempo de execução da tarefa. Os resultados obtidos pelos testes realizados ao nosso sistema cumprem esses limites reflectindo uma execução mais célere (valor médio de 22.5 minutos para a tarefa pedida aos utilizadores).

Figura 13 – Tempo disponibilizado nas sessões de organização fotográfica (em minutos).

Page 39: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

38

• Importância da informação semântica atribuída às fotos.

Os utilizadores ainda encaram a definição de legendas como a melhor maneira de identificar e posteriormente organizar fotos, apesar de ser uma tarefa trabalhosa e daí ignorada por muitos.

• Relação entre as fotografias mais antigas da colecção fotográfica de cada um, e a

importância na gestão das novas fotografias a adicionar à colecção.

O inquérito demonstrou que as organizações iniciais tendem a manter-se, e as fotografias mais recentes vão integrar a organização já existente. Isto é, um conjunto de fotografias que obrigue à criação de uma nova categoria, não vai fazer com que o utilizador reclassifique a colecção antiga.

• Características mais importantes na definição da qualidade de uma foto

Das características analisadas, a focagem e nitidez da foto destacaram-se nesse ponto, seguidas da iluminação e enquadramento.

• Ferramentas mais utilizadas, funcionalidades que mais agradam, e aquelas que

mais falta fazem.

De todas as ferramentas a escolha dos utilizadores recaiu no Flickr, Picasa e iPhoto. As ferramentas distribuídas com os dispositivos fotográficos também são utilizadas mas apenas por fácil aquisição do software. Posteriormente muitos utilizadores dizem utilizar apenas a hierarquia de directorias como método de organização. Observamos também diversos casos onde o nome atribuído às directorias serve de legenda às fotos nela contidas. Actualmente as funcionalidades mais procuradas e mais exploradas relacionam-se com os mecanismos de disponibilização das colecções via Web. À medida que a experiência fotográfica aumenta a Web é utilizada não só como meio de expor os trabalhos fotográficos mas também como meio de trocar ideias e relacionarem-se com outros fotógrafos. Outras funcionalidades mais frequentemente desejadas são o automatismo da gestão de fotografias numa hierarquia de directorias, talvez devido ao hábito de já realizarem esse tipo de gestão manualmente. Por fim, a importância da interface das aplicações utilizadas também foi fortemente apontada como factor de satisfação. A simplicidade exigida às interfaces destas aplicações revela ser um ponto forte das mesmas. Outro aspecto apontado com interesse pelos inquiridos foi a importância de mecanismos de edição de imagem. Apesar de não ir de encontro aos objectivos do nosso trabalho, essa possibilidade só trará valor a um sistema, tornando-o mais completo.

As respostas obtidas permitiram-nos traçar o caminho e as linhas de desenvolvimento para a nossa solução. A dimensão das colecções fotográficas, assim como o tipo de utilizador, as limitações temporais impostas neste tipo de actividades ou a importância das diferentes características fotográficas foram importantes na definição dos objectivos que pretendemos atingir.

Page 40: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

39

4. Agrafo - Agrupamento Automático de

Fotografias Digitais

No seguimento dos trabalhos apresentados no capítulo dois e da análise efectuada aos hábitos dos utilizadores, apresentada no capítulo anterior, desenvolvemos uma solução que tenta colmatar algumas das falhas identificadas nos trabalhos existentes. A solução proposta nesta dissertação utiliza e combina algumas das ideias dos trabalhos existentes, adicionando diversificação nos métodos de análise de imagem e na flexibilidade e versatilidade de combinação dos resultados desta. Ou seja, o nosso sistema permite a combinação, de modo fácil, de vários critérios para agrupar fotografias. Para além da diversidade de características passíveis de análise, o nosso sistema permite ao utilizador manipular o nível de semelhança desejado para os agrupamentos.

De modo a oferecermos ao utilizador uma elevada liberdade de agrupamento, temos em consideração toda a informação presente na imagem fotográfica. Nesse sentido, consideramos não só a informação contextual disponibilizada pelos dispositivos fotográficos (informação EXIF), mas também características extraídas do conteúdo das imagens.

Esta segunda perspectiva aproxima o nosso problema das técnicas utilizadas nos sistemas de recuperação de imagens. Características de baixo-nível são utilizadas na caracterização da fotografia, possibilitando vários tipos de agrupamento.

Nas subsecções seguintes descrevemos a nossa solução para um sistema de agrupamento de fotografias, que tem em conta várias características extraídas automaticamente do conteúdo das imagens.

4.1 Sistema

Figura 14 – Arquitectura do sistema.

Page 41: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

40

O agrupamento automático do Agrafo divide-se em duas grandes etapas. Na primeira etapa o sistema procede à análise das características fotográficas enquanto a segunda etapa é responsável pelo clustering do conjunto de fotografias. Para executar a primeira parte deste processo são utilizados componentes independentes. Cada componente é responsável pela análise de uma determinada característica da foto. A parte responsável pelo clustering do conjunto de fotos utiliza os valores identificados pelos componentes e através de um algoritmo de clustering realiza a divisão do conjunto em grupos. A versão actual do nosso sistema utiliza sete componentes de análise de fotografia ou, por outras palavras, sete critérios de agrupamento, que iremos descrevemos a seguir. Posteriormente explicaremos como são utilizados os valores retornados por cada componente, no processo de clustering do conjunto de fotos.

4.1.1 Componentes

Cada componente é responsável pela análise de uma determinada característica da imagem, e executa de modo independente dos restantes. Cada componente é ainda responsável pela extracção de um ou mais valores que caracterizem a fotografia em análise. Além da caracterização da imagem, cada componente também define o método de cálculo da distância entre duas fotografias, segundo o critério em questão.

A seguir descrevemos os sete componentes responsáveis pela análise de diferentes características fotográficas. Neste conjunto de componentes consideramos informação contextual, informação semântica e informação de conteúdo de imagem. Apesar de termos implementado apenas sete critérios, a nossa arquitectura é modular e flexível, permitindo a adição de novos critérios sem a alteração do algoritmo de clustering.

Data / Tempo

Este componente utiliza a informação temporal presente na fotografia (EXIF) para identificar o momento em que esta foi tirada e para calcular a distância temporal relativamente às restantes fotografias. Caso a fotografia não tenha informação EXIF, usamos a data de criação do ficheiro.

Faces

Este componente caracteriza uma foto como contendo ou não faces. Independente do número de faces presentes na foto, o componente classifica a foto num de dois grupos: com ou sem faces. O algoritmo de detecção de faces que estamos a usar identifica faces apenas quando as faces têm dimensão suficiente para serem consideradas relevantes para a fotografia.

Interiores / Exteriores

O componente interiores/exteriores classifica a foto como sendo uma foto de interiores ou uma foto de exteriores.

Urbano / Natureza

No classificador urbano/natureza fotos com grande presença de elementos urbanos, tais como, edifícios, ruas, carros, são consideradas fotografias urbanas, enquanto as restantes são consideradas fotografias de natureza. Nesta última categoria temos as fotografias de paisagens, praias, campo céu, entre outras.

Page 42: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

41

Cor Global / Local

A análise de cor realizada por estes componentes, permite um agrupamento por semelhança visual. Estes dois componentes realizam uma análise às cores presentes na fotografia. O primeiro componente, efectua uma análise global da cor. O segundo componente realiza uma análise local da cor, ou seja, realiza uma análise mais refinada que o primeiro. Neste segundo componente a informação da cor é complementada com informação espacial da fotografia.

Texturas

Por fim temos um componente capaz de descrever cada fotografia na perspectiva da textura. Este componente analisa a textura da imagem, permitindo um agrupamento onde a textura tenha um papel influente na diferenciação das fotografias.

Finalmente, possibilitamos ainda a um método de filtragem através da utilização de tags. À semelhança de um elevado número de sistemas de gestão e partilha de fotografias (ex:Flickr), também o Agrafo permite atribuir um conjunto de tags a cada fotografia, permitindo deste modo

associar informação semântica às fotografias. Apesar de se distanciar do conceito de automatismo, a presença de informação semântica através de tags, aumenta a flexibilidade na pesquisa de fotos e consequentemente facilita a sua gestão.

4.1.2 Clustering

Dada a subjectividade na análise de fotografias, a nossa solução possui como uma grande vantagem, a fácil integração de novos extractores de características de imagem. Aliada a essa fácil integração de componentes, teremos também um processo de agrupamento fortemente parametrizável. A ideia consiste num sistema que faculte ao utilizador a escolha da importância de cada característica, assim como o grau de semelhança entre fotos do mesmo grupo. Através destes diversos parâmetros, o utilizador poderá adaptar o sistema ao tipo de fotografias da sua colecção e aos seus objectivos de agrupamento. Cada colecção fotográfica tem características individuais e existem diversas possibilidades de agrupamento de uma mesma colecção. Através do controlo dos parâmetros de agrupamento o utilizador efectua um agrupamento direccionado a determinadas características em detrimento de outras. Melhor ainda é a possibilidade de definir a importância de cada característica e não só a sua presença no agrupamento.

Neste passo do agrupamento são utilizados apenas os critérios seleccionados pelo utilizador. A cada um dos componentes ou critérios de agrupamento, o utilizador atribui um peso. Esse peso varia no intervalo [0-1], e traduz a importância do critério na estratégia de agrupamento. Todos os critérios com importância acima de 0 serão considerados no processo clustering. Para cada par de fotos existirá um valor de distância por cada critério presente no agrupamento, através dos quais construímos as matrizes de distâncias entre fotos. Consequentemente o número de matrizes de distância entre fotos será igual ao número de critérios com influência no agrupamento. Cada uma dessas matrizes contem a distância entre todas as fotos e é pesada pelo valor que o utilizador atribuiu ao respectivo critério. Estas distâncias ponderadas são depois utilizadas para construir uma única matriz que será utilizada pelo algoritmo de clustering para fazer a divisão do conjunto de fotos. A definição das matrizes e respectivo cálculo das distâncias

Page 43: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

42

entre fotos é realizado no momento em que o utilizador acciona o agrupamento automático. Apenas nesse momento se encontram definidos o grupo de fotografias a dividir e os critérios que influenciarão o agrupamento.

Através desta solução conseguimos juntar à diversidade de critérios de agrupamento com a sua utilização simultânea e os seus pesos relativos.

Finalizada a apresentação da arquitectura e do funcionamento do sistema proposto, iremos, nos capítulos seguintes, passar à apresentação detalhada dos vários componentes do Agrafo. No próximo capítulo especificamos as técnicas e algoritmos utilizados nas duas grandes partes do sistema (componentes e clustering). De seguida, no capítulo número 5, apresentamos os desafios e soluções encontrados no desenvolvimento da interface utilizador do sistema.

Page 44: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

43

5. Agrupamento Baseado no Conteúdo

Depois da visão geral do sistema apresentada no capítulo 4, vamos agora detalhar os aspectos técnicos inerentes a cada componente responsável pela extracção de informação das imagens. A seguir descrevemos o algoritmo de clustering, peça fundamental da nossa solução, e utilizado na etapa final do processo de agrupamento. Ao longo deste capítulo, e devido à modularidade dos componentes do sistema, faremos também referência às normalizações necessárias para a integração dos vários componentes e para o correcto funcionamento do mecanismo de agrupamento.

5.1 Data / Tempo

De acordo com o estudo por nós realizado (ver capítulo 3) e com a literatura existente [Kirk 2006] [Frohlich 2002] [Rodden and Wood 2003] a maioria dos utilizadores domésticos utilizam a informação temporal como base de organização das suas colecções fotográficas. Não só no suporte digital mas também nos tradicionais álbuns de fotografia em papel, a data e o tempo são as principais características usadas para estruturar a organização das fotografias.

Na ausência de aplicações de organização e gestão de fotografias, os utilizadores recorrem, normalmente, a uma estrutura própria de directorias, identificadas por datas, onde arquivam as suas fotografias digitais. Na sequência deste hábito observado na maioria dos utilizadores, todos os sistemas de organização fotográfica permitem uma divisão por datas e tempo.

Além de ser a informação mais frequentemente utilizada pelos utilizadores, a informação temporal também é a que melhor caracteriza o contexto em que a fotografia se enquadra. Considerando que, os dispositivos fotográficos são capazes de nos disponibilizar este tipo de informação (através da informação EXIF), e que se encontram correctamente configurados, a informação temporal é aquela que directamente nos evidência o nível de relacionamento entre os espaços e os objectos fotografados. Deste modo, a informação temporal é aquela que melhor contextualiza cada fotografia.

Se definirmos como evento, a actividade ou conjunto de actividades relacionadas entre si e decorridas no mesmo espaço geográfico e no mesmo intervalo temporal, podemos garantir a identificação de eventos através da informação temporal disponível nas fotografias. No Agrafo damos importância à informação temporal, razão pela qual criámos um componente dedicado à sua análise, conseguindo assim identificar os diferentes eventos retractados num conjunto de fotos.

No Agrafo utilizamos a informação temporal gerada pelos dispositivos fotográficos em conjunto com outro tipo de meta-informação, associada a cada ficheiro de fotografia digital. Na ausência desta informação, consideramos a data de criação do ficheiro.

Para fazermos a divisão das fotos temporalmente, começamos por converter a data mais o tempo em segundos. Utilizando a data da fotografia mais antiga e da fotografia mais recente definimos um intervalo temporal que utilizamos para normalizar o valor temporal de cada fotografia. No fim teremos todas as datas normalizadas no intervalo [0 1], sendo esse o valor retornado pela componente temporal da nossa solução. Deste modo qualquer distância temporal entre duas das fotografias a analisar encontra-se no intervalo [0 1]. O número de grupos criados com base neste critério depende do grau de semelhança entre grupos escolhido pelo utilizador.

Page 45: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

44

Um grau de semelhança mais elevado produzirá mais grupos, enquanto que um mais baixo dará menos grupos (ver Figura 15).

Figura 15 - Resultados de clustering por data e tempo de fotografias, com alteração do grau de semelhança entre fotos do mesmo grupo. Na primeira linha temporal, cada ponto representa uma fotografia. Com um grau de semelhança baixo o número de grupos criados tende a ser baixo ( b) ) . Se for seleccionado um grau de semelhança elevado o número de grupos criados aumenta também ( c) ).

5.2 Faces

Outra organização típica de álbuns fotográficos, é em função das pessoas presentes nas fotografias [Kuchinsky 1999][Gargi 2003a]. Embora não tão usada como o tempo, a presença de pessoas é usada principalmente nas pesquisas realizadas à biblioteca com o objectivo de localizar determinadas pessoas.

Sendo uma opção bastante razoável e desejada, a identificação facial permitiria uma veloz identificação das fotografias pretendidas. No entanto, no nosso trabalho não abordamos esse problema, que consideramos de alguma complexidade e fora dos objectivos. Porém, será uma funcionalidade facilmente integrável na nossa solução, devido à sua modularidade.

Apesar de não abordarmos o problema da identificação facial, achamos que a presença de faces nas fotografias é um aspecto bastante importante na organização, gestão e pesquisa fotográfica. Consequentemente desenvolvemos um componente para a detecção de faces nas imagens fotográficas.

Apesar de mais fácil que a identificação facial, a detecção de faces não é trivial e continua a não ser o foco do nosso trabalho. Nesse sentido decidimos utilizar a solução desenvolvida pela Intel no projecto OpenCV [Intel OpenCV]. A partir de uma imagem, esta solução identifica a presença de faces, com relativa eficácia. A solução identifica ainda a localização das faces assim como as suas dimensões através do rectângulo envolvente (ver Figura 16).

Page 46: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

45

Figura 16 – Exemplo de detecção de faces realizada pela solução da Intel [Intel OpenCV].

Com o objectivo de considerarmos apenas as faces com maior relevância para a fotografia, decidimos aplicar um processo de filtragem depois da detecção efectuada pela Framework OpenCV. Assim, apenas as fotos, cujas faces têm dimensão superior a 1% da dimensão da fotografia são consideradas por nós como tendo faces (ver Figura 17).

Figura 17 – Relevância das faces presentes nas fotografias. Na foto da esquerda são detectadas três faces relevantes para o conteúdo das fotografias. Na foto da direita são detectadas duas faces com dimensão inferior a 1% da imagem, e consequentemente consideradas irrelevantes.

Neste momento, o componente detector de faces está a retornar como característica da foto, a presença ou ausência de faces. Para o primeiro caso é retornado o valor 1 e para o segundo o valor 0. Tal como no componente anterior e nos restantes componentes, todos os valores retornados estão normalizados, de modo a poderem ser posteriormente utilizados em conjunto e com igual peso, no algoritmo de clustering.

A nossa solução apenas contabiliza a presença de faces, mas do mesmo modo que caracterizamos as fotos como fotos com faces ou sem faces, também poderíamos aumentar a

Page 47: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

46

diversidade deste tipo de classificação. Por exemplo, podíamos usar a dimensão das faces para identificar fotografias de rosto. Outra possibilidade que sugerimos, mas que não implementamos no projecto Agrafo, consiste na identificação do número de faces presentes na foto. Neste último caso, o valor que caracterizaria cada uma das fotos não se situaria apenas nos extremos do intervalo [0, 1]. O valor 0 seria atribuído a fotos sem a presença de faces enquanto o valor 1 seria atribuído às fotos com o número máximo de faces encontrado por foto. Conhecendo o número de faces que identificam os limites deste intervalo, podemos normalizar o número de faces presente em cada foto, correspondendo a qualquer valor entre 0 e 1. Com esta nova descrição, poderíamos criar grupos de fotos com apenas uma pessoa, ou com várias pessoas. Mais uma vez, o número de grupos criados depende do peso e do grau de semelhança escolhidos pelo utilizador.

5.3 Interior / Exterior

A classificação de fotos sempre foi um problema estudado na área de recuperação de imagem. A distinção entre fotografias de interiores e fotografias de exteriores é uma das classificações mais utilizadas. Esta divisão permite extrair características semânticas da fotografia facilitando a sua recuperação. No nosso sistema tiramos partido desta classificação em classes distintas para fazer o agrupamento. A distinção entre fotos de interiores e fotos de exteriores facultam uma melhor contextualização das fotografias.

O agrupamento usando estas duas classes permite ainda refinamentos na organização. Por exemplo pode-se fazer a divisão do conjunto de fotos de exteriores nas classes “urbano” e “natureza”, a qual iremos apresentar mais à frente.

Apesar de existirem algumas soluções para fazer a distinção entre fotos de interior e exterior, esta matéria ainda continua a ser um grande desafio. A juntar à dificuldade inata desta classificação, temos ainda que lidar com fotografias onde tal distinção nem sempre é óbvia (close-ups de faces, janelas).

Entre os trabalhos nesta área ([Picard 1998], [Vailaya 2001]) a tendência recai sobre a análise local da cor e textura. Para implementar este classificador, seguimos a solução proposta por Pickard [Pickard 1998], que utiliza dois tipos de características: color moments, e textura. Cada característica é analisada localmente através da divisão da imagem em N blocos. No Agrafo realizamos uma divisão da imagem em 10x10 blocos de igual dimensão.

As características de cor são compostas pelos dois primeiros momentos de cor, ou seja, a média e o desvio padrão. Estas características são calculadas após a transformação da imagem para o espaço de cores LUV. Segundo [Furht 1998], este espaço de cores é aquele que melhor distingue uma imagem quando utilizamos os momentos de cor para a descrever. A textura avaliamos através da transformada de Daubechies (Daubechies wavelet transform) e para cada bloco obtemos um vector descritor da textura com a dimensão 16. Quer para cor quer para a textura, é utilizada a distância euclidiana para calcular a distância entre os vectores descritores.

De modo a que o nosso sistema consiga identificar fotos de interior e exterior, tivemos que o treinar com um conjunto de fotografias conhecidas e com a sua categoria bem identificada. Usámos 1000 fotografias de treino, com dimensão superior a 512x512 pixéis, sendo 500 de

Page 48: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

47

interior e 500 de exterior. Para cada uma delas calculámos os valores de cor e textura como explicado anteriormente.

Depois de extraídas as características da foto, o processo de classificação sugerido por [Picard 1998] e utilizado por nós divide-se em 2 passos, como ilustrado na Figura 18. Primeiro, cada bloco da imagem é classificado numa das duas categorias. De seguida escolhemos a categoria mais representada no conjunto de blocos que compõe a foto, como sendo a categoria a atribuir à foto.

A classificação de cada bloco efectua-se através da sua comparação com todos os blocos das imagens de treino. Utilizando o algoritmo de decisão K-NN para um N igual a 11, encontramos os 11 blocos mais próximos do bloco a classificar. A categoria em maioria no conjunto dos 11 blocos define a categoria do bloco em análise. No entanto, em vez de utilizarmos valores binários (interior = 1, exterior = 0), como descrição de cada bloco, utilizamos a proporção da categoria presente no grupo de 11 blocos. Por exemplo, se dos 11 blocos mais próximos do bloco a classificar, 7 forem blocos de fotografias de interiores, a categoria deduzida não será a categoria Interiores descrita através do valor 1 mas atribuiremos ao bloco o valor 7/11. A escolha do número 11 no algoritmo de decisão deve-se ao facto de ser um número impar não permitindo empates na classificação. Quanto maior o número, maior a exactidão dos resultados, porém também maior serão os custos computacionais. Na nossa opinião 11 é um número que permite alguma qualidade nos resultados com custos computacionais aceitáveis.

No passo final, em que temos que decidir qual a categoria final da foto, consideramos as classificações efectuadas para cada bloco somando os valores atribuídos a cada um (ver Equação 1). Se a soma for superior a metade do número de blocos a multiplicar pelo número de características analisadas, ou seja duas, a foto é classificada como interior, caso contrário é exterior.

Figura 18 – Processo de classificação de uma foto em foto de interior ou exterior (indoor/outdoor).

Page 49: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

48

Equação 1 – Classificação de uma foto I em interior (=1) ou exterior (=0). Sendo F o número de

características analisadas, N o número de blocos de uma imagem e b o valor no intervalo [0,1] atribuído na classificação do bloco i através da característica f.

5.4 Urbano / Natureza

Outra classificação muito utilizada na área de recuperação de imagem é a identificação categorias city/landscape. Na nossa solução incluímos também um critério para identificar fotografias urbanas e de natureza, baseada nos algoritmos de identificação city/landscape. Na categoria nature ou natureza, englobamos todas as fotos que retratam a natureza. Por outro lado, na categoria urban ou urbana, abrangemos todas as fotos onde a presença de elementos urbanos é relevante para a totalidade da imagem.

O método mais utilizado e reportado como sendo o que obtém melhores resultados, tendo em conta esta separação de imagens, baseia-se na análise de contornos relevantes na imagem [Vailaya 1998]. A explicação para a utilização deste método é evidente. Na maioria dos elementos urbanos ou elementos criados pelo homem é visível a presença de contornos fortes. Não só a presença de contornos é mais forte como a coerência da direcção desses contornos difere em ambas as situações. É frequente encontrarmos linhas rectas e mais prolongadas em imagens urbanas ou em objectos criados pelo homem. Exemplos disso são as fachadas de prédios, pontes, postes de electricidade, outdoors publicitários, marcações de pavimento ou mesmo as indicações de trânsito (Figura 19). Em imagens que retratam a natureza a ocorrência de contornos bem definidos é menor e a maioria deles apresentam linhas com direcções inconstantes. Alguns exemplos bastante frequentes nesta categoria são: a folhagem das árvores, as texturas variadas dos terrenos, os céus limpos e consequentemente livres de contornos, ou um céu nublado aparentando formas indefinidas, a ondulação do mar, as rochas, a relva entre outros (Figura 20). De entre todas as imagens da natureza aquelas que erradamente são caracterizadas urbanas, são aquelas em que temos linhas definidas pelo horizonte. Contudo o seu número permanece baixo.

Page 50: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

49

Figura 19 – Exemplos de fotografias urbanas e respectivos contornos. Nestes exemplos podemos observar grande coerência na direcção dos contornos, constituindo linhas rectas bem definidas.

Figura 20 – Exemplos de fotografias que retratem a natureza. Ao contrário dos exemplos da Figura 19, neste caso os contornos demonstram grande variação da sua direcção.

O algoritmo implementado para atribuir uma das duas categorias às fotografias pode ser dividido em dois grandes passos: o primeiro é responsável pela extracção das características da fotografia que nos interessam analisar, ou seja, um descritor dos contornos presentes na imagem. O segundo processo, usa o descritor produzido no primeiro passo e classifica a imagem como sendo uma fotografia urbana ou uma fotografia da natureza. De seguida descrevemos cada um destes passos em detalhe.

Passo 1:

Para o cálculo deste componente do nosso sistema decidimos redimensionar as imagens para uma dimensão máxima de 512 pixéis por lado, ou seja, o lado maior da fotografia passa a ter a

Page 51: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

50

dimensão de 512 pixéis, sendo o outro lado redimensionado de modo a manter a relação de aspecto. Este redimensionamento das imagens serve para reduzir a complexidade computacional do processamento de cada imagem. A seguir, a imagem é convertida para uma escala de cinzentos, e o ruído é reduzido através de um filtro Gaussiano de modo a reduzir o ruído da imagem.

Aplicando o algoritmo de Canny [Canny 1986], identificamos os contornos, obtendo uma imagem idêntica às imagens da Figura 19 e Figura 20. O algoritmo de Canny, utilizado na detecção de contornos e descrito em [Canny 1986], utiliza três valores que podem ser parametrizáveis. Neste algoritmo os contornos são identificados através do gradiente de cada pixel assim como a direcção do mesmo. Dos três parâmetros mencionados, dois são thresholds, utilizados para definir a força exigida a cada contorno. Através desses threasholds, apenas os gradientes relevantes são considerados, e consequentemente os respectivos pixéis são considerados como pertencentes a um contorno. O terceiro parâmetro é posteriormente utilizado para reconstruir contornos segmentados.

De modo a encontrarmos os melhores valores para os parâmetros, realizámos testes experimentais com 30 fotografias. No final escolhemos os valores de 150 e 230, para os dois thresholds e de 3 para o parâmetro de reconstrução de contornos. Estes valores foram aqueles que mais evidenciaram os contornos que achamos ser os visualmente mais relevantes, ignorando todos os outros.

Identificados os pontos de contorno, criamos um histograma com 36 níveis de direcção, que contabiliza as direcções dos contornos. A existência de imagens de dimensões variadas, obriga a fazer uma normalização do histograma, através da quantidade de pixéis da imagem.

Passo 2:

Neste passo classificamos as fotografias em natureza ou urbano utilizando o histograma de direcções de contornos.

Para que o algoritmo possa funcionar, primeiro tivemos que o treinar. Para isso calculámos o histograma de direcções de contornos para um conjunto controlado de 1100 fotografias. O conjunto de fotografias foi escolhido e classificado em conjunto por dois utilizadores exteriores ao nosso projecto. Das 1100 fotos, metade pertencia à categoria urbana, e a outra metade à categoria natureza. A análise das características de contornos presentes nas fotos deste conjunto foi realizada de acordo com o processo descrito no passo 1.

Durante a fase de classificação da fotografia, calculamos o seu histograma de contornos e comparámo-lo com os histogramas das fotografias usadas para treinar. Para isso utilizamos o algoritmo de decisão K-NN, com o k a tomar o valor 11. Este algoritmo, assim como o algoritmo de decisão do componente anterior, escolhe as 11 fotografias do conjunto de fotos de teste que se encontram mais próximas da foto a classificar. Nesse conjunto de 11 fotos, a categoria mais representada será a categoria que atribuiremos à foto que se encontra em classificação. Resta-nos esclarecer que a métrica utilizada na medição da distância entre fotos, mais concretamente, entre histogramas de direcção de contornos foi a intercepção de histogramas (Equação 2).

Os valores resultantes desta classificação poderão ser 0 para imagens urbanas ou 1 para imagens de natureza, sendo esse o único valor descritor desta característica de imagem.

Page 52: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

51

Equação 2 – Equação do cálculo da distância entre histogramas, onde D(h1,h2) é a distância entre o histograma h1 e o histograma h2.

5.5 Cor Global / Local

Para além da organização das fotografias em termos semânticos, os utilizadores também agrupam e organizam as fotografias com base na sua semelhança visual.

Para calcular a semelhança visual entre duas imagens, automaticamente, normalmente utilizam-se os histogramas de cor. Estes podem ser calculados para a fotografias como um todo (histograma global) ou localmente. O processo de cálculo é igual em ambos, simplesmente na análise da cor local, a imagem é tratada como um conjunto de n imagens de menor dimensão. No nosso caso dividimos a imagem em 4x4 blocos.

Na análise da cor criamos um histograma de 256 bins no espaço de cores HSV (hue, saturation,

value). As 3 componentes da cor são normalizadas para valores entre 0 e 255. De modo a juntar as 3 componentes da cor num só valor, descartamos alguns bits menos significativos de cada um dos componentes. A componente de hue, por ser a componente que mais influencia a percepção humana, tem um peso maior, contribuindo com os 4 bits mais significativos. A componente de saturation contribui apenas com os 2 bits mais significativos e a componente value também contribui apenas com os 2 bits mais significativos (Figura 21).

A junção dos valores das três componentes, deste modo, dá o Bin do histograma a incrementar. Finalmente, o histograma obtido é normalizado de acordo com o número de pixéis presentes no bloco ou na imagem.

No caso da análise de cor local, o vector descritor da imagem será composto pela concatenação dos 16 histogramas dos 16 blocos, enquanto na análise global, o descritor será composto apenas por um histograma. A comparação entre histogramas é feita usando a intercepção entre histogramas (Equação 2), descrita anteriormente.

Figura 21 – Cálculo do bin do histograma correspondente a uma cor no espaço de cores HSV, com 256 (8 bits) valores por componente.

Page 53: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

52

5.6 Textura

A textura também pode ser utilizada como critério de agrupamento. A textura tem a vantagem de caracterizar padrões na imagem em relação à utilização da cor global/local. Adicionalmente se, combinarmos textura com cor global/local conseguimos um descritor mais rico e consequentemente, melhores resultados na identificação de semelhanças entre fotografias. Assim como é utilizada na classificação de fotos nas categorias interior e exterior, também poderemos utilizar a informação de textura para identificar semelhanças visuais entre imagens. Os descritores de textura extraídos das imagens são obtidos pela transformada de Daubechies (Daubechies wavelet transform) [Jense and Cour-Harbo 2001][Wang 1997].

A transformada de Daubechies é muitas vezes defendida como boa caracterizadora de imagens. O seu elevado poder foi demonstrado em trabalhos de recuperação de imagem por conteúdo, como o WISE - Wavelet Image Search Engine [Wang 19978], ou o RIME – Replicated Image

Detector [Chang 1998]. Por estas razões decidimos utilizar esta transformada na caracterização da textura das fotos.

Para calcular o descritor da textura, começamos por redimensionar as fotos para a dimensão 256x256 pixéis, através de interpolação bilinear. Deste modo as imagens ficam com as dimensões exigidas para a aplicação da transformada. Ou seja expoentes de base 2. Poderíamos ter escolhido outras dimensões expoentes de base 2, no entanto o processamento das textura de uma imagem é um processo computacionalmente pesado e quanto maior a dimensão da imagem mais pesado se torna esse processo. De seguida transformamos o espaço de cores de maneira a tornar a distância entre cores mais perceptiva [Equação 3].

Equação 3 – Espaço de cores utilizado na tranformada de Daubechies. Onde max corresponde ao valor máximo das componentes RGB ou seja, 255.

A transformada é aplicada a cada um dos 3 componentes de cor. Consequentemente, obtemos um conjunto de 16 coeficientes de frequência por cada componente de cor.

Para melhoria da capacidade de descrição da imagem, dividimo-la em 4x4 blocos, tal como realizámos para a cor no componente anterior. Deste modo cada bloco terá 16 coeficientes por cada um dos 3 componentes de cor, ou seja, terão descritores com dimensão total de 48.

O cálculo da semelhança entre imagens é efectuado utilizando a distância euclidiana entre os respectivos vectores descritores.

Page 54: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

53

5.7 Tags

As tags ou anotações são o critério de agrupamento que menos coincide com os objectivos deste trabalho. Sendo um mecanismo de descrição manual, o conceito de automatismo deixa de prevalecer. Contudo, e sendo este o método mais utilizado nos sistemas de organização e gestão fotográfica, como é o exemplo do sistema Flickr, e estando o utilizador habituado a este conceito, decidimos integrá-lo.

Apesar do foco do nosso sistema estar na automatização, é do nosso interesse tornar o sistema o mais completo possível. No Agrafo, o utilizador tem a possibilidade de atribuir palavras-chave às fotografias, e posteriormente usá-las para seleccionar fotografias.

O agrupamento realizado através deste mecanismo é muito trivial. Todas as fotografias associadas a pelo menos uma das palavras introduzidas durante a selecção, são colocadas no mesmo grupo, enquanto as restantes são colocadas noutro.

5.8 Persistência de dados

Grande parte das componentes de análise de imagens é computacionalmente exigente, e temporalmente demorada para respostas céleres. Consequentemente não seria viável ter que realizar tais computações mais de uma vez. Sendo assim para cada sessão ou projecto guardado pelo utilizador são guardados as os valores que caracterizam cada imagem. Quando o utilizador reiniciar a sessão as fotografias já estarão analisadas e os pedidos de agrupamento serão respondidos prontamente.

5.9 Clustering

Tal como referido anteriormente, uma das principais contribuições deste trabalho está no mecanismo desenvolvido para combinar os diferentes descritores de características. Para combinar estas características, e tendo em conta que os vectores de características têm dimensões diferentes, houve a necessidade de desenvolver um mecanismo que permitisse a combinação destas, e sua posterior utilização num processo de clustering.

5.9.1 Algoritmos de clustering

Os principais algoritmos de clustering, e consequentemente mais utilizados, podem ser classificados nas seguintes categorias: clustering exclusivo, clustering com sobreposição, clustering hierárquico e clustering probabilístico. Na primeira categoria incluem-se os algoritmos onde cada elemento é agrupado num único grupo, ou seja, se um elemento pertence a um cluster, não poderá pertencer a nenhum outro. Nos algoritmos de clustering com sobreposição, cada elemento poderá ser associado a diferentes clusters. Essa associação é realizada através de um conjunto de dados de treino, sendo atribuído a cada elemento um valor de associatividade aos clusters. O clustering hierárquico baseia-se na união iterativa de clusters, com condição inicial de que cada elemento corresponde a um cluster. Por fim o clustering probabilístico utiliza uma abordagem probabilística.

Page 55: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

54

Um exemplo de clustering exclusivo é apresentado pelo algoritmo K-Means. Este algoritmo necessita da especificação inicial do número de clusters a serem criados. Para cada um desses clusters é associado um local no espaço de representação dos elementos, que irá definir o centróide inicial do cluster. Posteriormente cada elemento é associado a um centróide que é recalculado iterativamente. Este algoritmo revela-se inútil para os nossos objectivos ao exigir à priori o número de clusters a criar.

Fuzzy C-Means Clustering [J. C. Dunn 1973] é um dos exemplos de algoritmos de clustering com sobreposição. Neste algoritmo a cada elemento é atribuído um valor de associatividade a cada cluster, sendo que no final o elemento pertencerá ao cluster com maior grau de associatividade. Este algoritmo é idêntico ao K-Means, sendo necessário definir previamente o número de clusters pretendido assim como a sua posição inicial. Essa necessidade do algoritmo vem novamente inviabilizar a sua utilização na nossa solução.

Os algoritmos Hierárquicos assumem cada elemento como um cluster. Posteriormente e já com a matriz de distâncias entre todos os elementos são agregados os elementos mais próximos. Este processo é iterativo até todos os pontos estarem unidos num mesmo grupo. Este algoritmo poderia ser utilizado no Agrafo, no entanto, não saberíamos em que nível da iteração parar porque esse nível não seria sinónimo da coesão do cluster. Na nossa solução o conceito de coesão é muito importante porque é utilizado para respeitar o nível de similaridade de fotos seleccionado.

Por fim temos os algoritmos probabilísticos. Estes algoritmos impõem uma elevada complexidade no sistema que não justificaria a sua implementação. Existindo uma elevada diversidade de fotografias a poderem ser utilizadas no sistema, seria também difícil e complexo encontrar representações matemáticas que traduzissem os elementos, neste caso, as características fotográficas a agrupar.

A maioria dos algoritmos de clustering existentes apresentam características que limitam a sua utilização e por sua vez a sua integração com o nosso sistema. O processo de agrupamento do Agrafo é caracterizado pela possibilidade de considerar um elevado número de características de imagem onde os descritores de cada uma delas têm dimensões e valores variados. Grande parte dos algoritmos necessita de parametrizações efectuadas durante o processo de agrupamento, através de valores obtidos empiricamente. O Agrafo propõe um sistema onde o agrupamento é automático sem necessidade de parametrizações ou ajustes às variáveis do algoritmo de clustering. Para além das parametrizações outra das limitações mais observadas nos algoritmos de clustering é a necessidade de definir o número de grupos a ser criado pelo algoritmo. O utilizador poderá não ter conhecimento do conteúdo do conjunto de fotos a agrupar, portanto, não faz sentido que lhe seja exigido a determinação do número de grupos a criar. Dependendo do conjunto de fotos a agrupar, o número de grupos gerados poderá alterar.

A solução que propomos exige que o utilizador defina o grau de semelhança entre as fotos que compõem o mesmo grupo. Esse parâmetro vai sendo redefinido pelo utilizador à medida que os resultados de agrupamento vão sendo obtidos. Deste modo o utilizador provoca a criação de grupos com o grau de semelhança mais próximo das suas necessidades.

Page 56: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

55

5.9.2 Algoritmo Utilizado

As necessidades de definição do nível de similaridade entre fotos do mesmo grupo e a impossibilidade de definir a priori o número de grupos a criar, levou-nos a adoptar o algoritmo QTClust - Quality Cluster Algorithm [Heyer 1999]. O QTClust, tal como o K-Means, é um algoritmo de clustering exclusivo, porém não necessita que lhe seja indicado à priori, o número de clusters a criar, e independentemente do número de vezes que o apliquemos, os resultados serão sempre iguais.

O QTClust ainda nos proporciona controlar o nível de coesão dos grupos criados através do controlo da dimensão do raio dos clusters originados. Deste modo, ao limitarmos o raio dos clusters estamos a limitar a distância entre elementos do mesmo cluster. Este controlo nem sempre é possibilitado pelos algoritmos de clustering, o que torna este factor preponderante na escolha do algoritmo.

Contudo, a arquitectura do nosso sistema e o modo como a análise das fotos é realizada, exigiu que fosse realizada uma adaptação ao algoritmo inicial. O modo como o cálculo de distâncias entre vectores descritores de fotografias é calculado não permite que a matriz de distâncias seja calculada pelo algoritmo de clustering, e consequentemente, o algoritmo necessitou de ser adaptado para que a sua utilização seja realizada a partir de um ponto intermédio do mesmo.

5.9.3 Matriz de Distâncias

A extracção das características das fotografias é da responsabilidade de cada componente, e é realizada de modo independente. A diversidade das características analisadas não está apenas no modo como são extraídas, a sua representação e cálculo de distância também difere. Por estas razões optámos por calcular as distâncias entre fotografias previamente ao processo de clustering e através de 4 passos distintos: i) extracção de características; ii) normalização dos vectores descritores; iii) cálculo das matrizes de distâncias segundo cada critério; iiii) criação de uma matriz final através da combinação das matrizes obtidas por cada critério.

Inicialmente produzimos os vectores de características que normalizamos para ser possível a comparação de vectores do mesmo extractor. Cada componente, é responsável pelo cálculo da distância entre dois vectores de características, como descrevemos no subcapítulo anterior. Para vectores que correspondem a histogramas, usamos a intercepção para definir a distância entre os mesmos. Na maioria dos restantes casos utilizamos a distância euclidiana. Em cada tipo de análise de imagem, o cálculo de distância entre dois vectores descritores fica a cargo da identidade que desenvolveu ou implementou esse componente. Isto porque, para cada característica de imagem e respectivo descritor, existem medidas melhores que outras para a distância entre imagens. A única imposição do sistema relaciona-se com os valores atribuídos à distância entre dois vectores. Para cada componente o resultado da computação da distância entre duas imagens terá que ser normalizado de modo a retornar valores compreendidos no intervalo [0 1], onde 0 significa imagens iguais ou muito semelhantes, e o 1 traduz o máximo de distanciamento. Neste ponto do processo de clustering, já conseguimos distanciar e atribuir um valor à distância entre imagens, segundo uma determinada característica.

Para representar as distâncias entre todas as imagens criamos uma matriz por cada componente. Cada uma dessas matrizes terá a dimensão NxN, onde N é o número de imagens a analisar.

Page 57: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

56

Sendo uma matriz de distância, a parte da diagonal inferior da matriz será equivalente à diagonal superior, razão pela qual podemos apenas considerar uma das duas.

Com as diferentes perspectivas de distanciamento entre imagens representadas por matrizes normalizadas, já podemos atribuir os pesos que, interactivamente, o utilizador atribui a cada componente. O peso atribuído a cada componente pode variar entre 0 e 1. Ao atribuir o peso 0 a uma componente, o sistema ignora o vector descritor dessa característica. Se o peso for maior que zero as distância entre cada par de imagens é pesada pelo respectivo valor.

Com um conjunto de M matrizes (número de componentes com peso maior que 0), podemos passar ao cálculo da matriz de distâncias finais (Figura 22) e novamente voltamos a considerar a distância euclidiana para efectuar o cálculo da distância final entre cada par de fotos (Equação 4).

Figura 22 – Conjunto de matrizes descritivas da distância entre N imagens. Cada matriz descreve a distância entre cada par de imagens, calculada em relação a uma determinada característica. Cada valor de distância é normalizado, compreendendo valores no intervalo [0 1]. A matriz final, contém a distância final entre cada par de imagens.

Equação 4 – Equação de cálculo da distância final entre cada par de imagem. MDfinal corresponde à matriz final de distâncias, p o peso de cada característica, e x,y,z três das características.

Page 58: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

57

5.9.4 Agrupamento

Tendo a matriz de distâncias calculada, o segundo passo do processo de agrupamento automático de fotografias consiste no clustering das características identificadas nas fotos.

Assim como já foi referido anteriormente, para realizar o agrupamento das fotografias optámos por uma adaptação ao algoritmo QTClust - Quality Cluster Algorithm [Heyer 1999]( Figura 23). Este algoritmo adequa-se ao nosso problema por não exigir a indicação prévia do número de grupos (clusters), resultantes do processo de clustering. Este algoritmo ainda nos permite o controlo da dimensão máxima do raio dos clusters gerados. Este último aspecto é fulcral ao controlo que o utilizador detém sobre o agrupamento. A capacidade de definir o raio máximo de cluster, permite ao utilizador controlar a dimensão dos clusters gerados e consequentemente o nível de similaridade das fotografias presentes em cada cluster. A diminuição do raio máximo de um cluster leva o processo a introduzir nesse cluster apenas as fotografias mais semelhantes, enquanto o aumento, permite a inclusão de fotografias mais distanciadas entre si (Figura 24).

Figura 23 – Algoritmo QTClust, aceita como entradas um conjunto de descritores e o limite máximo de diâmetro de clusters e retorna um conjunto de clusters.

No QTClust todos os elementos a agrupar são inicialmente identificados como candidatos a cluster, consequentemente existirão tantos clusters como elementos a agrupar. De seguida, para cada cluster candidato, vão sendo adicionados todos os outros elementos de modo a que o crescimento do raio do cluster seja mínimo e o raio seja inferior ao valor como máximo pelo utilizador. Por fim o cluster com maior número de elementos é identificado como um verdadeiro cluster. O processo repete-se para os elementos não presentes no cluster identificado e até não existirem mais elementos por classificar.

Procedure QT_Clust(G,d)

if (|G|≤1)then output G, else do /*Base case*/

foreach i Є G

set flag = TTUE; set /* is the cluster started by i */

while ((flag = TRUE) and ( ≠ G))

find j Є (G - ) such that diameter ( ) is minimum

if (diameter( ) > d)

then set flag = FALSE

else set /*Add j to cluster */

identify set C Є with maximum cardinality

output C

call QT_Clust(G – C,d)

Page 59: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

58

A nossa versão modificada do algoritmo inicia o processo já com a matriz de distâncias calculadas em vez do conjunto de descritores dos elementos a agrupar. Inicialmente cada elemento é considerado como um cluster com o centróide situado nesse mesmo elemento. Posteriormente adicionamos cada um dos restantes elementos ao cluster, mas assumindo sempre que o primeiro elemento do cluster situa o centro do mesmo. Por fim tal como acontece com o QTClust, o candidato com maior número de elementos é identificado como um cluster. O processo repete-se para os restantes elementos a classificar, tal como acontece no QTClust.

Em resumo, as alterações ao algoritmo original são:

• Utilização da posição do elemento original de cada cluster como centróide do mesmo, não existindo novo cálculo para a posição do centróide. Esse valor não é recalculado devido à utilização da matriz de distâncias em vez da localização espacial dos elementos.

Esta alteração permite ao sistema agrupar pontos com número de dimensões variável e dimensões diferentes. O facto de permitir dimensões diferentes, possibilita a diversificação de análises de fotografias e sua utilização simultânea, mesmo que cada uma dessas análises retorne descritores diferentes.

Por fim, todas as fotos isoladas de qualquer cluster originado, são agrupadas num novo conjunto que identificamos como outsiders.

a) Grupo de fotografias original.

Page 60: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

59

b) Clustering com raio limitado a 0.6

c) Clustering com raio limitado a 0.52

d) Clustering com raio limitado a 0.44

Figura 24 – Resultados de clustering por data e tempo de fotografias, com alteração de limite de raio máximo de cluster: a)grupo de fotografias original, b) raio = 0.6, identificados dois eventos; c) raio = 0.52, identificados três eventos; d) raio = 0.44, identificados 4 eventos.

Page 61: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

60

5.10 Computação Paralela

A extracção das características das fotos é um processo complexo e computacionalmente pesado. A exigência computacional na análise das fotos leva a que as tarefas de agrupamento sejam demoradas. O facto de ser uma aplicação doméstica impõe um processo de agrupamento ágil, de modo a evitar a espera prolongada pelos resultados. Para resolver esse problema, decidimos integrar processos paralelos.

Assim que a aplicação é lançada, é também lançado um processo auxiliar responsável pela análise das fotografias. O processo principal da aplicação, em comunicação com este processo auxiliar, identifica as fotos presentes na sessão e manda analisá-la, evitando a análise de fotos que já não estão presentes. Para cada foto são analisadas todas as características susceptíveis de serem usadas como critérios de agrupamento.

No momento em que o utilizador dá início à execução de um agrupamento, as características já analisadas são utilizadas e as restantes são calculadas nesse instante. Deste modo o resultado final é atingido mais rapidamente poupando tempo ao utilizador.

Adicionalmente, tornamos os dados extraídos persistentes, sempre que um utilizador guarda um projecto. Deste modo, quando o utilizador voltar a abrir o projecto as características extraídas no passado não voltam a ser calculadas, tornando o processo de agrupamento mais rápido.

Page 62: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

61

6. Interface

Embora não seja o elemento central desta dissertação, a interface desenvolvida para o protótipo detém um papel fulcral nos objectivos do sistema que propomos. Por mais eficazes que possam ser os mecanismos de agrupamento, a interface é o meio de comunicação entre esses mecanismos e o utilizador. A gestão e organização fotográfica são facilitadas quando o utilizador tem um elevado controlo nas fotos da sua colecção. Para aumentarmos esse controlo e mantermos a gestão e organização fotográfica como actividades atractivas, procuramos criar uma interface que simule o manuseamento natural de fotografias. De seguida apresentamos algumas decisões tomadas durante o desenvolvimento da interface.

Figura 25 – Interface do sistema Agrafo, onde é visível a divisão em duas principais áreas: no topo observamos a barra de grupos onde são visíveis os agrupamentos efectuados, em baixo e ocupando a maioria da área da janela encontramos a área de visualização de fotografias.

6.1 Estrutura

A aplicação desenvolvida está fortemente associada aos conceitos de grupo ou conjunto de fotografias. Para além de servir como visualizador de fotografias digitais, o principal objectivo do Agrafo é permitir a criação automática de grupos de fotografias, e representá-los através de uma interface visual que facilite a sua gestão e visualização.

A solução proposta por nós, e ilustrada na Figura 25, divide o ecrã em duas áreas principais. No topo é apresentado o conjunto de grupos existentes enquanto a área de visualização de fotografias ocupa a quase totalidade da área restante, estando assim directamente relacionada com a importância que tem a visualização de fotos. Apesar de existirem estas duas zonas na

Page 63: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

62

aplicação, a interacção e manipulação de fotografias entre elas é feita de forma continua e simples.

6.2 Grupos

Figura 26 – Barra de grupos.

A barra de grupos apresenta os vários grupos existentes. A sua representação é feita por analogia com as pilhas de fotografias criadas quando organizamos manualmente uma colecção fotográfica. Esta representação permite ainda uma fácil percepção da dimensão do grupo assim como do seu conteúdo. No topo de cada pilha mostramos uma foto representativa do grupo, que pode ser alterada em qualquer instante.

Ao optarmos por esta solução superamos os problemas de representação da dimensão, do conteúdo e da identificação dos grupos.

A seguir enumeramos alguns dos desafios que nos surgiram durante a concepção e desenvolvimento da interface:

• Identificação

Com a intenção de facilitar e acelerar a gestão de fotos, tínhamos como requisito que os grupos teriam que ser facilmente identificáveis. A representação através de pilha facilmente os identifica como grupos de fotos, contudo o conteúdo desse grupo permanecia desconhecido ou de difícil identificação. Para solucionar esse problema distanciamos as fotos e rodámo-las ligeiramente na direcção do utilizador. Deste modo o utilizador consegue visualizar parte das fotos e das cores que as compõem. Adicionalmente, e para identificação do grupo, rodamos a foto de topo da pilha de modo a ficar em posição frontal e atribuímos um nome ao grupo.

• Representação do tamanho

O tamanho de um grupo é representado pela altura da respectiva pilha. Contudo, a elevada altura de alguns grupos não permite a representação da pilha na área de visualização. Como solução para esses casos, a altura das pilhas de fotografias é limitada a um valor fixo, como esta limitação gráfica não nos permitia distinguir

Page 64: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

63

dimensões de grupos com tamanhos superiores ao número estabelecido, adicionámos a cada pilha um número que indica o tamanho do grupo.

• Selecção

Para visualizar as fotos de um grupo é necessário seleccionar o grupo. Contudo, por vezes pretendemos visualizar simultaneamente mais que um grupo. Esta interface permite ter mais de um grupo seleccionado, e apresentar as fotos de todos eles na área de visualização em simultâneo.

• Arrastamento

A adopção de mecanismos que imitem o manuseamento manual de fotografias em papel leva-nos à utilização de mecanismos de arrastamento de elementos gráficos, e as pilhas de fotos não são excepção. Para seleccionarmos um grupo podemos clicar nesse grupo ou puxar o grupo para a área de visualização. Podemos também arrastar os grupos para os ordenar. Outra possibilidade de arrastamento está relacionada com a concatenação de grupos. Quando temos dois conjuntos de fotos em papel em cima da mesa e pretendemos juntá-los o que fazemos? A resposta será “puxamos um para cima do outro”. O mesmo acontece no Agrafo, basta arrastar um grupo para cima do outro.

• Destaques

Para destacar os grupos sobre os quais está a ser realizada alguma tarefa utilizamos dois tipos de destaques. Para os grupos seleccionados, e actualmente em visualização, utilizamos um destaque de tons cinza (Figura 26, “group 2”). Para os restantes destaques originados por operações como arrastamento de fotos ou grupos, utilizamos tons azuis (Figura 26, “Group 6”). Deste modo o utilizador terá retorno sobre a operação em realização.

Outro tipo de destaque relaciona-se com os conjuntos visualizados. Observámos que com o aumento do número de grupos a percepção dos grupos já visualizados diminuía. Optámos então por assinalar os grupos já visualizados. Nos grupos ainda por visualizar aplicamos um sombreado à pilha, enquanto nos grupos já visualizados, as pilhas utilizam as cores reais das fotos (Figura 27).

Figura 27 - Aqui poderão ser vistos dois exemplos de representação do mesmo grupo de fotografias. No exemplo à esquerda o grupo ainda não foi visualizado e no exemplo à direita a pilha representa o mesmo grupo, depois de ter sido visualizado.

Page 65: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

64

• Quantidade de grupos

A quantidade de grupos permitida pela aplicação é ilimitada. No entanto, à medida que o número de grupos aumenta, a área de grupos deixa de ser suficiente. A solução implementada estende a área de grupos horizontalmente, associando-lhe uma barra de scroll e quatro botões nas extremidades, para facilitar a navegação.

Dependendo da posição da barra de grupos e da presença ou não de grupos mais à direita ou à esquerda, os botões serão apresentados. No caso de não existirem mais grupos à direita do que aqueles apresentados, os botões da direita são ocultados. O mesmo comportamento acontece com os botões da esquerda.

• Scroll

O scroll da barra de grupos é efectuado através da respectiva barra ou pelos botões associados. Porém, de modo a aumentar a facilidade de scroll e manter a coerência com a interacção permitida na área de visualização de fotos (Mesa) a apresentar de seguida, permitimos o arrastamento da própria área de grupos.

• Ordenação

Figura 28 – Exemplo de arrastamento de um grupo/pilha para uma posição distinta na sequência de pilhas.

A relação entre grupos de fotografias é outro aspecto bastante frequente e importante nas tarefas de gestão de fotografias e grupos de fotografias. Havendo um elevado número de grupos, dois desses grupos poderão estar bastante distantes entre si. A nossa aplicação permite a reordenação das pilhas de modo a facilitar o browsing dos grupos e a aproximação de grupos relacionados (Figura 28).

• Operações sobre grupos

São diversas as operações a realizar sobre um grupo. E novamente utilizamos os mecanismos de interacção utilizados na área de visualização de fotos (Mesa) para manipular grupos. Esta opção permite-nos manter a coerência em toda a interface assim como a forte semelhança com o manuseamento natural de fotos em papel. No entanto, o arrastamento e selecção de pilhas não são suficientes para abranger todas as operações a aplicar a um grupo. Por essa razão, disponibilizamos um “pop up” menu com uma lista de várias operações associadas ao grupo.

Page 66: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

65

• Aparência e transparências

Do mesmo modo que os grupos apresentam-se destacados ao longo das operações que os envolvem, também os botões alteram o seu estado para dar feedback ao utilizador. Junto aos botões optámos por atribuir uma pequena transparência à barra de grupos. Essa transparência permite a visualização da presença de grupos além dos visíveis, como acontece na extremidade esquerda da barra ilustrada na Figura 28.

A barra de grupos é apresentada em branco escurecendo à medida que se aproxima da área de visualização de fotos. Esta escolha tenta destacar ambas as áreas e ao mesmo tempo tenta não criar uma fronteira entre ambas. O facto de não estarem fortemente separadas fortalece a possibilidade de interacção entre ambas e entre os elementos que as compõem.

A barra de grupos é ainda caracterizada por uma transparência que aumenta à medida que a cor escurece. Esta pequena transparência torna visíveis todas as fotos espalhadas na área de visualização situadas por detrás da barra. A transparência fortalece a noção de que a área de visualização prolonga-se por trás da barra de grupos.

• Exportar fotos

Após todo o trabalho de agrupamento o resultado final pode ser exportado. Através da barra de grupos, o utilizador tem à sua disposição a possibilidade de exportar as fotos de um determinado grupo ou do conjunto total de grupos. Esta operação questiona o utilizador acerca da directoria de destino. Nessa directoria é criada uma estrutura de directorias de acordo com os grupos a exportar para onde serão copiadas as fotos.

6.3 Fotos

A área de visualização de fotos ocupa a maior parte da interface da aplicação. Nesta área podem ser visualizadas as fotos dos grupos seleccionados. A seguir apresentam-se os desafios de concepção relacionados com esta área de visualização:

• Propriedades das fotos

As fotografias não se baseiam apenas nas imagens nelas contidas. Muita informação relativa aos dispositivos fotográficos, aos ficheiros que armazenam a foto, ou mesmo a dimensão da foto, é relevante para o utilizador. Sendo relevante para o utilizador será um aspecto fulcral a ter em conta. No Agrafo, uma das operações que se pode realizar sobre uma fotografia é a visualização dessa informação, que será apresentada numa caixa contendo variada informação textual

• Operações sobre fotos

Assim como acontece com os grupos, os mecanismos de arrastamento e selecção de fotos não são suficientes para dar inicio a determinadas operações (ex: adicionar tag). Por essa razão, através da tecla direita do rato utilizamos menus “pop up” que listam as inúmeras operações associadas à foto. (Figura 29).

Page 67: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

66

Figura 29 - Acções disponíveis a todas as fotografias, qualquer que seja a perspectiva utilizada

• Apresentação das fotos:

O modo como as fotos são apresentadas influência bastante a realização das tarefas. Dependendo da tarefa em execução existem apresentações que facilitam essa tarefa enquanto outras tornam a tarefa mais complicada ou menos agradável.

No seguimento dessas diferentes necessidades implementámos três modos de visualização: sequência carrossel, mesa e mesa com fotos em grelha. A escolha de cada uma destas opções de visualização é efectuada através dos três botões localizados no canto inferior direito da interface tal como ilustrado na Figura 25.

6.3.1 Sequência Carrossel

Figura 30 – Perspectiva carrossel.

Page 68: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

67

A perspectiva carrossel apresenta as fotos em sequência circular como ilustra a Figura 30. Dos três tipos de perspectivas esta é aquela que melhor se enquadra nas tarefas de visualização, sendo que a apresentação é semelhante a um “slide show” e a foto frontal tem uma dimensão aceitável para visualização.

Desafios desta perspectiva:

• Navegação

O utilizador pode interagir com o grupo de fotos através da rotação da sequência. Para rodar a sequência de fotos existem 3 possibilidades: i)utilizando os botões criados para esse efeito; ii) arrastando a sequência no sentido pretendido ou iii) clicando na foto pretendida. Aqui, tal como acontecia no scroll da área de grupos, disponibilizamos diferentes meios de navegação de modo a facilitar e acelerar a tarefa.

Em termos visuais é importante realçar que para conjuntos de fotos de dimensão elevada nem todas as fotos estarão simultaneamente visíveis. Como acontece no exemplo da Figura 30, a extremidade esquerda da sequência está visível, o mesmo não acontece com a extremidade direita. Mas assim que a sequência é rodada nesse sentido, as fotos possivelmente ocultas, aparecerão no final da sequência.

• Ordenação da sequência

Tal como nos grupos da sequência de pilhas, também as fotos podem estar relacionadas entre si e existir a necessidade de ordenação das mesmas.

Nesse sentido o utilizador pode alterar a posição que a foto central ocupa na sequência. Um aspecto curioso desta apresentação é a possibilidade de visualizar um conjunto sequencial de frames como se de um vídeo se tratasse. Percorrendo toda a sequência, desde o seu início até ao final, originamos um filme composto pelo conjunto de fotos (frames) que decorre no local da foto central.

6.3.2 Mesa

A “mesa” (Figura 31) segue o caminho traçado pelas recentes interfaces concebidas, principalmente, para o trabalho com imagens. A metáfora presente nesta interface é imediatamente percepcionada. A equiparação à organização de documentos, neste caso fotos, efectuada em qualquer secretária permite-nos tornar a interacção com o utilizador mais facilitada assim como a sua aprendizagem. Tratando-se de um sistema dirigido à organização de fotografias, as características principais nesses processos são as características visuais. É por essa razão que se torna fulcral a necessidade de existir uma visão global do material com o qual trabalhamos. Assim, como já acontecia com as fotografias em papel, a constante comparação entre fotos na realização de agrupamentos (álbuns), obriga-nos a “espalhar” as fotografias pela secretária ou até mesmo pelo chão da casa, de modo a ter-mos a visão simultânea de todas as fotos. Este método de organização, desde sempre utilizado, não só permite visualizar todas as fotos como nos dá acesso rápido a cada uma delas, o que não acontece na perspectiva do carrossel.

Page 69: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

68

Figura 31 – Perspectiva Mesa.

Desafios desta perspectiva:

• Maior liberdade de manipulação

Esta perspectiva veio dar maior liberdade de manipulação das fotos ao permitir rodar, ampliar ou mover uma foto num grafismo idêntico a uma mesa comum. Com esta perspectiva o utilizador pode ainda utilizar a área de visualização para agrupar manualmente as fotografias sem ter de criar novas pilhas de fotos.

• Destaques

Quer seja na área de grupos ou na área de visualização os elementos seleccionados necessitam ser destacados. A solução encontrada para a “Mesa” foi a criação de uma moldura para cada fotografia. Todas as fotos utilizam uma moldura branca à excepção das fotos seleccionadas que utilizam uma moldura azul (Figura 32).

• Selecção

A selecção de fotografias pode ser realizada a uma fotografia individualmente ou a um conjunto de fotografias. Para facilitar essa selecção, utilizámos os mecanismos frequentemente utilizados noutras interfaces gráficas como por exemplo a selecção de ficheiros da maioria dos sistemas operativos. O utilizador pode efectuar essa selecção recorrendo à incrementação do número de elementos seleccionados com o auxílio da tecla de ‘CTRL’ ou poderá definir uma área em que todos os elementos nela contidos serão seleccionados (Figura 32). Deste modo adoptamos mecanismos de manipulação directa com os quais o utilizador já sente familiarizado.

Page 70: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

69

Figura 32 – Selecção de múltiplas fotografias.

• Zooms

A necessidade de visualizar um grande conjunto de fotografias em simultâneo origina a redução da dimensão de cada foto. Através do zoom as fotos podem ser ampliadas evidenciando pormenores anteriormente indetectáveis. O zoom poderá ser realizado através de arrastamento combinado com uma tecla de zoom. O arrastamento com o sentido do interior para a extremidade da foto provoca o “zoom in” ou aumento da dimensão da foto, enquanto o arrastamento no sentido contrário tem o efeito inverso. Outro método de zoom mais rápido é através de uma tecla de atalho (‘espaço’) que centra e maximiza a foto em relação à dimensão da área de visualização.

• Mover

O arrastar de uma foto tem como objectivo a mudança da posição em que a foto se encontra. O utilizador poderá arrastar uma foto para organizar o conjunto que visualiza no momento.

• Rodar

É um facto que nem todas as fotos são realizadas com a mesma posição da máquina fotográfica. Consequentemente, determinadas fotos serão melhor visualizadas numa determinada orientação. É nesse sentido que possibilitamos a rotação das fotografias. Essa rotação é realizada através da interacção com qualquer um dos quatro cantos da fotografia. Dependendo do sentido da rotação, esta é limitada a -90º ou 90º, de modo que a que as fotografias não fiquem invertidas.

• Mesa

Muitas operações são realizadas sobre um conjunto de fotos ou sobre todas as fotos do grupo. Nesse sentido achámos interessante manipular a apresentação das fotos através do controlo da mesa e não das fotos nela colocadas. A aproximação ou afastamento da mesa permite-nos manipular o zoom realizado à totalidade das fotos a visualizar. Do mesmo modo, a movimentação da mesa permite movimentar o conjunto total de fotos.

Através deste controlo sobre a mesa tentámos facilitar e agilizar as operações sobre o conjunto total das fotos.

• Controlo de visualização de todas as fotos

Outro problema na nossa abordagem relaciona-se com a dimensão da mesa. Não havendo limites para a dimensão da mesa, haverá sempre partes desta que não estarão

Page 71: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

70

visíveis. Isso possibilita a existência de fotos escondidas, e para grupos de grande dimensão poderá ser difícil controlar a disposição das fotos. Para que o utilizador tenha sempre noção da totalidade das fotos presentes na mesa criámos uma funcionalidade que realiza um zoom à mesa de modo a tornar todas as fotos visíveis.

• Sobreposição de fotos

A disposição aleatória das fotografias origina a sobreposição das fotografias e a consequente ocultação de algumas fotos. Nós tentamos contornar esse problema através da utilização de um z-buffer que permite-nos controlar a posição das fotos. Através desse z-buffer conseguimos que cada foto seleccionada apareça sempre em primeiro plano, ficando assim totalmente visível.

• Distribuição das fotos

Após seleccionado um grupo todas as fotos são distribuídas pela mesa com orientação aleatória. De modo a popular melhor o espaço da mesa, efectuamos uma distribuição inicial sobre a zona central e só depois distribuímos as restantes fotos pela totalidade da mesa. Esta abordagem tenta evitar uma má distribuição das fotos, ou uma distribuição de grande parte das fotos pelas extremidades da mesa.

• Alinhar

À semelhança do que acontecia com as fotos em papel, após as espalharmos sobre a mesa, tentávamos alinhá-las para facilitar a sua visualização

No Agrafo o utilizador dispõe dessa funcionalidade. Ao utilizar essa opção todas as fotos são dispostas de forma alinhada e com dimensão maximizada para aproveitar toda a área de visualização disponível.

6.3.3 Mesa em grelha

Esta perspectiva surgiu devido à forte utilização de um comando de alinhamento de fotos presente na perspectiva original (“Mesa”). A elevada utilização desse recurso provou a necessidade de uma perspectiva que apresentasse as fotos alinhadas numa grelha idêntica à da

Figura 33. A modificação dessa disposição continua possível, dado que, todas as interacções anteriormente descritas se mantêm.

Page 72: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

71

Figura 33 – Perspectiva Mesa com fotos em grelha.

6.4 Interacções

Como já foi referido anteriormente um dos objectivos desta interface seria tornar claro a possibilidade de interacção entre os elementos das duas áreas da interface: pilhas de fotografias e respectiva barra e fotografias e mesa. Essa interacção baseia-se no arrastamento dos elementos entre ambas as áreas.

Desafios:

• Criação manual de grupos

Uma das interacções mais importantes permitidas pela barra de grupos está relacionada com o arrastamento de fotos para cima desta.

Ao visualizarmos um determinado grupo, podemos seleccionar um conjunto restrito de fotos pertencentes a esse grupo e arrastá-las para a barra de grupos. Se pretendermos criar um novo grupo constituído pelas fotos seleccionadas, apenas teremos que arrastar as fotos para a posição da barra onde pretendemos o grupo (Figura 34).

Figura 34 – Conjunto de fotos do grupo em visualização a serem arrastadas para um novo grupo.

Page 73: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

72

• Mover e copiar fotos

No caso da(s) foto(s) serem arrastadas para cima de uma pilha, estas ou serão movidas para o grupo representado pela pilha, ou serão copiadas. Para a realização da cópia há a necessidade de pressionar o ‘CTRL’ (Figura 35)

Figura 35 – Conjunto de fotos do grupo em visualização a serem arrastadas para outro grupo.

• Selecção de grupos

A selecção de grupos também pode ser realizada por arrastamento mas no sentido contrário. Neste caso são os grupos que serão arrastados para a área de visualização de fotos. Durante a selecção de grupos é realizada uma animação onde observamos as fotos do grupo a deslocarem-se da posição que têm na pilha até à posição que irão tomar na área de visualização.

6.5 Critérios de agrupamento

Figura 36 - Interface de manipulação dos critérios de agrupamento

Page 74: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

73

O painel de selecção de critérios de agrupamento é apresentado apenas quando é invocado pelo utilizador. Através da barra de ferramentas o utilizador pode activar ou desactivar o painel. Esta solução permite maximizar o espaço da interface associado à visualização das fotografias

Desafios de interface:

• Como representar os critérios e os respectivos pesos

O agrupamento realizado pelo Agrafo não só leva em conta a presença de diversos critérios como também é influenciado pelos pesos atribuídos a cada um desses critérios. Havendo um valor a atribuir a cada critério surgiu-nos a ideia da metáfora da “mesa de mistura” onde cada regulador dessa mesa define o peso de cada critério (Figura 36).

Todos os critérios têm um peso no agrupamento concordante com o nível da respectiva barra no painel de critérios. Níveis 0 indicam que o critério não é utilizado no agrupamento. Para níveis superiores a 0, o critério será considerado de acordo com o valor definido.

A complementar a posição do nível de cada barra do painel está também presente o valor numérico correspondente (topo da barra).

• Nível de similaridade

O nível de similaridade exigido no processo de agrupamento é outra mais-valia do nosso sistema e o modo de representar o seu controlo seria outro problema da interface. Porém o seu controlo poderia ser realizado de maneira semelhante aos controlos dos critérios, bastando acrescentar uma outra barra nos controlos.

A barra mais à direita e caracterizada pela cor azul (Figura 36), define o nível de similaridade entre fotos a colocar no mesmo grupo. Quanto maior o valor do nível de similaridade, maior será a semelhança entre fotos do mesmo grupo, e consequentemente menos elementos terá. Para valores baixos de similaridade, os grupos resultantes poderão ter uma dimensão maior, dado que a similaridade exigida entre fotos do mesmo grupo é mais baixa.

• Filtragem por tags

A filtragem por tags foi também adicionada ao painel de critérios de agrupamento, bastando para isso acrescentar um campo de texto.

• Transparência

À semelhança da barra de pilhas no topo da janela, também utilizamos transparências no painel de critérios. A transparência tenta manter visível no fundo o conjunto de fotos a agrupar, mantendo assim o contexto.

Page 75: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

74

6.6 Barra de Ferramentas

Figura 37 – Barra de ferramentas da interface do “Agrafo”

A simplicidade da nossa barra de ferramentas (Figura 37) reflecte a simplicidade de toda a interface. Contendo apenas um pequeno conjunto de opões é através da barra de ferramentas, situada na base da janela, que o utilizador cria os seus projectos de agrupamento.

Os dois primeiros botões, situados à esquerda da barra e caracterizados por duas setas horizontalmente invertidas, permitem ao utilizador fazer undo e redo das tarefas executadas. Em posição central temos cinco botões. As tarefas desencadeadas por cada um são de seguida descritas seguindo a ordem da esquerda para a direita:

1. Abrir – Abrir as fotografias contidas na directoria a especificar. Com as fotografias contidas na directoria é criado um novo grupo.

2. Abrir projecto – Abrir um projecto anteriormente iniciado pelo utilizador. 3. Guardar – Guardar o projecto em curso. Esta opção permite guardar o estado da sessão

no projecto em curso. 4. Guardar Como – Para geração de um novo projecto, o utilizador poderá utilizar este

comando. Deste modo guarda as alterações efectuadas ao longo da sessão sem alterar o estado do projecto iniciado.

5. Opções – Este é o ponto de acesso aos controlos de agrupamento (Figura 36).

Os três botões à direita controlam a perspectiva actual da área de visualização de fotos. No exemplo da Figura 37 o primeiro botão está destacado pela moldura azul revelando que a “sequência carrossel” é a perspectiva actual. Os outros dois botões correspondem às perspectivas “Mesa” e “Mesa com fotos em grelha”.

6.7 Limitações técnicas

Algumas das opções de interface devem-se sobretudo a limitações técnicas e não tanto à solução imaginada.

• Texturas Sendo um protótipo desenvolvido em OpenGL, a representação das fotografias é realizada recorrendo às texturas dessa tecnologia. Esse recurso impõe algumas restrições logo à partida, uma delas é a dimensão das imagens que provoca o redimensionamento das fotografias durante o seu processo de carregamento. A segunda limitação está associada aos recursos exigidos pela excessiva utilização de texturas. Com elevado número de texturas o sistema torna-se lento e perde a fluidez da interface.

Page 76: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

75

• Temporizadores Em todas as janelas de loading são apresentados valores de demora esperados. No entanto, em algumas situações os valores não são realistas. Para se tornarem realistas é necessária uma frequente actualização do estado desses temporizadores, o que nem sempre é possível.

• Comandos Os comandos utilizados na realização de tarefas são talvez uma das mais frequentes criticas efectuadas pelos utilizadores. Mais uma vez devemos isso às limitações do OpenGL. Eventos simples gerados pela roda de scroll do rato são um dos exemplos daquilo que o OpenGL não consegue tratar e que nos seria útil para tornar a interface mais eficiente. Um exemplo seria a utilização a roda de scroll no zoom das fotos ou no scroll da barra de pilhas de fotos.

Page 77: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

76

7. Resultados Experimentais

Para avaliar o nosso sistema, realizámos dois tipos de testes. O primeiro serviu para avaliar os algoritmos de agrupamento quer individualmente quer de forma combinada. Nos segundos testes avaliámos a usabilidade da nossa aplicação em comparação com o Picasa da Google.

7.1 Avaliação do nosso sistema

Nestes testes procuramos avaliar os resultados dos agrupamentos produzidos pelo Agrafo. Para isso, comparamos os seus resultados com agrupamentos realizados manualmente por vários utilizadores.

Para os testes utilizamos um conjunto de 340 fotos, recolhidas junto de 20 potenciais utilizadores do sistema. A cada utilizador pedimos 3 fotos por cada uma das categorias (faces, interiores, urbanas, natureza). E mais um conjunto de 5 fotografias semelhantes entre si.

Para medirmos o desempenho do nosso sistema a agrupar fotografias bastou-nos comparar o resultado produzido com o resultado esperado. Para isso utilizamos a “precision”, o “recall” e

o “f-means” como medidas de avaliação. Achamos correcto utilizar estas medidas porque a “precision” (Equação 5) permite-nos medir a percentagem de fotos bem classificadas em cada grupo criado, enquanto a “recall” permite-nos encontrar a taxa de fotos relevantes em cada grupo em relação ao número de fotos relevantes no sistema (Equação 6).

Equação 5 – Cálculo da precisão obtida no grupo q, onde refere-se ao número de fotos bem

classificadas no grupo q e refere-se à dimensão do grupo .

A utilização desta medida “recall” só fará sentido se considerarmos esta classificação de fotos como resultados de duas queries ao sistema. Imaginemos a classificação de um conjunto de fotos em fotos de interiores e fotos de exteriores. Neste caso a primeira query seria “quais as fotos de interiores?” e naturalmente a segunda seria “quais as fotos de exteriores?”. Consequentemente obteríamos dois resultados para a medida de recall, visto que tratamos o problema de classificação como duas queries independentes, ou seja dois conjuntos resultariam dessas queries.

Equação 6 – Cálculo da recall obtida na query para o grupo , onde refere-se ao número de

elementos relevantes retornados pela query e atribuídos ao grupo e refere-se ao conjunto total

de elementos relevantes.

Page 78: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

77

Utilizamos ainda a medida “f-means”. Esta medida tenta relacionar a ”precision” e “recall” obtidos em cada resultado. Dado que não existe uma relação directa entre ”precision” e “recall”, a utilização de uma medida capaz de relacionar ambas traduzirá melhor a performance do sistema. Quanto maior e mais próximo de 1 for o seu valor melhor será a performance do sistema.

Equação 7 – Cálculo do f-means obtida na query para o grupo , onde P refere-se à “precision”

obtida nessa mesma query e R refere-se à “recall”.

Nas secções seguintes, apresentamos resultados para a avaliação individual de cada critério e também para a sua combinação.

7.1.1 Avaliação Individual dos Critérios

De seguida são apresentados os resultados dos agrupamentos realizados às fotos do conjunto de teste. Iniciaremos com a apresentação dos resultados de agrupamento através da utilização individual de critérios. Posteriormente apresentamos os resultados da combinação de alguns desses critérios.

• Faces

Para testar a classificação das fotos como fotos com face ou foto sem faces utilizámos as 60 fotos com faces fornecidas pelos utilizadores. Posteriormente pedimos a 5 utilizadores que classificassem as restantes fotos fornecidas (urbanas, natureza, interiores) em fotos com ou sem faces, pois algumas destas além de fazerem parte destas categorias, também continham faces. Do conjunto das fotos identificadas sem faces pelos 5 utilizadores, seleccionámos 60 fotos aleatoriamente.

Com este conjunto de 120 fotos, onde 60 continham faces e 60 não, procedemos ao agrupamento, obtendo uma precisão de 85,8%

Grupo Relevantes #Grupo Correctas Erradas Precision Recall F-means

Com Faces

60 49 46 3 0.939 0.767 0.844

Sem Faces

60 71 57 14 0.803 0.950 0.87

Global 120 120 103 17 0.858 - -

Tabela 2 – Grupos resultantes do agrupamento através do critério Faces.

Page 79: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

78

Figura 38 – Exemplos de fotos mal classificadas. Fotos classificadas como não tendo faces.

Relativamente ao conjunto de fotografias mal classificadas, observamos uma maior incidência nas fotos classificadas como não contendo faces. Neste grupo de fotos aparecem 14 fotos mal classificadas, sendo que em grande parte desse conjunto, as fotos apresentam faces pequenas relativamente à dimensão da foto, ou então apresentam faces vistas de perfil ou em posições não frontais (Figura 38).

• Interiores / Exteriores (Indoor / Outdoor)

Os testes deste classificador foram realizados utilizando as 60 fotos de interiores fornecidas e 60 fotos seleccionadas aleatoriamente do conjunto de fotos urbanas e natureza. Neste critério de agrupamento obtivemos uma precisão de 89.2%. Os resultados obtidos encontram-se descritos de seguinte.

Grupo Relevantes #Grupo Correctas Erradas Precision Recall F-means

Interiores 60 63 55 8 0.873 0.917 0.894

Exteriores 60 57 52 5 0.867 0.892 0.879

Global 120 120 107 13 0.892 - -

Tabela 3 - Grupos resultantes do agrupamento através do critério interiores/exteriores.

Como seria previsível, nem todas as fotos de interiores e exteriores apresentam níveis de luminosidade suficientemente distintos para obtermos uma precisão de 100%. Todos os casos de erro (apresentados na Figura 39) são exemplos desse tipo de excepções. No caso das fotografias de interiores, classificadas como fotografias de exteriores, observamos diversos pontos com elevada luminosidade. A presença de janelas para o exterior ou reflexos fortes poderão ser causadores de más classificações.

Page 80: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

79

Figura 39 – Exemplo de fotos mal classificadas. As 3 primeiras classificadas como fotos de interiores, e as restantes classificadas como exteriores.

• Urbano / Natureza (Urban / Nature)

Tal como seria previsíveis as fotos dos utilizadores relativas a estas categorias foram utilizadas nos testes deste classificador. Este critério obteve uma precisão de 81.7%, revelando uma maior incidência de erros na categoria Natureza.

Grupo Relevantes #Grupo Correctas Erradas Precision Recall F-means

Urbanas 60 40 39 1 0.975 0.650 0.780

Natureza 60 80 59 21 0.738 0.983 0.843

Global 120 120 98 22 0.817 - -

Tabela 4 - Grupos resultantes do agrupamento através do critério Urbanas/Natureza.

Nos resultados deste classificador, observamos que a maioria das fotos mal classificadas, como é exemplo na Figura 40, são fotos urbanas classificadas como natureza. A justificação desta má classificação baseia-se nos contornos presentes. Grande parte das fotos urbanas, são fotos de paisagens urbanas. Este tipo de fotos caracteriza-se por um aglomerado de pequenos contornos. A inexistência de contornos fortes, prolongados e de direcção coerente leva o sistema a classificá-las como natureza.

Page 81: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

80

Neste classificador, apesar da precisão global se situar nos 81.7%, observamos uma excelente precisão na classificação das fotos do conjunto de fotos urbanas. De todas as fotos classificadas como urbanas, apenas uma foi mal classificada.

Figura 40 – Exemplo de fotos classificadas como Natureza. Fotos de paisagens de cidades são frequentemente classificadas como Natureza devido À falta de contornos fortes.

A tabela seguinte sumariza os resultados obtidos para cada um dos critérios. Como podemos ver na Figura 41, a identificação de imagens urbanas é a que apresenta uma melhor precisão, enquanto que o critério que apresenta melhores resultados é o de Interiores/Exteriores.

Precisão Recall F-means

Faces 93.9 76.7 84.4 Sem Faces 80.3 95.0 87.0 Global 85.8 - - Interiores 87.3 91.7 89.4 Exteriores 86.7 89.2 87.9 Global 89.2 - - Urbanas 97.5 65.0 78.0 Natureza 73.8 98.3 84.3 Global 81.7 - -

Tabela 5 – Resultados dos agrupamentos através da utilização individual dos critérios.

Page 82: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

81

Figura 41 – Resultados dos agrupamentos através da utilização individual dos critérios.

Figura 42 - Precisão global dos agrupamentos através da utilização individual dos critérios de agrupamento.

7.1.2 Avaliação de Critérios Combinados

A inovação do nosso sistema consiste fortemente na possibilidade de combinar critérios, e manipular os seus pesos de modo a produzir grupos adaptados às nossas necessidades. A seguir apresentamos os resultados experimentais para a combinação dos critérios Interior/Exterior com Faces e Urbano/Natureza com Faces. Em ambos os testes foram atribuídos aos critérios o peso máximo, assim como ao nível de semelhança. Neste tipo de agrupamento, o nível de semelhança não terá grande influência dado que os critérios utilizados são critérios de classificação binários. Através destes critérios, fotos da mesma categoria são descritas com o mesmo valor enquanto fotos de categorias diferentes são descritas por valores bastante distanciados, não havendo fotos com valores intermédios. Nestes casos, o facto de não haver valores intermédios, reduz o impacto da escolha do nível de similaridade.

Page 83: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

82

• Interiores / Exteriores e Faces

Para realização dos testes de agrupamento através da combinação das classificações interior/exterior e presença/ausência de faces, utilizámos as fotos fornecidas como fotos com faces e as fotos das categorias interiores e exteriores utilizadas nos testes descritos anteriormente.

Para o conjunto de fotos com faces pedimos a 5 utilizadores que identificassem aquelas que correspondiam à categoria de interiores e as que correspondiam a exteriores. A classificação foi consensual, existindo apenas dificuldade na classificação de 8 das fotos, as quais excluímos no teste.

A seguir os mesmos 5 utilizadores, identificaram a presença de faces nas fotos de interiores e exteriores, obtendo-se 4 conjuntos de fotos com a seguinte dimensão:

65 fotos de interiores com faces 31 fotos de interiores sem faces 19 fotos de exteriores com faces 57 fotos de exteriores sem faces

Através do agrupamento automático obtivemos uma precisão global de 69.8% que reflecte os seguintes resultados:

Grupo Relevantes #Grupo Correctas Erradas Precision Recall F-means

Interiores / Com Faces

65 52 41 11 0.788 0.621 0.695

Interiores / Sem Faces

31 51 26 25 0.510 0.839 0.634

Exteriores / Com Faces

19 9 5 4 0.556 0.263 0.357

Exteriores / Sem Faces

57 60 48 12 0.800 0.842 0.820

Global 172 172 120 52 0.698 - -

Tabela 6 - Grupos resultantes da combinação dos critérios Interiores/Exteriores e Faces.

A utilização deste conjunto de fotos fornecidas, levou à criação de grupos de teste de pequena dimensão, como acontece com o grupo de fotos de exteriores com faces (apenas 19 fotos). Este baixo número de fotos influenciou os resultados dos testes. Seria interessante efectuar os mesmos testes para quatro conjuntos de fotos com a mesma dimensão. Porém a baixa precisão obtida não se justifica apenas com o conjunto de fotos de teste. Ao combinarmos a utilização de diversos classificadores, estamos também a combinar as possibilidades de erro da classificação de uma foto. Por exemplo, enquanto através de um classificador obtemos uma classificação correcta, uma má classificação de um segundo classificador irá colocar a foto no conjunto errado. Os pesos utilizados nesta classificação

Page 84: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

83

• Urbano / Natureza e Faces

Para este teste voltámos a pedir a 5 utilizadores que classificassem as fotos de faces do conjunto de teste, em fotos urbanas e fotos de Natureza. Contudo, a elevada ocorrência de close-up nas fotos de faces dificultou a diferenciação entre fotos urbanas ou fotos de natureza. Para solucionar esse problema, adquirimos 80 novas fotos com faces, mas onde o detalhe de fundo permitia a classificação em urbana ou natureza. Essa classificação foi realizada pelo mesmo conjunto de 5 utilizadores. Do mesmo modo, foram identificadas a presença de faces no conjunto de fotos urbanas e de natureza. Depois deste processo, ficámos com quatro conjuntos de fotos:

• 47 fotos urbanas com faces

• 55 fotos urbanas sem faces

• 40 fotos de natureza com faces

• 58 fotos de natureza sem faces

Para esta configuração o sistema atingiu uma precisão global de 73%. Os resultados do agrupamento automático são apresentados na tabela seguinte.

Grupo Relevantes #Grupo Correctas Erradas Precision Recall F-means

Urbanas / Com Faces

47 40 33 7 0.825 0.702 0.759

Urbanas / Sem Faces

55 40 30 10 0.750 0.545 0.631

Natureza / Com Faces

40 34 29 5 0.853 0.725 0.784

Natureza / Sem Faces

58 86 54 32 0.628 0.931 0.750

Global 200 200 146 54 0.730 - -

Tabela 7 - Grupos resultantes da combinação dos critérios Urbanas/Natureza e Faces.

Neste conjunto de testes observamos uma precisão relativamente baixa (62.8%) na definição do grupo de fotos da categoria natureza sem faces. Tal como já foi referido, a combinação de classificações propaga os erros de ambos os critérios combinados. Neste último grupo de fotos podemos observar um maior número de erros devido às fotos urbanas sem faces serem classificadas como de natureza. Tal como aconteceu nos testes de classificação Urbano/Natureza os erros persistem. Dezanove das fotos mal classificadas como natureza, nos primeiros testes, voltam a pertencer ao conjunto de erros destes testes.

Page 85: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

84

A tabela e os gráficos seguintes apresentam o conjunto dos resultados dos dois testes realizados e descritos anteriormente.

Precisão Recall F-means

Interiores/Com Faces 78.8 62.1 69.5 Interiores/Sem Faces 51.0 83.9 63.4 Exteriores/Com Faces 55.6 26.3 35.7 Exteriores/Sem Faces 80.0 84.2 82.0 Global 69.8 - - Urbanas/Com Faces 82.5 70.2 75.9 Urbanas/Sem Faces 75.0 54.5 63.1 Natureza/Com Faces 85.3 72.5 78.4 Natureza/Sem Faces 62.8 93.1 75.0 Global 73.0 - -

Tabela 8- Resultados dos grupos resultantes da utilização combinada dos critérios de agrupamento

Figura 43 – Resultados dos agrupamentos através da utilização combinada dos critérios.

Figura 44 – Precisão globail dos agrupamentos através da utilização combinada dos critérios.

Page 86: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

85

Podemos verificar que a maior precisão foi obtida no teste de combinação dos critérios Urbanas/Natureza e Faces (73%), obtendo 82.5% de precisão no grupo de fotos Urbanas e com Faces. O melhor valor de Recall também foi obtido no mesmo teste, com um valor de 93.1% para o grupo de fotos de Natureza Sem faces.

7.2 Testes com utilizadores

Depois de avaliarmos a qualidade dos algoritmos desenvolvidos para cada um dos critérios e de avaliarmos o mecanismo de combinação de critérios, realizámos testes com utilizadores.

Nestes testes tínhamos como objectivo comparar a utilidade e usabilidade do nosso sistema (Agrafo) face a outra aplicação de gestão e browsing de bibliotecas fotográficas domésticas desenvolvida pelo Google (Picasa). Durante os testes, dez utilizadores realizaram as tarefas no Agrafo, enquanto os restantes dez realizaram as tarefas no Picasa.

O facto do Picasa ser uma aplicação de sucesso na população de utilizadores de fotografia digital, permitiu-nos obter informação de referência, de maneira a podermos avaliar os resultados dos testes ao Agrafo.

7.2.1 Teste

A cada grupo de 10 utilizadores foi-lhes atribuída a mesma tarefa de selecção de fotos. Foi-lhes fornecido um conjunto de 329 fotografias tiradas ao longo de 3 dias. Todas as fotos continham informação temporal criada pelos respectivos dispositivos fotográficos (EXIF - Exchangeable

Image File Format). O conteúdo das fotos retratava diferentes eventos decorridos durante os 3 dias, como por exemplo: jantares, conferências ou passeios pela cidade. A cada utilizador foi pedido que seleccionasse entre 50 a 60 fotografias que representassem o conjunto total das 329 fotos.

Durante os testes apercebemo-nos que nenhum dos utilizadores estava familiarizado com a aplicação que ia utilizar. Em ambas as aplicações, os utilizadores gastaram cerca de 20-30 minutos para aprenderem a utilizar as suas funcionalidades, utilizando fotografias distintas das utilizadas nos testes. Após essa rápida sessão de treino e a compreensão da tarefa a realizar, iniciaram-se os testes cronometrados. De seguida apresentamos os resultados obtidos através dos testes e de um posterior questionário de satisfação.

7.2.2 Resultados

Na comparação das duas ferramentas realizada através destes testes, observámos que em termos de tempo, o Picasa torna a selecção mais célere. Obtivemos um valor médio de 22,5 minutos e um desvio padrão de 5.64 para a realização da tarefa através do Agrafo, onde um utilizador superou a barreira dos 30 minutos, e apenas três utilizadores realizaram a tarefa em menos de 20 minutos. Por sua vez, a utilização do Picasa reduz esse tempo médio para 16,9 minutos com desvio padrão de 3.87, onde apenas dois utilizadores demoraram mais de 20 minutos. Na Figura

45, podemos ver a gama de valores de tempo utilizada na realização dos testes em cada aplicação.

Page 87: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

86

Figura 45 – No gráfico estão representados os valores do tempo utilizado na realização da tarefa pelos utilizadores em ambas as aplicações.

Esta diferença de valores pode ser justificada pelo modo como o conjunto das fotografias é analisado. O Picasa como apresenta as fotografias ordenadas temporalmente, incita os utilizadores a percorrerem toda a colecção (conjunto de fotografias) enquanto seleccionam as mais relevantes, mas tendo como base de contextualização as fotografias mais próximas no espaço de visualização, ou seja, as fotografias mais próximas temporalmente. No final para os casos em que o grupo de fotos seleccionadas superava as 60 fotografias, o utilizador apenas teve de escolher aquelas a excluir.

No caso do Agrafo os utilizadores comportaram-se de maneira diferente. O facto de este disponibilizar diferentes critérios de agrupamento, originou a preocupação de fazer uma ou mais divisões da colecção para posteriormente seleccionarem as mais relevantes de cada grupo criado. Com o auxílio do Agrafo os utilizadores usam o famoso método de “dividir para conquistar”, ou por outras palavras, dividir o problema em subproblemas de solução mais fácil. A utilização do Agrafo fomentou uma maior preocupação na identificação dos eventos retratados pelas fotografias.

Contudo, observamos que os dois intervalos de tempos se interceptam, indicando que os valores temporais para a realização da tarefa não se afastam demasiado.

Em relação às avaliações efectuadas pelos utilizadores a ambas as ferramentas temos:

Agrafo Picasa

Aspectos Positivos

• Diferentes automatismos de agrupamento

• Simplicidade, facilidade de utilização

• Interface atractiva • Possibilidade de gestão de

colecções de elevada

• Útil • Vista global das fotos • Permite diferentes tamanhos

para os thumbnails • Permite criação de álbuns

Page 88: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

87

dimensão, permitindo uma visão global das mesmas

• Flexibilidade nos tipos de agrupamento

• Fácil manipulação de conjuntos de fotos

• Divisão minuciosa de grupos de fotos e elevada rapidez da mesma

Aspectos Negativos

• Interface lenta quando presentes muitas fotos (ordem das centenas)

• Comandos poderiam estar mais estandardizados

• Alguma imprecisão nas classificações das fotos

• Grupos gerados não identificados com a categoria correspondente

• Qualidade das fotos aquando do zoom

• Necessidade de alguma experiência e treino para perceber o funcionamento da combinação dos critérios

• Demasiada animação aquando da apresentação das fotos em grelha (perda de tempo)

• Falta de auto-ajudas, tooltips

• Exige alguma experiência, em particular com o browsing das fotografias

• Browsing complexo por englobar todas as fotos existentes no computador

• Possui apenas a ordenação temporal sem efectuar qualquer agrupamento

• Por vezes confunde o browsing dos álbuns com os das pastas

• A alteração do tamanho dos thumbnails desloca as imagens em visualização

• A vista cronológica apenas funciona para a totalidade das fotografias

• Área de visualização de imagens não mostra apenas as pastas seleccionadas

Tabela 9 – Conjunto de aspectos positivos e aspectos negativos apontados pelos utilizadores a cada uma das aplicações em estudo. Aspectos apresentados pela ordem de importância.

Agrafo Picasa

Figura 46 – Classificação de cada aplicação referente à interacção com a mesma.

Page 89: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

88

Como podemos visualizar na Tabela 9, e tendo em conta apenas a tarefa exigida aos utilizadores, o Agrafo apresenta-se mais completo no que diz respeito às funcionalidades de agrupamento automático. Ambas as ferramentas apresentam falhas ou lacunas a nível gráfico, sendo que o Agrafo volta a ser apontado como ferramenta simples, fácil de usar, acessível e graficamente atraente. Juntamente com as notas atribuídas pelos utilizadores às aplicações (Agrafo – 8.0, Picasa – 7.2 ), podemos concluir que, para a tarefa realizada, o Agrafo supera o Picasa, passando nos nossos testes de usabilidade. Relativamente à facilidade de utilização da aplicação, o Agrafo volta a demonstrar maior supremacia devido à simplicidade do mesmo (ver Figura 46).

Os gráficos da Figura 47 sumarizam as características dos utilizadores que realizaram os testes. Deste modo conseguimos comparar os utilizadores que fizeram as tarefas no Agrafo com aqueles que realizaram no Picasa.

Como podemos ver o grupo de utilizadores que utilizou o Agrafo é muito semelhante ao grupo que avaliou o Picasa.

AGRAFO PICASA

Page 90: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

89

Figura 47 – Características dos utilizadores que realizaram os testes de usabilidade.

Page 91: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

90

8. Conclusões e Trabalho Futuro

Neste capítulo sumarizamos o conteúdo da dissertação e apresentamos as conclusões finais, analisando os pontos fortes e as fragilidades do trabalho realizado. Finalmente, avaliaremos a contribuição do trabalho e propomos novas direcções de estudo que poderão complementar ou inovar o agrupamento automático de fotografias digitais.

8.1 Sumário da dissertação

Esta dissertação encontra-se dividida em cinco principais capítulos: trabalhos relacionados; tarefas comuns na gestão, organização de bibliotecas fotográficas domésticas, Agrafo: sistema de agrupamento automático de fotografias digitais; interface visual para agrupamento e organização de fotografias digitais; resultados e avaliações experimentais.

O objectivo principal deste trabalho era a criação de uma sistema de utilização doméstica, que ajudasse os utilizadores na gestão e organização de fotografias digitais. Pretendia-se um sistema que realizasse a divisão de conjuntos de fotos em grupos de fotos relacionadas entre si, e que não utilizasse apenas a informação temporal usualmente explorada pela maioria das soluções existentes. O nosso trabalho começou pela pesquisa de informação acerca dos sistemas dedicados ao agrupamento automático de fotografias digitais. Em conjunto tentámos perceber quais as técnicas mais utilizadas na análise de imagens digitais. Procedemos então à implementação de algumas técnicas de análise de imagem e a técnicas de agrupamento utilizadas posteriormente no relacionamento das características de imagem obtidas. De seguida implementámos um protótipo para o nosso sistema. Como parte integrante do protótipo desenvolvemos uma interface visual dirigida às tarefas que pretendemos simplificar com a utilização do sistema. Por fim realizámos testes com utilizadores para avaliar a solução que propusemos nesta dissertação. Passamos de seguida à descrição resumida dos capítulos que abordam o trabalho apresentado:

No capítulo 2 analisámos alguns dos trabalhos mais relevantes no agrupamento automático de fotografias digitais. Através dessa análise tentámos identificar as técnicas de análise de fotografia utilizadas assim como os mecanismos de agrupamento utilizados. Neste capítulo também abordamos a área de recuperação de imagens (CBIR – Content Based image Retrieval), e as características de imagem mais utilizadas nessa recuperação. Por fim realizámos a síntese dos pontos fortes e fraquezas de cada abordagem e o modo como poderiam ser utilizadas na nossa solução.

No 3º capítulo realizámos uma apresentação da aplicação em termos gerais, descrevendo o processo de agrupamento assim como a estrutura do sistema

No capítulo 4 descrevemos os resultados da pesquisa que efectuámos acerca dos hábitos fotográficos dos utilizadores. Esse estudo foi elaborado através de inquéritos realizados a utilizadores de fotografia digital, desde curiosos a fotógrafos profissionais. Por fim apresentámos as conclusões e respostas às questões que gostaríamos de ver esclarecidas, para podermos realizar um trabalho que fosse ao encontro das necessidades dos utilizadores.

O 5º capítulo foi todo ele dedicado à descrição do sistema desenvolvido. Ele está dividido em duas grandes partes: a primeira apresenta as diferentes componentes do sistema dedicadas à extracção de características das fotografias; o segundo descreve o método de clustering utilizado

Page 92: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

91

no agrupamento dos descritores das fotografias. Inicialmente começámos por explicar o funcionamento do sistema, assim como a sua estruturação em componentes de análise fotográfica. Na primeira grande parte deste capítulo apresentámos o conceito de componente adoptado pelo nosso sistema assim como o funcionamento exigido a esses mesmos componentes. De seguida apresentámos os componentes implementados explicando o seu funcionamento. A segunda grande porção deste capítulo expõe o processo de agrupamento das fotografias de acordo com a informação descritora extraída pelo conjunto de componentes do sistema. No final do capítulo reservámos alguns parágrafos para explicar o método de computação paralela utilizado com a finalidade de tornar o sistema mais ágil na resposta ao utilizador.

No 6º capítulo introduzimos a interface visual desenvolvida para o nosso protótipo. Numa aplicação com tamanha influência visual, a interface visual torna-se tão ou mais importante que os mecanismos desenvolvidos para a gestão e organização fotográfica. Devido ao elevado peso do grafismo, dedicámos um capitulo à interface visual da aplicação.

O 7º capítulo mostra os resultados obtidos pelos dois conjuntos de testes realizados ao protótipo desenvolvido. No primeiro conjunto de testes mostrámos a funcionalidade do sistema, medindo valores de precisão aos diferentes tipos de agrupamentos realizados pelo sistema. No segundo grupo de testes medimos a usabilidade do sistema através de uma comparação realizada com um sistema bem conhecido (Picasa do Google). Neste capítulo comprovámos a usabilidade da nossa solução assim como a aceitação da mesma pelos utilizadores.

8.2 Conclusões finais e discussão

A maioria dos sistemas de gestão e organização de fotografias digitais domésticas utiliza poucas características fotográficas na realização dessas tarefas. Com o Agrafo tentámos contornar essa realidade. Para tal, aumentámos a presença do número de critérios, capazes de medir semelhança entre fotografias. Para além do maior número de critérios, tentámos aumentar a flexibilidade da análise das fotografias através do controlo do peso desses critérios por parte dos utilizadores. Os testes efectuados evidenciam bons resultados com esse aumento de flexibilidade. De seguida iremos apresentar os benefícios, limitações e contribuições do nosso trabalho.

8.2.1 Benefícios da solução

Hoje em dia são diversos os dispositivos que permitem a realização de fotografias digitais (câmaras fotográficas, câmaras de filmar, telemóveis, …). O forte crescimento do número de dispositivos fotográficos e a diminuição do custo dos mesmos, provocam um crescimento das bibliotecas fotográficas pessoais. Actualmente os dispositivos fotográficos permitem o armazenamento de quantidades de fotografias na ordem das centenas e até mesmo dos milhares. Torna-se óbvia a necessidade de mecanismos que facilitem a organização de grupos de fotografias dessa dimensão. È nesse sentido que surgiu o Agrafo.

Ao contrário de grande parte das aplicações destinadas à organização fotográfica, a nossa solução aborda diferentes características da fotografia. A informação temporal deixa de ser o único método de agrupamento, dando alternativas de agrupamento a bibliotecas de fotografias

Page 93: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

92

sem informação temporal credível. A existência de diversos métodos de agrupamento permite ainda o relacionamento visual entre fotografias, mesmo que estas tenham sido realizadas em datas e tempos distintos. Esta flexibilidade do agrupamento automático permite ainda a elaboração de diferentes perspectivas da mesma colecção fotográfica.

A flexibilidade de agrupamento e organização fotográfica não é apenas obtida através da diversidade de critérios de agrupamento. Aliada à diversidade de critérios, também se encontram presentes a possibilidade de combinação simultânea desses mesmos critérios, assim como a capacidade de definir o peso que cada um deles terá no processo de agrupamento.

8.2.2 Limitações

Apesar dos resultados obtidos serem bastante satisfatórios, o nosso trabalho apresenta algumas limitações que passamos a apresentar.

Sendo o principal objectivo proposto, a criação de um sistema que conseguisse conjugar diferentes tipos de características no agrupamento automático de fotografias digitais, não foi possível dedicar o esforço desejado à criação dos melhores componentes de análise das fotografias. A necessidade de obter vários componentes de modo a estudar a utilização simultânea de diferentes critérios, não nos permitiu implementar componentes de análise de imagem com a eficácia desejada e já conhecida através de outros autores. Contudo, como é visível nos resultados dos testes realizados, os valores de precisão obtidos são bastante satisfatórios.

A técnica utilizada na divisão do grupo de fotos de acordo com as características analisadas, também apresenta algumas limitações. A necessidade de um mecanismo que não necessitasse de nenhuma informação prévia acerca do número de conjuntos resultantes e a possibilidade do utilizador definir a proximidade exigida a fotos do mesmo grupo, levou-nos ao algoritmo de clustering QTClust. Porém, ao trabalharmos com vários descritores de diferentes dimensões e que utilizam diferentes medidas de distância, obrigou-nos à realização de uma adaptação ao algoritmo original. Esta introdução de alterações no algoritmo provoca algumas alterações nos resultados. Seria interessante reformular a estrutura do sistema para permitir-nos utilizar o algoritmo original e observar os resultados da utilização do mesmo.

Sendo um prolongamento de um sistema, a interface visual pode atribuir-lhe valor ou reduzir a qualidade do valor desse sistema percepcionada pelo utilizador. No nosso caso, os testes realizados pelos utilizadores atribuem à interface visual um peso positivo e importante na satisfação. A interface visual desenvolvida para o nosso protótipo é apontada como um ponto forte. Apenas peca pelo aumento da morosidade observada aquando da presença de um elevado número de fotografias. A interface deste nosso protótipo foi toda ela implementada na tecnologia OpenGL, provocando estas e outras limitações.

Por fim, e apesar dos resultados serem muito animadores, achamos que poderíamos ter envolvido um maior número de utilizadores na realização dos teste. Da mesma forma, o número de fotografias utilizadas na realização dos testes ao sistema poderia ser mais elevado, permitindo resultados estatísticos mais fiáveis. O facto de serem os utilizadores a fornecerem as fotografias para os testes limitou a dimensão do conjunto de fotografias. Todavia, permitiu-nos obter uma selecção de fotografias sem influência da nossa parte.

Page 94: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

93

8.2.3 Contribuições para o trabalho

No conjunto dos esforços efectuados na realização deste trabalho destacam-se:

• Análise de tarefas com inquérito realizado aos utilizadores de fotografias digitais com objectivo de conhecer e analisar os hábitos e relevância do agrupamento fotográfico para utilizadores domésticos.

• Definição e implementação da arquitectura base do sistema: módulo principal com integração dos plugins e módulo de processamento paralelo

• Implementação de todos os plugins (critérios de agrupamento) à excepção do detector de faces.

• Implementação dos algoritmos de treino dos critéiros de agrupamento que realizam classificação.

• Obtenção e selecção dos conjuntos de fotos de treino para critérios de classificação

• Adaptação e implementação do algoritmo de clustering. • Idealização e implementação de toda a interface gráfica

• Realização dos testes ao sistema

• Realização de testes com utilizadores

• Análise dos resultados dos testes com os utilizadores

8.2.4 Contribuições

As contribuições desta dissertação não são visíveis ao nível de técnicas e algoritmos de análise de fotografias. Todas as abordagens e técnicas descritas e implementadas no nosso trabalho foram desenvolvidas e estudadas por outros investigadores. Contudo, este trabalho vem contribuir na medida em que sugere um método de utilização simultânea de um elevado conjunto de características, no agrupamento automático de colecções fotográficas. Em conjunto com os métodos de cálculo de distâncias entre fotos, contribuímos ainda com uma interface visual dirigida às tarefas de agrupamento e organização de fotografias digitais.

A nível funcional, o nosso trabalho vem contribuir com a produção de um protótipo, baptizado como Agrafo, e que implementa toda a teoria apresentada nesta dissertação. Apesar de ainda considerado como protótipo, esta aplicação está capaz de ser utilizada por qualquer utilizador doméstico de fotografias digitais.

Em termos práticos, contribuímos com a avaliação efectuada ao nosso sistema. Os testes de usabilidade realizados por um conjunto de utilizadores, revelam um sistema utilizável no auxílio à organização e gestão de colecções de fotografias digitais domésticas. Os resultados dos testes demonstram elevada satisfação dos utilizadores com os mecanismos de agrupamento automático.

8.3 Trabalho Futuro

Esta dissertação pode ser abordada como origem de novas soluções ou melhorias ao sistema apresentado. A solução aqui abordada pode ainda ser estendida, mantendo sempre os objectivos principais de agrupamento automático e eficaz de fotografias digitais. De acordo com as

Page 95: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

94

limitações apontadas anteriormente e a avaliação efectuada pelos utilizadores, destacamos alguns aspectos passíveis de serem abordados em trabalhos futuros:

• Critérios de agrupamento.

Como já foi referido anteriormente, os mecanismos de análise e classificação de fotografias digitais não apresentaram os resultados já demonstrados por outros autores. Foi já a pensar nessa possibilidade que desenvolvemos um sistema que permite uma fácil substituição ou melhoramento dos componentes que realizam essa caracterização da fotografia. Nesse sentido será possível no futuro melhorar os métodos de análise efectuados às fotografias, sem afectar o resto do sistema.

• Novos critérios

A par da possibilidade de melhoramento dos componentes existentes, será também possível a introdução de métodos de análise de fotografia que abordem novos aspectos da imagem. A introdução desses novos mecanismos, exigiria em especial a actualização da componente gráfica.

• Algoritmo de clustering

O algoritmo de clustering pode ser abordado como um componente do sistema. Consequentemente, para algoritmos com interface idêntica ao utilizado, será fácil a sua substituição. Poderá ser também realizada uma alteração mínima à estrutura do sistema de modo aumentar a abstracção em relação ao algoritmo de clustering utilizado, permitindo uma maior facilidade na sua alteração e permitindo a utilização de algoritmos mais eficazes ou com melhor performance.

• Interface

Sendo ainda um protótipo, sugerimos a melhoria de alguns aspectos gráficos da interface visual. Um dos aspectos mais críticos da implementação actual refere-se à performance da interface quando presentes conjuntos de fotos com elevada dimensão. Será importante a supressão desta limitação.

• Novas funcionalidades

Apesar de ser objectivo de estudo desta dissertação, as ferramentas de disponibilização das fotografias através da Web, são cada vez mais utilizadas. Os utilizadores atribuem cada vez mais, maior importância à apresentação das suas fotografias na Web. Exemplos disso são as várias aplicações Web disponibilizadas, como por exemplo o Flickr. Seria interessante o desenvolvimento de uma versão do sistema que incrementasse as funcionalidades disponibilizadas. Podendo um desses incrementos, a possibilidade de interacção com estas aplicações Web.

• Melhor Foto Utilizar algoritmos/regras simples para identificar a melhor foto dentro de um grupo (regra dos 2/3, focagem, histograma, etc.).

Page 96: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

95

Bibliografia

[Agrafo 2008] Mota, J., Fonseca, M. J., Gonçalves, D., and Jorge, J. A. 2008. Agrafo: a visual interface for grouping and browsing digital photos. In Proceedings of the Working Conference on Advanced Visual interfaces (Napoli, Italy, May 28 - 30, 2008). AVI '08

[Alghbari 2006] Zaher Al Aghbari, Ruba Al-Haj. Hill-Manipulation: An effective algorithm for color image segmentation. Image and Vision Computing. 2006

[Canny 1986] Canny, J., A Computational Approach To Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, 8:679-714, 1986.

[Chang 1998] E.Y. Chang, et al., .RIME: A Replicated Image Detector for the World-Wide Web., SPIE Vol. 3527, pp. 68-67, 1998.

[Chitkara 2000] Vishal Chitkara, Mario A. Nascimento, Curt Mastaller. Technical Report TR 00-18, Department of Computing Scince, University of Alberta, Edmonton, Alberta, Canada. September 2000

[Cooper 2005] Mtthew Cooper, Jonathan Foote, Andreas Girgensohn, and Lynn Wilcox. Temporal Event Clustering for Digital Photo Collections. ACM Transactions on Multimedia Computing, Communications and Applications, Vol. 1, No. 3, August 2005, pages 269-288

[Cooper and Foote 2001] M. Cooper, and J. Foote. Scene Boundary Detection Via Video Self-Similarity Analysis. Proc. IEEE Intl. Conf. on Image Processing, 2001, pp. 378-381

[Frohlich 2002] D. Frohlich, A. Kuchinsky, C. Pering, A. Don, and S. Ariss. Requirements for photoware. In Proceedings of the ACM Conference on CSCW. ACM Press, New York, NY, 166-175, 2002

[Furht 1998] B. Furht, Ed., “Content-Based Image Indexing and Retrieval”, int The Handbook of Multimedia Computing. Boca Raton, FL: CRC, 1998, ch. 13

[Gargi 2003a] Ullas Gargi, Yining Deng and Daniel R. Tretter. Managing and Searching Personal Photo Collections. Proc. SPIE Storage and Retrieval for Media Databases, 2003, pp.13.21

Page 97: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

96

[Gargi 2003b] Ullas Gargi. Consumer Media Capture: Time-based Analysis and Event Clustering. Technical Report HPL-2003-165, HP Laboratories, August 2003.

[Girgensohn 2003] Andreas Girgensohn, John Adcock, Matthew Cooper, Jonathan Foot & Lynn Wilcox. Simplifying the Management of Large Photo Collections. Human-Computer Intereaction, INTERACT’03. Publicado pelo IOC Press, (c) IFIP, 2003, pp. 196-203

[Graham 2002] A. Graham, H. Garcia-Molina, A. Paepeke, and T. Wino-grad. Time as the Essence for Photo Browsing Throught Personal Digital Libraries. Proc. Joint Conf. on Digital Libraries, 2002, pp. 326-335

[He and Wang 1990] D. C. He and Li Wang. A new statistical approach for texture analysis. Photogrammatic Engineering and Remote Sensing. 56(1):61-66, 1990.

[He and Wang 1991] D. C. He and Li Wang. Texture filters based on texture spectrum. Pattern Recognition. 24(12): 1187-1195, 1991

[Heyer 1999] L. J. Heyer, Semyon Kruglyak,and Shibu Yooseph, (1999) Exploring expression data: Identification and analysis of coexpressed genes. Cold Spring Habor Laboratory Press, Genome Res. 9, 1106-15

[Huang 1997] J. Huang, S. Ravi Kumar, Mandar Mitra, Wei-Jing Zhu, Ramin Zabih. Image indexing using color correlograms. in Proc. IEEE Computer Vision and Pattern Recognition Conf., San Juan, PR, June 1997, pp. 762–768.

[Huynh 2005] David F. Huynh, Steven M. Drucker, Patrick Baudisch, Curtis Wong. Time Quilt: Scaling up Zoomable Photo Browsers for Large, Unstructured Photo Collections. CHI 2005, April 2-7, 2005, Portland, Oregon, USA

[Intel OpenCV] http://www.intel.com/technology/computing/opencv/

[Jain and Dubes 1988] A. Jain and R. Dubes. Algorithms for Clustering Data. Englewood Cliffs, NJ: Prentice-Hall, 1988, pp. 96-101

[Jalaja 2005] K. Jalaja, Chakravarthy Bhagvati, B. L. Deekshatulu, Arun K. Pujari. Texture Element Feature Characterizations for CBIR. Geoscience and Remote Sensing Symposium, 2005. IGARSS '05. Proceedings. 2005 IEEE International. 25-29 July 2005

[J. C. Dunn 1973] J. C. Dunn, "A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters", Journal of Cybernetics 3: 32-57, 1973

Page 98: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

97

[Jense and Cour-Harbo 2001] Arne Jense and Anders la Cour-Harbo, “Ripples in Mathematics: the Discrete Wavelet Transform”, Springer, 2001]

[Kirk 2006] David S. Kirk, Abigail J. Sellen, Carsten Rother and Kenneth R. Wood. Understanding Photowork. CHI 2006 Procedings. Collecting and Editing Photos. April 22-27, 2006, Montréal, Québec, Canada.

[Kunchinsky 1999] Allan Kuchinsky, Celine Pering, Michael L. Creech, Dennis Freeze, Bill Serra, Jacek Gwizdka. Hewlett Packard Laboratories. FotoFile: A Consumer Multimedia Organization and Retrieval System. CHI’99, Pittsburg PA USA.

[Liu 2000a] Liu Wenyin, Yanfeng Sun, Hongjiang Zhang, Microsoft Research China. MiAlbum – A System for Home Photo Management Using the Semi-Automatic Image Annotation Approach. International Multimedia Conference. Proceedings of the eighth ACM international conference on Multimedia, 2000, Los Angels CA USA

[Liu 2000b] LiuWenyin, Susan Dumais, Yanfeng Sun, HongJiang Zhang, Mary Czerwinski and Brent Field. A Semi-Automatic image Annotation Strategy and its Performance Evaluation. Microsoft Technical Report. 2000

[Loui and Savakis 2003] Alexander C. Loui and Andreas Savakis. Automated Event Clustering and Quality Screening of Consumer Pictures for Digital Albuming. IEEE Transactions on Multimedia, 2003, vol5, pp. 390- 402.

[Lu 1999] Guojun Lu, Atul Sajjanhar, Region-basedshape representation and similarity measure suitable for content-basedimage retrieval, Multimedia Syst. 7 (2) (1999) 165–174.

[Lu 2004] Yang Lu, Tien-Tsin Wong, and Pheng-Ann Heng. Digital Photo Similarity Analysis in Frequency Domain and Photo Album Compression. ACM International Conference Proceeding Series, Proceedings of the 3rd international conference on Mobile and ubiquitous multimedia, 2004

[Nabil 1996] Mohammad Nabil, Anne H. H. Ngu, and John Shepherd. Picture Similarity Retrieval Using the 2D Projection Internal Representation. IEEE Transactions on Knowledge and Data Engineering, Vol.8, No.4, pp. 533-539. 1996

[Picard 1998] M. Szummer and R. W. Pickard, “Indoor-outdoor image classification”, in IEEE Int. Workshop Content-Based Access Image Video Databases (in conjunction with ICCV’98), Bombay, India, Jan. 1998

Page 99: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

98

[Platt 2000] John C. Platt. AutoAlbum: Clustering Digital Photographs using Probabilistic Model Merging. In Proc. IEEE Workshop on Content-Based Access of Image and Video Libraries, 2000, pp.96-100

[Platt 2003] John C. Platt, Mary Czerwinski, Brent A. Field. PhotoTOC: Automatic Clustering for Browsing Personal Photographs. Microsoft Research Technical Report MSR-TR-2002-17, 2003

[Rodden 2001] K. Rodden, Wojciech Basalaj, David Sinclair, and Kenneth Wood. Does Organization by Similarity Assist Image Browsing? In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems 2001, pp.190-197

[Rodden and Wood 2003] K. Rodden and K. Wood. How do people manage their digital photographs? In Proceedings of the ACM Conference on Human factors in Computing Systems (CHI). ACM Press, New York, NY, 409-416, 2003

[Saha 2004] Sanjoy Kumar Saha, Amit Kumar Das, and Bhabatosh Chanda. Cbir using perception based texture and colour measures. 17th International Conference on Pattern Recognition, pages 985–988, 2004.

[Shah 2004] Biren Shah, Praveen Dhatric, Vijay Raghavan. Using Inverse Image Frequency for Perception-Based Color Image Quantization. Image Analysis and Interpretation, 2004. 6th IEEE Southwest Symposium, 28-30 March 2004, pp. 71-75

[Smith and Chang 1995] John R. Smith and Shih-Fu Chang. Singe Color Extraction and Image Query. Proc. IEEE Int'l Conf. Image Processing, pp. 528-531, 1995.

[Vailaya 1998] A. Vailaya, A.K. Jain, and H. J. Zhang, “On image classification: City images vs. Landscapes”, Pattern Recognit, vol. 31, no. 12, pp. 1921-1936, 1998

[Vailaya 2001] A. Vailaya, A. T. Figueiredo, Anil K. Jain and Hong-Jiang Zhang, “Image Classification for Content-Based Indexing”, IEEE Transactions on Image Processing, Vol.10, No 1, 2001

[Wang 1997] J. Z. Wang, G. Wiederhold, O. Firschein, and S. X.Wei. Content-based image indexing and searching using Daubechies’ wavelets. International Journal on Digital Libraries, 1(4):311–328, 1997.

[Wang 1998] J. Z. Wang, J. Li and G. Wiederhold. “Wise: wavelet-based image search engine with efficient feature vector clustering and classification”. Submitted for journal publication. 1998.

Page 100: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

99

[Wei 2005] Shikui Wei, Yao Zhao, Zhenfeng Zhu. Meaningful Regions Segmentation in CBIR. IEEE Int. Workshop VLSI Design & Video Tech, Suzhou, China, May, 28-10, 2005.

Page 101: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

100

ANEXOS

Page 102: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

101

Inquérito (Análise de Tarefas)

Este inquérito é dirigido aos adeptos da fotografia e tem como objectivo o estudo dos métodos por eles utilizados na organização de fotografias digitais.

Os resultados deste inquérito serão utilizados no desenvolvimento de uma aplicação informática de agrupamento automático de fotografias digitais.

O inquérito é composto por 10 questões nas quais despenderá no máximo 10 minutos.

1- Utiliza fotografias digitais?

a. Sim �

b. Não � i. Como não utiliza fotografias digitais pode abandonar o inquérito. Muito

obrigado! 2- Em qual dos grupos seguintes se insere quanto à sua experiência fotográfica:

a. Fotografo esporádico· � (apenas fotografa em ocasiões especiais, com fins de recordar o momento, ex: aniversários, casamentos, festividades)

b. Fotografo amador � (fotografa por prazer, passatempo, gosto pela fotografia)

c. Fotografo profissional � (fotografa com objectivos profissionais)

3- Quantas fotografias tira por evento (ex: aniversário, casamento, visita a museu, visita a uma exposição):

a. < 50 �

b. 50 – 100 �

c. 101 – 200 �

d. 201 – 400 �

e. > 400 �

4- Quanto tempo por sessão disponibiliza na organização das suas fotografias (em minutos):

a. Não as organizo �

b. < 10 �

c. 10 - 30 �

d. > 30 �

Page 103: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

102

5- Quantas fotografias costuma organizar de cada vez que procede a esta actividade:

a. < 50 �

b. 50 - 200 �

c. 201 – 400 �

d. 401 – 1000 �

e. > 1000 �

6- Costuma legendar as suas fotos?

a. Sim � Que tipo de legendas usa?

1. Nomes das personagens da foto �

2. Local onde tirou a foto � 3. Actividades praticadas pelos intervenientes

da foto enquanto esta foi tirada

(eu a jogar de futebol, eu a andar a cavalo) �

4. evento em que foi tirada a foto (ex: aniversário do meu filho, o meu casamento,

visita ao museu Guggenheim, visita à Expo98) �

5. Outras: _________________________

_________________________

_________________________

b. Não �

7- Escolha as 3 características de fotografias que acha mais importante no agrupamento e organização das mesmas.

a. Não as agrupo �

b. Cor �

c. Pessoas �

d. Actividades (ex: eu a jogar de futebol, eu a andar a cavalo) �

e. Data/Tempo �

f. Similaridade do aspecto visual � g. Eventos (ex: aniversário do meu filho, o meu casamento,

visita ao museu Guggenheim, visita à Expo98) �

h. Temas (ex: “carros”, “edifícios”, ”praias”) �

Page 104: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

103

i. Legenda �

j. Outros ____________________ ____________________

____________________

8- Assinale os métodos utilizados ao agrupar as fotografias recentemente tiradas: a. Utilizo as categorias de organizações anteriores, e para as fotografias que não se

encaixam nas categorias existentes crio novas categoria � b. Utilizo as categorias de organizações anteriores, e se existirem fotografias que

não se encaixem nas categorias existentes volto a organizar a colecção toda

criando novas categorias � c. Não utilizo as categorias de organizações anteriores e crio novos grupos

independentes das fotografias da minha colecção � d. Não utilizo as categorias de organizações anteriores e crio novos grupos com

todas as fotografias da minha colecção �

9- Quando selecciona as imagens de maior qualidade, quais são as características utiliza nessa selecção?

a. Focagem e nitidez �

b. Iluminação �

c. Enquadramento �

d. Aspecto Estético �

e. Olhos fechados/vermelhos � f. Outras:

__________________________

__________________________

__________________________

__________________________

__________________________

__________________________

10- Utiliza alguma ferramenta pessoal (ex: iPhoto) ou ferramenta web (ex: flickr) na gestão das suas colecções:

a. Sim � i. Qual? _______________________

ii. O que é que lhe atraiu nessa ferramenta? _______________________________________________

_______________________________________________

Page 105: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

104

_______________________________________________

iii. Que melhorias propõe a essa ferramenta? _______________________________________________

_______________________________________________

_______________________________________________

b. Não �

11- Existe alguma actividade de organização de fotografias que gostasse de realizar de forma automática, através de uma aplicação a utilizar no seu computador. Se sim descreva-a. __________________________________________________________________

__________________________________________________________________

__________________________________________________________________

__________________________________________________________________

__________________________________________________________________

Page 106: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

105

Resultados dos inquéritos (Análise de

Tarefas)

Page 107: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

106

Page 108: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

107

Page 109: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

108

Page 110: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

109

Questionário (Testes Usabilidade):

Após a realização da selecção do conjunto de fotos que lhe foi pedida, agradecemos que responda a este pequeno questionário. Primeiro responderá a questões relacionadas com os seus hábitos fotográficos. Por fim responderá a um conjunto de questões acerca da tarefa realizada. O questionário é composto por 13 perguntas e não demorará mais de 15 minutos a ser respondido.

1- Idade

a. < 20 �

b. 20 - 30 �

c. 31 – 40 �

d. 41 – 50 �

e. > 50 �

2- Habilitações Literárias

a. 4ª classe �

b. 9º ano �

c. 12º ano �

d. Licenciatura ou superior �

3- Está familiarizado com fotografias digitais?

a. Sim �

b. Não � (Neste caso pode passar à questão 9)

4- Utiliza fotografias digitais?

a. Sim �

b. Não � (Neste caso pode passar à questão 9)

5- Em qual dos grupos seguintes se insere quanto à sua experiência fotográfica:

a. Fotógrafo esporádico �

(apenas fotografa em ocasiões especiais, com fins de recordar o momento,

ex: aniversários, casamentos, festividades)

b. Fotógrafo amador �

(fotografa por prazer, passatempo, gosto pela fotografia)

c. Fotógrafo profissional �

(fotografa com objectivos profissionais)

Page 111: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

110

6- Quanto tempo por sessão disponibiliza na organização das suas fotografias (em minutos):

a. Não as organizo �

b. < 10 �

c. 10 - 30 �

d. > 30 �

7- Quantas fotografias costuma organizar de cada vez que procede a esta actividade:

a. < 50 �

b. 50 - 200 �

c. 201 – 400 �

d. 401 – 1000 �

e. > 1000 �

8- Utiliza alguma ferramenta pessoal (ex: iPhoto, picasa) ou ferramenta web (ex: flickr) na gestão das suas colecções:

a. Sim �

i. Qual? _______________________ ii. O que é que o atraiu nessa ferramenta?

_______________________________________________

_______________________________________________

_______________________________________________

iii. Que melhorias propõe a essa ferramenta? _______________________________________________

_______________________________________________

_______________________________________________

b. Não �

As questões seguintes referem-se à aplicação que utilizou e à tarefa que lhe foi pedida que executasse. Se utilizou a ferramenta Pisaca prossiga para a questão 12.

9- Das 3 vistas disponibilizadas, assinale aquelas que usou.

a. Carrossel �

b. Mesa �

c. Grelha �

Page 112: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

111

10- Das 3 vistas disponibilizadas, assinale aquelas que considera mais úteis e diga porquê.

d. Carrossel �

i. Porquê: ____________________________

e. Mesa �

i. Porquê: ____________________________

f. Grelha �

i. Porquê: ____________________________

11- Durante a realização da tarefa, os mecanismos de agrupamento automático disponibilizados pela aplicação (ex: agrupamento por data e tempo, faces, etc.) foram utilizados?

g. Sim, utilizei �

i. Que critérios de agrupamento mais utilizou, quer isolados quer combinados (ex: data/tempo)? ____________________________________________ ____________________________________________ ____________________________________________

ii. Que grau de utilidade atribui a esses mecanismos?

1. Inúteis �

2. pouco úteis �

3. úteis �

4. muito úteis �

h. Não utilizei �

Porquê? ________________________________ ________________________________

12- Diga 3 aspectos positivos e 3 aspectos negativos da aplicação

i. 3 aspectos positivos:

i. ________________________________________________ ii. ________________________________________________ iii. ________________________________________________

j. 3 aspectos negativos:

i. ________________________________________________ ii. ________________________________________________ iii. ________________________________________________

13- Como classifica a interacção com a aplicação?

k. Muito difícil �

l. Difícil �

m. Fácil �

n. Muito fácil �

Page 113: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

112

14- De 1 a 10, e tendo em conta apenas a tarefa que realizou, que nota atribui à aplicação utilizada? ________

15- Voltaria a utilizar a aplicação para realizar tarefas semelhantes, ou tarefas de gestão da sua biblioteca fotográfica?

o. Sim �

i. Porquê? _____________________________________________ _____________________________________________ _____________________________________________ _____________________________________________ _____________________________________________

p. Não �

i. Porquê? _____________________________________________ _____________________________________________ _____________________________________________ _____________________________________________ _____________________________________________

Page 114: Agrafo Agrupador Automático de Fotografias Digitaisdigitais: informação semântica, meta-informação, e características de conteúdo ou ... Utilizando os três tipos de características

113