4a4534627aa56

PROYECTO FIN DE CARRERA

RECONSTRUCCIN 3D DE

MODELOS UTILIZANDO TCNICAS DE VISIN ARTIFICIAL

AUTOR: Vil Ubieto, Karen

DIRECTORES: Arranz Domingo, lvaro

Alvar Mir, Manuel

Snchez Miralles, lvaro

MADRID, junio 2009

UNIVERSIDAD PONTIFICIA COMILLAS

ESCUELA TCNICA SUPERIOR DE INGENIERA (ICAI)

INGENIERO INDUSTRIAL

Autorizada la entrega del proyecto del alumno/a:

Karen Vil Ubieto

LOS DIRECTORES DEL PROYECTO

lvaro Arranz Domingo

Fdo.: Fecha: / /

Manuel Alvar Mir

Fdo.: Fecha: / /

lvaro Snchez Miralles

Fdo.: Fecha: / /

V B del Coordinador de Proyectos

lvaro Snchez Miralles

Fdo.: Fecha: / /

Resumen

i

Resumen

Uno de los objetivos de la visin artificial es conseguir que un ordenador

llegue a analizar una escena real como lo hara una persona. Para

conseguir este propsito, es necesario crear un modelo 3D de dicha

escena. La reconstruccin tridimensional tiene varias aplicaciones, como

la navegacin de un robot permitindole conocer en qu parte de la

escena se encuentra y poder planificar sus movimientos sin necesidad de

ayuda humana. Tambin es til para determinar magnitudes como

distancias, superficies o volmenes, lo cual puede ser aplicable para

controles de calidad ya que se pueden verificar los procesos y superficies

de los objetos que se estn fabricando. Otra aplicacin es la digitalizacin

de museos o monumentos histricos, para crear visitas virtuales a las

cuales los usuarios pueden acceder desde Internet. Estas son algunas de

las muchas utilidades existentes de la reconstruccin tridimensional y por

esta razn surge la necesidad de desarrollar este proyecto.

Lo que se pretende con este proyecto es conseguir un algoritmo que, a

partir de imgenes, llegue a crear un modelo tridimensional de un objeto.

Para conseguir dicho objetivo, en primer lugar se han estudiado las

diferentes tcnicas desarrolladas para la reconstruccin en 3D para

conocer las posibilidades existentes. Algunas de estas tcnicas como la

telemetra lser o la luz estructurada permiten reproducir modelos muy

exactos y precisos, pero con el inconveniente de emplear un equipo

costoso. Otras tienen tiempos de ejecucin muy altos como la visin

estreo densa y por ello se opt finalmente por una reconstruccin

estereoscpica dispersa basada en puntos de inters, al proporcionar una

solucin robusta y a la vez ms rpida que el resto de las tcnicas

investigadas.

A continuacin se analizaron los principales detectores de puntos de

inters (esquinas y bordes), implantando algunos de ellos como los

detectores Harris, KLT, SUSAN y CSS, para la deteccin de esquinas.

Resumen

ii

Los mejores resultados se obtuvieron con el detector de CSS, ya que es

el detector que ms esquinas del objeto detecta. Para la deteccin de

bordes se estudiaron los detectores de Roberts, Sobel, Canny y LoG

entre otros, siendo el Canny el que ms bordes reales del objeto obtena.

Todos los detectores implantados se probaron con imgenes reales para

realizar una comparacin entre ellos, atendiendo a criterios de eficacia y

rapidez.

Otro tipo de detectores estudiados fueron los que permiten la deteccin

de lneas rectas. El nico detector implantado fue el basado en

transformada de Hough, el cual se prob en distintas imgenes para

comprobar su eficacia en objetos de geometras rectas y tambin en

objetos redondeados.

Por ltimo se investig sobre la segmentacin en imgenes, ya que ste

es un paso esencial en todo proceso de reconstruccin. Se estudiaron e

implantaron algunas tcnicas, para conseguir separar un objeto del fondo

de manera ptima, como los contornos activos y k-means. Estas tcnicas

se compararon y probaron con distintas imgenes.

Ilustracin 1.Obtencin de un punto Q en el espacio.

Una vez estudiado e implementado todos los detectores de puntos de

inters y algoritmos de segmentacin, se llev a cabo la programacin de

un algoritmo que permitiera crear un modelo tridimensional. As, el

algoritmo final realiza una primera etapa de segmentacin donde separa

Resumen

iii

el objeto del fondo. De esta manera, se reduce la zona de trabajo.

Despus se procede a ejecutar un detector de esquinas, para identificar

los puntos de inters del objeto. Por ltimo se lleva a cabo la etapa de

reconstruccin en 3D, realizando una correspondencia de puntos entre las

dos imgenes para finalmente obtener sus puntos tridimensionales por un

proceso de triangulacin. Para comprobar la eficacia del algoritmo se

realizaron varias pruebas con varias imgenes tomadas por una cmara

estreo.

Los mejores resultados obtenidos con el algoritmo son con imgenes con

objetos de geometras rectas. Al tratarse de una reconstruccin

estereoscpica basada en esquinas, los resultados obtenidos con objetos

redondos no son los ptimos, puesto que estos objetos apenas contienen

esquinas. En la Ilustracin 2, se puede ver la reconstruccin de un cubo a

partir de una imagen.

Ilustracin 2. Reconstruccin 3D de un objeto.

El presente trabajo demuestra que se puede realizar un algoritmo que

reconstruya un objeto en el espacio, dejndose como trabajo futuro su

optimizacin para todo tipo de objetos. Adems constituye una importante

base para futuros desarrollos, ya que se han estudiado y comparado

muchas tcnicas para el anlisis de imgenes.

Summary

iv

Summary

One of the goals of artificial vision is to permit that a computer gets to

analyze a real scene, as a person would do. To achieve this purpose it is

necessary to create a 3D model of that scene. The three-dimensional

reconstruction has several applications, such as robot navigation, allowing

it to know in what part of the scene he is located and being able to plan its

movements without needing human help. It is also useful for determining

quantities such as distances, areas or volumes, which may be applicable

for quality controls as it can verify the processes and areas of objects that

are being manufactured. Another application is the digitization of historical

monuments and museums to create virtual tours, which users can access

from the Internet. These are some of the many uses of three-dimensional

reconstruction and for this reason there is a need to develop this project.

The purpose of this project is to obtain an algorithm that, based on

images, creates a three-dimensional model of an object. To achieve this

aim, in first place the different techniques developed about 3D

reconstruction were studied in order to know the different possibilities.

Some of these techniques such as telemetry laser or structured light

obtain models which are very accurate and precise, but with the

disadvantage of using expensive equipment. Others have very high

running times as dense stereo vision and therefore a stereoscopic

disperse reconstruction based on interest points was chosen, as it

provides a robust and faster solution than the other techniques

investigated.

Moreover, the main interest point detectors (corners and edges) were

analysed, and some were implemented such as detectors Harris, KLT,

SUSAN and CSS to detect corners. The best results were obtained with

detector CSS since it is the detector that more corners of the object

detects. For edge detection, detectors Roberts, Sobel, Canny and LoG

were studied among others, being Canny the detector that more real edge

of the object obtains. All implanted detectors were tested with real images

Summary

v

to make a comparison between them, according to efficiency and speed

criteria.

Another types of detectors studied were detectors for straight-line

detection The only detector implemented was based on the Hough

transform, which was tested on different images to verify its effectiveness

in straight line and rounded objects.

Finally segmentation in images was investigated, as this is an essential

step in every reconstruction process. Some of the techniques were studied

and implemented to obtain the separation of the object from the

background, like active contours and k-means. The different techniques

were compared and tested with different images.

Illustration 1. Obtaining the point Q in three-dimensions.

Having studied and implemented all the points of interest detection and

segmentation algorithms, the programming of an algorithm was carried out

that allowed to create a three-dimensional model.

Therefore, the final algorithm has a first stage, were a segmentation of the

image is done, separating the object from the background. In this way, the

area of detection is reduced and later on corner detection is performed.

The last step is the 3D reconstruction, where a matching between points

of the two images is done to finally obtain the tree-dimensional points by a

1. Introduccion 9

Disto rsin de lente Correccin de distorsin

Figura 1.9: Ejemplo de rectificacion de distorsion de lente.

Reconstruccion 3D

A partir de las vistas, mediante la tecnica de triangulacion, es posibleobtener un modelo 3D del objeto proyectado en las vistas. El principio

C1

C2

B

A

Q

O bjeto 3D

Vista 2

Vista 1

C entro ptico 2C entro ptico 1

Figura 1.10: Triangulacion: estimacion de Q a partir de A y B.

Summary

vi

triangulation process. To verify the efficiency of the algorithm different

tests were done with variety of images taken by the stereo camera.

The best results obtained with the algorithm are with images with objects

of straight geometries. As it a stereo reconstruction based on corners, the

results obtained with rounded objects are not son good, as these objects

dont contain so many corners. In Illustration 2, the reconstruction of a

cube is shown.

Illustration 2. 3D Reconstruction of an object.

This work shows that an algorithm can be done to reconstruct an object in

three-dimensions, leaving for future developments the optimization for all

kinds of objects. In addition it is an important basis for future

developments, as many different techniques for image analysis were

studied and compared.

DOCUMENTO N 1: MEMORIA

ndice

ii

Parte I Memoria ...................................................................................... 1Captulo 1 Introduccin......................................................................... 2

1 Introduccin..................................................................................... 21 Estudio de los trabajos existentes / tecnologas existentes....... 3

1.1 Tcnicas de reconstruccin .................................................................................31.2 Tcnicas multivistas .............................................................................................41.3 Cmara mvil o visin activa ...............................................................................51.4 Tcnicas de Luz Estructurada..............................................................................51.5 Telemetra Lser ..................................................................................................61.6 Conclusiones........................................................................................................6

2 Motivacin del proyecto ................................................................. 83 Objetivos ........................................................................................ 114 Metodologa / Solucin desarrollada........................................... 125 Recursos / herramientas empleadas........................................... 13

Captulo 2 Reconstruccin por visin estreo ................................. 141 Introduccin................................................................................... 14

1.1 Imagen digital.....................................................................................................141.2 Esquema de un sistema de visin artificial ........................................................15

2 Modelo de lente Pinhole ............................................................... 163 Visin estreo................................................................................ 194 Geometra Proyectiva ................................................................... 215 Geometra epipolar........................................................................ 226 Correspondencia estreo ............................................................. 237 Triangulacin................................................................................. 24

Captulo 3 Deteccin de Caractersticas ........................................... 261 Introduccin................................................................................... 262 Deteccin de esquinas ................................................................. 27

2.1 Harris y Stephens...............................................................................................282.2 Kanade-Lucas-Tomasi (KLT) .............................................................................302.3 Smith (SUSAN) ..................................................................................................31

ndice

iii

2.4 Curvature Scale Space (CSS) ...........................................................................322.5 Comparacin detectores de esquinas ...............................................................342.6 Conclusiones......................................................................................................43

3 Deteccin de bordes ..................................................................... 433.1 Operador Robert Cross......................................................................................453.2 Operador Sobel..................................................................................................463.3 Operador Prewitt ................................................................................................463.4 Canny.................................................................................................................463.5 LoG ....................................................................................................................503.6 Comparacin detectores de bordes ...................................................................503.7 Conclusiones......................................................................................................55

4 Lneas rectas ................................................................................. 554.1 Transformada de Hough ....................................................................................554.2 Pruebas detector de lneas rectas .....................................................................574.3 Conclusiones......................................................................................................57

Captulo 4 Segmentacin .................................................................... 591 Introduccin................................................................................... 592 Contornos Activos ........................................................................ 593 Kmeans .......................................................................................... 614 Comparacin de algoritmos de segmentacin de imgenes.... 62

Captulo 5 Algoritmo............................................................................ 701 Introduccin................................................................................... 702 Segmentacin................................................................................ 703 Deteccin de caractersticas........................................................ 714 Reconstruccin tridimensional.................................................... 72

4.1 Correspondencia estreo...................................................................................724.2 Triangulacin......................................................................................................75

Captulo 6 Matlab aplicado a visin artificial .................................... 761 Operaciones con matrices ........................................................... 76

1.1 Definicin de una matriz.....................................................................................761.2 Operadores ........................................................................................................771.3 Matrices particulares ..........................................................................................771.4 Acceso a elementos de una matriz ....................................................................77

ndice

iv

2 Programacin en MATLAB........................................................... 782.1 Sentencia if ........................................................................................................782.2 Sentencia for ......................................................................................................792.3 Sentencias while, break .....................................................................................79

3 Grficos.......................................................................................... 803.1 Plot .....................................................................................................................803.2 Plot3 ...................................................................................................................81

4 Funciones ms importantes de la Image Processing Toolbox 81

4.1 Introduccin........................................................................................................814.2 imread ................................................................................................................824.3 imwrite................................................................................................................824.4 imshow...............................................................................................................824.5 rgb2gray .............................................................................................................834.6 edge ...................................................................................................................834.7 imresize..............................................................................................................834.8 conv2..................................................................................................................834.9 imfilter.................................................................................................................834.10 immultiply .........................................................................................................84

Captulo 7 Resultados ......................................................................... 85Captulo 8 Conclusiones ..................................................................... 89Captulo 9 Futuros desarrollos........................................................... 91Bibliografa.............................................................................................. 92Parte II Manual de usuario .................................................................. 95Captulo 1 Deteccin de caractersticas ............................................ 96

1 Deteccin de esquinas ................................................................. 961.1 Detector de Harris ..............................................................................................961.2 Detector de KLT .................................................................................................971.3 Detector SUSAN ................................................................................................971.4 Detector CSS .....................................................................................................98

2 Deteccin de bordes ..................................................................... 983 Deteccin de lneas rectas ........................................................... 98

Captulo 2 Segmentacin .................................................................. 100

ndice

v

1 Contornos Activos ...................................................................... 1002 K-means ....................................................................................... 101

Captulo 3 Reconstruccin en 3D..................................................... 102

ndice de figuras

vi

FIGURA1.ROBOTMVIL ................................................................................................................................................. 9FIGURA2.MAPAEN3D................................................................................................................................................... 9FIGURA3.APLICACIONESENMEDICINA......................................................................................................................10FIGURA4.RECONSTRUCCINDEUNANFITEATRO ....................................................................................................10FIGURA5.CMARABUMBLEBEE2..............................................................................................................................13FIGURA6.IMAGENFORMADAPORPXELES ................................................................................................................14FIGURA7.EJEMPLODEIMAGENESTEREOSCPICA ....................................................................................................15FIGURA8.MODELODELACMARAPINHOLE ............................................................................................................16FIGURA9.IMAGENCONYSINDISTORSIN. ................................................................................................................18FIGURA10.MODELODEDOSCMARAS ......................................................................................................................19FIGURA11.OBTENCINDEUNPUNTOQENELESPACIO ........................................................................................20FIGURA12.GEOMETRAEPIPOLAR..............................................................................................................................23FIGURA13.DIFERENCIASENTREUNBORDEYUNAESQUINAENFUNCINDELAINTENSIDAD ..........................27FIGURA14.MSCARASDECONVOLUCIN3X3..........................................................................................................29FIGURA15.DIFERENTESMSCARASCIRCULARESENDIFERENTESPOSICIONESENLAIMAGEN........................31FIGURA16.DETECCINDEESQUINASENUNCUBODERUBIK ................................................................................37FIGURA17.DETECCINDEESQUINASDEUNAGRAPADORA....................................................................................39FIGURA18.DETECCINDEESQUINASENUNATALADRADORA...............................................................................40FIGURA19.DETECCINDEESQUINASENUNCOCHE................................................................................................42FIGURA20.CAMBIOSDEDIRECCINENLAINTENSIDADENFUNCINDELGRADIENTE .....................................44FIGURA21.MSCARASDECONVOLUCIN2X2DELOPERADORROBERTCROSS.................................................45FIGURA22.MSCARASDECONVOLUCIN3X3DELOPERADORSOBEL ................................................................46FIGURA23.MSCARASDECONVOLUCIN3X3DELOPERADORPREWITT ...........................................................46FIGURA24.EJEMPLODEIMAGENDE5X5PXELES ...................................................................................................48FIGURA25.ORIENTACINDELBORDESEGNLADIRECCINDELEJE...................................................................49FIGURA26.MSCARASDECONVOLUCINDEAPROXIMACINDELLAPLACIANO ................................................50FIGURA27.DETECCINDEBORDESENUNCUBODERUBIKCONLOSDISTINTOSDETECTORESDEBORDES ...51FIGURA28.DETECCINDEBORDESENUNAGRAPADORACONLOSDISTINTOSDETECTORESDEBORDES........52FIGURA29.DETECCINDEBORDESENUNATALADRADORACONLOSDISTINTOSDETECTORESDEBORDES ...53FIGURA30.DETECCINDEBORDESENUNCOCHECONLOSDISTINTOSDETECTORESDEBORDES ....................54FIGURA31.REPRESENTACINGRFICADELATRANSFORMADADEHOUGH(A)ENELESPACIOCARTESIANO,(B)ESPACIOPARAMTRICO ...............................................................................................................................57FIGURA32.DETECCINDELNEASRECTASENLOSDISTINTOSOBJETOS ..............................................................58FIGURA33.RESULTADOSDELASEGMENTACINDELOSOBJETOSUTILIZANDOCONTORNOSACTIVOS ............63FIGURA34.SEGMENTACINDELCUBODERUBIKUTILIZANDOKMEANSCONDISTINTONMERODECLUSTERS...............................................................................................................................................................................65FIGURA35.SEGMENTACINDEUNAGRAPADORAUTILIZANDOKMEANSCONDISTINTONMERODECLUSTERS..............................................................................................................................................................66FIGURA36.SEGMENTACINDEUNATALADRADORAUTILIZANDOKMEANSCONDISTINTONMERODECLUSTERS..............................................................................................................................................................67

ndice de figuras

vii

FIGURA37.SEGMENTACINDEUNCOCHEUTILIZANDOKMEANSCONDISTINTONMERODECLUSTERS.......68FIGURA38.IMAGENIZQUIERDADELCUBOENESCALADEGRISES..........................................................................71FIGURA39.IMAGENIZQUIERDADELCUBOSEGMENTADOPORCONTORNOSACTIVOS. .......................................71FIGURA40.IMAGENSEGMENTADADELCUBOYDETECCINDEESQUINAS. ..........................................................72FIGURA41.PUNTOSCORRESPONDIENTESENLAIMAGENDERECHA......................................................................73FIGURA42.LNEASEPIPOLARESENLAIMAGENDERECHA. .....................................................................................74FIGURA43.CORRESPONDENCIAENTREIMGENESCONFACTORDECONFIANZA. ...............................................74FIGURA44.RECONSTRUCCIN3DDEUNCUBOUTILIZANDOFACTORDECONFIANZA .......................................75FIGURA45.IMAGENESTEREOSCPICADEUNCUBO .................................................................................................85FIGURA46.RECONSTRUCCIN3DDELCUBO............................................................................................................86FIGURA47.RECONSTRUCCIN3DDELCUBODESDEOTRAVISTA. ........................................................................86FIGURA48.RECONSTRUCCIN3DDEUNCUBOUTILIZANDOFACTORDECONFIANZA .......................................87FIGURA49.IMAGENESTEREOSCPICADEUNAGRAPADORA ...................................................................................88FIGURA50.RECONSTRUCCIN3DDELAGRAPADORA ............................................................................................88

ndice de tablas

viii

TABLA1.TABLACOMPARATIVADELASDIFERENTESTCNICASDERECONSTRUCCIN ........................................ 7TABLA2.COMPARACINDELOSDETECTORESDEESQUINAS..................................................................................36TABLA3.COMPARACINDETECTORESDEESQUINASDELCUBODERUBIK ..........................................................38TABLA4.COMPARACINDETECTORESDEESQUINASENLAGRAPADORA..............................................................39TABLA5.COMPARACINDEDETECTORESDEESQUINASENUNATALADRADOR..................................................41TABLA6.TIEMPODEEJECUCINDELOSDETECTORESDEESQUINAENLAIMAGENDELCOCHE........................43TABLA7.TIEMPODEEJECUCINDELASEGMENTACINUTILIZANDOCONTORNOSACTIVOS .............................64TABLA8.TIEMPODEEJECUCINDELASEGMENTACINDELCUBODERUBIKCONKMEANS ............................65TABLA9.TIEMPODEEJECUCINDELASEGMENTACINDEUNAGRAPADORACONKMEANS ...........................66TABLA10.TIEMPODEEJECUCINDELASEGMENTACINDEUNATALADRADORACONKMEANS....................67TABLA11.TIEMPODEEJECUCINDELASEGMENTACINDEUNCOCHECONKMEANS......................................69TABLA12.COLOR,MARCADORESYESTILOSDELNEAPARALAFUNCINPLOT..................................................81

Parte I MEMORIA

Memoria. Introduccin

2

Captulo 1 INTRODUCCIN

1 Introduccin

En los ltimos aos, los algoritmos para la reconstruccin de objetos

reales en 3D han recibido atencin significativa, no slo en la visin

artificial, sino tambin como herramientas para una variedad de

aplicaciones en medicina, fabricacin, robtica, arqueologa y otros

campos que requieren modelado en tres dimensiones de ambientes

reales.

As, el objetivo principal de la reconstruccin 3D es obtener un modelo a

partir de una imagen, es decir, imitar la capacidad que tienen los seres

humanos de ver un mismo objeto en 3D cuando se le muestra una

imagen del objeto en 2D. Este objetivo se concibe como algo necesario

para conseguir un lenguaje grfico de comunicacin entre el ordenador y

el ser humano.

Algunas aplicaciones de la reconstruccin 3D se dan en el rea de

ingeniera biomdica. La reconstruccin de estructuras anatmicas a

partir de imgenes mdicas como resonancias magnticas se ha

convertido en una herramienta importante en el diagnostico mdico y la

planificacin de terapias y procedimientos quirrgicos.

Otros tipos de aplicaciones pueden ser la reconstruccin de ciudades,

edificios histricos o museos para visitas virtuales permitiendo al usuario

la visin del lugar con la sensacin de estar all.

La reconstruccin en tres dimensiones tambin puede ser utilizada en el

mbito industrial, como la creacin de modelos CAD en 3D para luego

fabricar prototipos.

En cambio, el propsito de la reconstruccin en 3D en visin artificial

permitir analizar las caractersticas de una imagen, de tal forma que se

podr detectar, localizar y reconocer objetos en imgenes. Por ejemplo, si


3

se recrea un modelo tridimensional de una escena, este modelo podra

ser utilizado por un robot para navegar por la escena.

1 Estudio de los trabajos existentes / tecnologas

existentes

1.1 Tcnicas de reconstruccin

Como se ha comentado el objetivo de la visin 3D es recuperar la

informacin de profundidad o tercera dimensin a partir de imgenes.

La reconstruccin 3D es el proceso mediante el cual objetos reales son

reproducidos en un ordenador, manteniendo sus caractersticas fsicas

(dimensiones, volumen y forma). Existen diversas tcnicas de

reconstruccin, cuyo objetivo principal es obtener un algoritmo que sea

capaz de realizar la conexin del conjunto de puntos representativos del

objeto en forma de elementos de superficie. La eficiencia de las tcnicas

utilizadas define la calidad final de la reconstruccin.

Existen distintas propuestas en la literatura del proceso de reconstruccin

de objetos 3D que se podran clasificar en cinco grupos:

1. Tcnicas multivistas: permite extraer la informacin tridimensional mediante la puesta en correspondencia de las

informaciones bidimensionales procedentes de dos o ms

captadores de imagen (ver [1]).

2. Cmara mvil: denominada en alguna bibliografa como tcnicas

de visin activa, permite extraer la informacin 3D a partir del flujo de

imagen obtenido por un sensor, conocido el flujo de velocidades de

la cmara. En este caso donde los parmetros de las cmaras

cambian continuamente, y no es posible realizar una calibracin

clsica (ver [2]).

3. Tcnicas de luz estructurada: son tcnicas de visin activa en

cuanto que modifican las condiciones del entorno. La distorsin

producida por la proyeccin de patrones simples (rayos o planos),


4

generados mediante luz coherente o luz lser, permite la extraccin

de la informacin tridimensional (ver [3]).

4. Telemetra lser: permiten determinar el mapa de profundidad de la escena con base al tiempo transcurrido entre la emisin y

deteccin de un pulso lser (ver [4]).

5. Control de parmetros pticos (Anlisis enfoque/ desenfoque): permiten determinar el mapa de profundidad de la escena a partir del nivel de enfoque en cada pxel de la escena (ver

[5]).

1.2 Tcnicas multivistas

El trmino multivista en visin se utiliza cuando existe ms de una vista de

una escena. A travs de varias imgenes de una escena, tomadas desde

distintos puntos de vista, se puede tener la idea de las caractersticas

tridimensionales de la escena en estudio.

Segn el nmero de imgenes que se emplee, se habla de visin bifocal

(dos imgenes o vistas), trifocal (tres imgenes o vistas), cuadrifocal

(cuatro imgenes o vistas) o n-focal (n imgenes o vistas), y en cada uno

de los casos se aplica una serie de restricciones basadas en la geometra.

La geometra de dos vistas es conocida tambin como la geometra

epipolar.

Dentro de la visin estreo tambin existen diferentes tipos de

reconstruccin: dispersa y densa, como se comenta en [6]. La

reconstruccin dispersa se basa en obtener las coordenadas

tridimensionales de ciertas partes de la escena, cuya proyeccin en las

imgenes se conocen como puntos de inters, los cuales pueden ser

bordes, esquinas u otro tipo de puntos caractersticos. Por lo general este

tipo de reconstruccin se utiliza en aplicaciones que necesitan conocer el

entorno rpidamente y sin mayor detalle, por ejemplo las aplicaciones en

tiempo real como la navegacin de robots mviles. Por el contrario la

reconstruccin densa implica obtener la totalidad de los puntos

proyectados de cada objeto de la escena. Principalmente se utiliza para


5

aplicaciones relacionadas con la graficacin, realidad virtual y cualquier

otra cuyo objetivo sea modelar digitalmente de manera realista una

escena del mundo. El principal problema de este proceso es su consumo

computacional, ya que mientras la reconstruccin dispersa se centra en

puntos concretos, la densa exige una correlacin entre todos los puntos

de la imagen.

El desarrollo de las tcnicas de visin estreo ha sido objeto de un gran

esfuerzo de investigacin en los ltimos aos. El objetivo de la visin

estreo es resolver dos problemas (ver [7]): el problema de

correspondencia consistente en decidir para un punto del plano de

imagen izquierdo, que punto en el plano de imagen derecho es

correspondiente (son imgenes del mismo punto fsico). El segundo

problema es el problema de reconstruccin que trata de obtener, dados

dos puntos correspondientes en ambos planos de imagen, las

coordenadas 3D del punto en el espacio respecto a un sistema de

coordenadas del mundo (ver [8]).

1.3 Cmara mvil o visin activa

La visin activa permite la deteccin de objetos en movimiento y su

seguimiento a travs de la escena. Mediante sensores las cmaras

pueden moverse adecuadamente, de manera que exista una

correspondencia entre el mundo real y el virtual. Por lo general, se tratan

de sistemas retroalimentados que permiten obtener las imgenes de

mayor inters para realizar la reconstruccin. Adems, se pueden

controlar los parmetros de la cmara como el enfoque o el zoom. Este tipo de sistemas tienen un importante campo de aplicacin en la

robtica.

1.4 Tcnicas de Luz Estructurada

Dentro del campo de la visin tridimensional, existen un gran nmero de

tcnicas que hoy son empleadas con xito en numerosas aplicaciones

industriales. Entre todas ellas, se encuentra lo que se conoce como la luz

estructurada.


6

Este tipo de sistema se caracteriza por ser un mtodo directo y activo. Un

mtodo directo se caracteriza por que se pueden obtener conclusiones

estudiando los datos obtenidos directamente de las imgenes como

comenta [9]. Adems, se trata de un sistema activo debido a que es

necesaria una fuente generadora de luz estructurada, por lo que introduce

un tipo de energa al entorno donde se realiza el estudio.

Los sistemas de luz estructurada se basan en estudiar la deformacin que

sufre un patrn de luz al ser intersecado por cualquier objeto. Este es el

problema principal de este tipo de herramientas, ya que se necesita un

tipo de luz concentrada en un punto. No valdra como sistema de

iluminacin, cualquiera de los sistemas normales que se emplean

actualmente, como bombillas o fluorescentes ya que, estn compuestos

por ondas de diferentes frecuencias provocando que el haz se difumine

por todo el entorno.

Una de las mejores soluciones es emplear un haz lser, ya que se

comporta en una luz ideal para este tipo de sistemas. Adems del patrn

de luz, es necesario tener una cmara que recoja todas las imgenes de

la deformacin del plano lser.

1.5 Telemetra Lser

La telemetra lser consiste en medir el tiempo de recorrido de un rayo

luminoso (lser) hasta la superficie de medida. Se puede medir de dos

formas: con la medida del tiempo de vuelo y el clculo por diferencia de

fase. En el primer caso los datos se obtienen midiendo el tiempo entre la

emisin del impulso luminoso y la observacin del retorno. En el segundo

se regula el impulso luminoso siguiendo una frecuencia determinada y se

mide el desfase entre el rayo emitido y la luz retornada.

1.6 Conclusiones

Las diferentes tcnicas de reconstruccin existentes presentan varias

ventajas e inconvenientes y por lo tanto dependiendo del fin de la

reconstruccin unas sern ms apropiadas que otras. La Tabla 1 muestra

una comparacin de las distintas tcnicas de reconstruccin. Las tcnicas


7

de telemetra lser y luz estructurada consiguen construcciones con una

gran exactitud y precisin, pero tambin presentan varias desventajas

como el alto coste del equipo. Adems de que este tipo de tcnicas son

especialmente dependientes en la geometra del objeto y necesitan

ambientes muy controlados.

Por el contrario, la visin estereoscpica que se basa en la triangulacin

entre un punto de la escena y al menos dos proyecciones de este punto

sobre imgenes tomadas desde distintas perspectivas, es una de las

tcnicas ms utilizadas para la reconstruccin tridimensional, por su

robustez y su menor costo computacional y econmico.

Tabla 1. Tabla comparativa de las diferentes tcnicas de reconstruccin

Dentro de la visin estereoscpica, la reconstruccin dispersa permite

reducir an ms el consumo computacional. Este tipo de reconstruccin

limita la regin de estudio alrededor de posibles caractersticas de una

imagen como bordes o esquinas mientras que la reconstruccin densa

implica una comparacin de todos los puntos de las imgenes. Otra

manera de mejorar la precisin y eliminar ambigedad en el proceso de

correspondencia estereoscpica es el uso de ms de dos cmaras, sin

Mtodo Ventajas Inconvenientes

Telemetra lser

Luz estructurada Exactitud Precisin

Equipo caro Dependiente de la

geometra del objeto Ambientes

controlados

Visin estreo

dispersa Robusto Rpido Coste reducido

Menor exactitud Problemas con

ciertas texturas Sensible a

ambigedades

Visin estreo densa Reconstruccin

detallada Sensible a

ambigedades

Computacionalmente caro

Visin estreo con

n-vistas Menor error Geometra compleja Coste mayor


8

embargo esto implica una mayor complejidad geomtrica y el coste de al

menos una cmara ms.

2 Motivacin del proyecto

La visin artificial constituye uno de los temas de investigacin que posee

en la actualidad un espectro ms amplio de posibles aplicaciones

industriales, y que en un futuro inmediato adquirir todava una mayor

relevancia. Muestra de ello son los mltiples esfuerzos que se dedican al

tema adems del inters que muestra la industria en estas aplicaciones.

En la actualidad, el desarrollo de nuevas tcnicas de procesamiento de

imgenes, as como la evolucin de los equipos informticos, permite

incluir la tercera dimensin como un objetivo real.

La estimacin de las coordenadas tridimensionales de un objeto en una

escena es til en muchas aplicaciones:

Control de calidad: En el control de calidad industrial se han hecho muy tiles las tecnologas tridimensionales, ya que pueden

verificar los procesos y las superficies de los objetos que se estn

fabricando.

Robots mviles: En el guiado de un robot mvil como en el de la Figura 1 se pueden aprovechar las reconstrucciones en 3D y as

poder detectar, localizar y reconocer objetos para facilitar la

navegacin por la escena.


9

Figura 1. Robot mvil

Cartografa y topografa: Para la elaboracin de mapas

tridimensionales como en el de la Figura 2 e imgenes 3D de un

terreno.

Figura 2. Mapa en 3D


10

Medicina: Ahora es muy comn que los ordenadores y los robots

estn ayudando a los mdicos con operaciones que antes no

podan llevarse a cabo. Adems de para las operaciones, tambin

se pueden utilizar para el estudio de enfermedades y deteccin de

tumores.

Figura 3. Aplicaciones en medicina

Modelado en 3D: En la creacin de maquetas o reconstruccin de visitas virtuales en ciudades como en el de la Figura 4, museos

Figura 4. Reconstruccin de un anfiteatro

En la reconstruccin en tres dimensiones se emplean diferentes mtodos

algunos de ellos ya mencionados anteriormente y por lo tanto lo que se

pretende en este proyecto es emplear aquellas tcnicas que mejor se


11

adecuen tanto en efectividad y en velocidad en la reconstruccin de

objetos. El aspecto de la velocidad es importante, ya que en casi todas las

aplicaciones industriales se requiere que los sistemas funcionen en

tiempo real, por ello se utiliza una tcnica de reconstruccin basada en

puntos de inters que permite un menor tiempo de procesado.

Otro aspecto a tener en cuenta es el coste del equipo. Mientras que las

tcnicas de luz estructurada y telemetra lser desarrollan

reconstrucciones ms precisas y exactas, el coste de los equipos

necesarios es ms elevado.

Por tanto, la reconstruccin por visin estreo permite una solucin

robusta y rpida con un coste reducido.

3 Objetivos

El proyecto consiste en la reconstruccin de objetos basndose en el

anlisis de imgenes adquiridas desde un par de cmaras dispuestas en

forma paralela (cmaras estreo). Las cmaras utilizadas estarn

calibradas permitiendo obtener dos imgenes relacionadas entre s. A

partir de ese par de imgenes se deber generar una malla en tres

dimensiones, formada por puntos en tres dimensiones y rectas que unan

los puntos.

Por tanto los objetivos del proyecto son:

Anlisis de imgenes.

o Implantacin y comparacin de varios algoritmos de deteccin de esquinas.

o Implantacin y comparacin de varios algoritmos de deteccin de bordes.

o Implantacin y comparacin de varios algoritmos de deteccin de zonas de inters y/o segmentacin.

Reconstruccin en 3D de varios objetos sencillos (con aristas

rectas) a travs de imgenes, utilizando los algoritmos de

deteccin anteriormente implantados.


12

4 Metodologa / Solucin desarrollada

Para llevar a cabo la reconstruccin, se realizarn las siguientes tareas:

Obtencin de imgenes: Se capturarn imgenes con la cmara estreo de diferentes objetos. Dichos objetos tendrn geometras

de creciente dificultad.

Deteccin de esquinas: Se buscarn varios algoritmos que sean

capaces de detectar las esquinas de las imgenes escogidas.

Adems de la implantacin de algunos de ellos en Matlab. Una vez

implantados se llevar a cabo un anlisis comparativo teniendo en

cuenta la calidad de los puntos detectados y el tiempo de

ejecucin. La deteccin de esquinas se aborda en la seccin de

Deteccin de esquinas dentro del Captulo 3, donde se explican los

distintos algoritmos y se muestran las imgenes de prueba.

Deteccin de bordes o aristas: Se investigarn los posibles

algoritmos capaces de detectar los bordes de las imgenes

escogidas. Adems de la implantacin de algunos de ellos en

Matlab. Se realizar una comparacin de los distintos algoritmos

atendiendo a criterios de calidad y tiempo de procesado. Este tipo

de deteccin se explica en la seccin Deteccin de Caractersticas

en el Captulo 3.

Deteccin de puntos de inters: Se analizar el estado del arte en este campo y se proceder a implantar los algoritmos ms

importantes. A continuacin se har una comparativa de los

distintos algoritmos. Entre las zonas de inters se estudia la

deteccin de lneas rectas en la seccin Lneas rectas en el

Captulo 3. Por el contrario la segmentacin de imgenes se

explica en un captulo aparte, Captulo 4.

Por ltimo, se realizar una reconstruccin en tres dimensiones de los

objetos utilizando los algoritmos encontrados que mejores resultados

obtengan. El algoritmo final se trata en el Captulo 5.


13

5 Recursos / herramientas empleadas

El objetivo principal del proyecto es realizar un programa capaz de crear

una maya en tres dimensiones con la geometra de un objeto obtenido

con imgenes desde una cmara estreo.

Para conseguir esto se utilizar el programa Matlab especialmente la

librera de Image Processing. Tambin se emplear Simulink con la

librera Video and Image Processing.

La adquisicin de las imgenes a reconstruir se realizar con una cmara

estreo, estando las dos cmaras en paralelo y con una resolucin de

1024x768 pxeles. La cmara estreo empleada fue el modelo

Bumblebee2 como se muestra en la Figura 5.

Figura 5. Cmara Bumblebee 2

Memoria. Reconstruccin por visin estreo

14

Captulo 2 RECONSTRUCCIN POR VISIN

ESTREO

1 Introduccin

1.1 Imagen digital

Una imagen digital est compuesta por una matriz de elementos

rectangulares, denominados pxel y por lo tanto cada imagen digital est

compuesta de una matriz de pxeles (M x N) como muestra la Figura 6.

Figura 6. Imagen formada por pxeles

En imgenes en escala de grises se tienen todos los tonos de grises entre

blanco y negro, y por lo general se utilizan 256 tonos de escala de grises

para definir la imagen (8 bits), siendo el negro puro el 0 y el blanco el 255.

En el caso del color existen varios modelos para representarlo

digitalmente. Los ms utilizados en imagen digital son el modelo aditivo

(RGB = Red, Green, Blue) y el substractivo (CMYK = Cian, Magenta,

Yellow, Black). El modelo RGB forma todos los colores del espectro


15

visibles mediante la mezcla de los tres colores bsicos, rojo, verde y azul,

en distinta intensidad y proporcin, por esta razn se denominan colores

aditivos. Por tanto, cada pxel en una imagen RGB est representado por

un conjunto de tres componentes.

1.2 Esquema de un sistema de visin artificial

El esquema bsico de un sistema de visin artificial es una cmara que

captura imgenes del mundo real, conectada a un ordenador que har los

clculos necesarios, mostrando al usuario el resultado mediante una

pantalla. El proceso de anlisis de la imagen consta de varias etapas:

adquisicin de la imagen, preprocesamiento, segmentacin, extraccin de

caractersticas, interpretacin o clasificacin.

Adquisicin de la imagen: se obtiene la imagen adecuada del objeto en estudio (ver Figura 7).

Figura 7.Ejemplo de imagen estereoscpica

Preprocesamiento: con el fin de mejorar la calidad de la imagen obtenida se emplean ciertos filtros digitales que eliminan el ruido en

la imagen.

Segmentacin: se identifican el objeto u objetos a estudiar. Extraccin de caractersticas: se detectan los atributos de inters

del objeto a estudiar. Interpretacin: por ltimo se lleva cabo una interpretacin del

objeto que en el caso de este proyecto se tratara de la propia

reconstruccin tridimensional del mismo.


16

2 Modelo de lente Pinhole

Matemticamente, una cmara puede modelarse como una funcin de

transformacin que convierte puntos 3D a 2D. El modelo Pinhole suele

ser el habitual para modelar cmaras digitales y se muestra en Figura 8.

Un punto M en 3D se proyecta en el plano de la imagen a travs del

centro ptico C. El centro ptico se encuentra a una distancia del plano de

la imagen denominada distancia focal f.

El eje ptico de la Figura 8 es la recta que pasa por el centro ptico C y es

perpendicular al plano de la imagen. Por lo general, el centro ptico suele

estar entre el objeto y el plano de la imagen, sin embargo en algunas

ocasiones puede estar detrs del plano de la imagen.

Figura 8. Modelo de la cmara Pinhole

La lnea que une dos centros pticos se llama lnea base.

Un punto 3D M es proyectado en el plano de imagen como m. Este punto

m es la interseccin de la recta formada por los puntos C y M con el plano

de la imagen.

Si M= (X,Y,Z)T y m=(x,y)T se puede obtener una relacin:


17

Ecuacin 1

donde la matriz

f 0 0 00 f 0 00 0 1 0

se llama matriz de perspectiva.

Otro aspecto a tener en cuenta es que, normalmente, los puntos de una

escena se representan en el sistema de coordenadas del mundo y no en

el de la cmara. Por lo tanto es necesario hacer una transformacin que

convierta coordenadas del mundo en coordenadas de la cmara (las

coordenadas de la cmara son las referidas a un sistema de referencia

con centro en el centro ptico de dicha cmara). Esta transformacin, se

trata de una rotacin y una traslacin que se representa mediante una

matriz llamada matriz de parmetros extrnsecos:

XYZ1

=

r11 r12 r13 txr21 r22 r23 tyr31 r32 r33 tz0 0 0 1

X 'Y 'Z '1

Ecuacin 2

siendo (X,Y,Z)T las coordenadas de la cmara y (X,Y,Z)T las

coordenadas del mundo.

La relacin entre las coordenadas de la cmara (X,Y,Z)T y las centrales de

la imagen (x,y) viene definido como:

nxnyn

=

f 0 0 00 f 0 00 0 1 0

XYZ1

Ecuacin 3

!

x

f=X

Z

y

f=Y

Z

"

# $ $

% $ $

&

nx

ny

n

'

(

) ) )

*

+

, , ,

=

f 0 0 0

0 f 0 0

0 0 1 0

'

(

) ) )

*

+

, , ,

-

X

Y

Z

1

'

(

) ) ) )

*

+

, , , ,


18

Por ltimo, se debe mencionar la distorsin geomtrica causada por las

imperfecciones en la fabricacin y montaje de las lentes de la cmara, su

efecto es el mostrado en la Figura 9 . Esta distorsin se debe de tener en

cuenta porque afecta a los puntos del plano de la imagen:

xd = x + Dx (x,y)yd = y + Dy (x,y)

Ecuacin 4

La funcin de distorsin obtiene la imagen real a partir de la imagen ideal.

Figura 9. Imagen con y sin distorsin.

Para obtener las coordenadas laterales de la imagen en necesaria la

matriz K, llamada matriz de calibracin de la cmara.

x f = Kxxd + Cxy f = Kyyd + Cy

Ecuacin 5

En conclusin, un punto M=(X,Y,Z)T es proyectado en la imagen como

m=(xf,yf)T de tal manera que el modelo final que relaciona ambas

coordenadas sin distorsin es la Ecuacin 6.


19

nx fny fn

=

Kx f 0 Cx 00 Ky f Cy 00 0 1 0


X 'Y 'Z '1

Ecuacin 6

Siendo los parmetros de la matriz de la izquierda de la Ecuacin 6

Kx f 0 Cx 00 Ky f Cy 00 0 1 0

los parmetros extrnsecos y los de la matriz de la

derecha


los parmetros intrnsecos. La multiplicacin de

ambas, resulta en la denominada matriz de proyeccin.

3 Visin estreo

Se conoce como visin estreo al empleo de dos o ms cmaras para

recuperar la informacin de profundidad de un objeto. Por lo general se

suele emplear un modelo de dos cmaras como el mostrado en Figura 10.

Figura 10. Modelo de dos cmaras

Se define como centro ptico al punto situado a una distancia igual a la

distancia focal del plano de la imagen y que permite proyectar la

informacin 3D en el plano de la imagen. La idea general es que sabiendo

que los puntos A y B de la Figura 11 son proyecciones de un mismo punto

tridimensional Q y conociendo los centros pticos de la proyeccin C1 y


20

C2, se puede encontrar el punto Q a partir de la interseccin entre las dos

rectas y .

Figura 11. Obtencin de un punto Q en el espacio

La visin estereoscpica consta de las siguientes etapas:

Establecimiento de correspondencias: empareja en las

diferentes imgenes aquellos puntos 2D procedentes de un punto

3D comn.

Calibracin de las cmaras: una cmara se calibra mediante la determinacin de los parmetros intrnsecos y extrnsecos. Los

parmetros intrnsecos son aquellos que permiten describir la

geometra y ptica del conjunto cmara y tarjeta de adquisicin de

imgenes. Mientras que los parmetros extrnsecos son los que

describen la orientacin y posicin de la cmara, respecto a un

sistema de coordenadas conocido que se suele denominar sistema

de coordenadas mundo

Reconstruccin: determina por triangulacin la profundidad de los puntos del objeto en escena, recuperando la tercera dimensin

perdida durante el proceso de adquisicin de la imagen.

1. Introduccion 9

Disto rsin de lente Correccin de distorsin

Figura 1.9: Ejemplo de rectificacion de distorsion de lente.

Reconstruccion 3D

A partir de las vistas, mediante la tecnica de triangulacion, es posibleobtener un modelo 3D del objeto proyectado en las vistas. El principio

C1

C2

B

A

Q

O bjeto 3D

Vista 2

Vista 1

C entro ptico 2C entro ptico 1

Figura 1.10: Triangulacion: estimacion de Q a partir de A y B.


21

4 Geometra Proyectiva

Existen dos tipos diferentes de geometras principales que se utilizan para

la reconstruccin, la Proyectiva y la Euclidiana.

La Geometra Euclidiana es un subconjunto de lo que se conoce como

Geometra Proyectiva. La geometra Proyectiva modela adecuadamente

el proceso de la proyeccin de imagen de una cmara fotogrfica porque

permite a parte de traslaciones y rotaciones, transformaciones en las

proyecciones de la perspectiva.

Si se supone un punto (x1,x2) en el plano Euclidiano, para representar ese

mismo punto en el plano Proyectivo hay que aadir una tercera

coordenada con un 1 al final (x1,x2,1).

El punto (x1,x2,1) ser el mismo punto que (nx1,nx2,n), siendo n el llamado

parmetro proyectivo y por lo tanto se podra definir el punto como

(nx1,nx2,nx3),

Si una recta en el plano Euclidiano se define como

ax1 + bx2 + c = 0

Ecuacin 7. Recta en el plano Euclidiano

en el plano proyectivo se obtendra

ax1 + bx2 + cx3 = 0

Ecuacin 8. Recta en el plano proyectivo

donde

lT x = xT l = 0

Ecuacin 9

siendo una recta

l = [a,b,c]T y un punto

x = [x1,x2,x3]T perteneciente a esa recta, de tal forma que existe una dualidad entre puntos y rectas, es decir,

los puntos y rectas tienen la misma representacin en el plano proyectivo.


22

Para que un punto pertenezca a una recta en el plano proyectivo debe

satisfacer la Ecuacin 9.

Por tanto se pueden transformar rectas en puntos y puntos en rectas

donde:

l = Fx

Ecuacin 10

Adems, dadas dos rectas

l = [a,b,c]T y

l'= [a',b',c']T si se desea saber el punto de interseccin entre ambas se calcula como:

m = l l' Ecuacin 11

La recta que pasa por dos puntos x1, x2 queda definida por:

l = x1 x2

Ecuacin 12

Para transformar un punto en el plano proyectivo de nuevo al plano

Euclidiano solo es necesario dividir por la tercera coordenada.

5 Geometra epipolar

La geometra de dos vistas es conocida como la Geometra Epipolar. Un

punto M en el espacio es representado en dos imgenes como dos

puntos proyectados m1y m2. Los centro pticos de cada imagen C1 y C2

respectivamente como se presenta en la Figura 12(a). A partir de uno de

los puntos proyectados en las imgenes no se puede determinar M, sin

embargo se puede saber que el punto M debe estar en la recta que va

desde el centro ptico C1 hasta m1, como se ve en la Figura 12(b). Para

determinar el punto m2, se proyectan los posibles puntos de la recta entre

C1 y m1 (ver Figura 12(c)). Uno de los puntos proyectados ser m2, sin

embargo no se puede saber exactamente la ubicacin, solo que m2

pertenece a la proyeccin de la recta formada por C1 y m1. La proyeccin

de esta recta en la imagen se denomina recta epipolar y se puede

observar en la Figura 12(d).


23

Figura 12. Geometra epipolar

A pesar de que no se pueda conocer el punto m2, es de gran utilidad

saber que el punto correspondiente a m1 en la segunda imagen est

sobre una lnea y no en cualquier zona de la imagen.

6 Correspondencia estreo

Se trata de encontrar el punto de la imagen izquierda en la imagen

derecha. La matriz fundamental F permite hallar la recta epipolar en una

imagen conocido un punto en la otra imagen. Esta matriz es constante

para una geometra bifocal dada, no depende ni de m1 y m2 ni M. Por

tanto conocido un punto en la imagen izquierda se obtiene la recta

epipolar en la imagen derecha, de tal forma que se reduce

significativamente la zona de bsqueda del punto en la imagen derecha.

Sin embargo an hay que realizar una bsqueda por la lnea epipolar.

Existen varios mtodos para obtener la correspondencia que se pueden

dividir en locales y globales.

Los mtodos globales aplican restricciones a la imagen entera. Por lo

general, estos mtodos suelen ser robustos. Adems se obtienen buenos

resultados, pero son computacionalmente costosos.

62 D.Mery: Vision Artificial

termino epipolar viene del griego epi (!`pi) que significa sobre, encima, ypolos (pioo) cuyo significado es punto de atraccion o uno de los dos puntosde una esfera que son intersectados por su eje de rotacion. La GeometraEpipolar lleva este nombre porque, como se vera mas adelante, a cada unade las dos imagenes se le asocia un epipolo.

La geometra de dos vistas es presentada en la Figura 4.1. Un punto 3DM es visto en las dos imagenes como m1 y m2 (ver Figura 4.1a). Como seestudio en el captulo anterior, la imagen es definida como la proyeccion delespacio 3D en un plano de imagen 2D por medio de un centro optico. Loscentros opticos en este caso son C1 y C2. A partir de m1 solamente no sepuede saber exactamente la ubicacion exacta de M , ya que en el procesode proyeccion se ha perdido la informacion de profundidad. Sin embargo, se

Imagen

1

Imagen 2

lnea epipolar

Imagen

1

Imagen 2

Imagen

1

Imagen 2

Imagen

1

Imagen 2

(d)(c)

(a) (b)

Figura 4.1: Geometra epipolar.


24

En cambio, los mtodos locales emplean restricciones en los puntos

alrededor del que se desea evaluar. La desventaja de utilizar mtodos

locales es que generalmente obtienen falsas correspondencias sobretodo

en zonas donde las intensidades del punto son muy parecidas o cuando

puntos en la imagen izquierda no aparecen en la imagen derecha o

viceversa. Por el contrario estos mtodos son fciles de implantar y ms

rpidos que los globales.

Dentro de los locales existen los basados en caractersticas y los basados

en reas. El mtodo basado en rea es el que se emple para la

reconstruccin. Este mtodo utiliza la medida de correlacin para evaluar

la similitud entre un punto en la imagen izquierda y el posible

correspondiente en la derecha. Para ello se recorre la recta epipolar en la

imagen derecha y se calcula la correlacin en funcin de los valores de

intensidad de un vecindario del punto utilizando la suma normalizada de

diferencias al cuadrado. Al realizar la bsqueda en la lnea epipolar, puede ocurrir que existan varios puntos en la zona de la imagen de la derecha que se parezcan a los de la zona de la imagen de la izquierda. Si se define un factor que mida la similitud entre zonas, denominado factor de confianza, si hay varias zonas que se parecen, el factor de confianza ser cero. Esto es equivalente a que la funcin de correlacin a lo largo de la recta tiene varios mnimos locales que son comparables.

Para obtener mejores resultados, una vez que se determina el punto de la recta, se hace una bsqueda local del mximo en un cuadrado centrado en el punto. Si todos los puntos de la zona de bsqueda tienen un valor de correlacin parecido, se tratar de una zona sin texturas, con lo cual el factor de confianza ser pequeo. El factor de confianza permite determinar como de parecidos son los dos puntos hallados.

7 Triangulacin

Por ltimo, obtenidos los dos puntos en las dos imgenes se lleva a cabo

el proceso de triangulacin. La triangulacin es el proceso de encontrar

un punto tridimensional M a travs de sus proyecciones m1 y m2. Para


25

ello, se debe encontrar el punto de corte de las rectas formadas por los

puntos m1 y m2 , y sus respectivos centros pticos. Dicho punto de corte

ser el punto tridimensional M. Generalmente, las rectas se cruzan en el

espacio y por lo tanto no existe solucin exacta. Para ello, se emplear la

tcnica de los mnimos cuadrados para obtener un punto de corte

aproximado.

Memoria. Deteccin de Caractersticas

26

Captulo 3 DETECCIN DE CARACTERSTICAS

1 Introduccin

En procesamiento de imgenes, el concepto de deteccin de

caractersticas se refiere a la obtencin de informacin de la imagen. Las

caractersticas resultantes sern subconjuntos del dominio de la imagen,

a menudo bajo la forma de puntos aislados, curvas continuas o regiones

conectadas.

Aunque no existe una definicin exacta de qu constituye una

caracterstica, se puede definir, como una parte interesante de una

imagen (interest point). Se suelen usar como punto de partida para

muchos algoritmos de visin por ordenador.

Debido a que el algoritmo se basa en dichas caractersticas, el algoritmo

ser tan bueno como sea su detector. Otra cosa a tener en cuenta, es que

un buen detector de caracterstica debe detectarla misma caracterstica

en dos o ms imgenes diferentes de la misma escena, es decir, una de

las propiedades que debe tener un detector de caractersticas es la

repetibilidad o repeticin.

Otras propiedades que debe tener un detector de caracterstica es

exactitud (ya que debe detectar la caracterstica en el pxel correcto) y

estabilidad (debe detectar la caracterstica despus de que la imagen

haya sufrido algn tipo de transformacin geomtrica como rotacin o

cambio de escala).

Existen varios detectores de caractersticas ya desarrollados, que varan

en el tipo de caracterstica a detectar, la complejidad computacional y la

repetibilidad. Estos detectores se pueden dividir en varios grupos siendo

los ms importantes los detectores de esquinas, de bordes y de lneas

rectas.


27

2 Deteccin de esquinas

Las esquinas en imgenes representan informacin til y son muy

importantes para describir objetos para su reconocimiento e identificacin.

Una esquina puede ser definida como la interseccin de dos bordes. Una

esquina tambin puede ser definida como un punto en el que hay dos

bordes con direcciones distintas y dominantes en la zona cercana al

punto. Otra forma de definir una esquina es como una zona donde las

variaciones de intensidad en las direcciones x e y son grandes o dicho de

otra manera una regin donde la intensidad vara en ambas direcciones.

Por el contrario, en un borde la intensidad slo vara en una direccin

como se ve en la Figura 13.

Un detector de esquinas requiere que se cumplan determinados

requisitos. En primer lugar, todas las esquinas verdaderas deben ser

detectadas y ninguna esquina falsa. En segundo lugar, las esquinas

detectadas tienen que estar correctamente localizadas. Adems el

detector debe tener repetibilidad (estabilidad), ser robusto ante ruido y ser

computacionalmente eficiente.

Para la deteccin de esquinas en imgenes existen numerosos

detectores, de los cuales aqu se van a tratar slo algunos: Harris y

Stephens, Kanade-Lucas-Tomasi (KLT), SUSAN y CSS.

Zona lisa: no hay

cambios en ninguna

direccin

Borde: slo hay cambio

de intensidad en una sola

direccin

Esquina: cambio de

intensidad en ambas

direcciones

Figura 13.Diferencias entre un borde y una esquina en funcin de la intensidad


28

2.1 Harris y Stephens

Este algoritmo propuesto por Harris y Stephens como se puede ver en

[10] es uno de los ms usados, y se basa en la idea de Moravec en [11]

de que una esquina est caracterizada por elevados cambios de

intensidad.

El algoritmo de Moravec, fue uno de los primeros algoritmos de deteccin

de esquinas. ste comprueba cada pxel en la imagen para ver si es una

esquina, teniendo en cuenta cmo de parecida es una ventana centrada

en el pxel con otras ventanas superpuestas centradas en pxeles

cercanos.

La similitud se mide tomando la suma de las diferencias al cuadrado

(SSD) entre las dos ventanas. Un nmero menor indica ms similitud.

Si el pxel se encuentra en una regin de intensidad uniforme entonces

las ventanas cercanas sern similares. Si el pxel est en un borde

entonces ventanas cercanas en una direccin perpendicular al borde

sern muy diferentes.

El detector de Harris es uno de los detectores de esquinas ms populares

debido a su invariancia a los cambios en rotacin, escala, iluminacin y

ruido.

El mtodo de Harris se basa en el clculo de la matriz de correlacin

estimada por las derivadas de primer orden para cada pxel, definida por

la matriz C de la Ecuacin 13:

C =

Ix

2

Ix

Iy

Ix

Iy

Iy

2

Ecuacin 13. Matriz de Correlacin

siendo I(x,y) la intensidad en nivel de grises .


29

Para calcular los gradientes se utilizan mscaras de convolucin 3x3,

siendo estas mscaras las de la Figura 14.

Figura 14.Mscaras de convolucin 3x3

En este detector la matriz C por lo general es suavizada con un filtro

gausiano

wG ()con desviacin tpica

, ya fijado.

Si se analizan los autovalores de la matriz, se puede determinar si el

punto es una esquina, un borde o ninguno de los dos. Al ser la matriz C

simtrica y semidefinida positiva, sus dos autovalores son positivos. Si en

un determinado punto los dos autovalores de la matriz C son grandes,

esto implica que cualquier cambio en cualquier direccin implica un

importante cambio de intensidad, y por lo tanto el punto ser una esquina.

Si por el contrario, slo uno de los autovalores es grande y el otro

pequeo, el punto ser un borde. Por ltimo si ambos autovalores son

pequeos, entonces el punto estar en una zona plana.

Se define el parmetro de deteccin de Harris como:

R = detC k(trazaC)2

Ecuacin 14. Parmetro de Harris

donde k es un parmetro de sensibilidad ajustable que se establece a

0,04 (sugerido por Harris).

El clculo de este parmetro hace que no sea necesario calcular los

autovalores explcitamente ya que es computacionalmente costoso. Para

ello es necesario determinar un lmite de R, de tal forma que el punto ser


30

una esquina si el parmetro de deteccin de Harris es mayor que el lmite

establecido.

En este mtodo, el nico parmetro que hay que considerar es el lmite de

R.

2.2 Kanade-Lucas-Tomasi (KLT)

El detector de esquinas Kanade-Lucas-Tomasi(KLT) expuesto en [12] y

[13] fue propuesto varios aos despus que el detector de Harris.

Este detector tambin se basa en clculo de la matriz C, como el detector

de Harris. Sin embargo en este caso s se calculan explcitamente los

autovalores.

Existen dos parmetros, el lmite del autovalor

2 y el tamao D de la

ventana DxD. El algoritmo se puede describir de tal forma que para cada

punto p de la imagen se calcula los autovalores de la matriz C,

considerando slo el autovalor

2 . A continuacin se busca el menor

autovalor

2 en el vecindario D del punto p, en el caso que dicho

autovalor

2 sea mayor que el lmite establecido, el punto p se pone en

una lista L de posibles esquinas.

Para evitar solapes, la lista L se pone en orden decreciente, de tal forma

que para cada punto p de la lista, los puntos que estn dentro del

vecindario DxD y tengan menor autovalor son eliminados.

El detector KLT detecta una lista de puntos que cumplen que

2 es mayor

al lmite y adems que el vecindario DxD de estos puntos no se solapan.

El lmite de

2 se puede estimar con un histograma de

2 , mientras que el

tamao del vecindario D suele estar entre 2 y 10.

Uno de los problemas que pueden surgir es que si se toman valores muy

grandes de D, las esquinas detectadas pueden moverse de la posicin

real.


31

2.3 Smith (SUSAN)

Smith desarroll un detector de esquinas en [14] basado en una idea muy

simple y completamente distinta al resto de los algoritmos ya existentes,

sin usar ninguna derivada.

SUSAN(Smallest Univalue Segment Assimilating Nucleus) detecta

esquinas y bordes y adems es ms resistente al ruido a pesar de que no

se requiere ningn filtrado. Cada pxel en la imagen es utilizado como el

centro de una mscara circular (normalmente se utiliza una mscara de

37 pixeles utilizando una ventana cuadrada de 5x5 con 3 pixeles a cada

lado).

Los valores de la escala de grises de la mscara circular son comparados

con el del pxel central, denominado ncleo.

Todos los pxeles con intensidad similar al ncleo son considerados como

parte de la misma estructura en la imagen como se puede ver en la Figura

15.

Figura 15. Diferentes mscaras circulares en diferentes posiciones en la imagen

Smith denomina a la parte oscura de la mscara the Univalue Segment

Assimilating Nucleus(USAN) como se puede observar en la Figura 15. El

USAN correspondiente a una esquina, es aquel cuya rea USAN es

menor que la mitad del rea total de la mscara (caso (a) en la Figura 15).


32

La intensidad del ncleo de la mscara es comparada con la intensidad

del resto de los otros pxeles que forman la mscara mediante la siguiente

funcin:

c(r,r0) =100eI (r)I (r0 )

t

6

Ecuacin 15. Comparacin de las intensidades

donde

r0 es la posicin del ncleo, r la posicin de cualquiera de los otros puntos de la mscara, I(r) es la intensidad de cualquier pxel y t es el

umbral de intensidad (brightness difference threshold).

Esta comparacin se realiza con todos los pixeles de la mscara circular,

siendo el total la Ecuacin 16.

n = c(r,r0)r

Ecuacin 16.

Un pxel se considera esquina si su rea USAN, n, es menor que la mitad

del rea USAN mxima posible (esta rea es 3700).

Finalmente, se crea una matriz/imagen intermedia, si n es mayor que el

umbral geomtrico g, entonces se pone un 0 en la imagen intermedia y

sino el valor de n.

Por ltimo se busca el mximo local de la matriz intermedia en una

ventana 5x5, siendo declaradas esquinas los pixeles que sean mximos

locales.

Para evitar esquinas falsas se calcula el centroide de los USAN,

calculando la distancia del centro de gravedad al ncleo. Por lo general,

una esquina verdadera tendr un centro de gravedad lejano al ncleo.

2.4 Curvature Scale Space (CSS)

Inicialmente el algoritmo CSS fue propuesto por Mokhtarian and Suomela

en [15] y [16], donde propusieron que las esquinas fueran localizadas en

multi-escala, mientras que su deteccin segua siendo en una escala.


33

Este algoritmo tena dos problemas: el primero era que si el parmetro

(desviacin tpica de la funcin gausiana, utilizada para calcular las

derivadas) era muy grande no detectaba esquinas verdaderas y el

segundo era que si era muy pequeo detectaba esquinas falsas. Tambin

exista el problema del umbral t, ya que ste era muy sensible.

El algoritmo utilizado fue un detector basado en el detector de esquinas

CSS, que en vez de utilizar un umbral global emplea un umbral adaptativo

local (adaptive local curvature threshold) desarrollado en [17].

El CSS original aplica un detector de bordes y extrae los contornos de los

bordes, uniendo los huecos entre los contornos y buscando las uniones

en T. Despus de extraer los bordes, se calcula la curvatura a una escala

alta, para cada contorno, siendo la definicin de curvatura:

(u, ) = X (u, ) Y (u,) X (u,) Y (u, )

X (u,)2 Y (u,)2( )1,5

Ecuacin 17.Clculo de la curvatura

Donde

X (u, ) = x(u) g (u,) ,

Y (u, ) = y(u) g (u,) ,

X (u, ) = x(u) g (u,) ,

Y (u, ) = y(u) g (u,) ,

es el operador

convolucin,

g(u, ) es la funcin gaussiana con desviacin tpica

y

g (u, ),

g (u, ) sus derivadas de primer y segundo orden.

A continuacin se localizan las esquinas utilizando escalas inferiores para

mejorar su localizacin y se comparan las esquinas marcadas como

uniones en T. Por ltimo se eliminan las esquinas cerradas.

El procedimiento utilizado con un umbral adaptativo local es muy similar al

original. En primer lugar se extraen los contornos o bordes de la imagen

con el detector de bordes Canny, obteniendo una imagen binaria.

A continuacin se unen los huecos entre contornos y se extraen los

contornos.

Se calcula la curvatura de todos los contornos a baja escala,

considerando los mximos locales de la curvatura como candidatos a


34

esquinas. Entre estos candidatos, se compara la curvatura con un umbral

local(adaptive threshold), en vez de global para eliminar las esquinas

redondeadas.

El umbral es calculado en funcin de la curvatura de la vecindad:

T(u) = C =1.5 1L1+ L2 +1 (i)i= uL 2

u+L 2

Ecuacin 18. Clculo del umbral local

donde

es la curvatura de la vecindad, u es la posicin de la posible

esquina en la curva, L1 y L2 son el tamao de ROS (regin definida

desde la mnima curvatura local de la vecindad hasta la siguiente, donde

la curvatura estrictamente decrece de la posible esquina a ambos lados) y

C es un coeficiente(normalmente vale 1,5).

Finalmente se comprueban los ngulos de los candidatos, para eliminar

cualquier esquina debida a ruido.

2.5 Comparacin detectores de esquinas

En primer lugar aunque sea haya definido el concepto de esquina, no

existe una definicin matemtica comnmente aceptada.

No existe ningn detector de esquinas preciso como se comenta en [18],

es decir que detecte todas las esquinas correctamente y no detecte falsas

esquinas.

Cabe destacar que el propsito de un detector de esquinas es que

muestre puntos que sean de inters.

Los cuatro mtodos descritos en las secciones previas son claras

representaciones de distintos tipos de detectores, que se basan en

distintas ideas. Harris y Stephens (Plessey) junto a Kanade-Lucas-Tomasi

(KLT) utilizan el clculo y las intensidades de la imagen para detectar

cambios importantes en las derivadas de primer orden.


35

Por el contrario, SUSAN se centra en el rea local, comprobando la

similitud de intensidad y el CSS utiliza un mtodo que se basa en el

clculo de la curvatura.

En primer lugar, Harris emplea una funcin para no tener que calcular los

autovalores, ya que son computacionalmente costosos y utiliza un umbral

explcito, mientras que KLT calcula los autovalores y emplea un umbral

implcito.

Comparado con los dems detectores, el detector de Harris es el ms

sencillo de implantar, pero sin embargo proporciona peores resultados.

Esto se debe al hecho de que no utiliza informacin del resto de la imagen

y opera solo en la vecindad del pxel a examinar. Adems a pesar de usar

un filtro gausiano, no es muy robusto al ruido.

Algunas bibliografas como en [19] afirman que el detector de Harris

proporciona buena repetibilidad en variaciones de rotacin e iluminacin,

sin embargo al implantar el algoritmo los resultados obtenidos no han sido

muy buenos.

KLT tiene el mismo problema que el algoritmo de Harris ya que se centra

en la vecindad del pxel a considerar, pero calcula explcitamente los

autovalores de la matriz local, lo que resulta en un algoritmo bastante

lento, ya que debe calcular dos autovalores para cada pxel de la imagen.

Las imgenes muy grandes tardan mucho tiempo en ser procesadas, por

el contrario, se puede decir que en general los resultados obtenidos son

buenos, las esquinas de la imagen son detectadas, pero algunos puntos

son detectados como falsas esquinas.

El mtodo SUSAN prometa ser un buen detector de esquinas, sin

embargo al llevar a cabo su implementacin los resultados no fueron los

esperados. Se podra considerar este mtodo como mejor detector de

bordes que de esquinas. La ejecucin del algoritmo es rpida, pero no

detecta muchos puntos que realmente sean esquinas, es decir detecta

muchas falsos positivos.


36

CSS es el mtodo ms moderno de los analizados y las esquinas son

definidas como el valor local mximo de la curvatura. Este algoritmo es el

ms complejo de implementar debido a sus clculos matemticos y que

se parte de la deteccin de bordes. Para la deteccin de los contornos de

los bordes de la imagen, su utiliza un detector de bordes (Canny) y por

tanto los resultados obtenidos varan en parte funcin de la calidad de la

deteccin de los bordes.

El CSS es el detector que mejores resultados da de los probados, y el

tiempo de su ejecucin es bastante rpido comparado con los anteriores.

En la Tabla 2, se resumen las principales caractersticas de los detectores

de esquinas analizados. Para probar los diferentes detectores de

esquinas se realizaron varias pruebas con distintas imgenes. Para

comprobar la rapidez de los detectores, se emple una imagen muy

simple consistente en un cuadrado y todos los algoritmos detectaron las

esquinas perfectamente. Para comprobar la deteccin de las esquinas se

empleo una imagen tomada con la cmara estreo de un cubo de Rubik

(250x250) (ver Figura 7).

Tabla 2. Comparacin de los detectores de esquinas

Parmetros Clculo de

Derivadas

Similitud de

intensidades

Clculo de

Curvatura

Harris

Rmin

KLT

2,D

SUSAN t

CSS


37

(a)Harris (b)KLT

(c)CSS (d)SUSAN

Figura 16. Deteccin de esquinas en un cubo de Rubik


38

Tabla 3. Comparacin detectores de esquinas del cubo de Rubik

Entre los detectores que se han implantado, el que mejores resultados

proporciona es el CSS. A pesar de que en la imagen probada, es el que

ms esquinas falsas detecta, es tambin el que ms esquinas verdaderas

detecta. El CSS y el KLT son los nicos que detectan las esquinas

imprescindibles, es decir, las del contorno del cubo mientras que el

detector de Harris, no detecta la mayora de estas esquinas como se ve

en la Figura 16. El KLT proporciona buenos resultados, sin embargo tarda

mucho en ejecutarse, comparado con el CSS y esto puede dar problemas

cuando se traten imgenes muy grandes. Otros ejemplos que se

emplearon para probar los mtodos fueron las imgenes de una

grapadora como los de la Figura 17.

Tiempo de

ejecucin

imagen simple

Esquinas

verdaderas

cubo Rubik

Esquinas

falsas

detectadas cubo Rubik

Tiempo de

ejecucin

cubo de Rubik

Harris 0,0414s 22 0 0,0971s

KLT 3,19s 38 0 5,1729s

SUSAN 0,0043s 28 6 0,0087s

CSS 0,26s 79 19 0,44s


39

(c)CSS

(d)SUSAN

Figura 17. Deteccin de esquinas de una grapadora

Tabla 4.Comparacin detectores de esquinas en la grapadora

El mtodo que ms esquinas detecta es el CSS, sin embargo el que mejor

detecta para esta imagen como se puede observar es el KLT, ya que

detecta menos falsas esquinas.

Tiempo de

ejecucin grapadora

Esquinas

verdaderas grapadora

Esquinas falsas

detectadas grapadora

Harris 0,164s 14 3

KLT 5,42s 22 7

SUSAN 0,0104s 7 4

CSS 0,5072s 16 12

(a)Harris (b)KLT

(d) SUSAN


40

Con una imagen que contiene esquinas y zonas redondeadas, como es el

caso de una taladradora, los resultados fueron los de la Figura 18.

Figura 18. Deteccin de esquinas en una taladradora

(a) Harris (b) KLT

(c) CSS (d) SUSAN

Harris


41

Tabla 5. Comparacin de detectores de esquinas en una taladrador

Los resultados obtenidos no son demasiado buenos, ya que los

algoritmos detectan las sombras, y adems es difcil saber que es una

esquina y que no lo es, al ser la taladradora un objeto redondeado.

Aunque se ve que algunos detectores, identificar alguna esquina del

objeto.

Tiempo de

ejecucin

taladradora

Esquinas

verdaderas

taladradora

Esquinas

falsas

detectadas taladradora

Harris 0,261s 10 22

KLT 9,8s 22 22

SUSAN 0,0181s 11 29

CSS 0,688s 10 21

(a) Harris


42

Figura 19. Deteccin de esquinas en un coche

(b)KLT

(c)CSS

(d)SUSAN


43

Es difcil comparar los distintos detectores con la imagen de un coche, ya

que esta imagen apenas contiene esquinas. Sin embargo se probaron los

distintos detectores para ver los resultados y el tiempo de ejecucin.

Tiempo de

ejecucin

coche

Harris 0,38s

KLT 11,1s

SUSAN 0,0205

CSS 1,10s

Tabla 6. Tiempo de ejecucin de los detectores de esquina en la imagen del coche

2.6 Conclusiones

Como conclusin se puede apreciar en todas las imgenes que los

detectores que proporcionan los resultados ms fiables y exactos son los

algoritmo de KLT y CSS. Pero como se ha comentado anteriormente el

mtodo empleado por KLT es muy lento. En el caso de que el nico

propsito fuera la deteccin de esquinas en una imagen este mtodo

sera el ms apropiado, sin embargo la deteccin de esquinas suele ser

uno de los pasos intermedios para cualquier tipo de reconstruccin y por

lo tanto debe ser lo ms rpido y eficiente posible.

3 Deteccin de bordes

La deteccin de bordes es clave en la reconstruccin tridimensional

porque se puede extraer informacin importante de la imagen, como

pueden ser las formas de los objetos que la componen. Los bordes

indican dnde estn los objetos, su forma, su tamao, y tambin ofrecen

informacin sobre su textura.


44

Los bordes son los puntos donde hay una frontera entre dos regiones de

la imagen. En general, pueden ser de cualquier forma, y pueden incluir

uniones, discontinuidades y extremos.

En la prctica, los bordes suelen ser d

Documents

4a4534627aa56