8
Realistic Body Modeling out of Video Sequences: First Application to Body Parts Gerhard Schrotter Institute of Geodesy and Photogrammetry Swiss Federal Institute of Technology ETH Hoenggerberg 8093 Zurich, Switzerland E-Mail: [email protected] Web: http://www.photogrammetry.ethz.ch/ ABSTRACT In this paper a work-flow to reconstruct complicated parts of the human body is presented. This approach focuses on the surface measurement of an human shoulder acquired through a synchronized multi image acquisition system. This surface measurement at certain steps of the video sequence will serve as a key frame to fit soft objects related to an articulated skeleton to it and therefore constraint the tracking procedure in the in-between frames. The approach shows a work-flow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera calibration and orientation, surface measurements and ending in a 3D reconstruction of the scene at a certain frame. The process is described and tested with images acquired from a commercial rendering software package. This work is embedded in the REBOMO+ project * ,  which is a joint project with the Computer Graphic Lab of the EPFL Lausanne.   Keywords:  Calibration, Orientation, Multi-photo Cross Correlation, Multi-photo Matching,  Human Body Part Reconstruction. 1. INTRODUCTION In this paper a photogrammetric surface measurement method is presented. Photogrammetric techniques 5,6,7,9,10,17  offer accurate surface measurement by the simultaneous acquisition of images from different directions. The method is chosen mainly out of three aspects 7 : the accuracy of the achieved measurements, the time required to acquire data,  and the hardware costs. If a human body part is measured, the effective accuracy depends strongly on the required acquisition time. An human body part always moves unconsciously (e.g. breathing, muscle contractions). Therefore, only a short acquisition time can assure the accuracy potential of the used system. Moreover, the simultaneous acquisition of the images allows the measurement of moving surfaces and even the recording of dynamic events in the meaning of surface tracking. Keeping a realization of the method in mind, the cost of hardware is limited to the cameras, lenses and if needed frame grabbers. The arrangement of the cameras, a thorough calibration of the camera system and an accurate establishment of image correspondences are required to achieve a sufficient 3D reconstruction. * The project is funded by the Swiss National Science Foundation.

Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

Realistic Body Modeling out of Video Sequences: FirstApplication to Body Parts

Gerhard Schrotter 

Institute of Geodesy and PhotogrammetrySwiss Federal Institute of Technology

ETH Hoenggerberg8093 Zurich, Switzerland

E­Mail: [email protected]: http://www.photogrammetry.ethz.ch/ 

ABSTRACT

In this paper a work­flow to reconstruct complicated parts of the human body is presented. This approach focuses on thesurface measurement  of an human shoulder acquired  through a synchronized multi   image acquisition system. Thissurface measurement at certain steps of the video sequence will serve as a key frame to fit soft objects related to anarticulated skeleton to it and therefore constraint the tracking procedure in the in­between frames. The approach shows awork­flow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, cameracalibration and orientation, surface measurements and ending in a 3D reconstruction of the scene at a certain frame. Theprocess is described and tested with images acquired from a commercial rendering software package. This work isembedded in the REBOMO+ project*,  which is a joint project with the Computer Graphic Lab of the EPFL Lausanne.

    

Keywords:  Calibration, Orientation, Multi­photo Cross Correlation, Multi­photo Matching,  Human Body PartReconstruction. 

1. INTRODUCTION

In this paper a photogrammetric surface measurement method is presented. Photogrammetric techniques5,6,7,9,10,17 offeraccurate   surface  measurement  by   the  simultaneous  acquisition  of   images  from different  directions.  The method  ischosen mainly out of three aspects7: the accuracy of the achieved measurements, the time required to acquire data,  andthe   hardware   costs.   If   a   human   body  part   is   measured,   the   effective   accuracy   depends   strongly   on   the   requiredacquisition time. An human body part always moves unconsciously (e.g. breathing, muscle contractions). Therefore,only   a   short   acquisition   time   can   assure   the   accuracy   potential   of   the   used   system.   Moreover,   the   simultaneousacquisition of the images allows the measurement of moving surfaces and even the recording of dynamic events in themeaning of  surface  tracking.  Keeping a  realization of   the method  in  mind,   the cost  of  hardware   is   limited  to  thecameras, lenses and if needed frame grabbers. The arrangement of the cameras, a thorough calibration of the camerasystem and an accurate establishment of image correspondences are required to achieve a sufficient 3D reconstruction.

*The project is funded by the Swiss National Science Foundation.

Page 2: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

2.  SYSTEM OVERVIEW

The general  stages of  the presented body reconstruction pipeline are: (1)  camera set­up and image acquisition,  (2)camera calibration and orientation, and (3) surface measurements   (Fig. 1). The image­sequence character of videocameras do allow to design calibration strategies, which are more appropriate to the calibration of multi­camera systemsthan conventional self­calibrating techniques (2.2). The image­sequence of the camera is used to gain a point cloudthrough a moving reference field consisting of five signalized spheres in a specified arrangement. The fixed signalizedspheres on the moving test­field can be easily detected and allocated (2.2.1). The test field is moved around the shoulderand the object coordinates are describing a hull (Fig. 5) in the volume of interest.   After the self­calibrating bundleadjustment  is done,   the object  coordinates are used as initial values for   the surface measurements (2.3).  These 3Dcoordinates are the link between the calibration procedure and the surface matching algorithm.      

Figure 1.  Main steps in the shoulder reconstruction pipeline. 

2.1 Camera Set Up and Image Acquisition

Following   aspects   are   considered   for   setting   up   a   multiple   synchronized   camera   system   for   shoulder   surfacemeasurements:

(1) The five points of the reference field should be well distributed in the acquired images. This is of immenseimportance at the initial frames to gain the approximative exterior orientation of the initial cameras (2.2.2) and inthe self­calibrating free bundle adjustment (2.2.3). 

(2) The pixel sizes of the coded targets (Fig. 5) are in a specified range (2.2.1).

(3) The cameras are  not positioned  in a  collinear  set­up.  This arrangement  would avoid  the  intersection of   theepipolar lines for the surface matching (2.3.2).

(4) For the surface matching a triplet is used. It is the minimum number of cameras, which must be used by thematching algorithm  (2.3.2).    

There has to be a balance between all four mentioned aspects. The surface matching is influenced by the baseline andthe arrangement of the cameras. On the one hand a certain length of the base line and convergence is of immenseimportance for  a  sufficient   intersection angle,  on the other  hand  the  images should be close  to each other   to findcorresponding points. For this simulation the nine cameras are split in three  blocks. The positions of the cameras perblock are fixed in a triangular set­up and the focal length is chosen to be 14[mm]. The triangular arrangement of thecameras in Fig. 2 is sub­optimal for the intersection of the epipolar lines, but allows to find corresponding points in allthree cameras. With this assumptions the camera system has a compact size of about 1.2[m] around the shoulder.      

Page 3: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

(a) (b)

Figure 2.  Arrangement of cameras (a) from top, (b) from front and the initial position of the reference field. 

The image acquisition step  includes   the rendering  of   the images.    The images are  generated  with the commercialmodeling, rendering and animation software package Maya Unlimited 6.0 from Alias Wavefront3. The software enablesto set up a virtual scene and render it with an high quality. The rendering can be done with the software, hardware,mental ray and vector renderers of Maya. The hardware rendering also enables the creator to have high quality real­timepreviews. The images are rendered with a pixel size of  10µm and a resolution of 660x660[pixel]. The avatar for thisscene   was   constructed   from   a   VRML9722  prototype   of   the   humanoid   animation   working   group12.   Through   thehierachical structure of the nodes in the scene description language VRML97, the avatar can be adapted to the requireddimensions. Predefined models can be found on the homepage of the Center for Human Modeling & Simulation at theUniversity of Pennsylvania11. From the huge amount of existing models the Hiro Humanoid Model Series is chosen,because it fulfills the need for this simulation  in the sense of simplicity and flexibility the best.

Figure 3.  The nine cameras viewing the human body. Random pattern mapped on it. (Images are inverted for a bettervisualization) 

2.2 Multi Image Sequence Based Camera Calibration and Orientation

In this section a method for calibration and orientation of a synchronized multi image acquisition system is described.The term multi image refers to multiple images acquired from different positions in space describing the same scene andmulti­image sequence is associated with multi images acquired during the time interval. The camera calibration andorientation is based on stationary cameras and moving targets. It uses the image sequence acquisition nature to getmulti­view correspondences of the image coordinates. At the beginning a short overview of existing methods is given.   

In the simplest version, one single easily detectable marker has to be tracked through image sequences of multiple pre­calibrated cameras21. A laser pointer is waved through the volume of interest (Fig.4(a)). This avoids the necessity ofhomologous feature identification for the establishment of multi­view correspondences.  The single­marker  does notallow for the determination of the interior orientation. If a reference bar with known length is waved through the objectspace (Fig.(4(b)), the full camera orientation and calibration can be achieved15. The problem of feature identificationand establishment of multi­view correspondences can be reduced to the tracking of two targets. The datum is defined asa free network with arbitrary origin and rotation; the scale is defined by the length of the reference bar. Another way offixing a datum and therefore getting approximations for   the exterior  orientation is a method used by the companyemotion3D8. The initial images of the sequence (called axes sequence in Fig. 4(c)) are used to take a snapshot of a

Page 4: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

reference frame. This reference frame sets the origin of the coordinate system of the working volume. The second phaseof acquisition (defined as wand sequence in Fig. 4(c)) captures the movement of a wand that is systematically sweptacross the working volume. In this second phase the optical model of the cameras and their orientation in space areestimated.    

(a) (b) (c)

Figure 4. Methods of camera calibration and orientation exploiting the character of an image sequences. (a) Single laser pointer21, (b)reference bar method15, and (c) combination of reference frame and reference bar8.  

In this paper the technique of camera calibration and orientation is based on a moving reference field through the imagesequence of simulated multiple synchronized cameras (Fig. 5). The signalized spheres of the reference field are fixed onan asymmetric cross where one axis is coded by a signalized white strip. The reference field is moved as close aspossible around the body part of interest and the object points defining a hull around it. With this calibration approachthe reference field is exactly situated where it should be; namely close to the location where the measurements takeplace. 

Figure 5. Frames of the simultaneously acquired images showing the moving reference field from the nine simulated cameras.(Images are inverted for a better visualization.) 

Frame 0

Frame 20

Frame 40

The main reasons for choosing this reference­field are the detecting of image points with geometrically conditions of thereference field (2.1.1), achieving approximations for the exterior orientation from the initial cameras (2.1.2), making useof different focal lengths available, and strengthen the bundle adjustment with two distances in every frame (2.1.3). 

Page 5: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

2.2.1 Point Detection and Point Correspondences

For   the  purpose  of   point  detection   the   image­sequence   is   converted   to  binary   images.  Thresholding   is  done   andmorphological operations are used to increase the quality of the extracted points. The explained operations are necessaryfor the following labeling of the connected components in the binary image. For the labeled regions a set of properties ismeasured. The important values of this measurement are the area and the center of each labeled region. Out of theinformation of exterior boundary tracing a simple estimate of the object's perimeter can be computed. Together with theinformation of the area of the feature a roundness metric is calculated. The shape factor2 is gained through the equationp2/(4πa), where p is the perimeter and a the area of the connected pixels. This shape factor is one for a circle and greaterthan one for any other object. With this approach the objects are classified into exactly two categories.  Out of thegeometrically relation between the different features an efficient classification can take place. If there are at least threecircles and one line detected, the algorithm will move on. The pixels of the perspective projected cylinder (line) are usedto define a regression line. If the distances of the three circles to the regression line are beyond a given threshold, thisfeatures are used. From the regression line a search in both directions is done. Now the three circles are ordered incenter, close from center, and far from center. If there are in maximum two features remaining, they are allocated inrelation to the distance to the center object. The center of each classified round object is gained through a centroidoperator.  The center of mass is calculated as a weighted average of  the pixel coordinates in a patch. The centroidoperator also delivers the size of the detected feature. If the pixel size is greater than a certain threshold (>10 pixel), thepixel coordinates are improved through least squares matching. A diagram about the relation between the pixel size andthe preferred method can be found in Ref. 14. For every single image the extracting operator tries to find at least the lineand three round objects close to the line and save them together with the frame number.

The   storage   of   the   frame   number   with   the   extracted   round   objects   is   the   needed   additional   information   to   findcorrespondences at each frame. Therefore no matching or tracking between images of the same frame or images inconsecutive ones is needed. The features are only related to the objects through geometrically constraints. This enablesthe system to find correspondence points in very different images of the same frame.

2.2.2  Exterior orientation parameters

A linear approach for the recovering of the exterior orientation parameters in a planar object space is used. The methodis   based   on   homogeneous   coordinate   representation   and   matrix   factorization.   The   homogeneous   coordinaterepresentation offers a direct matrix correspondence between the parameters of the 2D projective transformation and thecollinearity  model.   It   is  cooperative strategy between  the 2D projective  transformation  and a  linear  version of  thecollinearity model. The 2D projective transformation supplies the orientation parameters, which serve as an input in thelinear version of the collinearity equation to determine the camera position. A detailed description of the used methodcan be found in Ref. 20.  This method of linear recovery of the exterior orientation is used in the initial frames and atleast two cameras have to face the reference frame. During the reference field is moved through the object space thepre­orientated cameras are delivering the 3D coordinates through forward intersection.  After the reference field appearsin other camera views 3D direct linear transformation1 is applied to get the calibration­approximations of  the remainingcameras.  

2.2.3 Bundle Adjustment

The point correspondences, the approximations of the interior and exterior orientations and the coordinates of the 3Dpoints   in   the   object   coordinate   system   are   needed   for   the   self­calibrating   bundle   adjustment.   In   the   free   bundleadjustment all approximative object coordinates are used to define the datum. In this case the trace of the covariancematrix  will  be minimized.  In  every frame  two lengths between the signalized spheres are introduced  as additionalobservations to strengthen the network. The bundle adjustment is processed in 40 frames with nine camera stations, 200object points and 80 distances. Gaussian noise is added to the image coordinates to make the simulation more realistic.This yields to an uncertainty of 0.5 pixel in the image coordinates, which is a pessimistic assumption for measuringsignalized points. The simulation shows the influence of the regular point distribution. Because of the regular horizontalmoving of the reference frame (Fig. 5), all additional parameters could not be solved. The value of the principal point invertical direction had to be fixed.  The camera constant, the principal point in x, the differential scale factor in x, theshear factor and the parameters of radial and decentric distortion are not significant. The average theoretical standarddeviations of the object coordinates are σX = 0.27 [mm], σY = 0.15 [mm] and σZ =  0.27 [mm]. 

Page 6: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

2.3 Surface Measurements and 3D Reconstruction 

2.3.1 Multi­Image Cross Correlation 

The gained 3D coordinates in object space serve as an input for fitting a primitive to it. In the case of the shoulder orupper human body a cylinder is fitted. Another way getting a denser point cloud is interpolating a mesh and defining auniform grid on it.  The interpolated mesh should be robust in the sense of oscillation, because afterward the anglebetween the normal and the direction vectors to the projection centers of the cameras are used. Matlab16 uses a methodwhich is documented in Ref. 19 to avoid this behavior. With the help of the angles between the normal vector and thedirection vectors to the projection centers in every point on the initial mesh the cameras are chosen (Fig. 6(a)). Due tothe complicated shape of a shoulder and the limited amount of cameras (keeping a practical aspect in mind), the threebest ones are selected. Best in this case means that the three cameras with the smallest angle between the normal vectorof the initial mesh and the direction vector to the projection center are used. Through this method the cameras arecategorized in one template image and two search images. The conventional image cross correlation starts with cutting apatch out of the template image and moving it in the search images to find the minimum change of gray values. Thesearch space can be limited to the epipolar line and a range defined by the parallaxes between the cameras. The methodused in this paper is based in object space. The points on the initial mesh are moved along the ray of the “templatecamera's” direction vector. If the point is moved in that direction, the search patches will be constrained to the epipolarline. This method seems to be similar to the image based one, but the normalized cross correlation information of bothsearches can be combined through simple addition along the epipolar line23. This method is getting more powerful, ifmore search   images are  involved     through more  cameras  or   through  the usages  of  consecutive  images  in a  videosequence. In practical approaches silhouette information can be used to improve the result. The silhouette is extracted inthe region of interest with a method based on foreground segmentation and graphical cut. The algorithm is described inRef. 13.  The back­projected 3D points out of the normalized multi image cross correlation are tested with a standardpoint in polygon test, if they are situated in the silhouette extracted area.                                

(a) (b)Figure 6.  From bundle adjustment's object coordinates to the approximations for the matching. After fitting a cylinder to

the object coordinates (a) (regular grid with direction vectors pointing to the three used cameras) and navigating these points viamulti­image cross­correlation closer to the shoulder, the initial mesh serves as approximation (b) for multi­photo matching

(initial mesh for first three cameras (Fig 2(a)/(b) – the first three cameras from the left border of the images). 

2.3.2 Multi­Photo Matching

The   approximations   shown   in   Fig   5.   are   refined   through   multi­photo   geometrically   constrained   matching.   Asgeometrically constraint the forward intersection is introduced. The approximations, which are gained through multiimage cross correlation (2.3.1), are back­projected to the selected three images. The template patch of the images isfixed and through every adjustment loop the search patches are affine transformed and moved along the epipolar line.The algorithm enables to combine the surface measurements with the 3D reconstruction and is described in detail inRef. 4. Every object point, which is gained through matching, can be seen as single process to be computed. For thispurpose the processing jobs can be easily distributed in our linux network and the processing time is decreased (factor ~time/(used network processor)).                   

Page 7: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

Figure 7.  Matching results from different points of view (about 10000 points are reconstructed). 

The visualization of Fig. 6 and Fig. 7 has been done with the commercial software package Geomagic Studio 618.

3.  CONCLUSIONS

In this paper a human shoulder reconstruction pipeline has been presented. The pipeline consists of image acquisiton,camera calibration and orientation, and surface measurements. A flexible method for camera calibration and orientationhas been described and the gained object coordinates of bundle adjustment are used as approximations for the surfacemeasurements. The result of the processing will be the input for fitting soft objects to the point cloud. This fitted modelwill serve as a key frame for a combination of image based and model based tracking. This combination will constrain atracking procedure and yield to more reliable results. The simulation of the multi­image acquisition system will berealized with synchronized progressive scan CCD cameras. 

REFERENCES

1.   Abdel­Aziz Y., Karara H., ”Direct Linear Transformation from Comparator Coordinates into Object Space      Coordinates in Close­Range Photogrammetry, Symposium on Close­Range Photogrammetry, Urbana, Illinois 433,       pp. 1­18 , 1971 2. Ahn, S.J., “Kreisfoermige Zielmarke”, 4.ABW Workshop, Technische Akademie Esslingen. 19973. Alias Wavefront, Maya 6 Unlimited, http://www.alias.com/  [October 2004]4. Baltsavias,   E.   P.,   “Multiphoto   Geometrically   Constrained   Matching”,   Ph.D.   Thesis,   Institute   of   Geodesy   and

Photogrammetry, ETH Zurich, Switzerland, Mitteilungen No.49. ,19915. Boersma,S.M.,”Photogrammetric wound measurement with a three­camera vision system”, International Archives of

Photogrammetry and Remote Sensing, 33(B5), pp. 84­91, 20006. D'Apuzzo,N.,”Surface measurement and tracking of human body parts from multi image video sequence, ISPRS

Journal of Photogrammetry and Remote Sensing,  56(5­6), pp. 360­375, 20027. D'Apuzzo, N., “Surface measurement and tracking of human body parts from multi station video sequences”, Ph.D.

Thesis, Institute of Geodesy and Photogrammetry, ETH Zurich, Switzerland, Mitteilungen No.81., 20048. eMotion3D, http://www.emotion3d.com/smart/calibration.html [October 2004]9. Frobin,   W.,Hierholzer,E.,”Automatic   measurement   of   body   surfaces   using   rasterstereography”,Photogrammetric

Engineering and Remote Sensing,49(10), pp. 1443­1452, 1983.10. Gaebel,H.,Wester­Ebbinghaus,W.,Woytowicz,D.,Hallbauer,D.,Schumpe,G.,”Photogrammetric measuremnent of the

human back shape and its relation to spine, International Archives of Photogrammetry and Remote Sensing,29(B5):862­866, 1992

Page 8: Realistic Body Modeling out of Video Sequences: First ... · workflow for a 3D reconstruction of an human shoulder starting with the camera set up and image acquisition, camera

11. Hanim 1.0 Compliant VRML97 HumanoidModels  “http://www.cis.upenn.edu/~beitler/hanim1.0/” [October 2004]12. Hanim Humanoid Animation Working Group, “http://www.h­anim.org/” [October 2004]13. Howe,   N.,   Deschamps,   A.,   “Better   Foreground   Segmentation   Through   Graph   Cuts”,   Tech.   report,

“http://arxiv.org/abs/cs.CV/0401017”[October 2004], 200414. Luhmann,T., ”Nahbereichsphotogrammetrie – Grundlagen, Methoden und Anwendungen”, Wichmann, 200015. Maas, H.­G., Image sequence based automatic multi­camera system calibration techniques. International Archives of

Photogrammetry and Remote Sensing, 32(B5),pp. 763­768, 199816. Mathworks Inc., Matlab, http://www.mathworks.com [October 2004] 17. Mitchell,H.L.,”An approach to digital photogrammetry for body surface measurement”, International Archives of

Photogrammetry and Remote Sensing, 29(B5):856­861, 1992.18. Raindrop Geomagic Inc., Geomagic Studio 6, http://www.geomagic.com [October 2004]19. Sandwell,  David  T.,   “Biharmonic  Spline   Interpolation  of  GEOS­3  and  SEASAT Altimeter  Data”,  Geophysical

Research Lettres, 2, pp. 139­142, 198720. Seedahmed G.H., Habib A.F., “Linear recovery of the exterior orientation parameters in a planar object space”,

Internation Archives of Photogrammetry, Remote Sensing and Spatial Information Science,   III, Vol.34, Part 3BPhotogrammetric Computer Vision,  Graz, 2002 

21. Tomas Svoboda, Daniel Martinec and Tomas Pajdla. “A convenient multi­camera self­calibration for virtual environments”, Teleoperators and Virtual Environments, 14(4), 2004. 

22. VRML97, The Virtual Reality Language, “ http://tecfa.unige.ch/guides/vrml/vrml97/spec/”  [October 2004]23. Zhang,Li, “Automatic Digital Surface Model(DSM) Generation from Linear Array Images”, Ph.D. Thesis, Institute

of Geodesy and Photogrammetry, ETH Zurich, Switzerland, In press.