5
HAUPTBEITRAG / MULTIMODALE INTERAKTION MIT GROSSEN DISPLAYS } Multimodale Interaktion mit großen Displays Synergie aus Gesten, Blicken und Berührungen Raimund Dachselt Motivation Während bei klassischen Bürocomputern die Ein- gabe durch Maus und Tastatur losgelöst von der Ausgabe auf einem Bildschirm erfolgt, erlauben interaktive Oberflächen eine Verschmelzung von Eingabe und Ausgabe. In Form von Multitouch- Smartphones und -Tablets haben sie ihren Siegeszug längst angetreten und sind in unserem Arbeits- und Lebensalltag omnipräsent. Ihre Bedienung erfolgt meistens durch Berührung mit einem oder mehre- ren Fingern, gelegentlich auch über Stifteingabe. Diese Interaktionsmodalitäten existieren jedoch bisher zumeist alternativ zueinander und werden nicht kombiniert. Forschungsarbeiten, wie z. B. [2], untersuchen hingegen eine effektive multimodale Interaktion durch Stift- und Multitouch-Eingabe. Interaktive Oberflächen kommen jedoch auch zunehmend in deutlich größeren Formfaktoren zum Einsatz. Tabletops, d.h. interaktive Tischdis- plays, haben die Forschungslabore längst verlassen und sind kommerziell von verschiedenen Anbie- tern erhältlich. Gleiches gilt auch für interaktive Wanddisplays, die von großen Fernsehern bis hin zu wandfüllenden, ultra-hochaufgelösten Visualisie- rungssystemen reichen. Auch im öffentlichen Raum ist eine Zunahme an Großdisplays zu beobachten, zumeist zu Informations- oder Werbezwecken. Viele dieser Großdisplays bieten entweder tech- nisch gar keine direkte Interaktionsmöglichkeit, wie wir sie von Tablets oder Tabletops gewöhnt sind, oder ihr Nutzungskontext gestattet diese nicht. Beispiele dafür sind höher gehängte digitale Anzeigetafeln im öffentlichen Raum oder Monitor- hängungen in einem OP-Saal, wobei Ärzte mit den darauf dargestellten medizinischen Bilddaten nur aus der Entfernung interagieren können, weil sie am OP-Tisch stehen. Es ist klar, dass Eingabegeräte wie Maus und Tastatur für die entfernte Interak- tion kaum geeignet sind, zumal auch häufig mehrere Nutzer gleichzeitig mit einem derartigen Display interagieren. Somit stellt sich die Forschungsfrage nach effektiven Techniken zur Bedienung entfernter Displays aus einigem Abstand. Dieser Beitrag will zunächst eine kurze Systematik dieses Forschungs- gebietes umreißen und dann anhand von eigenen Beispielprojekten neuartige Formen multimodaler Interaktion mit entfernten Displays betrachten. Natürliche Interaktion mit großen Displays Großdisplays, wie z. B. in Abb. 1 dargestellt, eignen sich besonders für Anwendungsdomänen, wo sehr große Informationsräume, wissenschaftliche Da- tensätze oder Visualisierungen angezeigt werden sollen. Typische Beispiele sind Anwendungen in Biologie, Medizin, Stadtplanung, Architektur, Au- tomobildesign, Fabrikplanung, Rohstoffförderung oder Energieversorgung. Für die Bedienung derartiger Anwendungen lassen sich folgende typische Interaktionsaufga- ben identifizieren: die Navigation durch große Informationsbestände, z. B. durch Zooming & Panning [4], das Zeigen auf Objekte (Pointing) und ihre Selektion bzw. Gruppierung, ihre Ma- nipulation (z.B. Verschieben, Kopieren, Löschen, DOI 10.1007/s00287-014-0798-0 © Springer-Verlag Berlin Heidelberg 2014 Raimund Dachselt Interactive Media Lab, Technische Universität Dresden, Dresden E-Mail: [email protected]

Multimodale Interaktion mit großen Displays

  • Upload
    raimund

  • View
    219

  • Download
    6

Embed Size (px)

Citation preview

Page 1: Multimodale Interaktion mit großen Displays

HAUPTBEITRAG / MULTIMODALE INTERAKTION MIT GROSSEN DISPLAYS }

Multimodale Interaktionmit großen DisplaysSynergie aus Gesten, Blicken und Berührungen

Raimund Dachselt

MotivationWährend bei klassischen Bürocomputern die Ein-gabe durch Maus und Tastatur losgelöst von derAusgabe auf einem Bildschirm erfolgt, erlaubeninteraktive Oberflächen eine Verschmelzung vonEingabe und Ausgabe. In Form von Multitouch-Smartphones und -Tablets haben sie ihren Siegeszuglängst angetreten und sind in unserem Arbeits- undLebensalltag omnipräsent. Ihre Bedienung erfolgtmeistens durch Berührung mit einem oder mehre-ren Fingern, gelegentlich auch über Stifteingabe.Diese Interaktionsmodalitäten existieren jedochbisher zumeist alternativ zueinander und werdennicht kombiniert. Forschungsarbeiten, wie z. B. [2],untersuchen hingegen eine effektive multimodaleInteraktion durch Stift- und Multitouch-Eingabe.

Interaktive Oberflächen kommen jedoch auchzunehmend in deutlich größeren Formfaktorenzum Einsatz. Tabletops, d. h. interaktive Tischdis-plays, haben die Forschungslabore längst verlassenund sind kommerziell von verschiedenen Anbie-tern erhältlich. Gleiches gilt auch für interaktiveWanddisplays, die von großen Fernsehern bis hinzu wandfüllenden, ultra-hochaufgelösten Visualisie-rungssystemen reichen. Auch im öffentlichen Raumist eine Zunahme an Großdisplays zu beobachten,zumeist zu Informations- oder Werbezwecken.

Viele dieser Großdisplays bieten entweder tech-nisch gar keine direkte Interaktionsmöglichkeit,wie wir sie von Tablets oder Tabletops gewöhntsind, oder ihr Nutzungskontext gestattet diesenicht. Beispiele dafür sind höher gehängte digitaleAnzeigetafeln im öffentlichen Raum oder Monitor-hängungen in einem OP-Saal, wobei Ärzte mit dendarauf dargestellten medizinischen Bilddaten nur

aus der Entfernung interagieren können, weil sieam OP-Tisch stehen. Es ist klar, dass Eingabegerätewie Maus und Tastatur für die entfernte Interak-tion kaum geeignet sind, zumal auch häufig mehrereNutzer gleichzeitig mit einem derartigen Displayinteragieren. Somit stellt sich die Forschungsfragenach effektiven Techniken zur Bedienung entfernterDisplays aus einigem Abstand. Dieser Beitrag willzunächst eine kurze Systematik dieses Forschungs-gebietes umreißen und dann anhand von eigenenBeispielprojekten neuartige Formen multimodalerInteraktion mit entfernten Displays betrachten.

Natürliche Interaktion mit großen DisplaysGroßdisplays, wie z. B. in Abb. 1 dargestellt, eignensich besonders für Anwendungsdomänen, wo sehrgroße Informationsräume, wissenschaftliche Da-tensätze oder Visualisierungen angezeigt werdensollen. Typische Beispiele sind Anwendungen inBiologie, Medizin, Stadtplanung, Architektur, Au-tomobildesign, Fabrikplanung, Rohstoffförderungoder Energieversorgung.

Für die Bedienung derartiger Anwendungenlassen sich folgende typische Interaktionsaufga-ben identifizieren: die Navigation durch großeInformationsbestände, z. B. durch Zooming &Panning [4], das Zeigen auf Objekte (Pointing)und ihre Selektion bzw. Gruppierung, ihre Ma-nipulation (z. B. Verschieben, Kopieren, Löschen,

DOI 10.1007/s00287-014-0798-0© Springer-Verlag Berlin Heidelberg 2014

Raimund DachseltInteractive Media Lab, Technische Universität Dresden,DresdenE-Mail: [email protected]

Page 2: Multimodale Interaktion mit großen Displays

{ MULTIMODALE INTERAKTION MIT GROSSEN DISPLAYS

ZusammenfassungUnter den vielfältigen Ausgabegeräten spielenGroßdisplays eine zunehmend wichtige Rollefür wissenschaftliche Visualisierungen, explo-rative Datenanalyse, medizinische Bilder oderInformationsanzeigen im urbanen Raum. Dasich traditionelle Eingabegeräte für deren Be-dienung aus der Entfernung nicht eignen, stelltsich die Forschungsfrage nach effektiven Inter-aktionstechniken. Der Beitrag stellt eine kurzeSystematik möglicher Bedienmodalitäten undderen Kombination dar und erläutert anhandeigener Beispielprojekte das vielversprechendePotenzial natürlicher, multimodaler Inter-aktion. Zentrale Herausforderungen werdenabschließend beleuchtet.

affin-lineare Transformationen) sowie das Auslösenvon Steuerbefehlen zur Systemkontrolle, z. B. überMenüs.

Abb. 1 Interaktive Visualisierungswand mit 24 Megapixeln am Interactive Media Lab Dresden. Zoom & Pan über Touchbedienungauf einem Smartphone, das gleichzeitig einen Gesamtüberblick bietet

Während bei Desktopsystemen Maus und Tas-tatur für all diese Aufgaben verwendet werden,sind in den letzten Jahren vielfältige Interaktions-modalitäten erforscht worden, die natürlichereund an unseren Erfahrungen aus dem realen Le-ben orientierte Bedienhandlungen erlauben [3].Während sich Multitouch-Eingabe, Stiftinteraktionoder auch die Benutzung von physischen Objek-ten (z. B. ein Schwamm) für die direkte Interaktionauf der Oberfläche eignen, bieten sich für eineentfernte Interaktion mit Großdisplays u. a. fol-gende Modalitäten an (von denen einige z. B. in dervergleichenden Studie [4] getestet wurden):

– Smartphones und Tablets, auf denen Multitouch-Eingaben zur Steuerung genutzt werden, oder auchBewegungen bzw. Gesten mit dem Gerät;

– in der Hand gehaltene Eingabegeräte mit sechsFreiheitsgraden, wie sie vor allem in Virtual RealityAnwendungen verwendet werden, z. B. Flysticks;

– Freihandgesten oder Körperbewegungen, die z. B.mithilfe einer Tiefenkamera erfasst werden;

Page 3: Multimodale Interaktion mit großen Displays

AbstractAmong the variety of displays available, large

displays are increasingly gaining importance.They can be used for medical imagery, scientificvisualization, explorative data analysis, or in-formation displays in public spaces. Traditionalinput devices are no longer suitable for interac-ting with them from the distance. Therefore, theresearch question arises how to develop effectiveinteraction techniques. This paper contributesan overview and classification of possible in-put modalities and their combination. Threeexample projects are used for illustrating thisgrowing and exciting field of research along withan outline of central challenges.

– Augensteuerung oder Nutzung der Kopforientie-rung zur Blickapproximation;

– Spracheingabe, jedoch weniger für kontinuierlicheEingabe und kollaboratives Arbeiten geeignet;

– Spezialgeräte, z. B. physische Tangibles – wiekleine Automodelle, die man auf einem Tischzur Ansichtssteuerung verschieben kann;

– digitale Stifte und Papier, auf dem Eingaben ge-zeichnet oder gedruckte Interfaceelemente berührtwerden können.

Die Bedienmodalitäten unterscheiden sich zunächstin ihren Freiheitsgraden bzw. der Ausdrucksmäch-tigkeit, in der Präzision der Eingabe, im technischenAufwand für das Erfassen der Interaktion, in dernotwendigen Instrumentierung des Raums mit Zu-satzsensorik, in der einfachen Verfügbarkeit derGeräte, den Kosten und in der Tauglichkeit für meh-rere Benutzer. Manche erlauben eine Identifikationdes jeweiligen Nutzers für kollaboratives Arbeiten,bei anderen ist dies nur mit Zusatzsensorik mög-lich. Für Gelegenheitsnutzer, z. B. im öffentlichenRaum, kommen natürlich nur sehr einfache Bedien-formen oder die Nutzung von mobilen Endgerätenin Betracht, während eine Expertenanwendung(VR-CAVE, OP-Saal oder hochaufgelöste Visualisie-rungswand) speziellere und technisch aufwendigereLösungen gestattet oder sogar erfordert. Schließ-lich macht es auch einen Unterschied, ob nur dereigene Körper (Stimme, Gesten, Bewegungen) zurInteraktion verwendet wird, ein reines Eingabegerätgenutzt wird (z. B. Flystick, Air Mouse, Tangibles)

oder aber Eingabe und Ausgabe in einem mobilenGerät kombiniert sind (z. B. Handy), wodurch auchZusatzinformationen oder ein Überblick (wie inAbb. 1) dargestellt werden können.

Multimodale Interaktion:Anwendungsbeispiele

Die genannten Bedienmodalitäten können teilweiseauf sehr effektive Weise miteinander kombiniertwerden, um ihre Nachteile in der alleinigen Nut-zung auszugleichen, parallele Aktionen ausführenzu können oder nahtlose Übergänge zwischen ver-schiedenen Interaktionsformen zu ermöglichen.Anhand von Forschungsbeispielen der eigenen Ar-beitsgruppe, dem Interactive Media Lab Dresdenan der Informatikfakultät der Technischen Uni-versität Dresden, soll das Potenzial multimodalerInteraktion für große Displays illustriert werden.

Physische Gesten und BerührungenIn unserer Forschungsanwendung Throw & Tilt [1]wird eine sehr einfache und natürliche Form derÜbertragung von Medienobjekten zwischen persön-lichem Handy und Wanddisplay ermöglicht, unddas mobile Gerät dient gleichzeitig als multimoda-les Steuerzentrum für die auf der Wand angezeigteMedienanwendung. Nach lokaler Auswahl von Fotosauf dem Handy werden diese mithilfe einer Wurf-geste an die Wand ,,geschleudert“, wo sie nach einerkurzen WLAN-Übertragungszeit erscheinen. DasMobiltelefon wird nun zum reinen Eingabegerät;durch Neigegesten in verschiedene Richtungen kannman zwischen den Bildern blättern (Navigation)und diese einzeln zoomen (Manipulation). Ein er-weiterter Prototyp, der auch auf der ACM CHI 2009demonstriert wurde, erlaubt durch die Verwendungeines iPhones noch zusätzliche Toucheingabe. Damitkönnen Moduswechsel vorgenommen oder Bilderbzw. eine GoogleEarth-Ansicht verschoben werden –und das bei sequenziellem oder sogar gleichzeitigemZoomen durch Neigen des Handys.

Blickgestützte Multimodale InteraktionAuch wenn die Augen nicht für Manipulationund Interaktion (wie z. B. die Hände) geschaffensind, so haben sie doch ein faszinierendes Poten-zial, da der Blick typischerweise den Handlungenvorausgeht und Augenbewegungen implizite Po-sitionsinformationen liefern. Gleichzeitig sindNachteile – wie physiologische Beschränkungen

Page 4: Multimodale Interaktion mit großen Displays

{ MULTIMODALE INTERAKTION MIT GROSSEN DISPLAYS

Abb. 2 Blickgestützte multimodale Interaktion. Das auf der Wand betrachtete Bild kann mit einfachen Touchgesten selektiert undmanipuliert werden (links) [8]. Verschiedene Kombinationen von Augensteuerung mit ergänzenden Modalitäten fürNavigationsaufgaben (rechts) [7]

und Tracking-Ungenauigkeiten – auszugleichen unddas Midas-Touch-Problem zu adressieren. Wennz. B. eine Selektion durch längeres Ansehen einesObjektes vorgenommen werden soll (Dwell-timeSelection), dann kann dies auch unbeabsichtigt pas-sieren, nur weil der Blick zu lange auf einer Stelleverweilt hat.

Eine elegantere Lösung, die dieses Problemvermeidet und auch Ungenauigkeiten kompen-siert, ist die multimodale, blickgestützte Interaktion(gaze-supported interaction) [7, 8]. Dabei wird derBlick grundsätzlich zur schnellen, teilweise initialenPositionierung genutzt, während ergänzende In-teraktionsmodalitäten eine Verfeinerung erlauben,

Abb. 3 Eine lagebewusste Linse als Fenster in einen virtuellen Informationsraum vor dem Display. Zoomen durch Bewegung desDisplays an der jeweiligen Stelle (links) und 3D-Objektinspektion durch zusätzliches Kopftracking (rechts) [5]

eine Auswahl bestätigen oder eine andere Aktionauslösen. So haben wir in [8] z. B. ein touchfähi-ges Handy in Ergänzung zum Blick genutzt, dermit einem mobilen Eyetracker verfolgt wird. NachAnsehen der gewünschten Zielposition auf dem ent-fernten Display kann durch Fingerbewegung aufdem Touchdisplay dann eine Feinpositionierung desCursors vorgenommen werden (s. Abb. 2). Nebendieser Technik wurde auch ein komplettes Set vonInteraktionstechniken entwickelt, das neben der Se-lektion auch die Positionierung und Manipulationvon entfernten Objekten erlaubt [8].

Blick kann auch mit anderen Modalitäten kom-biniert werden. In [7] wurde in einer systematischen

Page 5: Multimodale Interaktion mit großen Displays

Studie untersucht, wie Augensteuerung mit einemMausrad, mit Touchinteraktion auf einem Handyund mit Handy-Neigegesten für Navigationsaufga-ben, d. h. Zoom & Pan, genutzt werden kann (vgl.Abb. 2, rechts). So hat sich beispielsweise das Gaze-Pivot-Zooming, d. h. das Anschauen der Zielpositionin Kombination mit einer Zoommodalität wie Nei-gen oder Touchgesten auf einem Smartphone alsintuitiv und schnell herausgestellt.

Tangible Magic Lenses & Tangible WindowsWie Abb. 3 zeigt, kann auch der Raum vor einemDisplay oder über einem Tabletop genutzt werden,um Informationsräume darin zu explorieren [6].Durch Bewegung einer in der Hand gehaltenen,lagebewussten magischen Linse kann z. B. an derentsprechenden Stelle des Mikroskopbildes hin-eingezoomt werden. Touch- und Stiftinteraktionerlauben zusätzlich Annotationen und Moduswech-sel. In [5] haben wir beschrieben, wie neben der Lageder Tangible Magic Lens auch die Kopfposition und-orientierung des Nutzers erfasst wird. Damit unddurch entsprechende perspektivische Korrekturenlassen sich auch dreidimensionale Inhalte glaub-würdig durch oder auf der Linse betrachten, die einFenster in die Virtualität darstellt. Auch hier stehtTouch zur Verfügung.

Herausforderungen und AusblickAus Sicht der Informatik ergeben sich mehrerezentrale Herausforderungen für die Interaktionmit großen Displays. Das qualitativ hochwertigeund verzögerungsfreie/-arme Rendering komplexerInformationsräume im Megapixel-Bereich benö-tigt häufig mehrere Grafikkarten, Rechnerclusterund dedizierte verteilte Architekturen. Die Inter-aktion mit großen Datenmengen, z. B. schnelleAnsichtsänderungen durch Zoomvorgänge oderdie interaktive Parameteränderung in komplexenSimulationen, stellt zusätzlich hohe Ansprüche anausreichende Bildwiederholraten und geringe La-

tenz. Ebenfalls zentral für die meisten der obengenannten Interaktionsmodalitäten ist die Her-ausforderung des Trackings. Im einfachsten Fallmüssen nur Multitouch-Gesten erkannt werden;das gleichzeitige Erfassen von Augen-, Hand- oderKörperbewegungen für mehrere Nutzer ist erheb-lich aufwendiger. Steuergesten müssen zuverlässigerkannt werden, wobei z. B. Verfahren des Ma-chine Learnings zum Einsatz kommen. Auch ausSicht der Usability ergeben sich wesentliche Her-ausforderungen, z. B. bezüglich der Eignung undErlernbarkeit von Gesten, ihrer Erinnerung, derErmüdungsfreiheit, der kollaborativen Nutzungoder der effektiven Kombination von Modalitäten.Informelle Benutzerstudien und kontrollierte Expe-rimente mit gründlicher statistischer Auswertungdienen u. a. der methodischen Überprüfung vonUsability und User Experience.

Der Beitrag hat Motivation, Formen, Anwen-dungen und Herausforderungen der multimodalenInteraktion mit großen Displays beleuchtet. Esist deutlich geworden, dass es sich um ein kom-plexes Forschungsgebiet mit vielen spannendenFragestellungen und großem Anwendungspotenzialhandelt.

Literatur1. Dachselt R, Buchholz R (2008) Throw and Tilt – Seamless Interaction across Devi-

ces Using Mobile Phone Gestures. GI Jahrestagung 1:272–2782. Frisch M, Dachselt R (2013) Kombinierte Multi-Touch und Stift-Interaktion: Ein

Gesten-Set zum Editieren von Diagrammen. In: Schlegel T (Hrsg) Multi-Touch: In-teraktion durch Berührung. Springer, Berlin Heidelberg, S 89–116

3. Jacob RJK et al. (2008) Reality-based interaction: a framework for post-WIMP in-terfaces. In: Proc. CHI ‘08, ACM (2008), pp 201–210

4. Nancel M, Wagner J, Pietriga E, Chapuis O, Mackay W (2011) Mid-air pan-and-zoom on wall-sized displays. In: Proc. CHI ’11, ACM, pp 177–186

5. Spindler M, Büschel W, Dachselt R (2012) Use your head: tangible windowsfor 3D information spaces in a tabletop environment. In: Proc. ITS ’12, ACM,pp 245–254

6. Spindler M, Büschel W, Winkler C, Dachselt R (2013) Tangible Displays for theMasses: Spatial Interaction with Handheld Displays by Using Consumer DepthCameras. Personal and Ubiquitous Computing. Springer

7. Stellmach S, Dachselt R (2012) Investigating gaze-supported multimodal pan andzoom. In: Proc. ETRA ‘12, ACM, pp 357–360

8. Stellmach S, Dachselt R (2013) Still looking: investigating seamless gaze-supported selection, positioning, and manipulation of distant targets. In: Proc.CHI ’13, ACM, pp 285–294