33
Dortmunder Regelungstechnische Kolloquien, 28. Januar 2010 Lernen bildbasierter Roboterverhalten durch Demonstration Krishna Kumar Narayanan Luis Felipe Posada Frank Hoffmann und Torsten Univ.-Prof. Dr.-Ing. Prof. h.c. Torsten Bertram Lehrstuhl für Regelungssystemtechnik Krishna Kumar Narayanan , Luis Felipe Posada, Frank Hoffmann und Torsten Bertram

Dortmunder Regelungstechnische Kolloquien, 28. Januar … · Dortmunder Regelungstechnische Kolloquien, 28. Januar 2010 Lernen bildbasierter Roboterverhalten durch Demonstration Krishna

Embed Size (px)

Citation preview

Dortmunder Regelungstechnische Kolloquien, 28. Januar 2010

Lernen bildbasierter Roboterverhalten durch DemonstrationKrishna Kumar Narayanan Luis Felipe Posada Frank Hoffmann und Torsten

Univ.-Prof. Dr.-Ing. Prof. h.c. Torsten BertramLehrstuhl für Regelungssystemtechnik

Krishna Kumar Narayanan, Luis Felipe Posada, Frank Hoffmann und Torsten Bertram

Motivation

Motivation

WAHR-NEHMUNG

LERNEN SITUATIONIMITIEREN LERNEN ERKENNENIMITIEREN

HANDLUNGS-AUSWAHL

Gliederung

Lernen durch DemonstrationLernen durch Demonstration

SegmentierungsalgorithmusSegmentierungsalgorithmus

Visuelle Merkmale

Trainieren, Validieren und Lernen

Experimentelle Ergebnisse

Lernen durch Demonstration

Lernphase

Demonstration Verhaltenverallgemeinern

D

Ausführungsphase

Roboterz´

g p

U bUmgeb-ung a´

B.D. Argall, et al., A survey of robot learning from demonstration, Robotics and Autonomous Systems (2009), doi: 10.1016/j.robot.2008.10.024

Demonstration und Aufzeichnung der Handlung

MenschenMenschen

Teach – in / Joystick Kinästhetik Interne/externe Sensorik

Maschine

J M P l t l P ti b h i l i i C B d R i f i i b d 4 l d b tJ.M. Peula , et al, Pure reactive behavior learning using Case Based Reasoning for a vision based 4-legged robot, Robotics and Autonomous Systems (2009).

S. Calinon, et al, What is the Teacher's Role in Robot Programming by Demonstration? - Toward Benchmarks for Improved Learning, Psychological Benchmarks in Human-Robot Interaction (2007)

Lernen eines Verhaltens

L f h

Direkte Generalisierung: Wahrnehmung-Handlungspaare

Lernverfahren

Lernen der Übergangs- und Belohnungsfunktionen und g g g

LernverfahrenDynamische

Lernverfahren g gProgrammierung

Planung und Lernen von Handlungssequenzen

Lernverfahren PlanerRandbedingungen

B.D. Argall, et al., A survey of robot learning from demonstration, Robotics and Autonomous Systems (2009), doi: 10.1016/j.robot.2008.10.024

Korrespondenz

Embodiment Mapping

USichtfeld

TeleoperationLehrer mit

eigenerSensorik

Map

ping

mge

Sichtfeld

Shadowing Externe BeobachtungR

ecor

d Mb

un R

Demonstration Imitation

g

Vorführung aufgezeichneteRecord EmbodimentVorführungLehrer

aufgezeichnete Vorführung

Record Mapping LernerEmbodiment

Mapping

1 B D Argall et al A survey of robot learning from demonstration Robotics and Autonomous Systems (2009) doi: 10 1016/j robot 2008 10 0241. B.D. Argall, et al., A survey of robot learning from demonstration, Robotics and Autonomous Systems (2009), doi: 10.1016/j.robot.2008.10.024

3. http://marsrover.nasa.gov/2. S. Calinon, et al, What is the Teacher's Role in Robot Programming by Demonstration? - Toward Benchmarks for Improved Learning, Psychological Benchmarks in Human-Robot Interaction (2007)

Architektur für Lernen durch ImitationVERHALTENSDEMONSTRATION SONARVERHALTENSDEMONSTRATION SONAR

ufna

hme Kameras

• 3D PMD• Monokular

entie

rung Algorithmen

• RANSAC• Region Growing xt

rakt

ion Visuelle Merkmale

• 27 von Frontal• 25 vom

P

Merkmalsselektion

E

Au • Omnidirektional

Seg

me • Watershed

Mer

kmal

se Panorama• 1 Roboter-

zentrisch• Krümmung

Forward Chaining

Beste

OFF

LIN

VERHALTENSIMITATION KAMERA NLI

NE

Merkmale

nngVERHALTENSIMITATION KAMERA

Han

dlun

g ON

ufna

hme Kameras

• 3D PMD• Monokular nt

ieru

ng Algorithmen• RANSAC• Region Growing xt

rakt

ion Visuelle Merkmale

• 53 Merkmale• Beste Merkmale

Test

en

Valid

ieru

H Au • Omnidirektional

Seg

me • Watershed

• Segmentierungsvalidierung

Mer

kmal

sex

• Ausgang Clustern Lernen

MKrümmung

Trainings-instanzen

Anfrage

Gliederung

Lernen durch DemonstrationLernen durch Demonstration

SegmentierungsalgorithmusSegmentierungsalgorithmus

Visuelle Merkmale

Trainieren, Validieren und Lernen

Experimentelle Ergebnisse

Kamerasystem

PMD O3D KameraAuflösung 64 x 48 Pixel

CCD KameraAuflösung 640 x 480 Pixel

Omnidirektionale Kamera360° d i ht360° rundumsicht

Geometrische Segmentierung in 3D

orm

atio

ner

ung0.65

0.7

0.6

entra

nsfo

egm

entie

0.85

0.75

0.8

oord

inat

eE

bene

nse

Abstandsbild [m]

sisc

he K

oA

NS

AC

EK

arte

sR

A

CCD BildCCD BildFlur Wand 1 Wand 2Hindernis

Klassifikation von Ebenen Normalenvektor

Flä h Fläche

2D Segmentierung Region Growing

• Flur• Wand• Hindernis

Marker basiertSegmentierung

Region growing

WatershedFlur seeds

Region growing

WandFlur

3D Segmentierung Transformiert inFrontansicht

Watershed

2D Segmentierungs-algorithmen

0 0 5 6 70 0 5 6 7 0 0 5 6 7

1 1 5 8 7

0 1 6 7 7

1 1 5 8 7

0 6 71 7

1 1 5 8 7

0 6 71 7

2 0 7 6 6

0 1 5 6 5

2 0 7 6 6

0 1 5 6 5

2 0 7 6 6

0 1 5 6 5

HomogenitätskriteriumMarker setzen gdefinieren

2D Segmentierung Watershed

• Flur• Wand• Hindernis

Marker basiertSegmentierung

Region growing

WatershedFlur seeds

Region growing

WandFlur Watershed

3D Segmentierung Transformiert inFrontansicht

Watershed

2D Segmentierungs-algorithmen

Watershed

0

igke

itH

elli

Beispiel BildprofilErster Pixel MarkiertZweiter Pixel Markiert

255 Abstand

2D Segmentierung

• Flur• Wand• Hindernis

Marker basiertSegmentierung

Region growing

WatershedFlur seedsWand

Flur Watershed

3D Segmentierung Transformiert inFrontansicht

Watershed

2D Segmentierungs-algorithmen

Watershed

Boden Wand Hindernis

Validierung der Segmentierungsverfahren

3D Segmentierung 2D Segmentierung

vorhersageKonfusionsmatrix

Gewichteterrichtig Falsch tiBoden

Boden HindernisKonfusionsmatrix

Klassifikationsfehlerrichtig negativBoden

Groundtruth

Falsch positiv richtigHindernis

Panorama Segmentierung

ktio

nbi

ldke

rpro

jek

nora

mab

Flurpunkte

Mar

kP

anWandpunkteWandpunkte

WandWand

Flur

Gliederung

Lernen durch DemonstrationLernen durch Demonstration

SegmentierungsalgorithmusSegmentierungsalgorithmus

Visuelle Merkmale

Trainieren, Validieren und Lernen

Experimentelle Ergebnisse

Visuelle Merkmale1t t 11

e de

sm

Seg

men

t

e de

sm

Seg

men

t 1

Spalten0

Höh

Flur

s im

Höh

Flur

s i m

Spalten0Spalten

Verhältnis der Menge Boden

Spalten

Verhältnis der Menge Boden

Menge des Gesamte Boden Fläche

Aggregierte Merkmale1

-1 +10

1

Seg

men

t

Ausgewähltespalte Schwellwert

des

Flur

S

0

Höh

e

1 2 3 4 5 6 7 8 9 10 11 12

Ausgangsgröße: Bahnkrümmung

vorherige Drehrichtung Spalten

Gesamtanzahl Merkmale : 53

Gliederung

Lernen durch DemonstrationLernen durch Demonstration

SegmentierungsalgorithmusSegmentierungsalgorithmus

Visuelle Merkmale

Trainieren, Validieren und Lernen

Experimentelle Ergebnisse

Instanzbasiertes Lernen

Anfrage k – nächste Nachbarn

nächste Nachbarn finden

nächste Nachbarn finden

Lokale Regression

1 – nächste Nachbarn 3 – nächste Nachbarn

Ausgabe

Abstandsgewichteter gMittelwert

Instanzbasiertes Lernen

Anfrage

nächste Nachbarn finden

nächste Nachbarn finden

Kernel

Lokale Regression

Lokale lineareRegression

Lokal linearesmodell

Ausgabe

Anfrage punkt X =0 35

Ausgabe

Anfrage punkt Xq=0.35

Ausgabe f

Merkmalsselektion

Forward ChainingForward Chaining

3 2

Ersten Parameter mit minimalen Generalisierungsfehler min identifizieren

43 2

M

Trainings-datensatz

Parameter 12 3 …53

M

Merkmall kti

Merkmal testen

selektieren

Merkmal testen

Fehler berechnen

NächstesMerkmal

min(<

i ?min=Stop

JaNein

min?

Trainingsszenarien

A hl d I t 8876Anzahl der Instanzen: 8876

Korridor 1 Korridor 2 Offener Raum

Foyer 1 Foyer 2Offener Raum

Merkmalsselektion

Merkmals-nummer Kategorie Merkmal

Endgültiger Merkmalsmenge : 13

2 Monokular Prozent der Wand

4 Monokular Höhe der Spalte 1

18 Monokular Verhältnis Menge Boden zwischen mer

18 Monokular grechts und links

19,20,21 Monokular Verhältnis Menge Boden zwischen Spaltenpaar 1-12, 2-11,3-10

mal

snum

m

25,26 Panorama Höhe der Spalte 1,2

40 Panorama Menge des Flursegments in Spalte 8M

erkm

41 Panorama Steigung der Linie

42 Panorama Abschnitt der Linie

46 Panorama Verhältnis Menge Boden zwischen Spaltenpaar 2-7Spaltenpaar 2 7

49 Robozentrisch Vorletzte Drehrichtung

Kreuzvalidierung

Anzahl der Merkmale 13 Anzahl der Beispiele 8876 Beispiele Korridor 1 3312p Beispiele Korridor 2 2302 Beispiele Offene Raum 3262

GleicheUmgebung

GleicheSzenarien Trainingsdaten Testdaten Effektivwert des

Fehlers[°/m]

k. block Rest k-1 blocken 8.58

k. block Korridor 1 Korridor 2 6.95

k block Korridor 2 Korridor 1 8 45k . block Korridor 2 Korridor 1 8.45

Korridor 1 Korridor 2 7.36

x Korridor 2 Korridor 1 7.28

Korridor 1&2 (Korridorfolge Verhalten) Offene Raum (Hindernisvermeidung) 14.07

Offene Raum (Hindernisvermeidung) Korridor 1&2 (Korridorfolge Verhalten) 9.58( g) ( g )

Gliederung

Lernen durch DemonstrationLernen durch Demonstration

SegmentierungsalgorithmusSegmentierungsalgorithmus

Visuelle Merkmale

Trainieren, Validieren und Lernen

Experimentelle Ergebnisse

Hindernisvermeidung

Hindernisvermeidung

Ecke Situation

Ecke Situation

Gelerntes Verhalten

Ausblick

Hierarchische Situationserkennung über• Umgebungsklassifikation

• Zeitlich, räumlichen Kontext von Wahrnehmung und Handlung

t

tt-1t-2t

t-1

• Aktuelle räumliche Wahrnehmung rein situationsbedingt

t 1

t-2• Aktuelle räumliche Wahrnehmung rein situationsbedingt

Vielen Dank für Ihre Aufmerksamkeit!Vielen Dank für Ihre Aufmerksamkeit!

Univ.-Prof. Dr.-Ing. Prof. h.c. Torsten BertramLehrstuhl für Regelungssystemtechnik