Apprentissage à partir des données
pour les
systèmes mécatroniques
1Séminaire LGI2P P. CouturierLe 26/05/2010
systèmes mécatroniques
Pierre Couturier Pierre Couturier
etet
RinaRina, Michael, , Michael, YoussefYoussef, , MouaelMouael, , ……
LGI2P, LGI2P, EcoleEcole des Mines d’Alès en des Mines d’Alès en CévennesCévennes
[email protected]@mines--ales.frales.fr
• Mécatronique ?
� Le système à faire
� Le système pour faire
• Plateforme Mécatronique Ales-Nîmes
� Quoi, qui, pourquoi
• Apprentissage par les données et systèmes mécatroniques
� Contexte
2Séminaire LGI2P P. CouturierLe 26/05/2010
� Contexte
� Les RNFs
� Et le produit à faire
> Apprentissage supervisé de réseaux bouclées
> Apprentissage par renforcement distribué
> Apprentisage non supervisé
� Et le système pour faire
• Et Maintenant…
[NF E 01[NF E 01--010]010]
• Produit mécatronique : produit ayant la capacité de percevoir son milieu environnant, de traiter l’information, de communiquer et d’agir sur son milieu, et présentant un niveau complet d’intégration mécatronique, du point de vue fonctionnel et physique.
3Séminaire LGI2P P. CouturierLe 26/05/2010
• Mécatronique : démarche visant l’intégration en synergie de la mécanique, l’électronique, l’automatique et l’informatique dans la conception et la fabrication d’un produit en vue d’augmenter et/ou d’optimiser sa fonctionnalité.
Fonctions de communication, traitement de
l’information, rétroaction (gestion de l’énergie,
diagnostic). Forte autonomie
Ex: vanne sans fil
Ex: axe
Ex: frein électromécanique
Intégration fonctionnelle
SYSTEMES
Le produit à faire
4Séminaire LGI2P P. CouturierLe 26/05/2010
Ex: axe piloté
Quelques fonctions de communication
ou de traitement de l’information.
Faible autonomie.
Ex: roulement instrumenté
Intégration physiqueCOMPOSANTS
parties physiquement
distinctes.parties physiquement
fusionnées.
Processus de cycle de vie suivant
Le système
pour faire
5Séminaire LGI2P P. CouturierLe 26/05/2010
ISO/CEI 15288
XP E 01-013
6Séminaire LGI2P P. CouturierLe 26/05/2010 6
XP E 01-013
7Séminaire LGI2P P. CouturierLe 26/05/2010
D’après XP E 01-013
8Séminaire LGI2P P. CouturierLe 26/05/2010
La réussite d’un projet mécatronique repose sur une coopération pluridisciplinaire efficace, dans laquelle les membres du groupe exposent et défendent leur point de vue dans le but d’obtenir une décision consensuelle..
La plate-forme mécatronique Alès-Nîmes
Mesure physique
Prototypage
Projetselève
ProjetsInnov’up
ProjetsR&D
http://www.mecatronique.mines-ales.fr/
9Séminaire LGI2P P. CouturierLe 26/05/2010
Modélisation, Conception simulation
Mesure physique Instrumentation
Conception, Prototypage et Caractérisationde Systèmes Mécaniques Complexes
Equipe mécatronique (10 personnes)
Moyens et équipements de la plate-forme
• Modélisation, Conception, Simulation� Catia (CAO), SymDesigner (analyse
dynamique des solides), ANSYS (calcul par éléments finis)
� Orcad (CAO électronique), développement systèmes à microprocesseurs
� Amesim : Simulation multiphysique� Matlab/Simulink : traitement de signal,
identification, commande…
• Prototypage physique� Catia (CFAO) � Imprimante 3D+ équipement de coulée
10Séminaire LGI2P P. CouturierLe 26/05/2010
� Imprimante 3D+ équipement de coulée sous vide
� Machines outils à commande numérique (fraiseuse 5 axes)
� Atelier de circuits imprimés (CMS)
• Mesure et test� Système d’acquisition et traitement des
signaux (Labview, Matlab…) � Machine à mesurer 3D (rétrofit)� Laboratoire d’optique appliquée (PC,
logiciels)
Fonctions de
communication,
traitement de
l’information,
rétroaction.
Autonomie
Intégration fonctionnelleExemples de projet
11Séminaire LGI2P P. CouturierLe 26/05/2010
Quelques fonctions de
communication
ou de traitement de
l’information
(faible autonomie)
Intégration physique
parties physiquement
distinctes.parties physiquement
fusionnées.
• Mécatronique …
• Plateforme Mécatronique Ales-Nîmes
• Apprentissage par les données
� Contexte
� Les RNFs
� Pour le produit à faire
� Pour le système à faire
• Et Maintenant…
12Séminaire LGI2P P. CouturierLe 26/05/2010
• Et Maintenant…
Apprendre à partir des données : contexte
Système complexe
Et pas de modèleformel exploitablemais des données
X3
Apprentissage à partir
des données
X3
13Séminaire LGI2P P. CouturierLe 26/05/2010
X2
X1
• Ce que l’on observe :des points isolés dans un espace à ddimensions (d variables)
X2
X1
• Ce que l’on veut :construire un modèle à partir des données
Classification
Evaluation de fonction
Mémoire associative
Discrimination
Pour (1)
14Séminaire LGI2P P. CouturierLe 26/05/2010
Mémoire associative
Correction d’erreurMémoire autoassociative
Evaluation de fonction inverse
Ou pour (2)
15Séminaire LGI2P P. CouturierLe 26/05/2010
Recherche d’optimum
Avec des Réseaux de neurones formels…
• Propriétés des réseaux de neurones formels :
� Approximation universelle
� Apprentissage
� Généralisation
e1
e2
en
Σ fs
w1
w2
wn
° ° ° v=Σwi.ei
s=f(v)
v : potentiel neuronal
f : fonction dévaluation
Neurone formel
16Séminaire LGI2P P. CouturierLe 26/05/2010
Réseau multicouche (statique)
entrées
sorties
...entrées
Cartes Auto-organisatrices Entrées temporelles
sortie
retards
Réseau bouclé
Propriétés des réseaux de neurones
• ApprentissageC'est la phase de calcul des poids synaptiques à partir de données afin que le réseau associe convenablement entrées et sorties du réseau.
• Approximation universelleUn réseau statique à une couche cachée à fonction d'évaluation sigmoïde peut approcher toute fonction continue avec la précision désirée
17Séminaire LGI2P P. CouturierLe 26/05/2010
peut approcher toute fonction continue avec la précision désirée (Hornik[89],Cybenko[89]).
• GénéralisationC'est la capacité du réseau à traiter correctement des données « similaires » à celles rencontrées pendant l'apprentissage.
• Mécatronique ?
• Plateforme Mécatronique Ales-Nîmes
• Apprentissage par les données
� Contexte
� Les RNF
� Pour le produit à faire
> Apprentissage supervisé de réseaux bouclées
18Séminaire LGI2P P. CouturierLe 26/05/2010
> Apprentissage supervisé de réseaux bouclées
> Apprentissage par renforcement distribué
> Apprentisage non supervisé
� Pour le système à faire
• Et Maintenant …
Apprentissage supervisé
Apprentissage supervisé
?Entrée
Ecart
- +
Sobservée
Sortie
19Séminaire LGI2P P. CouturierLe 26/05/2010
Le "professeur"connaît les sorties désirées et corrige le réseau en fonction des erreurs commises (minimisation d’une fonction de coût).
Applications: Approximation de fonction, classification, prédiction
Application : Modélisation d’un système dynamique non linéaire [Couturier 97]
• Identification d’un actionneur à soufflets métalliques
u : commande de servovalve proportionnelle (V)
yp : position désirée (V)
y : position modélisée
Soufflets métalliques
air
150 mm
Soufflets métalliques
air
150 mm
),,,( 2121 −−−−= kkkkk uuyyfy
20Séminaire LGI2P P. CouturierLe 26/05/2010
• Réseau bouclé multicouche
� à 1 couche cachée
� de 6 neurones et fonction tanh
150 mm150 mm
y
time in1/10 s
-3
-2
-1
0
1
2
3
4
0 100 200 300 400 500
yp
(V)
y : 3mm/V Sur base de test
(eqm0.02 en app.et 0.08 en test)
Apprentissage supervisé de réseau bouclé
∑ −− −=Nc
ikikk sdJ 2)(2
1
Fonction de coût :
)Ws,e,e(Rs k'1k2k
1kkk −−−−====
Exemple de fonction réalisée par le RN :d k
+-
s k
s k-1
e1k
ΣΣΣΣ f
e2k
ΣΣΣΣ ΣΣΣΣf f
Retard 1 période
21Séminaire LGI2P P. CouturierLe 26/05/2010
∑=
−− −=i
ikikk sdJ0
)(2
Attention : le gradient à l’itération k dépend de toutes les valeurs de gradient antérieures.
=> temps de calcul croissant avec k
Règle d’apprentissage exploitant la matrice jacobienne (descente de gradient, algorithme de Levenberg-Marquart)
k
k
k
k
k
k
k
k
dw
ds
s
R
w
R
dw
ds 1
1
. −
−∂∂+
∂∂=
Méthode des copies [ESPCI 90-00]
e1k
e2k
e3k sk
ΣΣΣΣΣΣΣΣ
ΣΣΣΣ
f
11
f
f
Idsk-1
sk-2sk-1
1)Représentation canonique
2) Les boucles sont ouvertes et le réseau est dupliqué
3) Rétropropagation à travers la fenêtre temporelle
Variantes
22Séminaire LGI2P P. CouturierLe 26/05/2010
Nt copies du réseau dans la fenêtre de Nt périodes d’échantillonnage
sk
sk-1
ΣΣΣΣΣΣΣΣ
ΣΣΣΣ
f
e1k
e2k
e3k f
f
Idsk-1
sk-2
ΣΣΣΣΣΣΣΣ
ΣΣΣΣ
f
e1k-1
e2k-1
e3k-1 f
f
Id
sk-2
sk-3
fΣΣΣΣΣΣΣΣ
ΣΣΣΣ
f
e1k-Nt+1
e2k-Nt+1
e3k-Nt+1 f
Id
sk-Nt
sk-Nt-1 .
.
.
.
Copy 1Copy Nt Copy 2
Variantes
selon initialisation
Commande de processusPosition (V)
Tension de
23Séminaire LGI2P P. CouturierLe 26/05/2010
Commande à objectif de poursuite indépendant
-Dynamiques indépendantes-Contrainte sur la commande (saturation)
Tension de servovalve (V)
Application : Synthèse d’une loi de commande par RNFbouclés
yk+1
Id IdIdId retard 1 période
yk yk-1 uk-1uk
+-
ydk+1
Yp UYp
Systèmecontrôleur neuronal
Y c U
UnModèle neuronal dusystème
Y -
Yd
+
24Séminaire LGI2P P. CouturierLe 26/05/2010
Représentation sous forme canonique du bloc de commande
Modèle neuronaldu système
Id: fonctionidentité
uk-1 uk-2 yckyk yk-1 yk-2
Contrôleur neuronal
Schéma de commande
+Y
Yp
Questions encore ouvertes sur la méthode des copies
1) Choix de Nt ?
=> Comparer calcul sur fenêtre Nt et fenêtre Nt-1 (c’est lourd)
=> Dynamique du système ?
2) Influence prévision à Nt coups prépondérant par rapport au calcul plus précis du gradient ?
3) Dilemme Biais Variance
4) Apprentissage à pas échantillonnage décroissant
25Séminaire LGI2P P. CouturierLe 26/05/2010
4) Apprentissage à pas échantillonnage décroissant
Apprentissage par renforcement
Le "professeur" ne connaît pas les sorties désirées mais est capable de guider l'ajustement des poids par une forme de "critique".
Applications : Approximation de fonction, classification, discrimination, optimisation
Critique
Situation ou états
Renforcement
r
Environnement
Actiona
Mémoire associative
26Séminaire LGI2P P. CouturierLe 26/05/2010
10 ≤≤γ( ) { }aassrrEasQ tttt ==+⋅+= ++ ,...., 21 γππ
L’apprentissage par renforcement est généralement basé sur l’estimation d’une fonction utilité, par exemple Q(s,a).
Le but est de trouver la politique π* qui maximise Qπ(s,a)
Apprentissage par renforcement
En essayant continuellement, on finit par réussir.Ou, en d'autres termes : plus ça
27Séminaire LGI2P P. CouturierLe 26/05/2010
rate, plus on a de chance que ça marche ...
Apprentissage par renforcement
• Initialiser arbitrairement Qπ(s, a)• Répéter (pour chaque épisode) :• Choisir un état initial s• Répéter (pour chaque pas) :• Prendre action a selon une stratégie issue de Q (ε glouton).
28Séminaire LGI2P P. CouturierLe 26/05/2010
• Observer r, s ’• Actualiser Qπ(s, a)• s ←s ’• Jusqu’à fin de l’épisode• Jusqu’au dernier épisode
Equilibre à trouver entre Exploration/Exploitation
Apprentissage par renforcement distribué
Renforcement r1 Renforcement r2 Renforcement rM
Mémoireassociative
Acteur 1
a1
Environnement
S
Critique
Mémoireassociative
Acteur 2
a2
Mémoireassociative
Acteur M
aM
…..Renforcement r1 Renforcement r2 Renforcement rM
Mémoireassociative
Acteur 1
a1
Mémoireassociative
Acteur 1
a1
Environnement
S
CritiqueCritique
Mémoireassociative
Acteur 2
a2
Mémoireassociative
Acteur 2
a2
Mémoireassociative
Acteur M
aM
…..
29Séminaire LGI2P P. CouturierLe 26/05/2010
D2
D3
ProactionRétraction
D3D2D1G4G5G6
D1G6
G5
G4
A
A
Dmax = 3
D2
D3
ProactionRétraction
D3D2D1G4G5G6
D1G6
G5
G4
A
AD2
D3
ProactionRétraction
D3D2D1G4G5G6
D1G6
G5
G4
A
A
D3D2D1G4G5G6
D1G6
G5
G4
A
A
Dmax = 3D3D2D1G4G5G6
Dmax = 1
D3D2D1G4G5G6
D3D2D1G4G5G6
Dmax = 1
D3D2D1G4G5G6
Dmax = 1
D3D2D1G4G5G6
D3D2D1G4G5G6
Dmax = 1
D3D2D1G4G5G6
Dmax = 5
D3D2D1G4G5G6
D3D2D1G4G5G6
Dmax = 5
R3R2R1L3L2L1
retraction
L1
R3
proaction
R3R2R1L3L2L1
retraction
L1
R3
proaction
Apprentissage de la marche
Application : apprentissage de la marche
Q(s,a)
2 actions a
6 4 ét ats s
1 2
64 état s s
Acteur 1
Acteur 6
Q(s,a)
2 actions a
6 4 ét ats s
1 2
64 état s s
Acteur 1
Acteur 6
2 actions possibles par patte : proaction, rétraction
Pénalité : r = - 1 si Récompense : r = +1 si
Chute lors d'une proaction Pas de chute lors de la proaction
L'ordre de proaction est répété deux fois de suite.
Le mouvement de rétraction a dépassé la durée minimale Dmin
Le mouvement de rétraction a une durée trop longue (>Dmax) ou trop courte (<Dmin)
Toutes les pattes sont au sol
30Séminaire LGI2P P. CouturierLe 26/05/2010
2 actions a2 actions a
6 tables Q(s,a)
Toutes les pattes sont au sol
Les mouvements de proaction se propagent de l 'avant vers l 'arrière
α>0,
( ) ( ) ( ) ( )[ ]{ }⋅′⋅γ+−α−← π
∈′
πππ a,'sQmaxra,sQa,sQa,sQAa
Actualisation des valeurs Q(s,a) pour chaque mouvement
10 ≤≤γ{Erreur de prévision à 1 coup}
Apprentissage multi-acteurs
a23 a2
1 a22 a2
3 a21 a2
2
Q2(s, a) pour l’acteur 2
a12
a13
a11
3 0
1
-3 0
2
0
2 -2 3 -1 2
0
-2
0
9
-1
Q1(s, a) pour l’acteur 1
1 a12
a13
a11 ai
1
ai2
ai3
Qi(s,a)
0
-2
4
individuel
collectif
altruiste
égoïste
Pareto optimal Equilibre de Nash
31Séminaire LGI2P P. CouturierLe 26/05/2010
Cas de 3 acteurs
Pour chaque état s et acteur i
ai = 1
aj = 1aj = 0 aj = 0ak= 0
ai = 0
ak = 0aj = 1ak = 1 ak = 1
23
1 -51
5
-1
-3ai = 1
aj = 1aj = 0 aj = 0ak= 0
ai = 0
ak = 0aj = 1ak = 1 ak = 1
23
1 -51
5
-1
-3
1) Acteur i choisit l’action 1 (gain 5)
2) Acteurs j et k choisissent 0 et 1
Q(s,a i=1,aj=0,ak=1) est actualisée[Littman 01]
Contrôle de trajectoire et de posture [Zennir 05]
Posture initiale Posture finale
Position optimisée
Ressorts
PQ
PR Posture de
référence
pi qi
ri ri
Initialiser Qi(si, a1, ...,a i-1, ai, a i+1, ... aK) à 0 pour tout i
Pour tout épisode
y Ymax
x
2∆θ f 2∆y f
O xG
°
°
G
Changement de trajectoire (marche tripode, amplitude des pas +/- a).
32Séminaire LGI2P P. CouturierLe 26/05/2010
x
y
x
yy
xx
x
y
x
yy
xx
x
y
x
yy
xx
Pour tout étape de l’épisode
Pour tout acteur i du même groupe
Choisir ai d’après Qi (choix ε - glouton)
Observer a1,..,a i-1, a i+1, ... aK , si’ et ri
Réactualiser :
Qi(si, a1,..,a i-1, ai, a i+1, ... aK) � Qi(si, a1,..,a i-1, ai, a i+1, ... aK) +
αi .[r i+γi .max a’1,…,a’K Qi(si’, a’1,..., a’ i-1,,a’i, a’ i+1,… a’K) -Qi(si, a1,..,a i-1, ,ai, a i+1, ... aK)]
si� si’
TD(λ) Prédiction à n pas
R (s) = rt+1 + γ.rt+2 + ... +γn-1.rt+n + γn.R(s’)
Si à t on évalue l’utilité de s visité à t’, on note Vt (st’)
δt (n) (st) = Vt (st) - [r t+1 + γ.rt+2 + ... +γn-1.rt+n + γn. Vt (st+n)]
On construit la fonction utilité Vt (s) qui approche R(s) lorsque t grand
L’erreur de prédiction à n pas est
33Séminaire LGI2P P. CouturierLe 26/05/2010
δt (st) = Vt (st) - [r t+1 + γ.rt+2 + ... +γ .rt+n + γ . Vt (st+n)]
δt λ (st) = δt
(1) (st) + λ* δt (2) (st) + .. λn-1
*δt (n) (st) + …
Et on somme les erreurs de prédiction à n pas, n variant, en privilégiantles erreurs plus récentes (0<λ<1)
Alors
Vt (st) ← Vt (st) - α. δt λ (st)
V k (s k-2) ou
Q k (sk-2,ak-2)
δδδδ1111k-2 δ2
k-2
δδδδ1111k-1
δ3k-2
δ2k-1
r k-1 r k r k+1
r k-1 + γ. r k r k + γ. r k+1
r k-1 + γ. r k+ γ 2. r k+1
--
-
-
-
Chantier en cours : cas où Vk ou Qk est une mémoire à réseaux de neurones sur une fenêtre temporelle de Nt périodes …
34Séminaire LGI2P P. CouturierLe 26/05/2010
γ
γ
γγ γ
2
23
γ
k-2
Q k (sk-2,ak-2)
V k (s k-1)
ou Q k (sk-1,ak-1)
V k (s k) ou
Q k (sk,ak)
V k (s k+1) ou
Q k (sk+1,ak+1)
δδδδ1111k
-
-
Calcul des erreurs à rétropropager sur chaque copie du même réseau de neurones.
V k (s k-2) : δ1k-2 + λ.δ2
k-2 + λ2.δ3 k-2
V k (s k-1) : δ1k-1 + λ.δ2
k-1 -γ.δ1 k-2
Ainsi, si Vk ou Qk est une mémoire à réseaux de neurones sur une fenêtre temporelle de Nt= 4 périodes …
35Séminaire LGI2P P. CouturierLe 26/05/2010
V k (s k) : δ1k - γ.δ1
k-1 - λ .γ2.δ2 k-2
V k (s k+1) : - γ.δ1 k - λ .γ2.δ2
k-1 -λ2.γ3.δ3 k-2
Apprentissage non supervisé
Ex: placer les
gagnant
voisin 1
voisin 2
1 Compétition
donnée
2 Adaptation
xx
36Séminaire LGI2P P. CouturierLe 26/05/2010
Pas de "professeur", le réseau s'auto-organise en fonction des données et d'une règle de modification des poids synaptiques.
Applications : Quantification vectorielle, discrimination, classification
Ex: placer les représentants (neurones)dans la distribution de données.
Voisinage : k+proches voisins
ou voisins naturels )( 2d
nO
O(n.(d+log(n)))
Modèle discret Modèle linéaire Modèle non linéaire
Modèle de variété [Aupetit 01]
37Séminaire LGI2P P. CouturierLe 26/05/2010
Voisinage γ-Observable [Aupetit 01]
• Principe :
v
vi
wiii wvv ⋅+⋅−= γγ )1(
vi wiv
γ0 1
• Propriétés : O(d.n²)
38Séminaire LGI2P P. CouturierLe 26/05/2010
Tous les représentants
γ=1Non-convexité
potentielle
0.5<γ<1Inclus dans
voisinage Naturel
0<=γ<=0.5
Plus-proche voisin
γ=0
• Propriétés : O(d.n²)
Représentation de la topologie
Principe : Competitive Hebbian Learning [Martinetz94]relier le 1er et 2ème plus proches représentants de la donnée courante
Résultat :Triangulation Induite de Delaunay
39Séminaire LGI2P P. CouturierLe 26/05/2010
n=3 n=100n=20n=7
Interpolation
)()()( xfxxf ii
i∑= ϕ
Modèle
Sortie linéaire
Fonction Noyau ϕ
Représentant
Chevauchement Pas de chevauchement
Sortie modèle
40Séminaire LGI2P P. CouturierLe 26/05/2010
Noyaux de Voronoï induits
Chevauchementpas orthonormalité
Pas de chevauchementorthonormalité
Noyaux de Voronoï Induits en Approximation de Fonctions
• Identification d ’un préhenseur électropneumatique
),,,( 2121 −−−−= kkkkk uuyyfy 4
0
-4
uk yk
Volts
41Séminaire LGI2P P. CouturierLe 26/05/2010
• Résultat : EQM app. : 0.02, EQM test : 0.08 comparable MLP bouclé
[Couturier97] 54 paramètres au lieu de 37.
T = 0.1 s
1
0
-1
-4
Ecart entre sortie observée et modèleVolts
Unitéy : 3mm/Volts
ProgrammeProgramme
• Mécatronique …
• Plateforme Mécatronique Ales-Nîmes
• Apprentissage par les données
� Contexte
� Les RNF
� Pour le produit à faire
� Pour le système à faire
• Et Maintenant…
42Séminaire LGI2P P. CouturierLe 26/05/2010
• Et Maintenant…
Conception de système multidisciplinaire [Mouelhi 2010]
interdisciplinarité multi-domaines
Problém
atiquem
éthodologiques43Séminaire LGI2P P. CouturierLe 26/05/2010
Ingénierie Système
Propositions
méthodologiques
L’IS , cadre structurant les activités du cycle de développement
44Séminaire LGI2P P. CouturierLe 26/05/2010
45Séminaire LGI2P P. CouturierLe 26/05/2010
Cycle de développement de systèmes [Faisandier’05]
46Séminaire LGI2P P. CouturierLe 26/05/2010
Processus techniques d’IS : « Phases » de conception et « activités support » [Faisandier’05]
?
Conception de système multidisciplinaire [Mouelhi 2010]
Couplage entre disciplines
interdisciplinarité multi-domaines
Grand nombre de solutions possibles et de dimensions
Nombreux critèrescertains contradictoires
Problém
atiquem
éthodologiques
47Séminaire LGI2P P. CouturierLe 26/05/2010
Ingénierie Système
Méthodes MMOMéthodes MDOMéthode de visualisation
Algorithmes pour le calcul du front de Pareto (a priori et a
posteriori)
Cartes auto-organisatrices
Propositions
méthodologiques
Outils
Processus support outillé =>
Exemple illustratif Cahier des charges :- Variables :
- Longueurs des bras : L1, L2- Position de la base : Xb, Yb- Matériau- Sections et épaisseurs des bras- Performances dynamiques(dépassement, temps de réponse)- …
- Objectifs :- Minimiser la flèche- Maximiser la zone atteignable
48Séminaire LGI2P P. CouturierLe 26/05/2010
Robot planaire à deux degrés de liberté
- Maximiser la zone atteignable- Minimiser le poids- Minimiser la puissance- …
- Contraintes :- Couvrir l’espace de travail- Limitations des domaines devariables
Variables et objectifs de conception
Variables d’optimisation : 10Longueur du bras 1 L1=0.1 : 1.5 (m)
Longueur du bras 2 L2=0.1 : 1.5 (m)
Emplacement base Xb = (xmin-L/2) : (xmax+L/2) (m)
Yb = (ymin-W/2) : (ymax+W/2) (m)
Orientation {droite, gauche}
Epaisseur/section r = 0.1 : 0.5
Matériau {cuivre, alu, acier}
W
49Séminaire LGI2P P. CouturierLe 26/05/2010
Matériau {cuivre, alu, acier}
Temps de réponse ST = 1 : 3 (s)
dépassement 5%
Critères de conception : 7Maximiser la région accessible : [1,2] * (L*W)
Minimiser la flèche : [0,10] mm
Minimiser le poids : [0,2] Kg
Minimiser la puissance par KP{1,2}: [0,20], KD{1,2}: [0,20]
Géométrique
Résistance des matériaux
Dynamique
L
Résolution MDO « All At Once »
GéometrieRésistance des matériaux
Dynamique
Xb, Yb Matériau, Moment de flexion maxi dépassement, temps de réponseL1, L2
L1, L2
Variables de conception
Disciplinesm1,m2
L1,L2
50Séminaire LGI2P P. CouturierLe 26/05/2010
Résolution du couplage par l’approche AAO
Géometriematériaux
DynamiqueL1, L2
Flèche minimale
Zone atteignable maximale
Puissanceminimale
Objectifs de conception
L1,L2
Principe de l’algorithme HTE
1) Phase de recherche exhaustive
pas max
Si Liste Tabou
Liste Pareto
Intitaliser les listes Tabou et Pareto
51Séminaire LGI2P P. CouturierLe 26/05/2010
4) Mettre à jour les listes
5) Reprendre depuis 2) tant que le critère d’arrêt n’est pas atteint
2) Réduire pas 3) Pour chaque voisin de Si
SiSk
Ajouter Sk si ni Tabou ni dominée
Algorithme HTE
52Séminaire LGI2P P. CouturierLe 26/05/2010
Quelques paramètres de HTE
• Quand et Où mettre à jour la liste de Pareto ?
53Séminaire LGI2P P. CouturierLe 26/05/2010
Juste après la solution courante
Où ?
• Liste Tabou :• Chaque fois qu’une solution est choisie, elle devient Tabou pendant un certain nombre d’itérations : toute la solution est mémorisée
• Pas adaptatif (pour les variables continues) : • Pas = différence entre deux valeurs numériques voisines dans l’intervalle d’une variable continue• Un pas initial est fixé et est mis à jour en fonction de l’évaluation de deux
Paramètres tabou
54Séminaire LGI2P P. CouturierLe 26/05/2010
• Un pas initial est fixé et est mis à jour en fonction de l’évaluation de deux solutions voisines
• Intensification :• Les zones les plus prometteuses de l’espace de recherche sont mémorisées.• Après un certain nombre d’itérations infructueuses, on se déplace vers une de ces zones et on y affine la recherche (solutions non visitées, diminution des pas, …)
• Diversification :• Après un certain nombre d’itérations infructueuses, une nouvelle solution de départ est choisie au hasard. Toutes les structures initialisées et on recommence la recherche
Calcul du front de Pareto : résultats de simulation
Algo Temps
de
calcul
Nombre de
solutions
Qualité du front Caractéristiques de l’algorithme
Solutions Couverture Pond. Param. Explor. Rapidité Sol. indiv.
Tabou 250 s 1600 ++ - - - - ++ ++
55Séminaire LGI2P P. CouturierLe 26/05/2010
Tabou 250 s 1600 ++ - - - - ++ ++
Hybride 2295s 7801 + + + + + + +
B&B > 4j 5209 +++ ++ + ++ ++ -- +++
Tabou : F = Def /∆Def + W /∆W + KP1 /∆ KP1 + KD1 /∆ KD1 + KP2 /∆ KP2 + KD2 /∆ KD2 – AR /∆ AR.
Visualisation du front de Pareto Self-organizing Map [Kohonen,
1989]
SOM: basée sur un processus d’apprentissage non supervisé.
���� Chaque prototype de la base est un vecteur dont les composantes sont les variables de conception et les valeurs de critères. Les nœuds de la carte sont des vecteurs de même nature que les prototypes.
���� Déplier une carte de 2 dimensions (un ensemble de représentants ou nœuds connectés entre eux) dans un ensemble de données
56Séminaire LGI2P P. CouturierLe 26/05/2010
�Dépliement de la carte : de manière itérative, choisir au hasard un prototype X dans la base et rapprocher le noeud le plus proche (BMU) et ses voisins vers le prototype.
�A la fin du processus, les nœuds ont été placés dans la distribution de données en respectant les propriétés de densité et de voisinage de la distribution.
Cartes auto-organisatrices de Kohonen [Kohonen, 1989]
Après 50 itérations
Après 300 itérations
57Séminaire LGI2P P. CouturierLe 26/05/2010Figures obtenues avec l’applet : http://www.neuroinformatik.ruhr-uni-bochum.de
Après 17000 itérations
Après 43000 itérations
Exemple de carte de Kohonen
Variables de conception Objectifs de conception
58Séminaire LGI2P P. CouturierLe 26/05/2010
Résultats : Exemple d’une solution
Exemple de solution:
L1=0.7m, L2=0.6m
D1= 4cm, D2=3cm
ST = 2s
Flèche < 3mm
59Séminaire LGI2P P. CouturierLe 26/05/2010
Flèche < 3mm
Poids < 1kg
Résultats : Exemple de solution
60Séminaire LGI2P P. CouturierLe 26/05/2010
Application SOM: Domaine de validité de moteur/réducteur [Mouehli 08]
Exemple d’application des cartes SOM de Kohonen
Ensemble Moteur/réducteur
Tc : Couple moyen du moteur (N m),T : Couple maximum du moteur (N m),
61Séminaire LGI2P P. CouturierLe 26/05/2010
Trajectoire, vitesse et accélération en fonction du temps;Accmax = 10 rds -2, Vmax = 32 rds -1 and Charge = 0.4 N.m
Tp : Couple maximum du moteur (N m),ωn,max : Vitesse max du moteur (rad/s),Jm : Inertie du moteur (Kg/m2),mm : Masse du moteur (Kg),Jg : Inertie du réducteur (Kg/m2),ng : Rendement du réducteur,ωg,max : Vitesse max du réducteur (rad/s),mg : Masse du réducteur (Kg),n : Facteur de réductionTg,eq : Couple du réducteur côté moteur (N m),Tl : Couple résistant sortie réducteur (N m),θl : Position (rad).
1/
-Accélération max: [50..250] rad/sec2, -Vitesse max: [4..32] rad/sec,-Charge inertielle: [0.1..0.5] N.m, -Caractéristiques des moteurs et réducteurs.
La combinaison moteur/réducteur qui minimise un des critères à optimiser :- Couple moyen (Trms),- Puissance maximale, - Energie consommée,- Poids,…
62Séminaire LGI2P P. CouturierLe 26/05/2010
Base de données de dimension d
- Visualisation des domaines de validité des composants- Mémoire auto-associative à interroger
Apprentissage non-supervisé (SOM)
2/
Outil de visualisation
63Séminaire LGI2P P. CouturierLe 26/05/2010
Cartes en 2D montrant les Clusters des moteurs (à g auche) et des réducteurs (à droite)
- Les nombres correspondent aux classes (ou types) de moteurs ou réducteurs,
- Les clusters correspondent aux domaines de validité des différents moteurs et réducteurs,
Outil de visualisation
Outil de visualisation���� Moteur 1 si contrainte sur accélération
relâchée
64Séminaire LGI2P P. CouturierLe 26/05/2010
���� Absence de solution lorsque les valeurs de
Accmax, Vmax et de charge sont élevées,
���� Moteur 2 couvre les valeurs de Accmax,
Vmax et charge,
• Mécatronique … Vous avez dit Mécatronique ?
• Plateforme Mécatronique Ales-Nîmes
• Apprentissage par les données
• Et Maintenant
65Séminaire LGI2P P. CouturierLe 26/05/2010
Processus support optimisation / évaluation en conception préliminaire
interdisciplinaire
Couplage entre disciplines
Grand nombre de solutions possibles et
de dimensions
Optimisation multi-objectif et complexité
combinatoire
Méthodes d’optimisation multiobjectif
Méthodes OMDMono/multi niveaux
Méthode de visualisation
Pro
blém
atiq
ueP
ropo
sitio
nsm
étho
dolo
giqu
es
66Séminaire LGI2P P. CouturierLe 26/05/2010
multiobjectifMono/multi niveaux visualisation
Aide à la décisionGestion des
préférences, utilités…?
Pro
posi
tions
mét
hodo
logi
ques
Out
ils
Résolution progressiveModèles de régression approchés par RNF
+
Ingéniérie système en mécatronique pour PME
Processus support évaluation en conception préliminaire interdisciplinaire (choix de principes
de solutions techniques)
Conception architecture organiqueFonctions=>Organes
Processus itératif
Pro
blém
atiq
ueP
ropo
sitio
nsm
étho
dolo
giqu
es
Pilotage processus de projetmultisite, multitechno,
multilangage
Environnement intégré pour
67Séminaire LGI2P P. CouturierLe 26/05/2010
Processus itératifvirtuel �réel
Top/down � Bottom/up
Contribution – Proposition méthodologique
Pro
posi
tions
mét
hodo
logi
ques
Out
ils Recherche doctorant désespérément
Environnement intégré pour plusieurs métiers
PLMMM
Outils de travail collaboratifOrganisation BE virtuels, etc…
projet INCA ?
« Outillage » actuel du processus de conception mécatronique (J-Y Choley 2010)• Différentes vues du système: fonctionnelle, système, physique;• Le comportement et la structure sont distribuée sur ces vues;• La plupart de ces outils ne peuvent pas échanger des données
structurées; l’optimisation est difficile.
Niveaux Domaines Langages, outils
Maquettesystème
fonctionnelle
Mécanique APTE (NF X50-150), FAST,IDEF (Sadt), UML, SysML ...
Electronique
Informatique, automatique UML, SysML , B-Method …
68Séminaire LGI2P P. CouturierLe 26/05/2010
Informatique, automatique UML, SysML , B-Method …
Maquette système
« logique »
Mécanique Matlab-Simulink, Bond graphModelica, Dymola , AMEsim, Adams...
Electronique Matlab-Simulink, Bond graph, Modelica, Dymola, AMEsim, Spice, VHDL-AMS...
Informatique, automatique Matlab-Simulink, Modelica, DymolaAMEsim, SDC (Grafcet)
Autosar-Modelisar, B-Method...
Maquette physique 3D
Mécanique Catia, Solidworks, OpenCascade…
Electronique Cadence, Mentor Graphics…
Infomratique, automatique dSPACE (HIL), Autosar-Model isar, B-Method…
Illustration de plusieurs applications des réseaux de neurones formels pour des systèmes mécatroniques
Système à faire : perception/traitement/communication/rétroaction
� Modèle dynamique de système non linéaire> Calcul des paramètres de réseaux dans schémas avec bouclages
� Apprentissage par renforcement> Apprentissage en environnement distribué (influence réciproque des acteurs),
� Apprentissage non-supervisé
Conclusion
69Séminaire LGI2P P. CouturierLe 26/05/2010
� Apprentissage non-supervisé> Cartes auto-organisatrices, topologie de la carte imposée ou non, approximation
de variétés
Système pour faire : multi disciplinaire/site/technique/objectif� Définition des domaines de validité des solutions en fonction des
spécifications techniques ou des critères
� Assister l’homme dans des tâches nécessitant volumes importants de calcul et de données ou un choix de méthodes adaptées à son problème.
« Il semble illusoire de penser que la compétence enmécatronique s’acquière par une expertise surl’ensemble des domaines techniques (un expertunique, spécialiste dans tous les domaines). »
« La compétence mécatronique n’est pas non plusune compétence de généraliste qui connaît
Selon XP E 01-013
Économique, performant, eco-durable, sûr ?, et appétissant…
70Séminaire LGI2P P. CouturierLe 26/05/2010
une compétence de généraliste qui connaîtsuperficiellement tous les domaines mais dontl’expertise se concentre plutôt sur les processus demanagement plutôt que sur les processustechniques. »