View
6
Download
0
Category
Preview:
Citation preview
Proyecto Nº de referencia SPIP2014-01430Cantidad concedida: 44.733 €
Modelo para la determinación de la exposición de los vehículos, a partir de los datos registrados en
ITV, teniendo en cuenta sus características y antigüedad. (EXPO-ITV-DGT 2015)
Realizado por INSIA (Instituto Universitario de Investigación del Automóvil)
Índice
• Justificación del proyecto
• Objetivos
• Metodología
• Resultados
• Aspectos innovadores
La seguridad vial en España:
– Puesto destacado en la UE
– Buenas medidas de prevención y de Educación Vial
– El futuro de la seguridad vial
Número de muertes en accidentes de tráfico por millón de habitantes en 2014
Descenso en el número de muertes en accidentes de tráfico entre 2001 - 2014
Números Totales Progresión
– Puesto: 5º – Valor: 36 mpm
– Puesto: 1º – Valor: 70%
– Carnet por puntos– Radares– Campañas de concienciación– Educación Vial para niños
– Medidas específicas para diferentes colectivos
Es necesario evaluar los valores de exposición de colectivos específicos para determinar los niveles de riesgo reales
INTERÉS DEL PROYECTO
Justificación del proyecto
Justificación del proyecto
• 1.- Importancia de la exposición en la investigación accidentológica
– Datos de la exposición disponibles: • los más utilizados son vehículos-km, personas-km y
personas-horas de desplazamiento.• Exposición cuasi-inducida
– Carencia de datos desagregados precisos
• 2.- Exploración de datos de registros de ITV
Objetivos del proyecto
• Objetivo general: – Determinación de la exposición asociada al uso del vehículo con el grado de
desagregación que permiten la validación de los datos disponibles en registros ITV.
• Objetivos específicos:– Definir grupos de estudio = f(características técnicas, antigüedad y otros
factores de interés)� Posibles diferencias en su comportamientoaccidentológico
– Establecer criterios de depuración de los datos para la creación de bases“limpias”.
– Desarrollar algoritmos para el cálculo automatizado de los niveles deexposición de los vehículos, con el mayor grado de desagregación.
– Realizar estimaciones, predicciones con evaluación de los niveles deincertidumbre
– Evaluar diferencias significativas entre los diferentes grupos• características y niveles de movilidad homogéneos• tendencias y posibles factores de influencia en los niveles de exposición
Diagrama de bloque. Metodología
BDITVAA CRITERIOS DE DEPURADO
newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO
29GEIG7 31/01/2015 1 33078 30686 182 61540.6044
29GEIG7 02/08/2014 2 2392 -456156 147 -1132632.24
29GEIG7 08/03/2014 3 458548 25433 168 55256.2202
29GEIG7 21/09/2013 4 433115 45694 182 91639.0659
29GEIG7 23/03/2013 5 387421 1583 175 3301.68571
29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475
29GEIG7 14/04/2012 7 ? - - -
29GEIG7 12/11/2011 8 ? - - -
29GEIG7 25/11/2011 9 ? - - -
29GEIG7 ? 15 ? - - -
Tiempo entre ITV
Movilidad negativa
Ausencia de kilometraje
8785 registros
650 AA
…..**
BDITVAA1
BDITVAA2
Criterios más robustos
Eliminación de autobuses con un solo registroSe eliminan los registros erróneosSe eliminan todos los registros del vehículo
Eliminación de colas
1566 registros
462 AA
DWITVAA
Cribado de los datos
** Tipo de vehículo, la masa del mismo o el número de plazas
Diferencia entre BBDD
FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO
31/01/2015 1 33078 30686 182 61540.6044
08/03/2014 3 458548 25433 168 55256.2202
21/09/2013 4 433115 45694 182 91639.0659
23/03/2013 5 387421 1583 175 3301.68571
29/09/2012 6 385838 385838 2334 60338.8475
BDITVAA Procedimiento 1 BDITVAA1
Procedimiento 2
BDITVAA2
BDITVAA’
Proceso de selección de la
Base operacional
Se eliminan todos los registros de ese vehículo
Eliminación de colas
Criterios dudosos
Eliminación de autobuses con un solo registro
DWITVAA
BDITVAA1BDITVAA2
Cribado de los datos
8 CASOS
Comparación
Parte de la BDITVAA2:– Elimina todos los
registros de un vehículo con un registro erróneo
– Colas: <2000 y >250000 km/año
– NO elimina autobuses con un solo registro
8785 registros
650 AA
1566 registros
462 AA
CRITERIOS DE DEPURADO COMUNES
newid FEC_INSPECCION NUM_ITV KM1 DeltaKM DeltaTiempo KM/AÑO
29GEIG7 31/01/2015 1 33078 30686 182 61540.6044
29GEIG7 02/08/2014 2 2392 -456156 147 -1132632.24
29GEIG7 08/03/2014 3 458548 25433 168 55256.2202
29GEIG7 21/09/2013 4 433115 45694 182 91639.0659
29GEIG7 23/03/2013 5 387421 1583 175 3301.68571
29GEIG7 29/09/2012 6 385838 385838 2334 60338.8475
29GEIG7 14/04/2012 7 ? - - -
29GEIG7 12/11/2011 8 ? - - -
29GEIG7 25/11/2011 9 ? - - -
29GEIG7 ? 15 ? - - -
Tiempo entre ITV negativo
Movilidad negativa
Ausencia de kilometraje
Metodología de análisis: Árboles de Decisión
MODELOS CART
Métodos de regresión no paramétrica: relaciones entrada salida tipo histograma, muy flexibles para modelar relaciones complejas.
2 D 3 D
Metodología de análisis: conjuntos de Árboles
RANDOM FOREST: CART + complejo + variado
Proceso de Bootstrap + Muestreo aleatorio sin reposición: Se realiza en primer lugar un muestreo aleatorio con reposición para los datos de partida y
otro sin reposición para las variables independientes en cada partición de nodos
DYNATREE: VERSIÓN BAYESIANA DE CART
Modelado bayesiano con probabilidad subjetivaTécnicas computacionales muy sofisticadas (particlelearning)
Metodología de análisis: CART y conjuntos de Árboles
IMPORTANCIA DE VARIABLES
CART
RANDOM FOREST
POTENCIA
PLAZAS
ANTIGÜEDAD
EDAD_ITV
CILINDRADA
PESO
AÑO_ITV
ECM PUREZA NODO
SELECCIÓN DE VARIABLES
PREDICCIÓN DE LA EXPOSICIÓN CON CUANTIFICACIÓN DE LA INCERTIDUMBRE
randomForest MSE reduction, ntree = 500 * dynaTree (ntree=2000) **
DATA_PLAZAS 23,74 17,58 DATA_ANTIG 19,68 36,41 DATA_EDAD_ITV 15,32 - DATA_POT 15,16 - DATA_PESO 9,88 15,59 DATA_CIL 8,92 15,20 DATA_ANO_ITV 7,30 15,22
100,00 100,00
* Efecto total= efecto individual de la variable+ + conjunto con el resto
** Efecto individual de la variable
Metodología de análisis: conjuntos de Árboles RF y Dynatree
Resultados. Estudio piloto: Movilidadde AA
• Movilidad de conglomerados de vehículos homogéneos
VALIDACIÓN CON DATOS EXTERNOS (MFOM – EMT)
Ejemplos
Movilidad (km/año)
LI 95%Predicción
puntual LS 95%
E1.1: A9-Eitv9-añoins2015-CC12000-CF(4º)40-Pe30000-
Pl7520.370,50 75.602,80 155.643,40
E1.2: A1-1-2015-12000-(4º)40-30000-50 20.370,80 58.686,40 137.159,90
E1.3: A17-17-2015-12000-(4º)40-30000-75 6.150,00 24.816,30 57.673,00
E1.4: A4-1-2012-8000-(3º)30-30000-25 7.744,30 38.952,80 76.061,40
E1.5: A7-7-2015-16000-(4º)50-30000-100 34.416,20 77.074,90 140.834,60
E1.6: A7-4-2012-12000-(4º)40-30000-75 37.680,10 75.865,20 137.536,80
Resultados. Estudio piloto: Movilidadde AA
• Movilidad de conglomerados de movilidad homogénea
Árbol con menor error respecto a los datos observados (ntree=500)
Conclusiones
• Creación de una base estratégica operacional o DataWarehouse1. Criterios de limpieza.
2. Análisis de muestras creadas con reglasmulticriterio. Con cuantificación de la bondad deajuste con modelos de bosques de árboles deregresión.
• Desarrollo de un Sistema experto para la estimación de la movilidad de vehículos del parque
RELATIVAS A LA METODOLOGÍA
Conclusiones
RELATIVAS AL DEPURADO DE DATOS
– Las bases elaboradas a partir de registros ITV ofrecen numerosas carencias. Un buen depurado es esencial.
– Se recomienda una mejora en el proceso de toma de datos
PUNTOS FUERTES
– Pruebas de selección de la base operacional DWITVAA
– Metodología– Representatividad de la muestra
MEJORAS
– Criterios más ajustados (colas)
BDITVAA
8785 registros
650 autobuses
DWITVAA
1566 registros
462 autobuses
Conclusiones
SISTEMA EXPERTO
ESTIMACIÓN - PREDICCIÓN
– VALORES DE MOVILIDAD DESAGREGADA
– Predicción de la movilidad de un vehículo con todas las características definidas o solo aquellas de interés.
– MÉTODOS ESTADÍSTICOS AVANZADOS
– Selección de variables– Cuantificación de la
incertidumbre
RECOMENDACIONES
– REVISION DE LOS DATOS RECOGIDOS EN LAS ITV
– Dispersión de los datos de la fuente
– INCORPORACION DE OTROS DATOS DE INTERÉS EN LAS ITV
VALIDACIÓN CON DATOS EXTERNOS
Aspectos innovadores
• Una exploración de los datos de los registros de las ITV.– La explotación de los datos disponibles de movilidad de los
vehículos
• Criterios y métodos estadísticos avanzados:– La búsqueda de asociaciones entre variables para
caracterizar la movilidad de los vehículos– La identificación de diferencias en la movilidad entre
categorías y segmentos de vehículos– La estimación de la movilidad entre categorías y segmentos
de vehículos– La cuantificación robusta de la incertidumbre de las
estimaciones– Un análisis de sensibilidad o importancia de las variables
que caracterizan la movilidad de los vehículos
• Estudios de impacto ambiental, Losmodelos actuales como el COPERT, utiliza datosde movilidad sumamente agregados
• Análisis de detección de defectosencontrados en las inspecciones técnicas y sunaturaleza, en función de la movilidad de losvehículos.
• Verificación de la adecuación de lanormativa actual en relación a la periodicidadde las inspecciones de diferentes tipos devehículos, segmentos, etc.
Otras aplicaciones
Bibliografía
1) Breiman, L., Friedman, J., Olshen, R. y Stone, C., Classification and Regresion Trees,Wadsworth International Group. Año 1984.
2) Breiman, L., Random forests-random features, Technical Report, StatisticsDepartment, University of California. Año 1999.
3) Breiman, L., Random Forests, Machine Learning, 45, pp. 5-32. Año 2001.4) Azzalini, A., & Scarpa, B. (2012). Data Analysis and Data Mining: An Introduction,
(ISBN 978-0-19-976710-6).5) Daniel Peña, Regresión y diseño de experimentos. Alianza editorial. Año 2002.
ISBN 978-8-42-069389-7.6) Pang-Ning Tan., Michael Steinbach and Vipin Kumar, Introduction to Data Mining,
2006.7) Jiawei Han and Micheline Kamber: Data Mining: Concepts and Techniques, 2006.8) Clifton D. Sutton, Classification and Regression Trees, Bagging and Boosting, 2005.
9) César Pérez López y Daniel Santín, Minería de datos. Técnicas y herramientas,2007.
10) Hastie, T., Tibshirani, R., Friedman, J. (2008). The Elements of Statistical Learning:data mining, inference and prediction, Springer
Recommended