54
Teoría de redes y detección de fraude 2015.07.07 Massimiliano Zanin

Teoría de redes y detección de fraude // Theory of networks and fraud detection

Embed Size (px)

Citation preview

Page 1: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Teoría de redes y detección de fraude

2015.07.07! Massimiliano Zanin!

Page 2: Teoría de redes y detección de fraude // Theory of networks and fraud detection

1. Redes complejas: ¿porqué?

Teoría de redes y detección de fraude!

2. Aplicación a fraude en tarjetas

3. Trabajos futuros

Page 3: Teoría de redes y detección de fraude // Theory of networks and fraud detection

¿Que son las redes?!

Representación de la estructura creada por las interacciones de

un sistema complejo

Page 4: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Sistema complejo

Multiplicidad de elementos

Importancia de las interacciones entre ellos

Page 5: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Sistema complejo

Multiplicidad de elementos

Importancia de las interacciones entre ellos

Solo interacciones entre elementos

Ningún elemento innecesario

Red compleja

Page 6: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Métricas estructurales Describen cuantitativamente

la estructura

Solo interacciones entre elementos

Ningún elemento innecesario

Red compleja

Sistema complejo

Page 7: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Más detalle

Más belleza

Page 8: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Más detalle

Más belleza

Page 9: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Mapa del Greater Khorasan, por el geógrafo persa Ibrahim Al-Istakhri, 980 AC.

Departamento de manuscritos orientales, Bibliothèque National de France.

Page 10: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Redes genéticas

Red de contactos sexuales Redes financieras

Redes de transporte

Page 11: Teoría de redes y detección de fraude // Theory of networks and fraud detection

¿Por que redes en seguridad?!

Las relaciones pueden ser más importantes que los

elementos individuales

Page 12: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Un ejemplo: InfoSec

Sistema normal

Page 13: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Un ejemplo: InfoSec

Ataque simple

Page 14: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Un ejemplo: InfoSec

Ataque coordinado

Page 15: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Un ejemplo: InfoSec

Ataque coordinado

Page 16: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Detección de fraudes en tarjetas

Cantidad de la transacción

Tiempo desde la última transacción

Ubicación geográfica …

Ningún elemento es significativo por si solo

Page 17: Teoría de redes y detección de fraude // Theory of networks and fraud detection

¿Como reconstruir redes?!

1. No hay conexiones físicas 2. Queremos detectar anomalías

Page 18: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Importancia de las relaciones entre elementos

e.g. colesterol y trigliceridos

Page 19: Teoría de redes y detección de fraude // Theory of networks and fraud detection
Page 20: Teoría de redes y detección de fraude // Theory of networks and fraud detection

En personas sanas, colesterol y trigliceridos suelen

estar correlacionados

Colesterol

Trig

licer

idos

Límites aceptables

Page 21: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Colesterol

Trig

licer

idos

Límites aceptables

Relación anormal i.e. alejada de la regresión esperada

Page 22: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Colesterol

Trig

licer

idos

Límites aceptables

Distancia esperada desde la regresión Distancia anormal

Page 23: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Tri.

Col.

Creamos un link cuando la relación es anormal

Page 24: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Tri.

Col.

Una red para cada persona Links representan relaciones anormales

Por lo tanto, la red representa la

condición del sujeto

Page 25: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Tri.

Col. Datos cuantitativos de la red

pueden ser utilizados para una tarea de clasificación

Los datos originales también tienen que ser incluídos

Page 26: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Resumiendo …

Page 27: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Resumiendo …

Page 28: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Transacciones con tarjetas!

¿Pueden las redes mejorar nuestra capacidad para detectar

transacciones fraudulentas?

Page 29: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Objetivos del proyecto

Validar las hipótesis: •  La información acerca de la legalidad de una transacción

está codificada en las relaciones entre elementos •  Las redes pueden ayudar a detectar transacciones

fraudulentas

Validación basada en datos reales Comparación con sistemas estándar de detección de fraude

Page 30: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Objetivos del proyecto

Comparación con sistemas estándar de detección de fraude Limitación:

Ninguna eurística incluída Solo análisis de datos basado en redes

Page 31: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Datos reales utilizados

Todas las transacciones con tarjetas de crédito / débito del BBVA, años 2011 y 2012. Volumen de datos:

3 M. tarjetas / mes 38 M. operaciones / mes 400k fraudes / mes

Page 32: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Datos iniciales

Creación de las redes (pesadas) Creación de

las redes (binarias) Extracción

de métricas Clasificación

Page 33: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Datos iniciales Features

Redes

Métricas estructurales

Clasificación

Comportamiento esperado

Parámetros del modelo

Aprendizaje

Page 34: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Preparación de los datos

Feature Tipo!

Cantidad de dinero Int Tiempo desde última transacción Int Cantidad de la última transacción Int Transacción media Float Tiempo medio entre operaciones Float Misma tienda Boolean Hora del día Int Ratio de fraudes (5k transacciones) Float

Page 35: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Grado  máximo  de  los  nodos    Entropía  de  la  distribución  de  grado      Correlación  entre  grados  de  los  nodos    Coeficiente  de  Clustering    Distancia  geodésica  media  entre  nodos    Eficiencia    Informa>on  Content      

Métricas topológicas consideradas

Page 36: Teoría de redes y detección de fraude // Theory of networks and fraud detection

0

5

10

15

20

25

Cla

ssifi

catio

n er

ror (

%)

Classification algorithm

Bayes MLP DT KNN

Mejor resultado: MLP

Hay relaciones no

lineales entre las distintas features

Page 37: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Referencia

Link density

Clustering

Max degree

Eficiencia IC0

5

10

15

20

25

30

Err

or d

e cl

asifi

caci

ón (%

)Ninguna feature

puede ser descartada prima facie

Page 38: Teoría de redes y detección de fraude // Theory of networks and fraud detection

19.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.26219.262

42.061

38.67537.923

35.22637.2065

35.38735.558

32.55730.566

28.428

31.237

36.245

16.00915.01614.07813.73113.53913.43713.059512.363511.76211.55512.230512.45

0.1 0.2 0.3 0.4 0.5 0.6 0.70

10

20

30

40

50

Cla

ssifi

catio

n er

ror (

%)

Link density

Raw features Parenclitic All

Las redes aportan una visión distinta al problema, y permiten mejorar el resultado.

Page 39: Teoría de redes y detección de fraude // Theory of networks and fraud detection

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)

False Positive ratio (%)

Parenclitic networks Linx UPV

0.00 0.02 0.040.0

0.1

0.2

0.3

0.4

Page 40: Teoría de redes y detección de fraude // Theory of networks and fraud detection

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)

False Positive ratio (%)

Parenclitic networks Parenclitic only Raw features

0.00 0.02 0.040.0

0.1

0.2

0.3

0.4

Page 41: Teoría de redes y detección de fraude // Theory of networks and fraud detection

All

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)

False Positive ratio (%)

0.00 0.02 0.04 0.06 0.08 0.10

0.0

0.1

0.2

0.3

0.4

Page 42: Teoría de redes y detección de fraude // Theory of networks and fraud detection

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

1.2

True

Pos

itive

ratio

(%)

False Positive ratio (%)

Parenclitic networks Linx

0.00 0.02 0.040.0

0.1

0.2

0.3

0.4

Page 43: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Resumen de resultados

Resultados obtenidos: muy buenos, si consideramos que •  No se utiliza eurística •  No hemos ido refinando el modelo durante años!

Resultados positivos para bajos falsos positivos Mejor rendimiento para ciertos nichos de transacción: •  Riesgo de over-fitting y Paradoja de Simpson

Page 44: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Dos grupos de eventos

Cada uno está asociado a una relación positiva entre f1 y f2

Feature 1

Feat

ure

2 Paradoja de Simpson

Page 45: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Feature 1

Feat

ure

2

Una relación “falsa” aparece cuando los dos grupos son considerados a la vez

Dos grupos de eventos

Cada uno está asociado a una relación positiva entre f1 y f2

Paradoja de Simpson

Page 46: Teoría de redes y detección de fraude // Theory of networks and fraud detection

C. R. Charig et al.!Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy

2 tratamientos:

A – Tratamiento invasivo cirurgico B - Percutaneous nephrolithotomy

2 grupos:

Piedras pequeñas Piedras grandes

Page 47: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Tratamiento A Tratamiento B

Piedras pequeñas 93%! 87%

Piedras grandes 73%! 69%

Total 78% 83%!

C. R. Charig et al.!Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy

Page 48: Teoría de redes y detección de fraude // Theory of networks and fraud detection

C. R. Charig et al.!Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy

Tratamiento A Tratamiento B

Piedras pequeñas 81/87 234/270

Piedras grandes 192/263 55/80

Total 273/350 289/350

Page 49: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Coste computacional

Fase del cálculo! Tiempo!

Preparación de las features 7.0 ms. Creación de redes y análisis 3.8 ms. Clasificación 2.6 ms.

Proceso completo! 13.4 ms.!

Xeon E5335 2GHz, 1 core, 1.2GB RAM utilizada

Page 50: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Mirando al futuro!

¿Como podemos mejorar los resultados?

Page 51: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Después de la validación …

Implementar el algoritmo en un entorno operacional •  Retos técnicos de velocidad •  Integración con otros algoritmos

Identificación y explotación de nichos Inclusión de eurística y conocimiento experto

Page 52: Teoría de redes y detección de fraude // Theory of networks and fraud detection

… volver al InfoSec

Falta de buenas bases de datos, con información sobre

la dinámica normal

Page 53: Teoría de redes y detección de fraude // Theory of networks and fraud detection

… y al análisis del cerebro

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Sub

ject

4S

ubje

ct 3

Sub

ject

2S

ubje

ct 1

Subject 4Subject 3Subject 2Subject 1Intra-subject Inter-subject

0.0

0.3

0.6

Intra-subject Inter-subject0.0

0.3

0.6

Identity assurance basada en el análisis de la

actividad cerebral

Page 54: Teoría de redes y detección de fraude // Theory of networks and fraud detection

Bibliografía

Zanin, M. et al. (2014). Parenclitic networks: uncovering new functions in biological data. Scientific reports, 4.

Zanin, M., Sousa, P. A., & Menasalvas, E. (2014). Information content: Assessing meso-scale structures in complex networks. EPL, 106 (3), 30001.

Zanin, M., & Papo, D. (2014). Characterizing Motif Dynamics of Electric Brain Activity Using Symbolic Analysis. Entropy, 16 (11), 5654-5667.

Zanin, M. & Papo, D. Information systems as functional networks. In publication.

Zanin, M. & Papo, D. Identity assurance through EEG recordings. In publication.