Upload
vpshri2299
View
221
Download
0
Embed Size (px)
Citation preview
8/12/2019 Comparing Tree Based Methods
1/49
D i s t in g u i s h i n g t h e F o r e s t fr om t h e T R E E S :
A C o m p a r i so n o f T r e e B a s e d D a t a M i n i n g M e th o d s
R ic h a r d D e r r ig , Ph .D . a n d L o u i s e F r a n c i s , FC A S , MA A A
R i c h a r d D e r r i g , P h D ,
O P A L C o n s u l t i n g L L C
4 1 F o s d y k e S t r e e t
P r o v i d e n c e
R h o d e I s l a n d , 0 2 9 0 6 , U . S .A .
P h o n e : 0 0 1 - 4 0 1 - 8 6 1 - 2 8 5 5
e m a il : r i c h a r d @ d e r r i g . c o m
L o u i s e F r an c i s , F C A S , A A A
F r a n c i s A n a l y f ic s & A c t u a r ia l D a t a M i n i n g
7 0 6 L o m b a r d S t r e e t
P h i l a d e l p h i a
P e n n s y l v a n i a , 1 9 1 4 7 , U . S . A .
P h o n e : 0 0 1 - 2 1 5 -9 2 3 - 1 5 6 7
e m a i l : l o u i s e _ f r a n c i s @ m s n . c o m
A b s t r a c t
I n r e c e n t y e a r s a n u m b e r o f d a t a m i n i n g a p p r o a c h e s f o r m o d e l i n g d a t a c o n t a i n i n g n o n l i n e a r a n d o t h e r
com pl ex depende nc i es have appe ared i n t he l it er a tu re. O ne o f t he key da t a mi n i ng t echn i ques i s dec i s i on tr ees ,
a l so r e f e r r ed t o as c lassi fi ca ti on and r eg ress i on tr ees o r CA RT (Bre i man e t a l, 1993) . Th a t m et h od r esu l t s i n
re la ti ve ly easy t o app l y dec i s ion ru l es t ha t par t i t i on da t a an d m ode l ma ny o f t he compl exi ti es i n i n su rance da ta .
In r ecen t year s cons i derab l e e f fo r t has been expended t o i mprove t he qua l i t 3 of the f i t of regression t rees .
T h e s e n e w m e t h o d s a r e b a s e d o n e n s e m b l e s o r n e t w o r k s o f t r e e s a n d c a r t3 , n a m e s l i k e T R E E N E T a n d
Ra ndo m Fores t . V i aene e t a l (2002) com pare d severa l da t a mi n i ng p roce dures , i nc l ud i ng t r ee m et ho ds and
l ogi st ic r eg ress i on , fo r p red i c t i on accuracy on a sma l l f ixed da t a se t o f f r aud ind i ca t o r s o r r ed f lags . Th ey
found s i mp l e l og is ti c r eg ress i on d i d as well a t p r ed i c t i ng exper t op i n i on as t he m ore soph i s t i ca t ed p rocedures .
In t h i s pape r we wi ll in t roduce som e ava il ab le r eg ress i on t ree app roach es and exp la in ho w t hey a re u sed
to
mo del non l i near dependenc i es i n in su ranc e c la im da ta . W e i nvest iga te t he r el at ive p er fo rm anc e o f several
sof tw are pro duc ts in predict ing the key claim var iables fo r the dec is ion to invest igate for excessive a n d/ o r
f raudulent pract ices , and the expectat ion of favorable resul t s f rom the invest igat ion , in a large claim database.
. M n o n g t h e s o f tw a r e p r o g r a m s w e w il l in v es ti ga te a r e C A R T , S - PL U S , T R E E N E T , R a n d o m F o r e s t a n d
Ins i gh t fu l M i ner Tree p rocedures . Th e da t a u sed fo r t h is ana lys is a r e t he app rox i m at e l y
500,000
au t o i n j u ry
c la im s r e p o r t e d t o t h e D e ta ile d C l a im D a t a b a s e ( D C D ) o f t h e A u t o m o b i l e I n s u r e r s B u r e a u o f M a s s a c h u s e t t s
f rom acc i den t years 1995 t h ro ug h 199 7 . Th e dec i s i on t o o rder an i ndepen den t med i ca l exam i na t i on o r a
special invest igat ion for f raud, an d the favorable ou tco m es of suc h decis ions, are the mod el ing targets. W e f ind
t ha t t he m et ho ds a l l p rov i de som e p red i ct ive va l ue o r l if t f rom t he ava il ab le
D C D
variables with significant
d i ff e rences am on g t he m et h ods an d t he fo u r ta rge ts . A l l mo del i ng ou t c om es a re comp ared t o l og is ti c
r eg ress i on as i n Vi aene e t a l . w i t h some model / so f t ware combi na t i ons do i ng s i gn i f i can t l y be t xer t han t he
logist ic model.
K e y w o r d s :
Fraud , Dat a Mi n i ng , ROC Cu~,e , Var i ab l e Impor t ance , Dec i s i on Trees
-)
D er r i g -Franc i s _005 - No m ore t han t wo pq rag raph s o r on e t ab le o r f igu re can be q uo t ed w i t hou t wr i t ten
p e r m i s s i o n o f t h e a u t h o r s b e f o r e M a r c h 1 , 2 0 06 .
Casualty A ctua ria l Society Forum,W inte r 2006 1
8/12/2019 Comparing Tree Based Methods
2/49
Distinguishing the Forest rom the T R E E S
I N T R O D U C T I O N
I n r e c e n t ye ar s a n u m b e r o f a p p r o ac h e s f o r m o d e l i n g d a t a c o n t a i n in g n o n l i n e a r a n d o t h e r
c o m p l e x d e p e n d e n c i e s h a v e a p p e a r e d i n t h e l it e ra t u re . M a n y o f t h e m e t h o d s w e r e
d e v e lo p e d b y r e s e a r c h e rs f r o m th e c o m p u te r s c i e n c e , a r ti f ic i a l i n t e l l i g e n c e a n d s t a t i st i c s
d i s c ip l i n e s1. T h e m e t h o d s h a v e b e e n w i d e l y c h a r a c te r i ze d a s
datamining
e c h n i q u e s . T h e s e
p r o c e d u r e s i n c lu d e s ev e r a l t h a t s h o u ld b e o f i n t e r e s t t o a c tu a ri e s d e a l i n g w i th l a rg e a n d
c o m p l e x d a t a se ts . T h e p r o c e d u r e s o f i n te r e s t fo r t h e p u r p o s e s o f th i s p a p e r a r e v a r i o u s
v a r i e t ie s o f c l a s s if i c a ti o n a n d r e g r e s s io n t re e s o r C AR T . V ia e n e e t a l ( 20 0 2) a p p l i e d a w id e r
s e t o f p r o c e d u r e s , i n c l u d i n g n e u r a l n e t w o r k s , s u p p o r t v e c t o r m a c h i n e s , a n d a d a s s i c a l
g e n e r a l l i n e a r m o d e l , l o g is t ic r e g re s s i o n , o n a s m a l l si n g le d a t a s e t o f i n s u r a n c e d a i r n f r a u d
i n d i c a t o rs o r r e d
flags
a s p r e d i c to r s o f s u s p i c i o n o f f r a u d. T h e y f o u n d s i m p l e l o g is t ic
r e g r e s s io n d i d a s w e l l a t p r e d i c ti n g e x p e r t o p i n i o n o n t h e p r e s e n c e o f f r a u d a s t h e m o r e
s o p h i s t ic a t e d p r o c e d u re s . S t a te d d i f fe r e n tl y , t h e l o g is t ic m o d e l p e r f o r m e d w e l l e n o u g h i n
m o d e l i n g t h e e x p e r t o p i n i o n o f f r a u d t h a t t h e r e w a s l i td e n e e d f o r t h e m o r e s o p h i s t ic a t e d
p r o c e d u r e s : .
A w i d e v a r i e ty o f s t a ti st ic a l s o f tw a r e i s n o w a v a il a bl e f o r i m p l e m e n t i n g f r a u d a n d o t h e r
p r e d i c ti v e m o d e l s t h r o u g h c l u s t e ri n g a n d d a t a m i n i n g . I n t h i s p a p e r w e w i ll i n t r o d u c e a
v a r ie t y o f R e g r e s s io n T r e e d a t a m i n i n g a p p ro a c h e s 3 a n d e x p l a i n h o w t h e y a r e u s e d t o m o d e l
n o n l i n e a r d e p e n d e n c i e s i n i n s u r a n c e c la i m d a ta . W e a l so i n v e s t ig a t e t h e r e l a ti v e p e r f o r m a n c e
o f s e v e r al s of t w a r e p r o d u c t s t h a t i m p l e m e n t th e s e m o d e l s . A s a n e x a m p l e o f r e l at i ve
p e r f o r m a n c e , we t e s t f o r t h e k e y c l a im v a r i a b l e s i n t h e d e c i s io n t o i n v e s t i g a t e f o r e x c e s s iv e
a n d / o r f r a u d u l e n t p r a ct ic e s i n a l ar g e c l a im d at a b as e . T h e s o f tw a r e p r o g r a m s w e
i n ve s ti g at e a re C A R T , S - PL U S , T R E E N E T , R a n d o m F o r e st s , a n d I n si g h t f u l T r e e a n d
E n s e m b le f r o m th e I n s ig h t f u l I ~f in er p a c k a g e . Na iv e B a y e s a n d L o g i s t ic m o d e l s a r e u s e d a s
b e n c h m a r k s . T h e d a t a u s e d f o r t h i s a n a ly s is a r e t h e a u to b o d i ly i n ju r y l i a b i li t y d a im s
r e p o r te d t o t h e D e t a i le d C l a im D a t a b a s e 0 D C D ) o f t h e A u t o m o b i l e In s u r e r s B u r e a u o f
M a s s a c h u s e t t s f r o m a c c id e n t y e a r s 1 9 9 5 t h r o u g h 1 9 9 7 ~. T h r e e t y p e s o f v a r i a b l e s a r e
e m p lo y e d . S e v e r a l v a r i a b l e s t h o u g h t t o b e r e l a t ed t o t h e d e c i s io n t o i n v e s t i g a t e a r e i n c lu d e d
h e r e as r e p o r t e d t o t h e D C D , s u c h a s o u t p a t i e n t p r o v i d e r m e d i c a l b i ll a m o u n t s . A f e w
v a r i a b l e s a r e i n c lu d e d t h a t a r e d e r iv e d f r o m p u b l i c ly a v a i la b l e d e m o g r a p h ic d a t a s o u r c e s ,
s u c h a s in c o m e p e r h o u s e h o l d f o r e a ch c l a i m a n t ' s z i p c o d e. A d d i t i o n a l v a r ia b l e s a r e d e r iv e d
b y a c c u m u l a t i n g p r o p o r t i o n a l s ta t is t ic s f r o m t h e D C D ; e .g ., t h e d i s t a n c e f r o m t h e c l a i m a n t ' s
z i p c o d e t o t h e z i p c o d e o f t h e f ir s t m e d i c a l p r o v i d e r o r c l a i m a n t ' s z i p c o d e r a n k f o r t h e
n u m b e r o f p l a i n ti f f a t t o rn e y s p e r z i p c o d e . T h e d e c i s i o n t o o r d e r a n i n d e p e n d e n t m e d i c a l
e x a m in a t i o n o r a s p e ci a l i n v e s t i g a t i o n fo r f r a u d , a n d a f a v o r a b l e o u t c o m e f o r e a c h , a r e t h e
m o d e l in g t a rg e t .
E i g h t m o d e l i n g s o f t w a r e r e su l ts w i ll b e c o m p a r e d f o r e f f e ct iv e n e s s b a s e d o n a s t a n d a r d
p r o c e d u r e , t h e a r e a u n d e r t h e re c e iv e r o p e r a t i n g ch a r a ct e ri s ti c c u r v e ( A U R O C ) . W e f i n d
t h a t t h e m e t h o d s a ll p r o v i d e s o m e p r e d i c ti v e v a l u e o r li ft f r o m t h e D C D v a r i a b le s w e m a k e
a v a il a bl e , w i t h s i g n i f i c a n t d i f fe r e n c es a m o n g t h e e i g h t m e t h o d s a n d f o u r t a rg e ts . M o d e l i n g
o u t c o m e s c a n b e c o m p a r e d t o l o g i st ic r e g re s s i o n as i n V i a e n e e t a l. b u t t h e r e s u l ts h e r e a r e
d i f fe r e n t. T h e y s h o w s o m e s o f t w a r e / m e t h o d s c a n im p r o v e s i gn i f ic a n tl y o n t h e p r e d i c ti v e
2 C a s u a l t y A c t u a r i a l S o c i e t y
Forum,
W i n t e r 2 0 0 6
8/12/2019 Comparing Tree Based Methods
3/49
Distinguishing the Forest rom the T R E E S
a b i l it y o f t h e l o g i s t ic m o d e l . T h a t r e s u l t m a y b e d u e t o t h e r e l a ti v e r i c h n e s s o f t h i s d a t a s e t
a n d / o r t h e t y p es o f i n d e p e n d e n t v a ri a bl es a t h a n d c o m p a r e d t o t h e V i a e n e d a ta . W e s h o w
h o w i m p o r t a n t e a c h v a r ia b l e i s w i t h i n e a c h s o f t w a r e / m o d e l t e s te d s a n d n o t e t h e ty p e o f
d a t a t h a t a r e im p o r t a n t fo r th i s a n a ly si s . T h i s e n t i r e e x e r c i se s h o u ld p r o v id e p r a c t i c in g
a c t ua r ie s w i t h g u i d a n c e o n r e g r e s s i o n tr e e s o f t w a r e a n d m a r k e t m e t h o d s t o a n a l y z e c o m p l e x
n o n l i n e a r re l a t i o n s h ip c o m m o n l y f o u n d i n a l l t y p e s o f i n s u r a n c e d a ta .
T h e p a p e r i s o r g a n i z e d a s f o l l o w s . S e c t i o n 1 i n t r o d u c e s t h e g e n e r a l n o t i o n o f n o n - l i n e a r
d e p e n d e n c i e s i n in s u r a n c e d a t a. S e c t i o n 2 d e s c r i b es t h e d a t a s e t o f M a s s a c h u s e tt s a u t o b o d i l y
in ju r y l i a b il i ty c l a im s a n d v a r i a b l e s u s e d f o r i l l u s t r a ti n g t h e m o d e l s a n d s o f twa r e
i m p l e m e n t a t i o n s . D e s c r i p t i o n s a n d i l lu s t r a ti o n s o f t h e d a t a m i n i n g m e t h o d s a p p l i e d i n t h e
p a p e r a p p e a r i n S e c t i o n 3 wh i l e t h e s p e c i f i c s o f twa r e p r o c e d u r e s a r e c o v e r e d i n S e c t i o n 4 .
C o m p a r a t i v e o u t c o m e s f o r t h e v a ri a b le s ( i m p o r t a n c e ) a n d s o f tw a r e ( A U R O C ) a r e
r e p o r t e d i n S e c t i o n s 5 a n d 6 . W e p r o v i d e s o m e i n t e r p r e t a t i o n o f t h e r e s u lt s i n t e r m s o f t h e
d e c i s i o n t o i n v e s t i g at e w i t h i n t h e M a s s a c h u se t t s d a t a a s a n i l l u s tr a t i o n o f t h e u s e f u l n e s s o f
t h e m o d e l i n g e ff o r t i n S e c t i o n 7 . I m p l i c a t i o n s f o r t h e u s e o f t h e s o f t w a r e m o d e l s a r e
d i s c u s se d i n s e ct i o n 8. C o n t u s i o n s a r e s h o w n i n S e c t i o n 9 .
S E C T I O N 1. N O N L I N E A R I T Y I N I N S U R A N C E D A T A
A c t u a r i e s a r e n e ar l y i n s e p a r a b l e f r o m d a t a a n d d a t a m a n i p u l a t i o n t e c h n i q u e s . D a t a c o m e i n
a l l f o r m s a s a m a t t e r o f c o u r s e . N u m e r i c ( lo s s ra t io s ) , ca t e g o r i ca l ( i n ju r y t y p e s ), a n d t e x t
( a c c id e n t d e s c r ip t i o n ) d a t a a l l f l o o d i n s u r e r s o n a d a i l y b a s i s . R e s e r v in g a n d p r i c in g a r e two
m a j o r f u n c t i o n s o f c a s u al ty a ct u ar ie s . R e s e r v i n g i n v o l v e s c o m p i l i n g a n d u n d e r s t a n d i n g
t h r o u g h m a t h e m a t i c a l t e c h n i q u e s h i s t o r i c a l p a t t e r n s o f a p o r t f o l i o o f i n s u r a n c e c l a i m s i n
o r d e r t o p r e d i c t a n u l t im a te v a lu e . P r i c in g i n v o lv e s t a k in g t h e b e s t e s t im a te s o f h i s to r i c a l
c o s t d a t a o n c l ai m s a n d e x p e n s e s , c o m b i n i n g t h a t d a t a w i t h f i n a n c i a l a s s e t p ri c i n g m o d e l s
th a t i n c lu d e p r o j e c t i n g f u tu r e v a lu e s i n o r d e r t o a r r i v e a t b e s t e s t im a te s o f a l l c o s t s o f
a c c e p t i n g u n d e r w r i t i n g r is k. O f c o u r s e , ac t u ar ie s c o n t i n u a l l y l o o k b a c k a t b o t h a n a ly t ic
e x e r c is e s t o d e t e r m in e t h e a c c u r a c y o f t h o s e e s t im a te s as t h e r e a l a c c o u n t in g d a t a d e v e lo p s
o v e r t im e .
T r a d i t i o n a l l y , a c tu a r ia l m o d e l s w e r e c o n f in e d t o l i n e a r , m u l t i p l i c a t i v e o r m ix e d a lg e b r a i c
e q u a t io n s i n t h e a b s e n c e o f t h e p o w e r f u l c o m p u t i n g e n v i r o m n e n t w e e n j o y t od a y. T h o s e
m o s t l y m a n u a l m e t h o d s p r o v i d e d c r u d e a p p r o x i m a t i o n s t h a t s u f fi c e d w h e n a l te r n a ti v e
m e t h o d s w e r e u n a v a i l a b le o r n o n - e x i s t e n t . S i m p l e d e v i a ti o n s f r o m l i n e a r r e l a ti o n s h i p s, s u c h
a s e s c a l at i ng in f l a t io n , c o u l d b e h a n d l e d b y s i m p l e t r a n s f o r m a t i o n s o f t h e d a t a ( lo g
t r a n s f o r m ) t h a t a l lo w e d l in e a r t e c h n i q u e s t o b e a p p l i e d to t h e d a ta . G r a d u a l l y , o v e r t i m e
t h e s e t r a n s f o r m a t i o n te c h n i q u e s b e c a m e m o r e s o p h i s t i c a t e d a n d c o u l d b e a p p l ie d to m a n y
p r o b l e m s w i th a v a r i e ty o f n o n - l i n e a r d a t a ~'.
T r e n d f i n e s o f t im e s e r ie s d a t a , s u c h a s d a l r n s e v e r i t y o r f r e q u e n c y , a re g e n e r a l l y a m e n a b le t o
l i n e a r t e c h n iq u e s . H o we v e r , d a t a wh e r e i n t e r a c t i o n s a n d c r o s s c o r r e l a t i o n s a r e e s s e n t i a l t o
t h e m o d e l i n g o f t h e d y n a m i c s o f t h e p r o c e ss u n d e r l y i n g t h e d a t a , r e q u ir e m o r e
Casualty A ctua ria l Society Forum,W i n t e r 2 0 06 3
8/12/2019 Comparing Tree Based Methods
4/49
Distinguishing the Forest rom the T R E E S
c o m p r e h e n s iv e t e c h n iq u e s t h a t y ie ld m o r e p r e c i s io n o n m o r e t y p e s o f d a t a c o m p le x i t i e s .
F ig u r e 1 - 1 s h o ws a p a r t i c u l a r n o n - l i n e a r r e l a t i o n s h ip b e twe e n two in s u r a n c e v a r i a b l e s t h a t
wo u ld b e d i f f ic u l t , i f n o t im p o s s ib l e , t o m o d a l w i th s im p le t e c h n iq u e s. O n e p u r p o s e o f t h i s
p a p e r i s t o d e m o n s t r a t e a r a n g e o f s o - c a l l e d a rt i fi c i al i n t e l li g e n c e o r s t a ti s t ic a l l e a r n in g
t e c h n iq u e s t h a t h a v e b e e n d e v e lo p e d t o h a n d l e c o m p l i c a t e d r e l a t i o n s h ip s w i th in d a t a s e t s .
A n I n s u r a n c e N o n l i n e a r F u n c t i o n :
P r o v i d e r B i ll v s . P r o b a b i li ty o f I n d e p e n d e n t M e d i c a l E x a m
O 9 O
O 8 O
o 7 0
|
~ o ~ -
o 5 o -
o 4 o -
o a o -
1
I I I I I I I I f l l l l l l l l l l m l l l l l l l l l
P r o v i d e r 2 B i l l
Figure 1 -1
Ne a r ly a ll r e g r e s s io n a n d e c o n o m e t r i c a c a d e m ic c o u r s e s a d d r e s s t h e t o p i c o f n o n l in e a r i ty , a t
l e a s t b r ie f l y. S tu d e n t s a r e in s t r u c t e d i n m e th o d s t o d e t e c t n o n l in e a r i t y a n d h o w to m o d e l it .
De t e c t i o n g e n e r a l l y i n v o lv e s u s in g s c a t t e r p lo t s o f i n d e p e n d e n t v e r s u s d e p e n d e n t v a r i a b l e s
o r e v a lu a t in g p lo t s o f r e s id u a l s . T w o m e th o d s o f m o d e l in g n o n l in e a r i t y t h a t a r e g e n e r a l l y
t a u g h t: a r e 1 ) t r a n s f o r m a t io n o f v a r i a b l e s a n d 2 ) p o ly n o m ia l r e g r e s s io n ( M i l l e r a n d W ic h e m 7,
1 9 7 7, a n d N e te r e t al , 1 98 5) . F o r i n s t a n c e , i f a n e x a m in a t i o n o f r e s id u a l p lo t s in d i c a t e s t h a t
t h e m a g n i tu d e o f t h e r e s id u a l s i n c r e a s e s w i th t h e s i z e o f a n i n d e p e n d e n t v a r i a b l e , t h e l o g
t r a n s f o r m a t i o n i s r e c o m m e n d e d . P o l y n o m i a l r e g r es s i o n s a r e c o n s i d e r e d u s e fu l
a p p r o x im a t io n s w h e n a c u r v i li n e a r r e l a t i o n s h ip e x is t s b u t i t s e x a c t f o r m i s u n k n o w n .
A g e n e r a l i z a t i o n o f l i n e a r m o d e l s k no wn a s G e n e r a l i z e d L in e a r M o d e l s o r G L M ( M c C u l l a g h
a n d N e ld e r , 1 9 89 ) e n a b l e d t h e m o d e l in g o f m u l t i v a r i a t e r e l a t i o n s h ip s i n t h e p r e s e n c e o f
c e r ta i n k in d s o f n o n - n o r m a l i t y ( i.e . w h e r e t h e r a n d o m c o m p o n e n t i s f ro m t h e e x p o n e n t i a l
f a m i ly o f d i s t r i b u t i o n ) . T h e l i n k f u n c t i o n o f G L M s f o r m a l i ze s t h e i n c o r p o r a t i o n o f c e r t a in
n o n l i n e a r r el a t io n s h ip s in t o t h e m o d e l i n g p r o c e d u r e : T h e t r a n s fo r m a t i o n s i n c o r p o r a t e d i n t o
t h e c o m m o n G L M s a re :
Th e ide n t i ty l ink : h (Y) = Y
4 Casua l ty A ctuarial Society Forum, W inter 2006
8/12/2019 Comparing Tree Based Methods
5/49
Distinguishing the Forest rom the T R E E S
Th e log l ink : h (Y) =
lnC~
Th e inverse l ink : h (Y) = - - (1)
Y
T h e l o g it l in k : h (Y ) = l n ( l _ ~ )
T h e p r o b i t l in k : h (Y ) = ~ ( Y ) , d e n o t e s th e n o r m a l C D F
Of th e s e t r a n s f o r m a t io n s , t h e l o g a n d l o g i t t r a n s f o r m a t io n a p p e a r f r e q u e n t ly i n t h e i n s u r a n c e
l i te r a tu re . B e c a u s e m a n y in s u r a n c e v a r i a b l e s a r e r i g h t s k e we d , t h e l o g t r a n s f o r m a t io n i s
a p p l i e d to a t t a i ne d a p p r o x i m a t e n o r m a l i ty a n d h o m o g e n e i t y o f v a r i an c e . I n a d d i t i o n , ap r i o r i
o r d o m a in c o n s id e r a t i o n s ( e . g . , t h e r e l a t i o n s h ip b e twe e n t h e i n d e p e n d e n t v a r i a b l e s a n d t h e
d e p e n d e n t v a r i a b l e i s b e l i e v e d t o b e m u l f i p l i c a t i v e ) s o m e t im e s s u g g e s t t h e l o g
t r a n sf o r m a t i o n . T h e l o g i t t r a n s f o r m i s c o m m o n l y u s e d w h e n t h e d e p e n d e n t v a r i ab l e i s
b ina ry .
Un f o r m n a td y , wh i l e t h e t e c h n iq u e s c i t e d a b o v e a d d s ig n if i c a n tl y t o t h e a n a ly s t' s a b i l it y t o
m o d e l n o n l in e a r i t y , t h e y a re n o t s u f f i c i e n t f o r m a n y s i t u a t io n s e n c o u n te r e d i n p r a c t i c e. I n
a c tu a l i n s u r a n c e d a t a , c o m p le x n o n l in e a r r e l a t i o n s h ip s a re t h e r u l e r a th e r t h a n t h e e x c e p t io n .
S o m e o f t h e r e a s o n s t h e t r a d i t i o n a l a p p r o a c h e s o f t e n d o n o t p r o v id e a s a t i sf a c to r y
a p p r o x im a t io n t o n o n l in e a r f u n c t i o n s a r e :
T h e f o r m o f t h e n o n li n e a ri t y m a y b e o t h e r t h a n o n e o f t h o s e p e rm i t t e d b y t h e
- kn own t r a n s f o r m a t io n s w h ic h p r o d u c e l i n e a r it y . F ig u r e 1 -1 d i s p l a y s o n e s u c h n o n -
l i n e a r f u n c t i o n b a s e d o n t h e i n s u r a n c e d a t a b a s e u s e d i n t h is a n a ly s is .
W h i l e a p o l y n o m i a l o f a d eq u a t e d eg r e e c a n a p p r o x i m a t e m a n y c o m p l e x f u n c ti o n s ,
e x t r a p o l a t i o n b e y o n d th e d a t a , o r i n t e r p o l a t i o n w i th in t h e d a t a , m a y b e p r o b l e m a t i c ,
p a r t i c u la r l y f o r h ig h e r o r d e r p o ly n o m ia l s .
De t e r m in in g t h e a p p r o p r i a t e t r a n s f o r m a t io n ( o r p o ly n o m ia l ) c a n b e d i f f ic u l t i f n o t
i m p o s s i b l e w h e n t h e r e a r e m a n y i n d e p e n d e n t v a r i ab l e s, a n d t h e a p p r o p r i a t e r e la t i o n
b e t w e e n t h e t a r g e t a n d e a c h i n d e p e n d e n t v a r ia b l e m u s t b e f o u n d.
T h e r e l a t i o n sh i p b e t w e e n a d e p e n d e n t v a ri a b le a n d a n i n d e p e n d e n t v a r ia b l e m a y b e
c o n f o u n d e d b y a t h i r d v a r i a b l e d u e t o i n t e r a c t i o n o r c o r r e l a t i o n s t h a t a r e n o t s im p le
to a p p r o x im a te .
T o r e m e d y t h e s e p r o b l e m s r e q u ir e s m e t h o d s w h e r e :
An y n o n l in e a r r e l a t i o n s h ip c a n b e a p p r o x im a te d .
T h e a n a ly s t d o e s n o t n e e d t o - kn ow th e f o r m o f t h e n o n l in e a r it y .
T h e e f f e c t o f i n t e r a c t i o n s ca n b e e a s il y d e t e r m in e d a n d i n c o r p o r a t e d i n to th e m o d e l .
T h e m e th o d g e n e r a li z e s we l l o n o u t - o f - s a m p le d a t a f o r i n t e r p o l a t i o n o r e x t r a p o l a t i o n
p u r p o s e s .
T h e r e g r e s s io n t r e e m e th o d s i n c lu d e d in o u r a n aly si s m e e t t h e s e c o n d i t i o n s . S e c t i o n 3 o f
t h is p a p e r d e s c r ib e s h o w e a c h o f o u r m e t h o d s m o d e l s n o n l in e a ri t y. W e n o w t u r n t o a
desc r ip t ion o f the d a ta se t we w i l l use in th is ana lys is .
C a s u a l t y A c t u a r i a l S o c i e t y Forum, W i n t e r 2 0 0 6 5
8/12/2019 Comparing Tree Based Methods
6/49
Distinguishing the Forest rom the T R E E S
S E C T I O N 2. D E S C R I P T I O N O F T H E M A S S A C H U S E T TS A U T O B O D I L Y
I N J U R Y D A T A
T h e d a t a b a s e w e w i l l u s e f o r o u r a n a ly s is i s a s u b s e t o f t h e A u t o m o b i l e I n s u r e r s B u r e a u o f
M a s s a c h u s e t t s D e t a i l C l a i m D a t a b a s e ( D C D ) ; n a m e l y , t h o s e c l a i m s f r o m a c c i d e n t y e a r s
1995 - 1997 t ha t ha d c l o s e d by J une 30 , 2003 ( A I B , 2004 ). A l l a u t o c l a im s s a r i s i ng f r om i n j u r y
c o v e ra g e s : P e r s o n a l I n j u r y P r o t e c ti o n ( P I P ) / M e d i c a l p a y m e n t s e x c es s o f P I P 9, B o d i l y I n j u r y
L i a b i li t y ( B IL ) , U n i n s u r e d a n d U n d e r i n s u r e d M o t o r i s t . W h i l e th e r e a r e m o r e t h a n 5 0 0 ,0 0 0
c l a i m s i n t h i s s ubs e t o f D C D da t a , w e w i l l r e s t r i c t ou r a na ly s i s t o t he 162 ,761 t h i r d pa r t y B I L
c ove r a ge c l a i m s . T h i s w i l l a l l ow us t o d i v i de t he s a m p l e i n t o t r a i n ing , te s t , a nd ho l do u t s ub
s a m pl e s , e a c h c on t a i n i ng i n e xc e s s o f 50 , 000 c l a i m s
M
T he da t a s e t c on t a i n s f i f t y - f ou r
va r i a b l e s r e l a t i ng t o t he i n s u r e d , da i m a n t , a c c i de n t , i n j u r y , m e d i c a l t r e a t m e n t , ou t pa t i e n t
m e d i c a l p r o v i d e r s ( 2 m a x i m u m ) , a t t o rn e y p r e s e n c e , a n d t h r ee c l a im s h a n d l i n g t e c h n i q u e s f o r
m i t i g a ti n g d a i m s c o s t f o r t h e i r p r e s e n ce , o u t c o m e , a n d f o r m u l a ic s a v in g s a m o u n t s .
T h e c l ai m s h a n d li n g t ec h n i q u e s t r a ck e d a r e: I n d e p e n d e n t M e d i c a l E x a m i n a t i o n ( I M E ) ,
M e d i c a l A u d i t ( M A ) a n d S p e c ia l I n v e s t i g a ti o n ( S IU ) . I M E s a r e p e r f o r m e d b y l ic e n s e d
phys i c i a ns o f t he s a m e t ype a s t he t r e a t i ng phys i c i a n u . T he y c os t a pp r ox i m a t e l y $ 350 p e r
e xa m w i t h a c ha r ge o f $ 75 f o r no s how s . T he y a r e de s i gne d t o ve r if y c l a i m e d i n ju r i e s a nd t o
e va l ua t e t r e a t m e n t m oda l i t i e s . O n e s i gn o f a w e a k o r bogus c l a i m i s t he f a i l u re t o s u bm i t t o
a n I M E a n d , t h u s , a n I M E c a n s e rv e a s a s c r e en i n g d e v i c e fo r d e t e c t in g f r a u d a n d b u i l d - u p
c l a im s . M A s a r e pe e r r e v i e w s o f t he in j u r y , t r e a t m e n t a nd b i l li ng . T he y a r e typ i c a l ly do ne by
phys i c i a ns w i t h ou t a c la i m a n t e xa m i na t i on , by nu r s e s o n i n s u r e r s ' s t a f f o r by t h i r d pa r t y
o r ga n i z a t i ons , bu t a l so f r o m e xpe r t s y s t e m s t ha t r e v i e w t he b i l l ing a nd t r e a t m e n t pa t t e r n s 12.
F a v o r a b l e o u t c o m e s a r e r e p o r t e d b y i n s u re r s w h e n t h e d a m a g e s a r e m i t ig a t e d , t h e b i l l in g a n d
t r e a t m e n t a r e c u rt a il e d , a n d w h e n t h e c l a im a n t re f u se s t o u n d e r g o t h e I M E o r d o e s n o t
s h o w . I n t h e l a tt e r t w o s i tu a t io n s t h e i n s u r e r i s o n s o l id g r o u n d t o r e d u c e o r d e n y p a y m e n t s
und e r t he f a i l u r e - t o - c oope r a t e c l a use i n t he p o l i c y ) 3
S p e c ia l I n v e s t i g a ti o n ( S IU ) is r e p o r t e d w h e n c l ai m s a re h a n d l e d t h r o u g h n o n - r o u t i n e
i nve s t i ga t ive t e c hn i que s ( a c c i de n t r e c ons t r u c t i on , e xa m i na t i ons und e r oa t h a n d s u r ve i l l a nc e
a r e ex a m p l e s ), p o s s ib l y i n c l u d in g a n I M E o r M e d i c a l A u d i t , o n s u s p i c io n o f f r au d . F o r t h e
m os t pa r t , t he s e c l a i m s a r e ha nd l e d by S pe c i a l I nve s t i ga t i ve U n i t s ( S IU ) w i t h i n t he c l a i m
de p a r t m e n t o r by s om e t h i r d pa r t y i nve s t i ga ti ve s e r v ic e . O c c a s i ona l l y , c om pa n i e s w i l l be
o r ga n i z e d s o t ha t a d d i t i ona l a d j u s t e r s , no t s pe c i f ic a l ly a pa r t o f t he c om pa n y S I U , m a y a l s o
c o n d u c t s p e c i a l i n v e s ti g a ti o n s o n s u s p i c io n o f f ra u d . B o t h t y p e s a re re p o r t e d t o D C D a n d
w e r e f e r t o b o t h b y t h e s h o r t h a n d S I U i n s u b s e q u e n t t a b le s a n d f i gu r es . F a v o r a b l e o u t c o m e s
a r e r e p o r t e d f o r S I U i f t h e c l ai m i s d e n i e d o r c o m p r o m i s e d b a s e d o n t h e S I U i n v e s t i g a ti o n .
F o r p u r p o s e s o f t h is a n al y si s a n d d e m o n s t r a t i o n o f n o n - l i n e a r m o d e l s a n d s o f t w a r e , w e
e m p l oy t w e n t y - on e po t e n t i a l l y p r e d i c t i ng va r i a b l e s a nd f ou r t a r ge t va r i a b l e s. T h i r t e e n
p r e d i c t i n g va r i a b l e s a r e num e r i c , t w o f r o m D C D f i e ld s (F ) , e i gh t de r i ve d f r o m i n t e r na l
d e m o g r a p h i c t y p e d a t a ( D V ) , a n d t h r e e v a r i a b l e s d e r i v e d f r o m e x t e r n a l d e m o g r a p h i c d a t a
( D M ) a s s how n i n T a b l e 2 - 1 .
6 C a s u a l t y A c t u a r i a l S o c i e t y
Forum,
W i n t e r 2 0 0 6
8/12/2019 Comparing Tree Based Methods
7/49
Distinguishing the Forest rom the T R E E S
A u t o
In j u ry L i ab i li t y C l a i m
N u m e r i c V a r ia b le s
V a r i a b le N T y p e
Provider I_B ILL 162,761 F
Provider 2_BILL 162,761 F
ARe 155,438 D V
Re port La~ 162,709 D V
Treatla~ 147,296 D V
HouseholdsPerZipcode 118,97 6 D M
AveralgeHouseValue Per Zip 118 ,976 D M
I n co m e P e rH o u s eh o ld P e r Z i p 1 1 8 , 9 7 6 D M
Distance ~IP 1 Zip to CLT. Zip) 72 ,78 6 DV
Rankattl (rank art/z ip/ 129,174 D V
Rankdoc2 (rank pro v/z ip/ 109,387 D V
Rankci~. (rank claimant city,) 118,976 D V
Rnkpcity (rank pro vide r ci~') 162,761 D V
Va lid N (lJstwise) 70,397
M i n i m u m
M~Lximum
0 1,861,399
0 360,000
0 104
0 2,793
1 9
0 69,449
0 1,000,001
0 185,466
0 769
1 3,314
1 2,598
1 1,874
0 1,305
Std .
M e a n D e v i a t i o n
2 , 6 7 1 . 9 2 6 , 6 4 0 . 9 8
5 4 4 . 7 8 1 , 8 0 5 . 9 3
34.15 15.55
47.94 144.44
3.29 1.89
1 0 , 8 6 8 . 8 7 5 , 9 7 5 . 4 4
166,816.75 77,314.11
43,160.69 17,364.45
38.85 76.44
150.34 343.07
110.85 253.58
77.37 172.76
30.84 91.65
N = Nu mb er of no n missing records; F= D C D Field, D V = Internal derived variable, DM = External derived
variable
Source; Automobile Insurers Bureau ofMassachusetts, Detail Claim Database, A Y 1995-1997 aud Authors Cakulations.
T a b l e 2-1
E i g h t p r e d i c t i n g v a r ia b l e s, a n d f o u r t a r g e t v a r i a b le s ( I M E a n d S I U , D e c i s i o n a n d F a v o r a b l e
O u t c o m e f o r e a ch ) , a r e c a t e g o r ic a l v a r ia b l e s, a ll t a k e n a s r e p o r t e d f r o m D C D a n d a s s h o w n
i n T a b l e 2 - 2 .
Casual ty Ac tuaria l Society Forum, W i n t e r 2 00 6 7
8/12/2019 Comparing Tree Based Methods
8/49
Distinguishing the Forest rom the T R E E S
V a r i a b l e
Policy T ype
Em ergent , Treatment 162,761
He alth Insuran ce 162,756
Prov ider I - Typ e 162,761
Prov ider 2 - T}'pe 162,761
2001 Territo ry 162,298
Attorney 162,761
Suspl (SIU Do ne 162,761
Susp2 (IME Do ne 162,761
Susp3 (SIU Fa vora ble) 162,761
Susp4 (IME Favorable 162,761
Injury Ty pe 162,298
N = Nttmber of non missing records
A u t o
Injury Liability Claim CateBorical Variables
N
Type Type Descr ip t ion
162,761 F Pe rso na l 2%, Com mercial 8%
F No ne 9%, Onl,v22%, w Outpatient 68%
F Yes, 15%, No 26%, Unknown 60%
F C h ir o 1% , Physical Th. 19%, Medical 30%, None 10%
F C h ir o %, Physical Th. 6%, Medical 36%, None 52%
F R a tin g erritories 1 (2.2%) Throug h 26 (1.3%); Territory 1-
16 by increasin~ risk, 17-26 is B oston
F :kttorne~, resent (89%), no attorney (11%)
F Sp ecial nvesfi~tion Done (70/0/, N o SIU (93%)
Independent Medical Examination Done (8%), N o IME
F (920/o
Special Investagation Favorab le 0.4% ), N ot Favo rable/Not
F Do ne (95.6%
I nd ep en de nt M e d i c a l E x a m F a v o r a b l e ( 4 .4 % ) , N o t
F Favorab le/Not Don e (96.6%
Injury Ty pes (24) includin g man or visible (4O/o),strain or
F sp ra in , ack an d/o r neck (81%), fatality (0.4%), disk
herniation (1% ) and others
F= DCD F ie ld
Note: D escriptive percentages may not add to 100% due to rounding
Source: A utomobile Insurers Bureau o fMassachusetts, De tail Claim Database, A Y 1995 -1997 a ndA uthors' Calculations.
Table 2-2
S i m i la r c la i m in v e s t i g a t io n v a r ia b l e s a r e n o w b e i n g c o l l e c te d b y t h e I n s u r a n c e R e s e a r c h
C o u n c i l i n t h e i r
periodic
sam pl ing o f coun t r3av ide in ju ry c l a im s ( IR C, 2004a , pp 89-104) 14.
N a t i o n a l ly , a b o u t 4 % a n d 2 % o f B I c l a im s i n v o l v e d I M E s a n d S I U r e s p e c ti v e ly , o n l y o n e -
h a l f t o o n e - q u a r t e r o f t h e M a s s a c h u s e t t s r a t e . M o s t l i k e l y , t h i s i s b e c a u s e ( 1 ) a m a j o r i t y o f
o t h e r s t a t e s h a v e a f u ll t o r t s y s t e m a n d s o B I L c o n t a i n s a l l i n j u ry c l a i m s a n d ( 2)
M a s s a c h u s e t t s i s a f ai rl y u r b a n s t a t e w i t h h i g h c l a i m f r e q u e n c i e s a n d m o r e d u b i o u s c l a i m s l k
I n f a c t , t h e m o s t r e c e n t I R C s t u d y s h o w s ( I R C , 2 0 0 4 b , p 2 5 ) M a s s a c h u s e t t s h a s t h e h i g h e s t
p e r c e n t a g e o f B I c l ai m s in n o - f a u l t s ta te s t h a t a r e s u s p e c t e d o f f ra u d ( 2 3 % ) a n d / o r b u i l d u p
( 4 1 % ) . I t i s t h e r e f o r e , e n ti r e ly c o n s i s t e n t f o r th e M a s s a c h u s e t t s c l a i m s t o e x h i b i t m o r e n o n -
r o u t i n e c l a im h a n d l i n g t ec h n i q u e s . F a v o r a b l e o u t c o m e s a v e r a g e a b o u t 6 7 % w h e n a n I M E i s
d o n e o r a c l a im is r e f e r re d t o S I U . W e n o w t u r n t o d e s c r ip t i o n s o f t h e t y p es o f m o d e l s , a n d
t h e s o f t w a r e t h a t i m p l e m e n t s t h e m , in t h e n e x t t w o s e c t i o n s b e f o r e w e d e s c r i b e h o w t h e y a r e
a p p l i e d t o m o d e l t h e I M E a n d S I U t a r g e t v a r ia b l es .
S E C T I O N 3 . M O D E L S F O R N O N - L I N E A R D E P E N D E N C I E S
H o w m o d e l s h a n d l e n o n l i n ea r it y
T r a d i t i o n a l a c t u a r i a l a n d s t a t i s t i c a l t e c h n i q u e s o f t e n a s s u m e t h a t t h e f u n c t i o n a l r d a t i o n s h i p
b e t w e e n t h e i n d e p e n d e n t v a r i a b l e s a n d t h e d e p e n d e n t v a r i a b l e i s l i n e a r o r t h a t s o m e
t r a n s f o r m a t i o n o f t h e d a t a e x is t s t h a t c a n b e t r e a t e d a s l in e a r . I n s u r a n c e d a t a o f t e n c o n t a i n
8 Casua lty A ctuar ia l Soc ie ty Forum, W i n t e r 2 0 06
8/12/2019 Comparing Tree Based Methods
9/49
Distinguishing the Forest rom the T R E E S
v a r i a b le s w h e r e t h e r e l a t i o n s h i p a m o n g v a r i a b le s is n o n l in e a r . T y p i c a l l y w h e n n o n l i n e a r
r e l a t io n s h i p s e x i st , t h e e x a c t n a t u r e o f t h e n o n l i n e a r i ty ( i.e ., w h e r e s o m e t r a n s f o r m a t i o n c a n
b e u s e d t o e s t a b l is h li n e ar i ty ) i s n o t k n o w n . I n t h e f i e l d o f d a ta m i n i n g , a n u m b e r o f
n o n p a r a m e t r i c t e c h n i q u e s h a v e b e e n d e v e l o p e d w h i c h c a n m o d e l n o n l i n e a r r e la t io n s w i t h o u t
a n y a s s u m p t i o n b e i n g m a d e a b o u t t h e n a t u r e o f t h e no n l in e a r it y . W e c o v e r h o w e a c h o f o u r
m e t h o d s r e v i e w e d i n th i s p a p e r m o d e l s n o n l in e a r it ie s in t h e f o l l o w i n g t w o e x a m p l e s. T h e
v a r ia b le s i n t h is e x a m p l e w e r e s e l e ct e d b e c a u s e o f a k n o w n n o n l i n e a r r e l a ti o n s h ip b e t w e e n
i n d e p e n d e n t a n d d e p e n d e n t v ar i ab l e s.
E x . 1 T h e d e p e n d e n t v a r i a b l e , a n u m e r i c v a r i a b l e , i s t o t a l p a i d l o s s e s a n d t h e
i n d e p e n d e n t v a r i a b l e i s p r o v i d e r 2 b ill . T a b l e 3 -1 d i s p l a y s a v e r a g e p a i d lo s s e s a t v a r i o u s
b an d s o f p ro v id e r 2 b i lP ~.
E x . 2 T h e d e p e n d e n t v a r i a b l e , a b i n a r y c a t e g o r i c a l v a r i a b l e , i s w h e t h e r o r n o t a n
i n d e p e n d e n t m e d i c a l e x a m i s r e q u e s t e d a n d t h e i n d e p e n d e n t v a r ia b l e a g ai n is p r o v i d e r 2
bill.
Nonlinear Example Data
Provider 2 B ill (Banded)
Zero
1 - 250
251 - 500
501 - 1,000
1,001 - 1,500
1,501 - 2,500
2,501 - 5,000
5,001 - 10,000
10,001+
All Claims
Av g Provider 2 Bill
Avg Total Paid
9,063
Percent IME
6%
154 8,761 8%
375 9,726 9%
731 11,469 10%
1,243 14,998 13%
1,915 17,289 14%
3,300 23,994 15%
6,720 47,728 15%
21,350 83261 15%
545 11,224 8%
Table 3-1
T r e e s
T r e e s , a l s o k n o w n a s c l a s s i f i c a t i o n a n d r e g r e s s i o n t r e e s ( C A R T ) f i t a m o d e l b y r e c u r s i v e l y
p a r t i t i o n i n g t h e d a t a i n t o t w o g r o u p s , o n e g r o u p w i t h a h i g h e r v a l u e o n t h e d e p e n d e n t
v a r ia b l e a n d t h e o t h e r g r o u p w i t h a l o w e r v a lu e o n t h e d e p e n d e n t v a r ia b le . E a c h p a r t it i o n
o f th e t r e e i s r e f e r r e d t o a s a n o d e . W h e n a p a r e n t n o d e i s s p l it , t h e t w o c h i l d r e n n o d e s , o r
l e a v e s o f t h e tr e e , a r e e a c h m o r e h o m o g e n o u s ( i.e ., l e s s v a r i a b le ) w i t h r e s p e c t t h e
d e p e n d e n t v a r i a b l e 17. A g o o d n e s s o f f i t st a ti s ti c is u s e d t o s e l e c t th e s p l it w h i c h m a x i m i z e s
t h e d i f f er e n c e b e t w e e n t h e t w o n o d e s . W h e n t h e i n d e p e n d e n t v a r i a b le is n u m e r i c , s u c h a s
p r o v i d e r 2 bill , t h e s p l i t t a k e s t h e f o r m o f a c u t p o i n t , o r t h r e s h o l d : x > c a n d x < c as i n
F i g u r e 3 - 1 .
Casualty Actuarial So ciety Forum W inter 2006 9
8/12/2019 Comparing Tree Based Methods
10/49
8/12/2019 Comparing Tree Based Methods
11/49
Distinguishing the Forest rom the T R E E S
v a r i ab l e i s n u m e r i c , t h e m e a n o f t h e d e p e n d e n t v a ri a b le a t th e t e r m i n a l n o d e s i s t h e
p r e d i c t i on .
T he c u r ve o f t he p r e d i c t e d va l ue r e s u l t i ng f r om a t r e e f i t t o t o t a l pa i d l o s s e s i s a s t e p
f u n c t i o n . A s s h o w n i n F i g u r e 3 - 2 A , w i t h o n l y tw o t e r m i n a l n o d e s , t h e f it te d f u n c t i o n is f la t
un t i l $ 5 , 021 , s t e ps up t o a h i ghe r va l ue a nd t h e n r e m a i ns f la t. F i gu r e 3 - 2B d i sp l a ys t he
p r e d i c t e d v al u e s o f a t re e w i t h 7 t e r m i n a l n o d e s . T h e s t e p s o r i n c r e a s e s ar e m o r e g r a d u a l f o r
t h i s f unc t i on .
C A R T E x a m p l e w / t h T w o a n d S e v en N o d e s
T o t a l P a i d a s a F u n c t i o n o f P r o v i d e r 2 B i l l
| t
' 1 4 -
o
o
F i g u r e 3 - 2 A F i g u r e 3 - 2 B
T h e p r o c e d u r e f o r m o d e l i n g d a t a w h e r e t h e d e p e n d e n t v a r ia b l e i s c a te g o r ic a l ( b in a r y i n o u r
e xa m pl e ) i s s i m i l a r t o t ha t o f a nu m e r i c va r i a b l e. F o r i n s t a n c e , on e o f t he f r a ud s u r r oga t e s is
i n d e p e n d e n t m e d i c a l e x a m ( I M E ) r e q u e s t e d . T h e t a r g e t c la ss i s c l a im a n t s f o r w h o m a n I M E
w a s r e q u e s t e d a n d t h e n o n - t a r g e t g r o u p o f ( p r es u m a b l y ) l e g it im a t e cl a im s is t h a t w h e r e a n
I M E w a s n o t r e q u e s te d . A t e a c h s te p , th e t r e e p r o c e d u r e s e le c ts t h e s p l it t h a t b e s t i m p r o v e s
o r l o w e r s n o d e i m p u r i t y . T h a t is , i t a t t e m p t s t o p a r t i t i o n th e d a t a i n t o t w o g r o u p s s o t h a t
o n e p a r t i t i o n h a s a s i g n i f ic a n t ly h i g h e r p r o p o r t i o n o f t h e t a r g e t c a te g o r y , I M E r e q u e s t e d ,
t h a n t h e o t h e r n o d e . A n u m b e r o f s t a ti st ic a l g o o d n e s s o f f it s ta t is ti c s m e a s u r e s i s u s e d i n
d i f f e r e n t p r o d u c t s t o s e le c t t h e o p t i m a l sp lit. T h e s e i n c l u d e e n t r o p y / d e v i a n c e a n d G i n i
i nde x ( w h i c h i s de s c r i be d l a t e r i n t h i s pa pe r ) . K a n t a r dz i c ( 2003 ) , B r e i m a n e t a l ( 1993 ) a nd
V e n i b l e s a n d R i p le y (1 9 99 ) d e s c r i b e t h e c o m p u t a t i o n a n d a p p l i c a t io n o f t h e G i n i i n d e x a n d
e n t r o p y / d e v i a n c e m e a s u r e s is. A s c o r e o r p r o b a b i l i ty c a n b e c o m p u t e d f o r e a c h n o d e a f t er a
s p l it i s p e r f o r m e d . T h i s i s g e n e r a ll y e s t im a t e d b a s e d o n t h e n u m b e r o f o b s e r v a t i o n s i n t h e
t a rg e t g r o u p s v e r s u s t h e t o t al n u m b e r o f o b s e r v a t i o n s a t t h e n o d e . T h e s c o r e o r p r o b a b i l i ty
Casual ty Actuar ia l Socie ty Forum, W inter 2006 11
8/12/2019 Comparing Tree Based Methods
12/49
Distinguishing the Forest rom the T R E E S
i s f r e q u e n t l y u s e d t o a s s i g n r e c o r d s t o o n e o f t h e t w o c l a s se s . T y p i c a l ly , i f t h e m o d e l s c o r e
e x c e e d s a t h r e s h o l d s u c h a s 0 . 5 , t h e r e c o r d i s a s s i g n e d t o t h e t a r g e t c l a s s ; o t h e r w i s e i t i s
a s s i g n e d t o t h e n o n - t a r g e t c la ss .
F i g u r e 3 - 3 A d i s p l a y s th e r e s u l t o f u s i n g a t r e e p r o c e d u r e t o p r e d i c t a c a t e g o r i c a l v a r i a b l e
f r o m t h e A I B d ata . T h e g r a p h s h o w s t h a t e a c h t im e t h e d a t a is s p li t o n p r o v i d e r 2 b il l; o n e
c h i ld n o d e h a s a l o w e r p r o p o r t i o n a n d t h e o t h e r a h ig h e r p r o p o r t i o n o f c l ai m a n t s r e c e i v i n g
I M E s . T h e f i tt e d t r e e f u n c t i o n is u s e d t o m o d e l a n o n l i n e a r r e la t io n s h i p b e t w e e n p r m f i d e r
b i l l a n d t h e p r o b a b i l i t y t h a t a c l a i m r e c e i v e s a n I M E a s s h o w n i n F i g u r e 3 - 3 B .
C A R T E x a m p l e w i th S e v e n N o d e s
I M E P r o p o r t i o n a s a F u n c t i o n o f P r o v i d e r 2 B i l l
I .
t
e
F i g u r e 3-3A
C A R T E x a m p l e w i t h S e v e n S te p F u n c t i o n s
I M E P r o p o r t i o n a s a F u n c t i o n o f P r o v i d e r 2 Bil l
F i g u r e 3 - 3 B
T r e e m o d e l s u s e c a t e g o r i c a l a s w e l l a s n u m e r i c i n d e p e n d e n t v a r i a b l e s i n m o d e l i n g c o m p l e x
d a ta . H o w e v e r , b e c a u s e t h e le v e ls o n c a t e g o r ic a l d a t a m a y n o t b e o r d e r e d , a l l p o s s i b l e t w o -
w a y s p l i ts o f c a t e g o r i c a l v a r i a b l e s m u s t b e c o n s i d e r e d b e f o r e t h e d a t a a r e p a r t i t i o n e d .
E n s e m b l e M o d e l s - B o o s t i n g
E n s e m b l e m o d e l s a r e c o m p o s i t e t r e e m o d e l s . A s e r ie s o f tr e e s i s fi t a n d e a c h t r e e i m p r o v e s
t h e o v e r a l l f it o f t h e m o d e l . I n t h e d a t a m i n i n g l i te r a t u r e t h e t e c h n i q u e i s o f t e n r e f e r r e d t o a s
12 Cas ua l t y Ac t ua r i a l Soc i e t y Forum, W i n t e r 2 00 6
8/12/2019 Comparing Tree Based Methods
13/49
Dist inguishing the Fores t rom the T R E E S
bo os t i n g ( H as t i e e t a l 2001 , F r e i d m an , 2001). T h e m e t h od i n i t i a l ly f it s a sm a l l t r e e o f s ay 5
t o 1 0 te r m i n a l n o d e s o n a t r a i n i n g d a ta s e t. T y p i c al ly , t h e u s e r s p e c if ie s t h e n u m b e r o f
t e r m i n a l n o d e s , a n d e v e r y t re e f it h a s t h e s a m e n u m b e r o f t e r m i n a l n o d e s . T h e e r r o r , o r
d i f f e r e n c e b e t w e e n t h e a c t u a l a n d f i t t e d v a l u e s , i s c o m p u t e d a n d u s e d i n a n o t h e r r o u n d o f
f it ti n g a s a d e p e n d e n t v a ri a b le . T h e e r r o r is a l so u s e d i n t h e c o m p u t a t i o n o f t h e w e i g h t i n
s u b s e q u e n t r o u n d s o f f it ti n g , w i t h r e c o r d s c o n t a i n i n g l a rg e r e r ro r s r e c e i v i n g h i g h e r w e i g h t i n g
i n th e n e x t r o u n d o f e s t i m a t io n .
O n e a l g o r i th m f o r c o m p u t i n g t h e w e i g h t is d e s c r i b e d b y H a s t ie e t a119. C o n s i d e r a n e n s e m b l e
o f t r ee s 1 , 2 , . . . ,M . T h e e r r o r f o r t he m 'h t r ee m easu r e s t he dep a r t u r e o f the ac t ua l f r om t he
f it te d v a l u e o n t h e t e s t d a t a a f t e r t h e m 'h m o d e l h a s b e e n fit. W h e n t h e d e p e n d e n t v a r ia b l e i s
c a te g o ri ca l, a s it is i n t h e f r a u d a p p l i c a ti o n i n t h i s p a p e r , a c o m m o n e r r o r m e a s u r e u s e d i n
bo os t i n g i s:
N
~ w I ( y , * F ( x ) )
e r r = ' =' N (2)
~ w
I=1
w h er e N i s the t o t a l n u m be r o f r eco r ds , w , i s a w e i gh t ( w h i ch i s i n it i a li z ed t o 1 / N i n t he f ir s t
r ou nd o f f it ti ng ) , I i s an i nd i ca t o r f un c t i on equ a l to z e r o i f t he ca t ego r y i s co r r ec tl y p r ed i c t ed
an d o ne i f the c la ss a s s i gned i s i nco r r ec t , y , i s t he d ep en de n t va r iab l e , x i s a m a t r i x o f
p r ed i c t o r s and Fm ( x i s the p r ed i c t i on f o r t he i h r eco r d o f t he m 'h t ree .
T h en , t he coe f f i c i en t a l pha is a f unc t i on o f t he w e i gh t:
log(1 -
e r r m
~m = )
e r r ,
a n d t h e n e w w e i g h t is :
w,.m+1 = w m e x p ( a m l ( y , # F m ( x ) ))
(3)
T h e p r o c e s s i s p e r f o r m e d m a n y t i m e s u n t i l n o f u r th e r s t a ti st ic a l i m p r o v e m e n t i n t h e f it i s
o b t a i n e d .
T h e s p e c i f i c b o o s t i n g p r o c e d u r e s i m p l e m e n t e d d i f f e r a m o n g d i f f e r e n t s o f t w a r e p r o d u c t s .
F o r i n s t a n c e , T R E E N E T ( F r e i d m a n , 2 00 1) u s e s st o c h a s ti c g r a d i e n t b o o s t i n g . S t o c h a s ti c
g r a d ie n t b o o s t i n g in c o r p o r a t e s a n u m b e r o f p r o c ed u r e s w h i c h a t t e m p t t o b u i ld a m o r e
r o b u s t m o d e l b y c o n t r o l l i n g t h e t e n d e n c y o f la r ge c o m p l e x m o d e l s t o o v e r f it th e d a ta . A k e y
t e c h n i q u e u s e d i s r e s a m p l i n g . A n e w s a m p l e is ra n d o m l y d r a w n f r o m t h e t r a i n i n g d a t a e ac h
t im e a n e w t re e is f it t o t h e r e s i d u al s f ro m t h e p r i o r r o u n d o f m o d e l e s t i m a t io n . T h e
g o o d n e s s o f f i t o f t h e m o d e l is a s s e ss e d o n d a t a n o t in c l u d e d i n t h e s a m p l e , th e t e s t d a ta .
A n o t h e r p r o c e d u r e u s e d b y T R E E N E T t o c o n t r o l o v e r fi tf in g is shr inkage o r regulaf f zat ion. A
s i m p l e w a y to i m p l e m e n t s h r i n k a g e is t o a p p l y a w e i g h t w h i c h i s g r e a te r t h a n z e r o a n d l es s
t h a n o n e t o t h e c o n t r i b u t i o n o f e a c h t r e e a s it is a d d e d t o t h e w e i g h t e d a v e r a ge e s t im a t e .
C a s u a l t y A c t u a r i a l S o c i e t y Forum, W i n t e r 2 0 0 6 1 3
8/12/2019 Comparing Tree Based Methods
14/49
Distinguishing the Forest rom the T R E E S
A l te r n at iv e l y , t h e I n s i g h t f u l M i n e r E n s e m b l e m o d e l e m p l o y s a s i m p l er im p l e m e n t a t i o n o f
b o o s t i n g w h i c h a p p l ie s n o n - s t o c h a s t i c b o o s t i n g a n d u s e s a ll t h e t r a i n i n g d a t a i n e a c h r o u n d
o f f i t t ing .
T h e f i n a l e s t im a t e r e s u l t in g f r o m a n e n s e m b l e a p p r o a c h w i l l b e a w e i g h t e d a v e r ag e o f a l l t h e
t r ees f it . U sin g a l a rge co l l ec t ion of tr ees a l lows:
M a n y d if f e re n t v a r ia b l e s t o b e u s ed . S o m e o f t h e s e w o u l d n o t b e u s e d i n s m a l l e r
m od e l s a '.
M any d i f f e r en t m ode l s a r e u sed . T he p r ed i c t i ve m od e l i ng l i te r a t u r e ( H as f ie e t a l.,
2 0 0 1 , F r a n c i s , 2 0 0 3 a , 20 03 c) i n d ic a t e s th a t c o m p o s i t e s o f m u l t i p le m o d e l s p e r f o r m
be t t e r t h an t he p r ed i c t i on o f a s i ng l e m od e l ~1.
D i f f e r e n t t r a in i n g a n d t e s t r e c o r d s a r e u s e d ( w i t h s t o c h a s ti c g r a d i e n t b o o s t i n g ) . T h i s
m a k e s t h e p r o c e d u r e m o r e r o b u s t to t h e i n f l u e n c e o f a f e w e x t r e m e o b s e r v a t i o n s .
T h e m e t h o d o f f it ti n g m a n y ( o f te n 1 0 0 o r m o r e ) s m a l l t re e s r e s u lt s in f i t te d c u r v e s w h i c h a r e
a l m o s t s m o o t h . F i g u r e s 3 -4 A a n d 3 - 4 B d i s p la y t w o n o n l i n e a r f u n c t i o n s f it t o t o t a l p a i d a n d
I M E v a ri ab le s b y th e T R E E N E T e n s e m b l e m o d e l.
14 Casu alty A ctuaria l Society Forum, Winte r 2006
8/12/2019 Comparing Tree Based Methods
15/49
Distinguishing the Forest rom the T R E E S
Ensem ble Predict ion o f Tota l Pa id
~ 4 0 0 0 0 0 0 -
~ 3 0 0 0 0 0 -
_ ~ 2 0 0 0 0 0 -
f
i i i i l ~ l l l l l l l l l l l l l l 1 1 1 1 1 1 1
P r o v i d e r 2 B i l l
Figuee 3 -4A
0 9 O -
0 S O -
o
7 o -
~ o e o -
|
o ..,o-
o 4 o .
o 3 o -
V -
i i I I I I I I I I I t l l l l l l l l l l l l l l l ' l
P r o v i d e r 2 B i l l
Figure 3 -4B
E n s e m b l e M o d e l s - B a g g i n ~
B a g g i n g i s a n e n s e m b l e a p p r o a c h b a s e d o n r e s a m p l i n g o r b o o t s t r a p p i n g . B a g g i n g i s a n
a c r on ym f o r bo o t s t r a p a gg r e ga t i on ( H a s t ie et a l. , 2000 ). B a gg i ng doe s no t u s e the e r r o r
f r o m t h e p r i o r r o u n d o f f i t ti n g a s a d e p e n d e n t v a r ia b l e o r w e i g h t i n s u b s e q u e n t r o u n d s o f
f it ti ng . B a gg i ng u s e s r e c u r si ve s a m p l i ng o f re c o r ds i n t he da t a t o f it m a ny t re e s . F o r
i n s t a nc e a n a na l y s t m a y de c i de t o t a ke a 50% o f t he da t a a s a t r a i n i ng s e t ea c h t i m e a m o de l
Casualty A ctuar ia l Soc ie ty Forum, W inte r 2006 15
8/12/2019 Comparing Tree Based Methods
16/49
Distinguishing the Forest rom the T R E E S
i s fit. U n d e r b a g g i n g , 10 0 o r m o r e m o d e l s m a y b e f it , e a c h o n e t o a d i f f e re n t s am p l e . T h e
t r e e s f i t a r e no t n e c e s s a ri l y s m a l l t r e es w i t h 5 t o 10 t e r m i na l node s a s w i t h b oo s t i ng a nd e a c h
t r ee m a y h a v e a d i f f e r e n t n u m b e r o f t e r m i n a l n o d e s . B y a v e ra g i n g t h e p r e d i c ti o n s o f a
n u m b e r o f b o o t s t r a p s a m p l e s , b a g g i n g r e d u c e s th e p r e d i c t io n v ar ia n c e . T h e im p l e m e n t a t i o n
o f b a g g in g u s e d i n th i s p a p e r is k n o w n a s R a n d o m F o r e s t . I n a d d i t i o n t o u s i n g o n l y a
s a m p l e o f t h e d a t a e a ch t i m e a t re e m o d e l i s fi t, R a n d o m F o r e s t a ls o s a m p l e s f r o m t h e
va r i a b le s . F o r t h e analy si s i n t h is pa pe r , on e t h i r d o f t he va r i a b l e s w e r e s a m p l e d f o r e a c h
tree fit .
F i g u r e s 3 - 5 A d i sp l ay s a n e n s e m b l e R a n d o m F o r e s t t r e e f it t o t o t a l p a id l o s s e s a n d F i g u r e 3 -
5B d i s p l ays a t r e e f i t t o I M E .
Ran d o m F o rest P red i c ti o n o f T o t a l P a i d
I I I I I I I
0 50000 150000 250000 350000
Provider 2 B i l l
Figure 3 5 A
16 Casua lty A ctuaria l Society Forum, Winte r 2006
8/12/2019 Comparing Tree Based Methods
17/49
Distinguishing the Forest rom the T R E E S
Random Forest Predic tion of IME
c ;
o
o
c ;
g
c~
I i I I i I i
5 0 0 0 0 1 5 0 0 0 0 2 5 0 0 0 0 3 5 0 0 0 0
Pr0v~der 2
B i l l
Figure 3-5 B
N a i v e B a v e s
T h e N a i v e B a ye s m e t h o d i s a r e la t iv e ly s i m p l e a n d e a s y t o i m p l e m e n t m e t h o d . I n o u r
c o m p a r i s o n , w e x de w i t a s a b e n c h m a r k d a t a m i n i n g m e t h o d . T h a t i s , w e a r e i n t e r e s te d i n
h o w m o r e c o m p l e x m e t h o d s i m p r o v e p e r f o r m a n c e ( o r n o t ) a g a in s t a n a p p r o a c h w h e r e
s i m p l i fy i n g a s s u m p t i o n s a re m a d e i n o r d e r t o m a k e t h e c o m p u t a t i o n s m o r e t r a c ta b l e. W e
a l s o u s e l o g i st i c r e g r e s s io n m o d e l s a s a s e c o n d b e n c h m a r k .
T h e Na iv e B a y e s m e th o d wa s d e v e lo p e d f o r c a te g o r i c a l d a t a . S p ec if ic al ly , b o th d e p e n d e n t
a n d i n d e p e n d e n t v a r i a b l e s a r e ca t e go r i ca l . T h e r e f o r e , it s a p p l i c a t i o n t o f i t ti n g n o n l in e a r
f u n c t i o n s w i l l b e i l l u s t r a te d o n ly f o r t h e c a t e g o r i ca l ta r g e t v a r i a b l e I M E . I n o r d e r t o u t i l i z e
n u m e r i c p r e d i c to r v a r i a b l e s i t wa s n e c e s s a r y t o d e r iv e n e w c a t e g o r i c a l v a r i a b l e s b a s e d o n
d i s cr e ti z in g , o r b i n n i n g , t h e d i s t r i b u t i o n o f d a t a f o r t h e n u m e r i c v a r i ab l e s= .
T h e k e y si m p l i f y in g a s s u m p t i o n o f t h e N a i v e B a y e s m e t h o d i s t h e a s s u m p t i o n o f
i n d e p e n d e n c e . A l l p r e d i c t o r v a r ia b l es a re a s s u m e d t o a c t i n d e p e n d e n d y i n i n f l u e n c i n g t h e
t a r g e t v a r i a b le . I n t e r a c t i o n s a n d c o r r e l a t i o n s a m o n g th e p r e d i c to r v a r i a b le s a r e n o t
c o n s id e r e d :
B a y es r u l e is u s e d t o e s t i m a t e t h e p r o b a b i l i ty th a t a r e c o r d w i t h g i v e n i n d e p e n d e n t v a ri a b le
v e c to r X = { x} i s i n c a t eg o r y C = { c,} o f t h e d e p e n d e n t v a r i a b l e .
P(cj Ix,)=P (x, Icl)P (cl)/P (x,)
(4a)
Casua l ty A ctuarial Society Forum,W inter 2006 17
8/12/2019 Comparing Tree Based Methods
18/49
Distinguishing the Forest rom the T R E E S
B e c a u s e o f t h e N a i v e B a y es a s s u m p t i o n o f c o n d i t i o n a l i n d e p e n d e n c e , t h e p r o b a b i li t y t h a t a n
o b s e r v a t i o n ~ 1 1 h a v e a s p e ci fi c s e t o f v a l u es f o r t h e i n d e p e n d e n t v a ri a b le s is t h e p r o d u c t o f
t h e c o n d i t i o n a l p r o b a b il i ti e s o f o b s e r v i n g e a c h o f t h e v a l u e s g i v e n c a t eg o r y c ,
P ( X I c s ) = I - I P ( x , I c , ) (4b)
J
T h e m e t h o d i s d e s c r ib e d i n m o r e d e t ai l i n K a n t a r d z i c (2 00 3). T o i ll u s tr a te t h e u s e o f N a i v e
B a y e s in p r e d i c t i n g d i sc r e te v a r i ab l e s, t h e p r o v i d e r 2 b i l l d a t a w a s b i n n e d i n t o g r o u p s b a s e d
o n t h e q u i n t il e s o f t h e d i s t ri b u t io n . B e c a u s e a b o u t 5 0 p e r c e n t o f t h e d a i m s h a v e a v a l u e o f
z e r o f o r p r o v i d e r 2 b il l, o n l y f o u r c at e g or ie s a r e c r e at e d b y t h e b i n n i n g p r o c e d u r e . T h e n e w
v a r i a b l e wa s u s e d t o e s t im a te t h e I M E t a r g et s . F ig u r e 3 - 6 d is p l a y s a b a r p lo t o f t h e p r e d i c t e d
p r o b a b i l i ty o f a n I M E f o r e a c h o f t h e g r o u p s . F i g u r e 3- 7 d is p la y s t h e f i tt e d f u n c t i o n . T h i s
f u n c t i o n is a s t e p f u n c t i o n w h i c h c h a n g e s v a l u e a t e a ch b o u n d a r y o f a p r o v i d e r 2 b i l l b i n .
B a y e s P r e d i c t e d P r o b a b il it y IM E R e q u e s t e d v s . Q u i n t il e o f P r o v i de r 2 B i l l
~. tac~x -
.1c~x -
: , x c c ~ x -
Provider 2 Bill Ouintile
Figure 3-6
18 Casu al ty A ctuarial Society Forum, W inte r 2006
8/12/2019 Comparing Tree Based Methods
19/49
Distinguishing the Forest rom the T R E E S
OA20000-
|
5
~ 0 0000o0.
N a i v e B a y e s P r e d i c t e d I M E v s . P r o v i de r 2 B i l l
i l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l l
Provider
2 B i l l
Figure 3 -7
S E C T I O N 4. S O F T W A R E F O R M O D E L I N G N O N - L I N E A R D E P E N D E N C I E S
N o n a d d i t i v i t v : i n t e r a c t i o n s
C o n v e n t i o n a l st a ti s ti c a l m o d e l s s u c h a s r e g r e s s io n a n d l o g i st i c r e g r e s s i o n a s s u m e n o t o n l y
l i n e a ri t y , b u t a l s o a d d i t i v i t y o f t h e p r e d i c t o r v a r i a b le s . U n d e r a d d i t iv i t y , t h e e f f e c t o f e a c h
v a r ia b l e c a n b e c a n b e a d d e d t o t h e m o d e l o n e a t a t im e . W h e n t h e e x a c t fo r m o f t h e
r e la t io n s h i p b e t w e e n a d e p e n d e n t a n d i n d e p e n d e n t v ar ia b l e d e p e n d s o n t h e v a lu e o f o n e o r
m o r e o t h e r v a ri a b l es , t h e e f f e ct s ar e n o t a d d i ti v e a n d o n e o r m o r e i n t e r a c t i o n s e xi st . F o r
i n s t a n c e , th e r e l a t i o n s h i p b e t w e e n p r o v i d e r 2 b i l l a n d I M E m a y v a r y b y t y p e o f i n ju r y ( i.e .
t r a u m a t i c i n j u r i e s v e r s u s s p r a i n s a n d s t r a i n s ) . I n t e r a c t i o n s a r e c o m m o n i n i n s u r a n c e d a t a
( W e i s b e r g a n d D e r r i g , 1 9 9 8 , F r a n c i s , 2 0 0 3 c ) .
W i t h c o n v e n t i o n a l l i n e a r s t a ti s ti c a l m o d e l s , i n t e r a c t i o n s a r e i n c o r p o r a t e d w i t h m u l t i p l ic a t i v e
t e r m s :
Y = a + b l X 1 + b 2 X 2 + b 3 * X I * X 2
(s)
I n t h e c a s e o f a t w o - w a y i n t e r a c t i o n , t h e i n t e r a c t i o n t e r m s a p p e a r a s p r o d u c t s o f t w o
v a r ia b l es . I f o n e o f t h e t w o v a r i a b l e s i s c a t eg o r ic a l, t h e i n t e r a c t i o n t e r m s a l lo w t h e s l o p e o f
t h e f i t t e d l i n e t o v a r y w i t h t h e l e v e l s o f t h e c a t e g o r i c a l v a r i a b l e . I f b o t h v a r i a b l e s a r e
c o n t i n u o u s t h e i n t e r a c t i o n i s a b i l i n e a r i n t e r a c t i o n ( J ic a rd a n d T u r r i s i, 2 0 0 3 ) a n d t h e s l o p e o f
o n e v a r i a b l e c h a n g e s a s a l i n e a r f u n c t i o n o f t h e o t h e r v a r ia b l e . I f b o t h v a r i a b l e s a r e
c a t e g o ri c a l t h e m o d e l is e q u i v a l e n t t o a t w o f a c t o r A N O V A w i t h i n t e r a c t io n s .
Casual ty Actuar ia l Soc ie ty Forum, W inter 2006 19
8/12/2019 Comparing Tree Based Methods
20/49
Distinguishing the Forest rom the T R E E S
T h e c o n v e n t i o n a l a p p r o a c h t o h a n d l i n g i n t e r a c t io n s h a s s o m e l i m i t a ti o n s .
O n l y a l i m i t e d n u m b e r o f t yp e s o f i n t e r a c t i o n s c a n b e m o d e l e d e as ily .
I f m a n y p r e d i c to r v a r ia b l e s a r e i n c l u d e d in t h e m o d e l , as i s o f t e n t h e c a s e i n m a n y
p r e d i ct i v e m o d e l i n g a p p l ic a t io n s , i t c a n b e t e d i o u s, i f n o t i m p o s s i b l e , to f i n d a l l t h e
s i g n i fi c a n t i n t e ra c t io n s . I n c l u d i n g a ll p o s s i b l e in t e r a c t i o n s i n t h e m o d e l w i t h o u t
r e g a r d t o t h e i r s i g n i f i c a n c e l i k ely r e s u l ts i n a m o d e l w h ic h i s o v e r - p a r a m e te r i ze d .
T h e t r e e -b a s e d d a t a m i n i n g t e c h n i q u e s u s e d i n t hi s p a p e r e a c h h a v e e f f ic i e n t m e t h o d s f o r
h a n d l i n g i n t e ra c t i o n s.
I n t e r a c t i o n s a r e i n h e r e n t i n t h e m e t h o d u s e d b y t re e s t o p a r t i t i o n d a ta . O n c e d a ta
h a v e b e e n p a r t i t i o n e d , d i f fe r e n t p a r t i t i o n s c a n a n d t y p i ca l ly d o s p l i t o n d i f f e r e n t
v a r i ab l e s a n d c a p t u r e d i f f e r e n t in t e r a c t i o n s a m o n g t h e p r e d i c t o r v a r i a b le s . W h e n t h e
d e c i s i o n r u le s u s e d b y a t r ee t o r e a c h a t e r m i n a l n o d e i n v o l v e m o r e t h a n o n e v a r i a b l e ,
i n g e n e r al , a n i n t e r a c t i o n is b e i n g m o d e l e d .
E n s e m b l e m e t h o d s i n c o r p o r a t e i n t e r a c t io n s b e c a u s e t h e y a r e b a s e d o n t h e tr e e
a p p r o a c h .
N a i v e Ba ye s, b e c a u s e i t a s s u m e s c o n d i t i o n a l i n d e p e n d e n c e o f t h e p r e d i c t o rs , i g n o r e s
in t e r a c t i o n s .
L o g i s t i c r e g r e s s io n i n c o r p o r a t e s in t e r a c t i o n s i n th e s a m e wa y o r d in a r y l e a s t s q u a r e s
r e g r e s s io n d o e s , w i th p r o d u c t i n t e r a c t i o n t er m s . I n t h is f r a u d c o m p a r i s o n s t u d y , n o
a t t e m p t w a s m a d e t o i n c o r p o r a t e i n t e r a c t i o n te r m s a s t h is p r o c e d u r e l a c ks a n
e f f i c i e n t wa y t o s e a r c h f o r t h e s i g n i f i c a n t i n t e r a c t i o n s .
M u l t i p l e predictors
T h u s f ar , th e d i s c u s s i o n o f t h e t r e e - b a s e d m o d e l s c o n c e r n e d o n l y s im p l e o n e o r t w o v a r i a b l e
m o d e l s . E x t e n d i n g th e t re e m e t h o d s t o in c o r p o r a t e m a n y p o t e n t i a l p r e d i c t o rs is
s t r a ig h tf o r wa r d . F o r e a c h t r e e f it , t h e m e th o d p r o c e e d s a s f o ll o ws :
F o r e a ch v a r ia b l e d e t e r m i n e t h e b e s t tw o - w a y p a r t i t io n o f t h e d a ta .
S e l ec t t h e v a r i ab l e w h i c h p r o d u c e s t h e b e s t i m p r o v e m e n t i n th e g o o d n e s s o f f it
s ta t i s tic to sp l i t the da ta a t a pa r t icu la r nod e .
R e p e a t th e p ro c e s s u n t i l n o f u r t h e r i m p r o v e m e n t i n fi t c a n b e o b t a in e d .
S o ft w a re fo r m o d e l i n g n o n l i n e a r d e p e n d e n c i e s a n d t e s t in g t h e m o d e l s
F o u r s o ft w a r e p r o d u c t s w e r e i n c l u d e d i n o u r f r a u d c o m p a r i s o n : T h e y a r e C A R T ,
T K E E N E T ,
S - P L U S (R ) a n d I n s i g h t f u l
M i n e r 23.
C A R T a n d T R E E N E T a re S a lf or d S ys te m s s t a n d - a lo n e so f tw a r e p r o d u c t s t h a t e a ch
p e r f o r m s o n e t e c h n iq u e . C A R T ( C l as s if ic a t io n a n d R e g r e s s io n T r e e s) d o e s t r e e a n a ly s is a n d
T R E E N E T a p pl ie s s to c h as ti c g ra d i e nt b o o s ti n g u s in g th e m e t h o d d e s c ri b e d b y F r e i d m a n
( 20 0 1) . A l l t h e s o f twa r e t e s t e d p r o d u c e S AS
c o d e 24
t h a t c a n b e u s ed t o i m p l e m e n t th e m o d e l
20 Casualty A ctua ria l Society Forum, W i n t e r 2 00 6
8/12/2019 Comparing Tree Based Methods
21/49
Distinguishing the Forest rom the T R E E S
i n a p r o d u c t i o n s ta ge . A l l t h e p r o d u c t s c o n t a i n a p r o c e d u r e f o r h a n d l i n g m i s s i n g v a l u e s
u s i n g s u r ro g a t e v ar ia b le s . A t a n y g i v e n s p l it p o i n t , C A R T a n d T R E E N E T f i n d th e v a r ia b l e
th a t i s n e x t i n im p o r t a n c e i n i n f l u e n c in g t h e t a r g e t v a r i a b l e a n d t h e y u s e t h i s v a r i a b l e t o
r e p l a c e t h e m i s s in g d at a. T h e s p e c i fi c s ta t is t ic u s e d t o r a n k t h e v a r i a b l es a n d f i n d t h e
s u r r o g a t e s i s d e s c r ib e d i n B r i e m a n e t . a l. ( 19 9 3) . D i f f e r e n t v e r s io n s o f C A R T a n d
T R E E N E T h a n d l e d i f fe r e n t s iz e d a t ab a s e s. T h e n u m b e r o f l e ve l s o f c a t eg o r ic a l v a r ia b l es
a f f e c t s h o w m u c h m e m o r y i s n e e d e d , a s m o r e l e v e l s n e c e s s i t a t e m o r e m e m o r y . T h e 1 2 8 k
v e r s io n o f e a c h p r o d u c t wa s u s e d f o r t h i s a n a ly si s . W i th a p p r o x im a te ly 1 00 ,0 0 0 r e c o r d s i n
t h e t r a i n i n g d a ta , o c c a s i o n a l m e m o r y p r o b l e m s w e r e e x p e r i en c e d a n d i t b e c a m e n e c e s sa r y to
s a m p le f e we r r e c o r d s . O n e o f t h e v e r y u s e f u l f e a tu r e s o f t h e S a l fo r d S y s te m s s o f twa r e i s
t h a t a l l t h e p r o d u c t s r a n k v a r i a b l e s i n im p o r t a n c e 5.
S - P L U S a n d R a r e c o m p r e h e n s iv e s t a ti s ti c a l l a n g u a g e s u s e d t o p e r f o r m a r a n g e o f s t a t is t ic a l
a n a ly s e s i n c l u d i n g e x p l o ra t o r y d a t a a n a ly s is , r e g r es s io n , A N O V A , g e n e r a li z e d l in e a r m o d e l s ,
t re e s a n d n e u r a l n et w o r k s . B o t h S - P L U S a n d R a r e d e r iv e d f r o m S , a s t at is ti ca l p r o g r a m m i n g
l a n g u a g e o r ig i n a ll y d e v e l o p e d a t B e l l L a b s . T h e S p r o g e n y , S - P L U S a n d R , a re p o p u l a r
a m o n g a c a d e m i c s ta t is t ic i an s . S - P L U S i s a c o m m e r c i a l p r o d u c t s o l d b y I n s i g h t f u l w h i c h h a s
a t r u e G U I i n t e r f a c e t h a t f a c il it at es e a s i er h a n d l in g o f s o m e f u n c t i o n s . I n s ig h t f u l a ls o
s u p p l ie s t e c h n i c al s u p p o r t . T h e S - P L U S p r o g r a m m i n g l a n g u a ge i s w i de l y u se d b y a n a l y st s
w h o d o s e r io u s n u m b e r c r u n c h i n g . T h e y f i n d i t m o r e e f f e c ti v e , e s pe c ia ll y f o r p r o ce s s e s t h a t
a r e f r e q u e n t ly re p e a t e d . R i s f r ee o p e n s o u r c e s t a t i st i ca l s o f twa r e t h a t i s s u p p o r t e d l a r g e ly b y
a c a d e m ic st a t is t ic i a n s a n d c o m p u te r s c i e n c e f ac u lt y. I t h a s o n ly l im i t e d G U I f u n c t i o n a l i t y
a n d t h e d a t a m i n i n g f u n c t i o n s m u s t b e a c c e ss e d t h r o u g h t h e l a ng u a g e . M o s t c o d e w r i t t e n
f o r S - P L U S w i l l a l so w o r k f o r R . O n e n o t a b l e d i f f e re n c e i s t h a t d a ta m u s t b e c o n v e r t e d t o
t e x t m o d e t o b e r e a d b y R (a b i t o f a n i n c o n v e n i e n c e , b u t u s u a ll y n o t a n i n s u r m o u n t a b l e
o n e ) . F o x ( 20 0 2) p o in t s o u t s o m e o f t h e d i f fe r e n c e s b e tw e e n t h e two l a n g u a g e s , wh e r e t h e y
e xis t. T h e S - P L U S p r o c e d u r e s u s e d h e r e i n th e f r a u d c o m p a r i s o n a re f o u n d in b o t h S - P L U S
a n d R . H o w e v e r o n e e n s e m b l e tr ee m e t h o d u s e d, R a n d o m F o r e s t , a pp e ar s o n l y to b e
a v a i la b l e i n R . T h e S - P L US ( R ) p r o c e d u r e s u s e d we r e : th e t r e e f u n c t i o n f o r d e c i s io n t r ee s
a n d t h e g lm ( g e n e r a li z e d l i n e a r m o d e l s ) f o r l o g i st i c r e g r e s s io n . S - P L US ( R ) i n c o r p o r a t e s
r e la t iv e ly c r u d e m e t h o d s f o r h a n d l i n g m i s s i n g v a lu e s . T h e s e i n c l u d e e l i m i n a t i n g a ll r e c o r d s
w i t h a m i s s i n g v a l u e o n a n y v a r ia b l e , a n a p p r o a c h w h i c h i s g e n e r a ll y n o t r e c o m m e n d e d
( F r a n c i s 2 0 0 5 , AU s io n 2 0 02 ). S - P L U S a l so c r e a te s a n e w c a t e g o r y f o r m i s s in g v a lu e s ( o n
c a t e g o ri c a l v a r i a b le s ) a n d a l lo ws a b o r t i n g t h e a n a ly si s i f a m i s s in g v a lu e is f o u n d . I n g e n e r a l ,
i t i s n e c e s s a ry t o p r e p r o c e s s t h e d a t a ( a t l e a s t t h e n u m e r i c v a ri a b l e s wh e r e t h e r e is n o m i s s in g
v a lu e m e t h o d 2~) t o m a k e a p r o v i s io n f o r t h e m i s s in g v a lu e s . I n t h e f r a u d c o m p a r i s o n , a
c o n s t a n t n o t i n t h e r a n g e o f t h e d a t a w a s s u b s t i t u t e d i n t o t h e v a r i a b l e a n d a n i n d i c a t o r
d u m m y v a ri a b le f o r m i s s i n g w a s c r e a te d f o r e a c h n u m e r i c v a ri a b le w i t h m i s s i n g v a lu e s . S -
P L U S a n d R a r e g e n e r a l l y n o t c o n s id e r e d o p t im a l c h o i c e s f o r a n a ly z in g l a rg e d a t a b a se s .
A f t e r e x p e r i e n c i n g s o m e d i f fi c u lt y r e a d i n g t r a i n i n g d a t a o f a b o u t 1 0 0 ,0 0 0 r e c o r d s i n t o S -
P L U S , t h e d a t a b a s e wa s r e d u c e d t o c o n t a in o n ly t h e v a ri a b l e s u s e d i n t h e a na ly si s. O n c e t h e
d a t a w a s r e a d i n t o S - P L U S , f e w p r o b l e m s w e r e e x p e ri e n ce d . A n o t h e r e c c e n t r ic i ty i s t h a t t h e
S - P L U S t r e e f u n c t i o n c a n o n ly h a n d le 3 2 l e v el s o n a n y g iv e n c a t e g o ri c a l v a r i a b l e , s o i n t h e
p r e p r o c e s s i n g t h e n u m b e r o f le v e ls m a y n e e d t o b e r e d u c e d 27. T h e R R a n d o m F o r e s t
f u n c t i o n i n c o r p o r a t e s a p r o c e d u r e t h a t c a n b e u s e d t o r a n k v a r i a b l e s i n i m p o r t a n c e . T h e
Casua l ty A ctuarial Society Forum, W inter 2006 21
8/12/2019 Comparing Tree Based Methods
22/49
Distinguishing the Forest rom the T R E E S
p r o c e d u r e p r o d u c e s a n
i m p u r i t y
s t a ti s ti c wh ic h c a n b e u s e d t o r a n k t h e v a r i a b l es . T h e
i m p u r i t y is b a s e d o n t h e G i n i i n d e x f o r c l a s si fi c at io n a p p l i ca t i o n s a n d m e a n s q u a r e d e r r o r f o r
n u m e r i c d e p e n d e n t v a ri a bl e s. T h e S - P L U S t r e e f u n c d o n c o n t a i n s n o b u i l t - i n c a p a b il it y f o r
r a n k i n g v a r ia b l e s i n im p o r t a n c e . T h e r e f o r e u s i n g th e S - P L U S l a n g u ag e , a n a l g o r i t h m w a s
c o d e d i n t o S - P L U S t o r a n k t h e v a r ia b l es . T h e m e t h o d i s d e s c ri b e d in F r a n c i s (2 00 1) a n d
P o t t s ( 20 0 0) . T h e p r o c e d u r e q u a n t i f i e s h o w m u c h th e e r r o r i n c r e a s e s w h e n a v a r i a b l e i s
r e m o v e d f r o m t h e m o d e l ; t h e la r ge r t h e in c r e a s e i n e r r o rs , t h e m o r e i m p o r t a n t t h e v a r ia b l e.
T h e I n s i g h t f u l M i n e r is a d a ta m i n i n g s .u ite t h a t c o n t a i n s t h e m o s t c o m m o n d a t a m i n i n g
to o l s : r e g r e s s io n , l o g i s t i c r e g r e s s io n , t r e e s , e n s e m b le t r e e s , n e u r a l n e two r k s a n d Na iv e
Bayes~ . A s m e n t i o n e d e ar li er , I n s i g h t f u l a ls o m a r k e t s S - P L U S . H o w e v e r , t h e In s i g h t f u l
M i n e r h a s b e e n o p t i m i z e d f o r la rg e d a ta b a s es a n d c o n t a i n s m e t h o d s ( N a i v e B ay es ) w h i c h a r e
n o t p a r t o f S - P L U S ( R ) . T h e N a i v e B a y e s , T r e e a n d E n s e m b l e T r e e p r o c e d u r e s f r o m
I n s i g h t f u l M i n e r a re u s e d h e r e i n t h e f r a u d c o m p a r i s o n . T h e i n s i g h t f u l M i n e r h a s s e v er a l
p r o c e d u r e s f o r a u to m a t i c a l ly h a n d l i n g m i s s i n g v a lu e s . T h e s e a r e 1) d r o p r e c o r d s w i t h
m is s in g v a lu e s , 2) r a n d o m ly g e n e r a t e a v a lu e , 3) r e p l a c e w i th t h e m e a n , 4 ) r e p l a c e w i th a
c o n s t a n t a n d 5 ) c a rr y f o r wa r d t h e l a s t o b se t a -a t io n . E a c h m i s s in g v a lu e wa s r e p l a c e d w i th a
c o n s t a n t . I n t h e o r y , t h e d a t a m i n i n g m e t h o d s u s e d , s u c h a s tr e es , s h o u l d b e a b l e to p a r t i t i o n
r e c o rd s c o d e d f o r m i s s i n g f r o m t h e o t h e r o b s e ~ - a t i o n s w i t h l e g it im a t e c at e go r ic a l o r n u m e r i c
v a lu e s a n d s e p a r a t e ly e s t im a te t h e i r im p a c t o n t h e t a r g e t v a r i a b l e (p o s s ib l e a f t e r a l l o win g f o r
i n t e r a c ti o n s w i t h o t h e r v a r ia b l es ) . S e r ve r v e rs i o n s o f t h e I n s i g h t f u l M i n e r g e n e r a te C c o d e
t h a t c a n b e u s e d i n d e p l o y i n g t h e m o d e l , b u t t h e v e r s i o n u s e d i n t h is a n a l y si s d i d n o t h a v e
t h a t c a p ab i li ty . A s m e n t i o n e d a b o v e s o m e p r e p r o c e s s i n g w a s n e c e s s a ry f o r t h e N a i v e B a y e s
p r o c e d u r e . S i n c e I n s i g h t f u l M i n e r c o n t a i n s n o p r o c e d u r e f o r r a n k i n g v a r ia b l e s i n
i m p o r t a n c e , n o r a n k i n g s w e r e p r o v i d e d f o r t h e I m i n e r m e t h o d s .
V a l i d a t i n e a n d T e s t i n ~
v
I t is c o m m o n in d a t a m in in g c ir cl es t o p a r t i t i o n t h e d a t a i n to t h r e e g r o u p s ( H a s t i e e t al .,
2 0 01 ). O n e g r o u p i s u s e d f o r t r a in in g , o r f i tt i n g t h e m o d e l . A n o th e r g r o u p , r e f e r r e d t o a s
th e v a l i d a t i o n s e t, i s u s e d f o r t e s t i n g t h e f it o f th e m o d e l a n d r e - e s t im a t in g p a r a m e te r s i n
o r d e r t o o b t a i n a b e t t e r m o d e l . I t i s c o m m o n f o r a n u m b e r o f it e r a ti o n s o f t e s t in g a n d
f i t t in g t o o c c u r b e f o r e a fi n a l m o d e l i s s e le c t ed . T h e t h i r d g r o u p o f d a t a , t h e h o ld o u t
s a m p l e , i s u s e d t o o b t a i n a n u n b i a s e d te s t o f t h e m o d e l ' s a cc u ra c y. A n a l te r n a t iv e a p p r o a c h
to a v a l i d a t i o n s a m p le t h a t i s e sp e c i al l y a p p r o p r i a t e wh e n t h e s a m p le s i z e u s e d i n t h e a n a ly s is
i s r e la t i v ely m o d e s t , i s c r o s s - v a l id a t i o n . C r o s s - v a l i d a t i o n i s a m e th o d i n v o lv in g h o ld in g o u t a
p o r t i o n o f t h e t r a i n i n g s a m p l e , sa y o n e f i f th o f t h e d a t a , f it t in g a m o d e l t o t h e r e m a i n d e r o f
th e d a t a a n d t e s t i n g i t o n t h e h e ld o u t d a ta . I n t h e c a s e o f 5 - f o ld c r o s s v a l i d a t i o n , t h e
p r o c e s s i s r e p e a t e d f i v e t im e s a n d t h e a v e r a g e g o o d n e s s o f f i t o f t h e f i v e v a l i d a t i o n s is
c o m p u t e d . T h e v a r i o u s s o f tw a r e p ro d u c t s a n d p ro c e d u r e s h a v e d i f f e re n t m e t h o d s f o r
v a l i d a t i n g t h e m o d e l s . S o m e ( I n s ig h t f u l M in e r T r e e ) o n ly a l l o w c r o s s - v a l i d a t io n . O th e r s
( T R E E N E T ) u s e a v a l i d a t i o n sa m p le . S - P L U S ( R ) a l lo ws e i t h e r a p p r o a c h -~ t o b e u s e d ( s o a
t e s t s a m p le o f a b o u t 2 0 % o f t h e t r a in in g d a t a wa s u s e d a s we h a d a r e la t i v e ly l a r g e d a ta b a s e ) .
N e i t h e r v a l i d a t io n s a m p l e n o r c r o s s -v a l i d at i o n w a s u s e d w i t h N a i v e B a y e s, L o g i s t ic
R e g r e s s i o n o r t h e E n s e m b l e T r e e.
22 Casual ty A ctuarial Society Forum, W inte r 2006
8/12/2019 Comparing Tree Based Methods
23/49
Distinguishing the Forest rom the T R E E S
I n t h i s a na ly s i s, a pp r o x i m a t e l y a th i r d o f t he da t a , a bo u t 50 , 000 r e c o r ds , w a s u s e d a s t he
h o l d o u t s a m p l e f o r t h e f i n a l t e s ti n g a n d c o m p a r i s o n o f t h e m o d e l s . T w o k e y s ta ti st ic s o f t e n
us e d t o c om pa r e m ode l s a c c u r a c y a r e s e ns i t iv i t y a n d s pe d f i c i t y .
S e n s i t i v i t y
i s t h e p e r c e n t a g e o f
e ve n t s ( i. e. , c l a i m s w i t h a n I M E o r r e f e r r e d t o a s pe c ia l i nve s t i ga t i on un i t ) t ha t w e r e
p r e d i c t e d t o b e e v e n t s . T h e
q ~ e c i f i d ~ y
i s t h e p e r c e n t a g e o f n o n e v e n t s ( i n o u r a p p l i c a t i o n s
c la i m s b e l i ev e d to b e l e g i ti m a te ) t h a t w e r e p r e d i c t e d t o b e n o n e v e n t s . B o t h o f t h e s e
s t at is t ic s s hou l d be h i gh f o r a go od m o de l . T a b l e 4 - 1 , o f t e n r e f e r r e d to a s a c on f us i o n
m a t r i x ( H a s f i e et . a l. , 2001 ) , p r e s e n t s a n e xa m pl e o f t he c a l c u l a ti on .
Sample Confusion Matrix: Sensi t iv i ty and Spec i f ic i ty
T r u e C l a s s
P r e d i c t i o n N o Y es R o w T o t a l
No 800 200 1 ,000
Y e s 2 0 0 4 0 0 6 0 0
Co lumn Tota l 1 ,000 600
Correc t Tota l Pem ent Correc t
Sen sit iv i ty 800 1 ,000 80
Sp ec i fic ity 400 600 67
Table 4-1
I n t h e e x a m p l e c o n f u s i o n m a t r ix , 8 0 0 o f 1 ,0 0 0 n o n - e v e n t s a r e p r e d i c t e d t o b e n o n - e v e n t s s o
t he s e ns i ti v i t y i s 80% . T h e s pe c i fi c it y i s 67% s i nc e 400 o f 600 t r ue po s i t ive s a r e a c c u r a t e l y
predic ted .
Casual ty Actuarial S ociety
Forum,
W inter 2006 23
8/12/2019 Comparing Tree Based Methods
24/49
Distinguishing the Forest rom the T R E E S
S E C T I O N 5 . S O F T W A R E R A N K I N G S O F I M P O R T A N T V A R I A B L E S I N
T H E D E C I S I O N T O I N V E S T I G A T E : I M E A N D S IU
T h e r e m a i n d e r o f t h i s p a p e r i s d e v o t e d t o i l l u s tr a t