Upload
malvolio-lolli
View
217
Download
2
Embed Size (px)
Citation preview
CSI-PiemonteConsorzio Sistemi Informativi
Provincia Comune di Torino di Torino
Analisi dei cluster sui dati del Analisi dei cluster sui dati del « Censimento dell’Agricoltura 2000 » « Censimento dell’Agricoltura 2000 »
della Regione Piemontedella Regione Piemonte
Jean Michel BoscoJean Michel Bosco
2
AgendaAgenda
Contesto e obiettiviContesto e obiettivi
Organizzazione dei datiOrganizzazione dei dati
Esplorazione e trasformazione dei datiEsplorazione e trasformazione dei dati
Definizione del modello Definizione del modello
Interpretazione dei risultatiInterpretazione dei risultati
Organizzazione e planningOrganizzazione e planning
3
Contesto e obiettiviContesto e obiettivi
Vison, Obiettivi e Strategia
La vision globale del progetto :Valorizzare il Data Mining in seno al CSIRendere i dati ‘intelligenti’Problematiche del Progetto :Definire degli indicatori statisticiApplicare una segmentazione (Clustering)Modello predittivo (Scoring) se sarà disponibile l’accesso ai Database ORACLEObiettivi : Regrouper en segments homogènes les agriculteurs de la région Piémont Definire una visione globale dell’attività per alimentare una riflessione strategica. Rilevare i bisogni del cliente
Disponibilità dei dati
Sistemi informativi per l’agricolura:I dati del censimento sono organizzati in un Data Warehouse I dati finanziari ed economici sono allocati sui server di produzione ORACLE e non sono stati considerati nell’analisiL’applicativo Web http://www.regione.piemonte.it/capu/jsp/index.jsp per l’analisi multidimensionale DocumentazioneGlossarioScheda del CesimentoNorme di classificazione degli AgricoltoriAccesso all’informazione Accesso ai Data Server di Produzione e di sSviluppo con SAS Connect e SAS E.Guide
4
Organizzazione dei datiOrganizzazione dei dati
Nome de la table Nb identifiants
Nbde lignes
Nb variables
1. base_azi 120965 120965 53
2. capo_azienda 120965 120965 4
3. contoterz 120965 120965 2
4. utilizzazione_terreno
120863798443 7
5. manodopera_familiare
119712
296338 2
6. mezzi_meccanici 104734 337330 1
7. mez_tec
100176373367 3
8. lavaro_terr
88788386592 6
9. impianti 87029 165586 3
10.prod_comm 85623 177705 5
11.irrigazione
47279240379 2
12.allevamento
42541153577 4
13.vite 40622 118235 7
14.ricovero 38642 52736 2
15.prod_qual 21372 32319 2
16.latte 14616 47667 3
17.altra_manodopera
54328761 2
108
data base_imp2000_2 ;set datiodd.base_imp2000 ;LIV123_IMP=(SUBSTR(COD_LIV1,1,2) ||'.' ||
SUBSTR(COD_LIV2,1,2) ||'.' ||SUBSTR(COD_LIV3,1,2)) ;
Run ;
PROC TRANSPOSE DATA=base_imp2000_2 OUT=base_imp2000_3(LABEL="Transposed datiodd.base_imp2000") NAME=Source LABEL=Label ;
BY z_cod_azienda ;ID LIV123_IMP ;VAR CAPACITA ;
RUN ;
data base_imp2000_n (keep =z_cod_azienda CAP_IMP_M3 CAP_IMP_KG CAP_IMP_M2) ;
set base_imp2000_3;CAP_IMP_M3=
sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03 D03,_29D04D06,_33D02D02,_33D04D04) ;
CAP_IMP_KG= sum(_29D01D01,_29D01D02,_29D02D03,_29D03D04,_29D03 D05,_30D03D03) ;
CAP_IMP_M2 = sum(_28D03D05,_33D01D01) ;
label CAP_IMP_M3= 'volume capacita impianti';
label CAP_IMP_KG= 'peso capacita impianti';
label CAP_IMP_M2= 'spazio capacita impianti';run ;
Definizione della granularità delle tavole SAS applicando la PROC TRANSPOSE Scelta delle variabili valorizzate per il maggior numero di Aziende (76 variabili su 108) Trattamento dei « missing »
5
Esplorazione e trasformazione dei datiEsplorazione e trasformazione dei dati
Ridefinizione delle classi per le variabili nominali (ordinali) Assegnazione di una classe (9) alle proporzioni più basse
6
Esplorazione e trasformazione dei datiEsplorazione e trasformazione dei dati Transformazione logaritmica delle variabili intervallari Esclusivamente per le variabili la cui distributizione migliora
7
Definizione del modello Definizione del modello
Segmentazione non significativa con la proc Fastclus, legata alla distribuzione delle variabili Le Reti Neurali non supervisionate restituiscono una segmetazione meglio definita Il test dei campioni aleatori confermano i risultati ottenuti con le SOM/Kohonen
8
Interpretazione dei risultatiInterpretazione dei risultati
18154
27693Grandi colture
39983
35135Orti familiari
Risultati SOM/KOHONEN (reti neurali non supervisionate) : segmentazione in 4 Cluster
9
Interpretazione dei risultatiInterpretazione dei risultatiComparazione dei cluster in funzione delle variabili utilizzate
4
3
10
Interprétation des résultatsInterprétation des résultatsComparazione dei cluster in funzione delle variabili utilizzate
11
Interpretazione dei risultatiInterpretazione dei risultatiComparazione dei cluster 3 e 4
12
Interpretazione dei risultatiInterpretazione dei risultati
Valore Vendita in funzione della zona geografica e della superfice utilizzata : correlazionesignificativa per le aziende site in pianura
13
Interpretazione dei risultatiInterpretazione dei risultati
CLUSTER
CARATTERISTICHE
Cluster 4 :
27693 azienda
Aziende: Grandi culture superfici destinate ai seminativi
Site in pianuraes sur les plaines
Propietari affittano parte dei terreni
Il capo azienda è giovane con molte giornate di lavoro
Significativo apporto della mano d’opera familiare
Le superifici utilizzate sono le più importanti
Utilizzo dei mezzi meccanici
Capacità degli impianti in volume e spazio sopra la media
Transformano i prodotti
Vendono principalmente agli industriali
Economicamente rilevanti
Cluster 3 :
35135 azienda
Azienda de petite culture mixte (culture maraîchère)
Installé es surtout sur les montagnes
Possèdent des superficies gratuites, mais loue nt aussi et parfois propriétair es
le dirigeant est plus vieux en moyenne avec des jours de travails moins élevés
une main d ’œuvre familiale non significative
les superficies utilisées sont les moins importantes
la superficie « orti familia ri » et celle des bois les plus importantes
La moitié d’entre elles ne sont pas de la classe CEE
Ne s’adresse nt pas aux organisations associatives pour l’utilisation des moyens
mécaniques
Consomme nt à peu près la moitié de son produit
Economiquement les moins importantes
14
Interpretazione dei risultatiInterpretazione dei risultati
CLUSTER
CARATTERISTICHE
Cluster 4 :
27693 azienda
Azienda de grande culture avec des terres arables (seminativio)
Installé es sur les plaines
propriétaire s et loue nt une partie de leurs superficie
le dirigeant est plus jeune en moyenne avec des jo urs de travails élevés
une main d ’œuvre familiale significative
les superficies utilisées sont les plus importantes
utilise nt plus les moyens mécaniques
capacité en espace et en volume les plus importantes
Transforme nt plus ces produits agricoles
vend ent plus aux industriels
Economiquement les plus importantes
Cluster 3 :
35135 azienda
Aziende: Piccole colture (colture ortofrutticole)
Site in montagna
Lavorano superfici gratuite, in parte minore le affitano o sono proprietari.
Il capo azienza è in genere di età più alta della media, con poche giornate lavorative est plus
Mano d'opera familiare poco significativa
Le superfici ultizzate sono scarsamente rilevanti
Più significative le superfici destinate agli orti familiari e ai boschi
La metà delle aziende appartenenti a questo gruppo non rientrano nella classe CEE
Non si rivolgono ad organizzazioni assocciative per i mezzi tecnici
Consumano all’incirca la metà dei loro prodotti
Economicamente poco importanti
15
Interpretazione dei risultatiInterpretazione dei risultati
CLUSTER
CARATTERISTICHE
Cluster 2 :
18154 azienda
Aziende accostabili al gruppo Grandi Colture
Colture arboricole permanenti
Specilizzati in viticoltura
Localizzate soprattutto in collina, e in parte in pianura
Forte capacità di trasformazione dei prodotti
Aderiscono a società cooperative
Vendono buona parete dei prodotti alle organizzazioni associative, ma non ai contrattuali
Sono in prevalenza Proprietari
Cluster 1 :
39983 azienda
Azienda proche des azienda de petite culture mixte
Installées surtout sur les montagnes en partie
Vendent aux consommateurs
Majoritairement propriétaires
16
Interpretazione dei risultatiInterpretazione dei risultati
CLUSTER
CARATTERISTICHE
Cluster 2 :
18154 azienda
Azienda proche des azienda de grande culture
culture permanente arboricole relativement la plus importante
spécialisées dans la viticulture
Installées sur les collines en partie
Capacité de transformation des produits agricoles importante
Adhèrent aux sociétés coopératives et de producteurs
Vendent la totalité de ses produits aux organisations associatives, mais ne vend
pas aux contractuels
Majoritairement propriétaires
Cluster 1 :
39983 azienda
Aziende con caratteristiche simili al gruppo Orti Familiari
Localizzati soprattutto in montagna e in parte in collina
Vendono direttamente al consumatore
Hanno terreni di Proprietà
17
Interpretazione dei risultatiInterpretazione dei risultati
ATTIVITà CLASS_AZIENDA(120965)
1(39983)
2(18154)
3(35135)
4(27693)
ALLEVAMENTO(42541)
33,77% 13,36% 16,29% 36,39%(33,78%)
VITE(40622)
43,58% 37,98% 11,06% 7,38%
LATTE(14616)
29,34% 9,28% 4,54% 56,83%
AGRITURISMO(596)
22,48% 39,09% 9,40% 29,03%
Ripartizione delle attività in funzione dei cluster
Vendono di più rispetto al cluster 1
18
Interpretazione dei risultatiInterpretazione dei risultati
ATTIVITà CLASS_AZIENDA(120965)(42541)(40622)
1(39983)
2(18154)
3(35135)
4(27693)
ALLEVAMENTO(42541)
33,77%(37,97%)
13,36%(14,04%)
16,29%(16,98%)
36,39%(31,01%)
VITE(40622)
43,58%(33,11%)
37,98%(19,69%)
11,06%(26,30%)
7,38%(20,91%)
LATTE(14616)
29,34% 9,28% 4,54% 56,83%
AGRITURISMO(596)
22,48% 39,09% 9,40% 29,03%
Ripartizione delle attività in funzione dei cluster
Il gruppo 1 resta leader,ma sefuito dal gruppo 3
19
29 azienda su 120965 29 azienda su 120965 hanno tutti i crediti hanno tutti i crediti (1 1 1 1)(1 1 1 1)
111355 azienda su 111355 azienda su 120965 120965 che non hanno creditoche non hanno credito(0 0 0 0)(0 0 0 0)
Interpretazione dei risultatiInterpretazione dei risultatiRipartizione del tipo di credito per l’intera popolazione
20
29 azienda sur 120965 29 azienda sur 120965 ont eu tous les 4ont eu tous les 4Crédits (1 1 1 1)Crédits (1 1 1 1)
111355 azienda sur 111355 azienda sur 120965 120965 n’ont rien comme créditn’ont rien comme crédit(0 0 0 0)(0 0 0 0)
Interpretazione dei risultatiInterpretazione dei risultatiRipartizione del tipo di credito per l’intera popolazione
EEAA EEAA__NN MMAA MMAA__NN 00 11 00 11 00 11 00 11
EEffffeeccttiiff
XX XX XX XX 111111335555 XX XX XX XX 664400 XX XX XX XX 33991199 XX XX XX XX 5566 XX XX XX XX 772288 XX XX XX XX 8844 XX XX XX XX 110044 XX XX XX XX 77 XX XX XX XX 33227733 XX XX XX XX 5599 XX XX XX XX 663300 XX XX XX XX 99 XX XX XX XX 5588 XX XX XX XX 44 XX XX XX XX 1100 XX XX XX XX 2299
21
29 azienda sur 120965 29 azienda sur 120965 ont eu tous les 4ont eu tous les 4Crédits (1 1 1 1)Crédits (1 1 1 1)
111355 azienda sur 111355 azienda sur 120965 120965 n’ont rien comme créditn’ont rien comme crédit(0 0 0 0)(0 0 0 0)
Interpretazione dei risultatiInterpretazione dei risultatiRipartizione del tipo di credito per l’intera popolazione
EEAA EEAA__NN MMAA MMAA__NN 00 11 00 11 00 11 00 11
EEffffeeccttiiff
XX XX XX XX 111111335555 XX XX XX XX 664400 XX XX XX XX 33991199 XX XX XX XX 5566 XX XX XX XX 772288 XX XX XX XX 8844 XX XX XX XX 110044 XX XX XX XX 77 XX XX XX XX 33227733 XX XX XX XX 5599 XX XX XX XX 663300 XX XX XX XX 99 XX XX XX XX 5588 XX XX XX XX 44 XX XX XX XX 1100 XX XX XX XX 2299
Test d’associazione tra 2 variabili :La coppia (1,1) contribuisce in modo più significativo alla statistica del Khi-2, le V di Cramer vicina a 0, quindi esiste un’associazione debole tra le due variabili
Test d’associazione tra CL_UDE(classe economica)e i 2 tipi di credito : rifiuto di Ho, dunque associazione, Ma la correlazione di Spearman si avvicina a 0, il chè implica une associazione debole
22
24 Mai
23
Organizzazione e PlanningOrganizzazione e Planning