Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
BigData
• Data• Process• Management
BigDataataGlance”BigData” termusually refers to large amounts ofdifferent types of data producedwith high velocityfromahighnumberofvarioustypesofsources.Making these date useful for stakeholders requiresto turn these data into knowledge, as theknowledge is the end product of a data-drivendiscovery.First,wefocusonthekey“dimensions”thatmake
dealingwithBigDatachallenging
The4V’sBigDatamodel
3
LesfidedeiDaK
• DataAvailabilityqualeèillivellodidisponibilitàdeidaK?SonodisponibiliatuP?
• DataQuality–quantosono“buoni”idaK(rilevanKeconsistenK)?Qualeèillivellodicopertura?QuantosonoaggiornaK?
• Datadiscoveryèunagrandesfida(cometroviamoaltaqualitàdidaKdallavastacollezionedidaKchesitrovanonelweb?)
• CombiningmulKpledatasets
LesfidedeiDaK• CompletezzadeiDaA,cisonoareesenzacopertura?Qualeè
l’implicazione?• IdenAficazionediinformazionipersonali
molteinformazioniriguardanoinformazionipersonali,possiamoestrarresufficienKinformazionipereffeWuareanalisiasupportodellepersone,senzacompromeWerelaprivacy?Inparte,questoèunproblemadelleaziendeedelleisKtuzionipubbliche.
Questorichiedediriconsiderarechecosasignificarealmentela
privacy.
Processchallenges
• LesfidedelprocessodigesKonedeiBigDataincludono:– L’acquisizionedeidaK– L’allineamentodeidaKderivanKdadiversesorgenK(es.quandodueoggePsonoglistessiindifferenKDB)
– TrasformazionedeidaKinunaformaadaWaall’analisi– DefinizioneesceltadiModellidianalisi– Capirel’output,condivisioneevisualizzazionedirisultaK
ManagementChallenges
• DataPrivacy,Security,andGovernance– AssicurarsicheidaKsianousaKcorreWamente(rispeWodegliuKlizziprevisKedellenormaKve)
– GesKonedeltrakingdeidaKuKlizzaK,trasformaKeraccolKecc.
– EgesKonedellorociclodivita
BigDataopportunità,valoreecriKcità
BigDataAnalyKcs
“IntheoldworldofdataanalysisyouknewexactlywhichquesKonsyouwantedtoasked,whichdroveaverypredictablecollecKonandstoragemodel.In the new world of data analysis your quesKonsare going to evolve and change over Kme and assuch you need to be able to collect, store andanalyze data without being constrained byresources”.WernerVogels,CTO,Amazon.com
BigDataL’evoluzionedeidaA
patrimoniostaKcoincuiilloroscopofinisceconlarealizzazionedelloscopopercuisonostaKraccolK(essurveyconanalisicampionaria);
UKlizzodidaKlimitaK
DaKraccolKcon
domandepredefinite
difficoltàdiraccolta,
organizzazione,eanalisi
Organizzazione
dell’informazionealminimoperanalizzarlepiùfacilmente
Difficoltà(>%dierrore)diincludere
soWocategorie
BigDataL’evoluzionedeidaA
• Inalcunicasinonsipuòfareamenodelcampionamento.• Inmol'campièperòina0ounprocessoevolu'vo:
DallaraccoltadiALCUNIdaK
All’accumulodelMAGGIORNUMERO
POSSIBILE
SepossibiledituP:N=tu9
GOOGLEFLUTRENDSusamiliardidiqueriesconsentendodiprevedereladiffusionedelvirusdell’influenzaalivellodiPaese,specificostato,ciWà.N=tu8,nonsignificanecessariamenteenormiquan'tàdida'.BigDatapuòessereintesocome“interoset”enon,campionamento.Ciòsignificaesserepiùliberidiesplorareodistudiarepiùapprofonditamentealcuniaspe8.
Sovraccaricodiinformazioni
• Nel2013laquanKtàdiinformazioniimmagazzinatenelmondoèstatasKmatain1200Exabyte*(menodel2%deiqualiinformanondigitale).(studiodiM.Hilbert-UniversityofsouthernCalifornia)
Cosasignifica?• Sefosseroracchiusiinlibricartaceicoprirebberol’interasuperficiedegliUSA52volte;
• SeraccolKinCd-Romemessil’unosull’altroarriverebberoallalunain5pileseparate;
QuesAcambiamenAdisorientanotuF!*Exabyte=unmiliardodigigabyte
SfruWamentodeiBigData
• Insegnareaduncomputerapensarecomegliesseriumani?No!
• ApplicazionedellamatemaKcaadenormiquanKtàdidaKperdesumeredelleprobabilità:– Laprobabilitàcheunaemailsiaspam;– Chelele@eredigitatetehsianol’inversionedithe;
• Crearesistemichefunzionanobeneperchéalimenta'daenormiquan'tàdida'sucuibasareleproprieprevisioni;costrui'per:– Automigliorarsi(Googleèingradodiselezionareilsitopiùper'nente;linkedindiindovinarechiconosciamo)
SfruWamentodeiBigData
Cosìcomeinternethacambiatoradicalmenteilmondoaggiungendolacapacitàdi
comunicazioneaicomputer,iBIGDATAmodificherannoaspePfondamentalidellavitadandoleunadimensionequanKtaKvachenon
hamaiavutoprima(Shonberger–Cukier2012)
Bigdataeanalisidelleinformazioni• EsaIezza-precisionevsimprecisione-tendenza;causalitàvscorrelazione.– DastrumenKfondaKsull’esaWezza:misurarenelmodopiùprecisopossibileciòchevogliamoquanKficare(es.motoridiricercafinalizzaKarecuperareconprecisioneirecordcorrispondenKesaWamenteallensquery);
– AstrumenKfondaKsu“cogliereunatendenza”:rinunciaadunpòdiesaWezza;ciòcheperdiamoalivellomicrolorecuperiamoincomprensionealivellomacro;
– AbbandonodellatendenzaaricercarelacausalitàperscoprireneidaKcorrelazionicheoffronoindicazionioriginaliepreziose.(nonsempreserveconoscerelacausadiunfenomenosipuòlasciarecheidaKparlinodase).
Processodellinguaggionaturaleetraduzionelinguis'ca–unesempio
• Anni2000:M.BankoeE.BrilldiMicrososvolevanomigliorareilcorreWoreortografico;– MigliorarealgoritmiesistenK?Trovarenuovetecniche?
• AlgoritmidiapprendimentoeranofondaKsuraccolteditestoconalmax1milionediparole;
– Su4algoritmisonostaKinseriKaltridaK:setdi10mildiparole,poidi100mileinfinedi1miliardo;
• RisultaKsbalordiKvi:• L’algoritmopeggiorecon½mildiparoleerailmigliorecon1miliardodiparole;
• Tassodiaccuratezzaèsalitodal75al95%• Considerazionideiricercatori:riconsiderareilrapportotrainves'renellosviluppodeglialgoritmieinves'renellaraccoltadites'
Processodellinguaggionaturaleetraduzionelinguis'ca–unesempio
• Pochianni(2006)dopoiricercatoridiGooglehannoportatoavanKlostessoragionamento:– Invecedi1miliardodiparolenehannouKlizzateuntrilione(10alla18);– ObiePvoerasviluppareunsistemaperlatraduzioneautomaKca(insegnare
regoleeeccezioni…elevatacomplessità;– GoogleavevaadisposizioneundatasetmoltovastoecaoKco:larete;(miliardi
dipagineditraduzioni…95miliardidifrasiininglese–anchesedidubbiaqualità)
• RisultaK:– TraduzionimiglioririspeWoadaltri(ancheseimperfeWe);– Ametàdel2012ildatasetcopriva60lingue;– AcceWainputvocalidaoltre14lingue;
“Modellisemplicichecheimpieganoungrannumerodida'sirivelanopiùu'lirispe0oamodellipiùsofis'ca'cheimpieganomenoda'”(PeterNorvig)
Bigdataeanalisidelleinformazioni
• PrimadeiBigDataleanalisisilimitavanoatestareunristreWonumerodiipotesidefinitespessoprimadiraccogliereidaK;
• QuandolasciamoparlareidaKemergonocollegamenKdicuinonavevamomaisospeWatol’esistenza;– alcunifondispeculaKviconsultanotwiWerperprevedereleperformancedelmercatoazionario;
– AmazoneNezlixbasanoipropriconsiglidiacquistosuunamiriadediinterazionitragliutenKdeirispePvisiK;
– TwiWer,LinkedIneFacebookinsiememappanoil“graficosociale”dellerelazionitrautenKpercapirelepreferenze
Bigdataeanalisidelleinformazioni• GliesseriumanianalizzanodaKdamillenni:
– IgovernihannodamillennifaWocensimenKperraccoglieregrandiquanKtàdidaKsullapopolazione
• Nell’eraanalogicaraccogliereeanalizzaredaKeracostosoerichiedevamoltotempo.
• L’eradelladigitalizzazioneharesopiùefficienteilprocessodiraccolta,diarchiviazioneedanalisi(daanniapochigiornioore–paradigma:datasetconfinalitàspecifichecuisilegaillorovalore);
• Nell’eradeiBigDataicambiamenKsonocaraWerizzabiliconladaCzzazione;paradigma:prendereinformazionieconver'rleinunastru0urachelequan'fichi.
Bigdataeanalisidelleinformazioni
DaCzzazione• CercareindicazionichesipossonoestrarredaidaK…illorovaloreintrinseco,nascosto,nonancoraportatoallaluce
L’obiePvodellacompeKzioneinaWoèscoprirloecaWurarloperintero
CausalitàvsCorrelazione
BigDataenaturadelbusiness
Valoredelbusiness• InfrastruWurefisiche(terreni,fabbricaK);• ElemenKintangibili(brand,proprietàintelleWuale);
• EstensionedelladematerializzazionevsiDATI
IDATIcomeassetaziendalediprimariaimportanza…carburantedell’economiadell’informazione
L’effeWodeiBigDatasullaprofessionalità
QualeèilvaloredellacompetenzaspecificainunmondochemeWeinprimopianola
probabilitàelacorrelazione?Glispecialis'nonsparirannomadovrannocompetereconquellochedicel’analisideibigdata;
Implicazionisu:ideedimanagement,sulprocessodecisionale,sullagesKonedellerisorseumane,….
IllatooscurodeiBIGDATA
Abbiamoaccumulatomillennidiesperienzanellostudiodelcomportamentoumano.
Comesifaaregolamentareunalgoritmo?Dallanascitadell’informaKca->azionieregoleperlatuteladellaprivacy;Conibigdataquelleregolesono“sostanzialmente”
inuKli…lepersonecondividonovolenKerileinformazionionline(caraWerisKcacentraledeiservizi,nonunavulnerabilitàdaprevenire);
IllatooscurodeiBIGDATA
Qualepericolocorriamo?• Dallaprivacyallaprobabilità:– GliAlgoritmiprevederannolaprobabilità:
• disubireunaWaccodicuore(cicostringerannoapagareunpremioassicuraKvopiùalto);• Dinonriuscireapagareilmutuodellacasa(indurrannolebancheanegarciilfinanziamento);• DicommeWereuncrimine(facendocimagariarrestareprevenKvamente)
IllatooscurodeiBIGDATA
• Qualeèilruolodellalibertà,dellavolontàinrapportoalladiWaturadeidaK?
• Cheruolorimaneall’intuito,allafede,all’incertezza,all’agireincontraddizioneconil
datoempiricoeall’apprendimentodall’esperienza?
• Conilpassaggiodallacausalitàallacorrelazione,comepossiamoavanzarepragmaKcamentesenzaintaccarelebasistessedellasocietà,deirapporKumaniedelprogressofondatosullaragione?