Upload
lamminh
View
215
Download
0
Embed Size (px)
Citation preview
Data Mining
What to be processed?
M. Brescia - Data Mining - lezione 7 2
I dati scientifici odierni possono essere suddivisi nelle seguenti categorie:
• Datacube o classi di array: blocchi multi-dimensionali di dati, sottoforma di serie temporali, spettrimonodimensionali, immagini, spettri nel dominio del tempo o della frequenza (bidimensionali); datasetcomposti da voxel (virtual observation pixels), immagini iper-spettrali in 3D;
• Record o tabelle di eventi: anche noti come dati multi-parametro. Questi dataset possono provenire dasingoli strumenti (ad esempio accelleratori di particelle) o derivare da suddivisioni di datacube;
• Sequenze simboliche: lo spazio dei parametri (ossia il luogo dei punti che identificano la rappresentazionedi uno specifico problema scientifico) può essere rappresentato mediante ontologie atte ad identificarnedeterminate caratteristiche peculiari. Ad esempio nomi, etichette che identificano univocamente una o piùcaratteristiche note o ipotizzate dei dati a disposizione.
FITS
M. Brescia - Data Mining - lezione 7 3
FITS Flexible Image Transport System è un formato usato per memorizzare, trasmettere e manipolareimmagini scientifiche ad alta risoluzione. FITS è il formato più usato in astronomia, progettato proprioper dati scientifici, contenente quindi un header con molte informazioni relative alla calibrazionefotometrica e spaziale, insieme a vari metadati che riportano dettagli astrometrici, condizioni di seeing eatmosferiche, strumento usato etc...
FITS HEADER TABLE (METADATA)
BITPIX= 32 / number of bits per data pixelNAXIS= 3 / number of data axesNAXIS1= 200 / length of data axis 1NAXIS2= 200 / length of data axis 2NAXIS3= 4 / length of data axis 3OPSIZE= 2112 / PSIZE of original imageORIGIN= 'STScI-STSDAS’ / Fitsio ver Feb-1996FITSDATE= '2004-01-09’ / Date FITS createdFILENAME= 'u5780205r_cvt.c0h' / Original filenameCTYPE1 = 'RA---TAN'CTYPE2 = 'DEC--TAN‘BADPIXEL= 0TELESCOP= 'HST‘ / telescope used to acquire dataINSTRUME= 'WFPC2 ‘ / identifier for instrument used IMAGETYP= 'EXT' /DARK/BIAS/IFLAT/UFLAT/VFLAT/EXTRA_SUN = 3.337194516616E+02 / RA of the sun (deg)DEC_SUN = -1.086675160382E+01 / DEC of the sun (deg)
FITS IMAGE
http://fits.gsfc.nasa.gov/
CSV
M. Brescia - Data Mining - lezione 7 4
CSV comma-separated values (abbreviato in CSV) è un formato di file basato su file di testo utilizzato perl'importazione ed esportazione (ad esempio da fogli elettronici o database) di una tabella di dati. Nonesiste uno standard formale che lo definisca, ma solo alcune prassi più o meno consolidate. In questoformato, ogni riga della tabella (o record della base dati) è normalmente rappresentata da una linea ditesto, che a sua volta è divisa in campi (le singole colonne) separati da un apposito carattere separatore,ciascuno dei quali rappresenta un valore
OPERA,AUTORE,CASA EDITRICE I Robot e l'Impero,Isaac Asimov,Mondadori Il lungo meriggio della Terra,Brian W. Aldiss,Minotauro "Absolute OpenBSD ""2d Edition""",Michael W. Lucas,No Starch Press I mercanti dello spazio,"Frederik Pohl, C. M. Kornbluth",Mondadori
http://tools.ietf.org/html/rfc4180
MAG_ISO,MAG_APER1,MAG_APER2,MAG_APER3,KRON_RADIUS,ELLIPTICITY,FWHM_IMAGE,mu0,calr_c,calr_h,calr_t,target24.4753,26.7468,24.3789,0.0205,3.72,0.067,4.12,16.25,-0.1139,1.822,51.29,026.3361,29.8375,25.6474,0.0846,6.53,0.423,17.15,-1000.0,-1000.0,-1000.0,-1000.0,024.2342,26.5263,24.1632,0.0196,3.5,0.027,4.01,16.61,0.1321,1.856,35.38,023.1554,25.5964,23.1654,0.016,3.5,0.032,4.09,14.47,-0.3295,2.638,129.2,122.6316,25.3519,22.6808,0.0151,3.5,0.039,4.69,16.33,0.8065,5.002,80.45,124.1556,28.5664,24.2824,0.0372,4.62,0.134,17.83,-1000.0,-1000.0,-1000.0,-1000.0,022.4708,24.4951,22.4699,0.0216,3.5,0.066,3.45,12.81,-0.3912,-7.425,5.66,0
ASCII
M. Brescia - Data Mining - lezione 7 5
http://cloford.com/resources/charcodes/symbols.htm
ASCII è l'acronimo di American Standard Code for Information Interchange (ovvero Codice StandardAmericano per lo Scambio di Informazioni), pronunciato in inglese askey, mentre in italiano ècomunemente pronunciato asci.
È un sistema di codifica dei caratteri a 7 bit comunemente utilizzato nei calcolatori, proposto nel 1961, esuccessivamente accettato come standard dall'ISO (ISO 646). Per non confonderlo con le estensioni a 8bit proposte successivamente, questo codice viene talvolta riferito come US-ASCII.
Alla specifica iniziale basata su codici di 7 bit fecero seguito negli anni molte proposte di estensione ad 8bit, con lo scopo di raddoppiare il numero di caratteri rappresentabili. Nei PC IBM si fa per l'appunto usodi una di queste estensioni, ormai standard di fatto, chiamata extended ASCII o high ASCII. In questoASCII esteso, i caratteri aggiunti sono vocali accentate, simboli semigrafici e altri simboli di uso menocomune.
I primi 32 caratteri della tabella ASCII nonsono stampabili e sono riferiti a caratterispeciali
Metadata - XML
M. Brescia - Data Mining - lezione 7 6
Un documento XML è un file che contiene del codice in un linguaggio basato su XML.In altre parole, un documento XML contiene una serie di tag, attributi e contenuto testuale secondo leregole sintattiche di questo meta-linguaggio. Ad esempio un file di testo con il seguente contenuto è unesempio di documento XML che rappresenta la struttura di un libro:
<? xml version="1.0" ?><libro titolo="Corso di XML"><capitolo titolo="Le regole di XML"><testo>Un documento XML è un documento di testo... </testo></capitolo><capitolo titolo="Schemi XML"><testo>Un documento XML è valido se ...</testo></capitolo></libro>
Un metadato (dal greco meta- "oltre, dopo" e dal latino datum "informazione" - plurale: data), letteralmente"dato su un (altro) dato", è l'informazione che descrive un insieme di dati. Un esempio tipico di metadati ècostituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e laposizione di un libro, senza riportarne tutto il contenuto. Uno dei più comuni linguaggi basati su metadati èXML (eXtensible Markup Language)
Corso di XML
Le regole di XML
Un documento XML è un documento di testo…
Schemi XML
Un documento XML è valido se …
VOTABLE
M. Brescia - Data Mining - lezione 7 7
VOTABLE è il formato standard XML stabilito dalla comunità del VO (Virtual Observatory) perl’interscambio dei dati.
Perchè derivarlo da XML?
• include in un singolo documento i dati ed i metadati (dati descrittivi) loro associati
• è uno standard molto diffuso
• Può essere interpretato − parser
• Può essere visualizzato (XSL)
• Può essere incapsulato in messaggi
Obiettivi:
• Necessità di scambiare dati in forma tabulare provenienti da vari data servers e archivi
• Standard contenente i metadati associati interpretabili dalle applicazioni
• Standard Flessibile (Table di imagini o URL links)
• Interfacciamento con i dati in formato FITS
VOTABLE
M. Brescia - Data Mining - lezione 7 8
Una VOTable contiene dei campi detti RESOURCE
• RESOURCE può contenere:
• TABLE
• RESOURCE
• etc etc
Ad Esempio
• Molte osservazioni in un file,
• ognuna è un RESOURCE
• Ogni osservazione è composta da:
• Parametri
• Tabelle di calibrazione
• Tabelle di raw data
VOTable = Gerarchia di Metadata + Tables
Metadata = Parameters + Infos + Descriptions +Links + Fields
Table = lista di Fields + Data
Data = stream di Row
Row = lista di Cell
Cell = Primitive
o lista di lunghezza variabile di Primitive
o array multidimensionali di Primitives
Primitive = integer, character, float, floatComplex, etc
<RESOURCE><PARAM …/> …<TABLE><FIELD…/>…<DATA>
<TABLEDATA><TR> <TD>… </TR>…
</TABLEDATA><FITS extnum="n ">
<STREAM …></FITS>
<BINARY>
<STREAM …>
</BINARY>
</DATA>
</TABLE>
</RESOURCE>
Field UCD of VOTABLE: an ontology
M. Brescia - Data Mining - lezione 7 9
UCD (Unified Content Descriptor): campo per fornire in modo standard una descrizione circa il contenuto di un certo attributo di una tabella dati.
• Le UCD sono tipi semantici. Categorizzano i parametri presenti nella table
• Interpretazione dei contenuti della table• Forniscono una comparazione di valori• Data mining• Possono essere risolti (interpretati) da web service
<?xml version="1.0"?>
<VOTABLE version="1.1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="http://www.ivoa.net/xml/VOTable/VOTable/v1.1">
<RESOURCE name="myFavouriteGalaxies">
<DESCRIPTION>Velocities and Distance estimations</DESCRIPTION>
<PARAM name="Telescope" datatype="float" ucd="phys.size;instr.tel" unit="m” value="3.6"/>
<FIELD name="RA" ID="col1" ucd="pos.eq.ra;meta.main" ref="J2000" datatype="float" width="6" precision="2" unit="deg"/>
<FIELD name="Dec" ID="col2" ucd=" "pos.eq.dec;meta.main" ref="J2000" datatype="float" width="6" precision="2" unit="deg"/>
<FIELD name="R" ID="col6" ucd="phys.distance" datatype="float" width="4" precision="1" unit="Mpc">
<DESCRIPTION>Distance of Galaxy, assuming H=75km/s/Mpc</DESCRIPTION></FIELD>
Web and SOA
M. Brescia - Data Mining - lezione 7 10
Allo stato attuale della tecnologia informatica, esistono due grandi risorse nel campo della ComputerScience: Il web e le architetture orientate ai servizi.
Il primo è una forma di scambio di comunicazione ad alto impatto sociale ed economico
Le architetture orientate ai servizi, “service oriented architecture” (SOA), garantiscono una grande flessibilitàperché è possibile modificare dinamicamente una parte di esse senza ridefinire l’intero sistema.
I Web Service forniscono un punto di raccordo tra queste due tecnologie
"Un servizio web è un'interfaccia che descrive una collezione di operazioni, accessibili attraverso una retemediante messaggistica XML".
offre un'interfaccia software tramite la quale altri sistemi possono interagire con il Web Service stesso.L'interfaccia descrive le operazioni alle quali si accede tramite appositi messaggi trasportati tramite ilprotocollo HTTP e formattati secondo lo standard XML.
Web Application
M. Brescia - Data Mining - lezione 7 11
Web Application
Una Webapp è una qualsiasi applicazione che siaaccessibile via web tramite un browser.
Le Applicazioni Web usano una combinazione discript lato server per l’elaborazione, l’archiviazionee il recupero delle informazioni e script lato clientper la visualizzazione delle informazioni e losviluppo dell’interfaccia grafica dell'applicazione .
VantaggiSono facilmente raggiungibili, basta un collegamento adinternet.Non necessitano di installazione, usano un comunissimobrowser come interfaccia.Sono cross-platform, non importa che sistema operativousiate (es. Linux o Mac OS)
Java Web Application Request Handling
Examples of web application
M. Brescia - Data Mining - lezione 7 12
Esempi di Web Application
Le applicazioni web-based oggi concorrono ad implementare, in tutto o in parte, quelle soluzioni software che fino a poco tempo fa erano esclusiva dei sistemi desktop. Si va dall’elaborazione di testi al fotoritocco, dal video editing al calcolo scientifico.
Esempi delle più comuni webapp:
Gmail o Horde, gestori di posta elettronica.Picnik, per il fotoritocco.Zoho e Google Document, per il word processing.WolframAlfa, versione web di Mathematica (come Matlab).Google earth, Google Sky, Celestia o WorldWide Telescope, osservatori virtuali.
web application engineering
M. Brescia - Data Mining - lezione 7 13
LAR (Layered Application Architecture) strategy,which foresees a software system based on alayered logical structure, where different layerscommunicate with each other with simple andwell-defined rules
Data Access Layer (DAL): the persistent data management layer, responsible of the dataarchiving system, including consistency and reliability maintenance;Business Logic Layer (BLL): the core of the system, responsible of the management of allservices and applications implemented in the infrastructure, including information flowcontrol and supervision;User Interface (UI): responsible of the interaction mechanisms between the BLL and users,including data and command I/O and views rendering.
A direct evolution of such tools is the Rich Internet Application (RIA), consisting inapplications having traditional interaction and interface features of computer programs butusable via simple web browsers, i.e. not needing any installation on user local desktop. RIAsare particularly efficient in terms of interaction and execution speed. That is because theremote processing part of the application related with the user-machine interaction istransferred to the client level and provides a quick reaction to user commands
Example of web application: DAMEWARE
M. Brescia - Data Mining - lezione 7 14
ModularityStandardizationHW virtualizationInteroperabilityLanguage-independent ProgrammingExpandabilityAsynchronous interactionDistributed computing
Example of web application: DAMEWARE
M. Brescia - Data Mining - lezione 7 15
ModularityStandardizationHW virtualizationInteroperabilityLanguage-independent ProgrammingExpandabilityAsynchronous interactionDistributed computing
Example of web application: DAMEWARE
16
Organized under working sessions (workspaces) that theuser can create, modify and erase. The user can create asmany workspaces as desired. Each workspace isenveloping a list of data files and experiments, the latterdefined by the combination between a functionality domainand a series (one at least) of data mining models.
M. Brescia - Data Mining - lezione 7
Web Services
M. Brescia - Data Mining - lezione 7 17
Web Service
<<..un sistema software progettato per supportarel’interazione macchina-macchina in una rete. È dotato diun'interfaccia descritta in un formato processabile (WSDL oWeb Service Definition Language). Altri sistemi interagisconocon il web service tramite messaggi SOAP, trasmessiutilizzando il protocollo HTTP e un XML in collaborazione conaltri web-standard connessi>>
Spesso sono semplicemente delle InternetApplication Programming Interfaces (API) chepossono essere lette in una rete, ed eseguite su unsistema remoto che ospita i servizi richiesti.
Un Web Service deve avere un design più organizzatodi una webapp, perché non ci sarà necessariamenteun essere umano dall'altro capo che può interpretareattraverso dei tentativi gli errori.
Il processo di “Engaging” di un servizio Web
Web Services – pro & con
M. Brescia - Data Mining - lezione 7 18
Web Service
Vantaggi
• Permettono l'interoperabilità tra diverse applicazioni software sudiverse piattaforme hardware.• I protocolli ed il formato dei dati sono in formato testuale, cosache li rende di più facile lettura ed utilizzo da parte deglisviluppatori.• Possono essere facilmente utilizzati in combinazione l'uno conl’altro per formare servizi integrati.• Consentono il riutilizzo di infrastrutture ed applicazioni giàsviluppate e sono indipendenti da eventuali modifiche delle stesse.
Svantaggi
• Non esistono standard consolidati per applicazioni critiche quali,le transazioni distribuite.• L'uso dell’ HTTP permette potenzialmente ai Web Service diviolare le misure di sicurezza dei firewall (oooops!!!).
Data Format handling
M. Brescia - Data Mining - lezione 7 19
STILTS (STIL Tool Set) è un programma a linea di comando per processare datitabulari. Progettata per archivi astronomici, contiene tools per gestire dati in variformati (cross-matching, conversione, validazione, manipolazione di tabelle, selezione,estrazione, calcoli statistici e graficazione di metadati.Il pacchetto (freeware) è scritto in Java (platform-invariant) ed è basato su una libreria(STIL, Starlink Tables Infrastructure Library). Fornisce portabilità e supporto per variformati di dati, processati in modalità streaming, per cui non ha limitazioni sulladimensione dei dati.
http://www.star.bris.ac.uk/~mbt/stilts/
Workflow
M. Brescia - Data Mining - lezione 7 20
Un workflow (o flusso di lavoro) è:
•Un’astrazione per rappresentare un lavoro reale descrivendolo, ad esempio, con una sequenza finita affidabile e ripetibile di passi (algoritmo).
•Costituito da una sequenza di passi collegati che possono rappresentare una sequenza di
operazioni per definire la struttura del lavoro e la complessità dei meccanismi interni.
•Un modello di attività in grado di definire un processo di lavoro documentabile e automatizzabile, una volta fissati l’organizzazione delle risorse, la definizione dei ruoli ed il flusso di informazioni.
Un workflow in ambito astrofisico è spesso denominato pipeline
Workflow components
M. Brescia - Data Mining - lezione 7 21
I processi possono essere collegati tra loro a patto che l’uscita del precedente sia compatibile con l’ingresso del successivo (Interfaccia Input/Output tra processi).
È importante quindi definire per i dati, sia di ingresso che di uscita, delle regole univoche e non ambigue che li definiscano (Standard). Ciò ci permette di scegliere un componente indipendente dal “come” svolga il suo compito ed interessandoci solo di “cosa” deve fare.
Un esempio di workflow creato con KNIME (www.knime.org)
Modern Computing Architecture
M. Brescia - Data Mining - lezione 7 22
Con il passare degli anni la complessità dei problemi da risolvere e delle simulazioniscientifiche sono aumentate di pari passo con la potenza di calcolo a disposizione. Questarincorsa ha portato alla necessità di una gestione delle risorse hardware più intelligente ed havisto nascere nuove architetture per il calcolo ad alte prestazioni.
Le principali architetture sono:
HPC Cloud Computing Grid Computing
Cloud Computing
M. Brescia - Data Mining - lezione 1 23
Cloud Computing
È il paradigma orientato ai servizi nel quale i dettagli sono astratti e gli utenti non hanno bisogno di una conoscenza o una competenza dell'infrastruttura sottostante. Esso prevede tre attori distinti: fornitore di servizi, cliente amministratore e cliente finale.
Cloud Computing
M. Brescia - Data Mining - lezione 1 24
Cloud Computing
Una caratteristica del Cloud Computing è di renderedisponibili le risorse come se fossero implementate dasistemi "standard". L'implementazione effettiva dellerisorse non è definita in modo dettagliato poichèl’architettura è Service Oriented.L'idea è che l'implementazione sia un insieme eterogeneodi risorse, le cui caratteristiche non siano noteall'utilizzatore.
Il termine cloud computing si differenzia da grid computing,che è un paradigma per il calcolo distribuito orientato allerisorse (Resource Oriented), poichè quest’ultimo richiedeche le applicazioni siano progettate in modo specifico.
High Performance Computing
M. Brescia - Data Mining - lezione 7 25
http://www.top500.org/
HPC in the CloudGrid HPC Etc…
High Performance Computing
M. Brescia - Data Mining - lezione 7 26
Gordon E. Moore (co-fondatore della Intel) predisse (Electronics, Vol 38, Number 8, 1965) che la densità deitransistor di un chip a semiconduttore sarebbe raddoppiata circa ogni 18 mesi.
Oggi abbiamo raggiunto il limite fisicodella legge di Moore. Ecco perchè si èpassati direttamente alle farm conarchitetture parallele multi-core e multi-processore
Certainly Moore’s law will allow the creation of parallel computing capabilities on single chips by packing multiple CPU cores onto it, but the clock speed that determines the
speed of computation is constrained to remain limited by a thermal wallJim Gray
Reached the Computing limit?
M. Brescia - Data Mining - lezione 7 27
Nel frattempo, in molte scienze (fra cui Astrofisica) l’ammontare dei dati cresce ben oltre la legge di Moore,poichè la tecnologia specifica evolve più rapidamente ed anche perchè i costi di storage diminuiscono piùdella legge di Moore.
BIG DATA – The frontier
M. Brescia - Data Mining - lezione 7 28
The answer: C) Yottabyte.A Yottabyteis the equivalent of ~250trillion DVDs worth of information,90% of which was generated in onlythe last 2 years. In the future, we willlikely see the amount of available datadouble every 2 years.
In what units do we express the size of the world’s information today? A) Megabyte (10^6)B) Petabyte (10^15)C) Yottabyte(10^24)
The amount of data growth today is outstanding. Every 60 seconds:
•98,000 tweets are created on Twitter
•695,000 status updates are generated on Facebook
•11 million instant messages are sent
•698,445 Google searches are conducted
•168 million emails are sent
•1,820 TB of data is created
•217 new mobile web users added
References
M. Brescia - Data Mining - lezione 7 29
Moore, G. E., 1965. Electronics, Vol 38, Number 8
Taylor, I.J.; Deelman, E.; Gannon, D. B.; Shields, 2007. Workflows for e-Science: Scientific Workflows for Grids. London: Springer
Shadbolt, N.; Hall, W.; Berners-Lee, T., 2006. The Semantic Web Revisited, IEEE Intelligent Systems, vol. 21, no. 3, pp. 96–101
Samet, H., 2006, Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann, San Francisco, USA. ISBN 0123694469
Sadashiv, N.; Dilip Kumar, S.M.; Cluster, Grid and Cloud Computing: A Detailed Comparison. 2011, Proceedings of The 6th International Conference on Computer Science & Education (ICCSE 2011), August 3-5, SuperStar Virgo, Singapore, pg. 477-482
Repici, J., (2010), How To: The Comma Separated Value (CSV) File Format. 2010, Creativyst Inc., http://www.creativyst.com/Doc/Articles/CSV/CSV01.htm
Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P., Markov Models and Hidden Markov Modeling. 2007, Numerical Recipes: The Art of Scientific Computing (3rd ed.), Section 16.3, Cambridge University Press, New York NY
Krauter, K.; Buyya, R.; Maheswaran, M.; A Taxonomy and Survey of Grid Resource Management System for Distributed Computing. 2002, Software Practice and Experience, 32(2):135-- 164