brescia DM 7 ICT - dame.dsf.unina.itdame.dsf.unina.it/docmaster/l7/brescia_DM_7_ICT.pdf · • Datacube o classi di array : blocchi multi-dimensionali di dati, sottoforma di serie

Data Mining

What to be processed?

M. Brescia - Data Mining - lezione 7 2

I dati scientifici odierni possono essere suddivisi nelle seguenti categorie:

• Datacube o classi di array: blocchi multi-dimensionali di dati, sottoforma di serie temporali, spettrimonodimensionali, immagini, spettri nel dominio del tempo o della frequenza (bidimensionali); datasetcomposti da voxel (virtual observation pixels), immagini iper-spettrali in 3D;

• Record o tabelle di eventi: anche noti come dati multi-parametro. Questi dataset possono provenire dasingoli strumenti (ad esempio accelleratori di particelle) o derivare da suddivisioni di datacube;

• Sequenze simboliche: lo spazio dei parametri (ossia il luogo dei punti che identificano la rappresentazionedi uno specifico problema scientifico) può essere rappresentato mediante ontologie atte ad identificarnedeterminate caratteristiche peculiari. Ad esempio nomi, etichette che identificano univocamente una o piùcaratteristiche note o ipotizzate dei dati a disposizione.

FITS


FITS Flexible Image Transport System è un formato usato per memorizzare, trasmettere e manipolareimmagini scientifiche ad alta risoluzione. FITS è il formato più usato in astronomia, progettato proprioper dati scientifici, contenente quindi un header con molte informazioni relative alla calibrazionefotometrica e spaziale, insieme a vari metadati che riportano dettagli astrometrici, condizioni di seeing eatmosferiche, strumento usato etc...

FITS HEADER TABLE (METADATA)

BITPIX= 32 / number of bits per data pixelNAXIS= 3 / number of data axesNAXIS1= 200 / length of data axis 1NAXIS2= 200 / length of data axis 2NAXIS3= 4 / length of data axis 3OPSIZE= 2112 / PSIZE of original imageORIGIN= 'STScI-STSDAS’ / Fitsio ver Feb-1996FITSDATE= '2004-01-09’ / Date FITS createdFILENAME= 'u5780205r_cvt.c0h' / Original filenameCTYPE1 = 'RA---TAN'CTYPE2 = 'DEC--TAN‘BADPIXEL= 0TELESCOP= 'HST‘ / telescope used to acquire dataINSTRUME= 'WFPC2 ‘ / identifier for instrument used IMAGETYP= 'EXT' /DARK/BIAS/IFLAT/UFLAT/VFLAT/EXTRA_SUN = 3.337194516616E+02 / RA of the sun (deg)DEC_SUN = -1.086675160382E+01 / DEC of the sun (deg)

FITS IMAGE

http://fits.gsfc.nasa.gov/

CSV


CSV comma-separated values (abbreviato in CSV) è un formato di file basato su file di testo utilizzato perl'importazione ed esportazione (ad esempio da fogli elettronici o database) di una tabella di dati. Nonesiste uno standard formale che lo definisca, ma solo alcune prassi più o meno consolidate. In questoformato, ogni riga della tabella (o record della base dati) è normalmente rappresentata da una linea ditesto, che a sua volta è divisa in campi (le singole colonne) separati da un apposito carattere separatore,ciascuno dei quali rappresenta un valore

OPERA,AUTORE,CASA EDITRICE I Robot e l'Impero,Isaac Asimov,Mondadori Il lungo meriggio della Terra,Brian W. Aldiss,Minotauro "Absolute OpenBSD ""2d Edition""",Michael W. Lucas,No Starch Press I mercanti dello spazio,"Frederik Pohl, C. M. Kornbluth",Mondadori

http://tools.ietf.org/html/rfc4180

MAG_ISO,MAG_APER1,MAG_APER2,MAG_APER3,KRON_RADIUS,ELLIPTICITY,FWHM_IMAGE,mu0,calr_c,calr_h,calr_t,target24.4753,26.7468,24.3789,0.0205,3.72,0.067,4.12,16.25,-0.1139,1.822,51.29,026.3361,29.8375,25.6474,0.0846,6.53,0.423,17.15,-1000.0,-1000.0,-1000.0,-1000.0,024.2342,26.5263,24.1632,0.0196,3.5,0.027,4.01,16.61,0.1321,1.856,35.38,023.1554,25.5964,23.1654,0.016,3.5,0.032,4.09,14.47,-0.3295,2.638,129.2,122.6316,25.3519,22.6808,0.0151,3.5,0.039,4.69,16.33,0.8065,5.002,80.45,124.1556,28.5664,24.2824,0.0372,4.62,0.134,17.83,-1000.0,-1000.0,-1000.0,-1000.0,022.4708,24.4951,22.4699,0.0216,3.5,0.066,3.45,12.81,-0.3912,-7.425,5.66,0

ASCII


http://cloford.com/resources/charcodes/symbols.htm

ASCII è l'acronimo di American Standard Code for Information Interchange (ovvero Codice StandardAmericano per lo Scambio di Informazioni), pronunciato in inglese askey, mentre in italiano ècomunemente pronunciato asci.

È un sistema di codifica dei caratteri a 7 bit comunemente utilizzato nei calcolatori, proposto nel 1961, esuccessivamente accettato come standard dall'ISO (ISO 646). Per non confonderlo con le estensioni a 8bit proposte successivamente, questo codice viene talvolta riferito come US-ASCII.

Alla specifica iniziale basata su codici di 7 bit fecero seguito negli anni molte proposte di estensione ad 8bit, con lo scopo di raddoppiare il numero di caratteri rappresentabili. Nei PC IBM si fa per l'appunto usodi una di queste estensioni, ormai standard di fatto, chiamata extended ASCII o high ASCII. In questoASCII esteso, i caratteri aggiunti sono vocali accentate, simboli semigrafici e altri simboli di uso menocomune.

I primi 32 caratteri della tabella ASCII nonsono stampabili e sono riferiti a caratterispeciali

Metadata - XML


Un documento XML è un file che contiene del codice in un linguaggio basato su XML.In altre parole, un documento XML contiene una serie di tag, attributi e contenuto testuale secondo leregole sintattiche di questo meta-linguaggio. Ad esempio un file di testo con il seguente contenuto è unesempio di documento XML che rappresenta la struttura di un libro:

<? xml version="1.0" ?><libro titolo="Corso di XML"><capitolo titolo="Le regole di XML"><testo>Un documento XML è un documento di testo... </testo></capitolo><capitolo titolo="Schemi XML"><testo>Un documento XML è valido se ...</testo></capitolo></libro>

Un metadato (dal greco meta- "oltre, dopo" e dal latino datum "informazione" - plurale: data), letteralmente"dato su un (altro) dato", è l'informazione che descrive un insieme di dati. Un esempio tipico di metadati ècostituito dalla scheda del catalogo di una biblioteca, la quale contiene informazioni circa il contenuto e laposizione di un libro, senza riportarne tutto il contenuto. Uno dei più comuni linguaggi basati su metadati èXML (eXtensible Markup Language)

Corso di XML

Le regole di XML

Un documento XML è un documento di testo…

Schemi XML

Un documento XML è valido se …

VOTABLE


VOTABLE è il formato standard XML stabilito dalla comunità del VO (Virtual Observatory) perl’interscambio dei dati.

Perchè derivarlo da XML?

• include in un singolo documento i dati ed i metadati (dati descrittivi) loro associati

• è uno standard molto diffuso

• Può essere interpretato − parser

• Può essere visualizzato (XSL)

• Può essere incapsulato in messaggi

Obiettivi:

• Necessità di scambiare dati in forma tabulare provenienti da vari data servers e archivi

• Standard contenente i metadati associati interpretabili dalle applicazioni

• Standard Flessibile (Table di imagini o URL links)

• Interfacciamento con i dati in formato FITS

VOTABLE


Una VOTable contiene dei campi detti RESOURCE

• RESOURCE può contenere:

• TABLE

• RESOURCE

• etc etc

Ad Esempio

• Molte osservazioni in un file,

• ognuna è un RESOURCE

• Ogni osservazione è composta da:

• Parametri

• Tabelle di calibrazione

• Tabelle di raw data

VOTable = Gerarchia di Metadata + Tables

Metadata = Parameters + Infos + Descriptions +Links + Fields

Table = lista di Fields + Data

Data = stream di Row

Row = lista di Cell

Cell = Primitive

o lista di lunghezza variabile di Primitive

o array multidimensionali di Primitives

Primitive = integer, character, float, floatComplex, etc

<RESOURCE><PARAM …/> …<TABLE><FIELD…/>…<DATA>

<TABLEDATA><TR> <TD>… </TR>…

</TABLEDATA><FITS extnum="n ">

<STREAM …></FITS>

<BINARY>

<STREAM …>

</BINARY>

</DATA>

</TABLE>

</RESOURCE>

Field UCD of VOTABLE: an ontology


UCD (Unified Content Descriptor): campo per fornire in modo standard una descrizione circa il contenuto di un certo attributo di una tabella dati.

• Le UCD sono tipi semantici. Categorizzano i parametri presenti nella table

• Interpretazione dei contenuti della table• Forniscono una comparazione di valori• Data mining• Possono essere risolti (interpretati) da web service

<?xml version="1.0"?>

<VOTABLE version="1.1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:noNamespaceSchemaLocation="http://www.ivoa.net/xml/VOTable/VOTable/v1.1">

<RESOURCE name="myFavouriteGalaxies">

<DESCRIPTION>Velocities and Distance estimations</DESCRIPTION>

<PARAM name="Telescope" datatype="float" ucd="phys.size;instr.tel" unit="m” value="3.6"/>

<FIELD name="RA" ID="col1" ucd="pos.eq.ra;meta.main" ref="J2000" datatype="float" width="6" precision="2" unit="deg"/>

<FIELD name="Dec" ID="col2" ucd=" "pos.eq.dec;meta.main" ref="J2000" datatype="float" width="6" precision="2" unit="deg"/>

<FIELD name="R" ID="col6" ucd="phys.distance" datatype="float" width="4" precision="1" unit="Mpc">

<DESCRIPTION>Distance of Galaxy, assuming H=75km/s/Mpc</DESCRIPTION></FIELD>

Web and SOA


Allo stato attuale della tecnologia informatica, esistono due grandi risorse nel campo della ComputerScience: Il web e le architetture orientate ai servizi.

Il primo è una forma di scambio di comunicazione ad alto impatto sociale ed economico

Le architetture orientate ai servizi, “service oriented architecture” (SOA), garantiscono una grande flessibilitàperché è possibile modificare dinamicamente una parte di esse senza ridefinire l’intero sistema.

I Web Service forniscono un punto di raccordo tra queste due tecnologie

"Un servizio web è un'interfaccia che descrive una collezione di operazioni, accessibili attraverso una retemediante messaggistica XML".

offre un'interfaccia software tramite la quale altri sistemi possono interagire con il Web Service stesso.L'interfaccia descrive le operazioni alle quali si accede tramite appositi messaggi trasportati tramite ilprotocollo HTTP e formattati secondo lo standard XML.

Web Application


Web Application

Una Webapp è una qualsiasi applicazione che siaaccessibile via web tramite un browser.

Le Applicazioni Web usano una combinazione discript lato server per l’elaborazione, l’archiviazionee il recupero delle informazioni e script lato clientper la visualizzazione delle informazioni e losviluppo dell’interfaccia grafica dell'applicazione .

VantaggiSono facilmente raggiungibili, basta un collegamento adinternet.Non necessitano di installazione, usano un comunissimobrowser come interfaccia.Sono cross-platform, non importa che sistema operativousiate (es. Linux o Mac OS)

Java Web Application Request Handling

Examples of web application


Esempi di Web Application

Le applicazioni web-based oggi concorrono ad implementare, in tutto o in parte, quelle soluzioni software che fino a poco tempo fa erano esclusiva dei sistemi desktop. Si va dall’elaborazione di testi al fotoritocco, dal video editing al calcolo scientifico.

Esempi delle più comuni webapp:

Gmail o Horde, gestori di posta elettronica.Picnik, per il fotoritocco.Zoho e Google Document, per il word processing.WolframAlfa, versione web di Mathematica (come Matlab).Google earth, Google Sky, Celestia o WorldWide Telescope, osservatori virtuali.

web application engineering


LAR (Layered Application Architecture) strategy,which foresees a software system based on alayered logical structure, where different layerscommunicate with each other with simple andwell-defined rules

Data Access Layer (DAL): the persistent data management layer, responsible of the dataarchiving system, including consistency and reliability maintenance;Business Logic Layer (BLL): the core of the system, responsible of the management of allservices and applications implemented in the infrastructure, including information flowcontrol and supervision;User Interface (UI): responsible of the interaction mechanisms between the BLL and users,including data and command I/O and views rendering.

A direct evolution of such tools is the Rich Internet Application (RIA), consisting inapplications having traditional interaction and interface features of computer programs butusable via simple web browsers, i.e. not needing any installation on user local desktop. RIAsare particularly efficient in terms of interaction and execution speed. That is because theremote processing part of the application related with the user-machine interaction istransferred to the client level and provides a quick reaction to user commands

Example of web application: DAMEWARE


ModularityStandardizationHW virtualizationInteroperabilityLanguage-independent ProgrammingExpandabilityAsynchronous interactionDistributed computing



ModularityStandardizationHW virtualizationInteroperabilityLanguage-independent ProgrammingExpandabilityAsynchronous interactionDistributed computing


16

Organized under working sessions (workspaces) that theuser can create, modify and erase. The user can create asmany workspaces as desired. Each workspace isenveloping a list of data files and experiments, the latterdefined by the combination between a functionality domainand a series (one at least) of data mining models.

M. Brescia - Data Mining - lezione 7

Web Services


Web Service

<<..un sistema software progettato per supportarel’interazione macchina-macchina in una rete. È dotato diun'interfaccia descritta in un formato processabile (WSDL oWeb Service Definition Language). Altri sistemi interagisconocon il web service tramite messaggi SOAP, trasmessiutilizzando il protocollo HTTP e un XML in collaborazione conaltri web-standard connessi>>

Spesso sono semplicemente delle InternetApplication Programming Interfaces (API) chepossono essere lette in una rete, ed eseguite su unsistema remoto che ospita i servizi richiesti.

Un Web Service deve avere un design più organizzatodi una webapp, perché non ci sarà necessariamenteun essere umano dall'altro capo che può interpretareattraverso dei tentativi gli errori.

Il processo di “Engaging” di un servizio Web

Web Services – pro & con


Web Service

Vantaggi

• Permettono l'interoperabilità tra diverse applicazioni software sudiverse piattaforme hardware.• I protocolli ed il formato dei dati sono in formato testuale, cosache li rende di più facile lettura ed utilizzo da parte deglisviluppatori.• Possono essere facilmente utilizzati in combinazione l'uno conl’altro per formare servizi integrati.• Consentono il riutilizzo di infrastrutture ed applicazioni giàsviluppate e sono indipendenti da eventuali modifiche delle stesse.

Svantaggi

• Non esistono standard consolidati per applicazioni critiche quali,le transazioni distribuite.• L'uso dell’ HTTP permette potenzialmente ai Web Service diviolare le misure di sicurezza dei firewall (oooops!!!).

Data Format handling


STILTS (STIL Tool Set) è un programma a linea di comando per processare datitabulari. Progettata per archivi astronomici, contiene tools per gestire dati in variformati (cross-matching, conversione, validazione, manipolazione di tabelle, selezione,estrazione, calcoli statistici e graficazione di metadati.Il pacchetto (freeware) è scritto in Java (platform-invariant) ed è basato su una libreria(STIL, Starlink Tables Infrastructure Library). Fornisce portabilità e supporto per variformati di dati, processati in modalità streaming, per cui non ha limitazioni sulladimensione dei dati.

http://www.star.bris.ac.uk/~mbt/stilts/

Workflow


Un workflow (o flusso di lavoro) è:

•Un’astrazione per rappresentare un lavoro reale descrivendolo, ad esempio, con una sequenza finita affidabile e ripetibile di passi (algoritmo).

•Costituito da una sequenza di passi collegati che possono rappresentare una sequenza di

operazioni per definire la struttura del lavoro e la complessità dei meccanismi interni.

•Un modello di attività in grado di definire un processo di lavoro documentabile e automatizzabile, una volta fissati l’organizzazione delle risorse, la definizione dei ruoli ed il flusso di informazioni.

Un workflow in ambito astrofisico è spesso denominato pipeline

Workflow components


I processi possono essere collegati tra loro a patto che l’uscita del precedente sia compatibile con l’ingresso del successivo (Interfaccia Input/Output tra processi).

È importante quindi definire per i dati, sia di ingresso che di uscita, delle regole univoche e non ambigue che li definiscano (Standard). Ciò ci permette di scegliere un componente indipendente dal “come” svolga il suo compito ed interessandoci solo di “cosa” deve fare.

Un esempio di workflow creato con KNIME (www.knime.org)

Modern Computing Architecture


Con il passare degli anni la complessità dei problemi da risolvere e delle simulazioniscientifiche sono aumentate di pari passo con la potenza di calcolo a disposizione. Questarincorsa ha portato alla necessità di una gestione delle risorse hardware più intelligente ed havisto nascere nuove architetture per il calcolo ad alte prestazioni.

Le principali architetture sono:

HPC Cloud Computing Grid Computing

Cloud Computing


Cloud Computing

È il paradigma orientato ai servizi nel quale i dettagli sono astratti e gli utenti non hanno bisogno di una conoscenza o una competenza dell'infrastruttura sottostante. Esso prevede tre attori distinti: fornitore di servizi, cliente amministratore e cliente finale.

Cloud Computing


Cloud Computing

Una caratteristica del Cloud Computing è di renderedisponibili le risorse come se fossero implementate dasistemi "standard". L'implementazione effettiva dellerisorse non è definita in modo dettagliato poichèl’architettura è Service Oriented.L'idea è che l'implementazione sia un insieme eterogeneodi risorse, le cui caratteristiche non siano noteall'utilizzatore.

Il termine cloud computing si differenzia da grid computing,che è un paradigma per il calcolo distribuito orientato allerisorse (Resource Oriented), poichè quest’ultimo richiedeche le applicazioni siano progettate in modo specifico.

High Performance Computing


http://www.top500.org/

HPC in the CloudGrid HPC Etc…

High Performance Computing


Gordon E. Moore (co-fondatore della Intel) predisse (Electronics, Vol 38, Number 8, 1965) che la densità deitransistor di un chip a semiconduttore sarebbe raddoppiata circa ogni 18 mesi.

Oggi abbiamo raggiunto il limite fisicodella legge di Moore. Ecco perchè si èpassati direttamente alle farm conarchitetture parallele multi-core e multi-processore

Certainly Moore’s law will allow the creation of parallel computing capabilities on single chips by packing multiple CPU cores onto it, but the clock speed that determines the

speed of computation is constrained to remain limited by a thermal wallJim Gray

Reached the Computing limit?


Nel frattempo, in molte scienze (fra cui Astrofisica) l’ammontare dei dati cresce ben oltre la legge di Moore,poichè la tecnologia specifica evolve più rapidamente ed anche perchè i costi di storage diminuiscono piùdella legge di Moore.

BIG DATA – The frontier


The answer: C) Yottabyte.A Yottabyteis the equivalent of ~250trillion DVDs worth of information,90% of which was generated in onlythe last 2 years. In the future, we willlikely see the amount of available datadouble every 2 years.

In what units do we express the size of the world’s information today? A) Megabyte (10^6)B) Petabyte (10^15)C) Yottabyte(10^24)

The amount of data growth today is outstanding. Every 60 seconds:

•98,000 tweets are created on Twitter

•695,000 status updates are generated on Facebook

•11 million instant messages are sent

•698,445 Google searches are conducted

•168 million emails are sent

•1,820 TB of data is created

•217 new mobile web users added

References


Moore, G. E., 1965. Electronics, Vol 38, Number 8

Taylor, I.J.; Deelman, E.; Gannon, D. B.; Shields, 2007. Workflows for e-Science: Scientific Workflows for Grids. London: Springer

Shadbolt, N.; Hall, W.; Berners-Lee, T., 2006. The Semantic Web Revisited, IEEE Intelligent Systems, vol. 21, no. 3, pp. 96–101

Samet, H., 2006, Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann, San Francisco, USA. ISBN 0123694469

Sadashiv, N.; Dilip Kumar, S.M.; Cluster, Grid and Cloud Computing: A Detailed Comparison. 2011, Proceedings of The 6th International Conference on Computer Science & Education (ICCSE 2011), August 3-5, SuperStar Virgo, Singapore, pg. 477-482

Repici, J., (2010), How To: The Comma Separated Value (CSV) File Format. 2010, Creativyst Inc., http://www.creativyst.com/Doc/Articles/CSV/CSV01.htm

Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P., Markov Models and Hidden Markov Modeling. 2007, Numerical Recipes: The Art of Scientific Computing (3rd ed.), Section 16.3, Cambridge University Press, New York NY

Krauter, K.; Buyya, R.; Maheswaran, M.; A Taxonomy and Survey of Grid Resource Management System for Distributed Computing. 2002, Software Practice and Experience, 32(2):135-- 164

Documents

brescia DM 7 ICT - dame.dsf.unina.itdame.dsf.unina.it/docmaster/l7/brescia_DM_7_ICT.pdf · • Datacube o classi di array : blocchi multi-dimensionali di dati, sottoforma di serie