Upload
ocean-lambert
View
24
Download
0
Embed Size (px)
DESCRIPTION
NLP in pratica. Cristina Bosco Informatica applicata alla comunicazione multimediale 2013-2014. SYSTRAN. La compagnia SYSTRAN, fondata nel 1968, è una delle più antiche attive nel settore della MT. - PowerPoint PPT Presentation
Citation preview
NLP in praticaCristina Bosco
Informatica applicata alla comunicazione multimediale
2013-2014
SYSTRAN
La compagnia SYSTRAN, fondata nel 1968, è una delle più antiche attive nel settore della MT.
Il creatore di SYSTRAN è Peter Toma, attivo fin
dai primi anni ’50 e tra i partecipanti dell’esperimento di Georgetown.
SYSTRAN
Toma lascia nel 1962 l’università per trasferirsi in Germania dove lavora ai primi prototipi di MT russo-inglese e russo-tedesco.
Tornato negli USA, continua lo sviluppo di SYSTRAN che diventa il sistema usato dall’esercito e dalla NASA.
Negli anni seguenti viene sviluppata la MT per inglese-francese che viene venduta alla Comunità Europea.
SYSTRAN
SYSTRAN segue un approccio di traduzione diretta basato su regole fino al 2007, quando passa ad un approccio ibrido in cui regole e apprendimento statistico si integrano.
SYSTRAN
SYSTRAN è alla base di alcuni noti sistemi di traduzione online, come SystraNET
www.systranet.com/
ma anche Yahoo, Babel fish e Google (fino al 2007).
BING
Bing è il sistema di MT dell’ambiente Microsoft
http://www.bing.com/translator/help/#Home
http://www.bing.com/translator/
BING
Sistemi di traduzione su telefonibasati su Bing
http://www.bing.com/translator/phone/
Google translate
http://en.wikipedia.org/wiki/Google_Translate
Confronto di sistemi di MT
http://en.wikipedia.org/wiki/Comparison_of_machine_translation_applications
Corpora for MT
http://ipsc.jrc.ec.europa.eu/index.php?id=198
http://catalog.elra.info/
https://www.ldc.upenn.edu/
Dizionari
Google dictionaryhttp://google-dictionary.so8848.com/
Anche basati su ontologie, WordNet dictionaryhttp://wordnet-online.freedicts.com/
Ontologie
WordNet:http://en.wikipedia.org/wiki/WordNet
MultiWordNet:http://multiwordnet.fbk.eu/english/home.phphttp://multiwordnet.fbk.eu/online/
multiwordnet.phphttp://wndomains.fbk.eu/wnaffect.html
Licenze per dati linguistici
http://creativecommons.org/
Enti che rilasciano risorse:European Language Resource Association http
://catalog.elra.info/Linguistic Data Consortium (negli USA)https://www.ldc.upenn.edu/
Licenze per dati linguistici
Per molti dati la licenza è un problema … ad es. i dati dei social media.
Non si possono pubblicare i Tweet di Twitter, ma solo un riferimento al loro identidicativo.
Es. Twitter
Es. Twitter
Valutazione e Italiano
Campagna di valutazione per il NLP della lingua italiana
http://www.evalita.it/