Upload
tola
View
104
Download
0
Embed Size (px)
DESCRIPTION
9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005. Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais. Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan - PowerPoint PPT Presentation
Citation preview
Acmhainní Próiseála Urlabhra don Ghaeilge agus don
BhreatnaisWelsh and Irish Speech Processing Resources
(WISPR)Ailbhe Ní Chasaide
Brian Ó Raghallaigh
John Wogan
Áine Ní Bhriain
Christer Gobl
Coláiste na Tríonóide
9ú Comhdháil do Theangeolaíocta na GaeilgeScoil an Léinn Cheiltigh
Institiúid Ard-Léinn Bhaile Átha Cliath9 Aibreán 2005
Cúlra an Tionscadail
• Interreg IIIA Aontas Eorpach– Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na
hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais
– Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra
• Grúpa Urlabhra na Gaeilge &
• Prifysgol Cymru (The University of Wales Bangor)
Rannpháirtithe
• Prifysgol Cymru/The University of Wales, Bangor– Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin,
Rhys Jones
• Coláiste na Tríonóide, Ollscoil BhÁC– Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl,
Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan • Coláiste na hOllscoile, BÁC
– Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin
• Ollscoil Chathair Bhaile Átha Cliath– John McKenna agus Rónán Scaife
• Institiúid Teangeolaíochta Éireann– Elaine Uí Dhonnchadha
Cuspóirí (i gcás na Gaeilge)
• Corpas Gaeilge labhartha a ullmhú • Acmhainn taighde• Dúshraith le haghaidh sintéis na Gaeilge• Acmhainní teicneolaíochta a chur in úsáid go
feidhmeach• Nasc a chothú le daoine a bhainfeadh feidhm as a
leithéid de theicneolaíocht• Oideachas: Múinteoirí Gaeilge• Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus
radhairc
Sintéis Téacs-go-hUrlabhra
• Formant Synthesis
• Concatenative Synthesis– Diphone Synthesis– Unit Selection
Unit Selection
• Ullmhú Corpais – Brian– Roghnú Cainteora– Taifeadadh (JSpeechRecorder)– Trascríobh Láimhe (Praat)
• Dáileadh Fóinéimeach - Áine
• Trascríobh Uathoibríoch (HTK) - Áine
• Sintéis (Festival) - Áine
Ullmhú Corpais
• Canúint agus cainteoir a roghnú
• Taifeadadh a dhéanamh
• Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde
Canúint agus Cainteoir
• Gaeilge Thír Chonaill?
• Cainteoir oiriúnach a roghnú– Cainteoir baineann as Gaeltacht Thír Chonaill
– Léitheoir maith
– Ar fáil do héasca
– Gaeilge nádúrtha dúchasach
An Taifeadadh a Dhéanamh
• Is gá go mbeadh an taifeadadh ar ardchaighdeán– Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach
– Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór
• Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge– Bogearraí oiriúnach roghnaithe don taifeadadh
Bogearraí Taifeadta
• JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder– Leideanna a chur ar an scáileán sa stiúdió– Stóráil uathoibríoch na gcomhad fuaime leis na
leideanna cuí
Treallamh Taifeadta
• Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime– ~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta
• DVD Burner le cóip de na sonraí a thabhairt ón láithreán
• Cárta fuaime proifisiúnta: Edirol UA1000– Nasc High-Speed USB 2.0
– Taifeadadh digiteach: micreafón diosca crua
Scripteanna Ullmhaithe
• Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill
• m.sh. Séamus Ó Grianna
• Téacsanna nua-aimseartha/cúrsaí reatha?
• XML– JSpeechRecorder
Sampla de théacs in XML
• <?xml version="1.0" encoding="UTF-8" standalone="no" ?>• <!DOCTYPE session SYSTEM "file:SpeechRecPrompts.dtd">• <?xml-stylesheet type="text/css" href="print-xml-prompts.css"?>
• <session id="PhoneticsLab">• <!-- ? -->• <metadata>• <key>• Title• </key>• <value>• Irish Language Recording Script - WISPR Project Dublin• </value>• </metadata>
Sampla de théacs in XML
• <recordingscript>
• <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_000.wav">
• <recinstructions mimetype="text/ISO-8859-1">• • </recinstructions>• <recprompt>• <mediaitem mimetype="text/UTF-8">• 1. JAMES GALLAGHER• </mediaitem>• </recprompt>• </recording>
Sampla de théacs in XML
• <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_001.wav">
• <recinstructions mimetype="text/ISO-8859-1">• • </recinstructions>• <recprompt>• <mediaitem mimetype="text/UTF-8">• Ceithre bliana, gan la chuige nó uaidh, a bhí Séimí
Phádraig Duibh nuair a cuireadh chun na scoile é.
• </mediaitem>• </recprompt>• </recording>
Na Sonraí a Ullmhú
• Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt
• Trascríobh láimhe agus uathoibríoch a thosnú
• Rialacha trascríofa a fhorbairt
Pacáiste Bogearraí a Roghnú
• Riachtanais– Pacáiste Bogearraí le haghaidh anailís urlabhra
lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis
• Réiteach– Praat
Sampla ó Praat
L+H* H*+L H*+L
< >< > < >
1 1 1 1 1 4
l' a g d' a d' w ai f' i p
Time (s)9.2 10.8
Trascríobh le haghaidh Sintéis
• Is gá an trascríobh a dhéanamh ar leibhéil éagsúla
• Trascríobh prosóide (lipéid IViE)
– Féach tionscadal Prosóid Chanúintí na Gaeilge
• Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá
• Trascríobh gramadaí (ranna cainte na bhfocal)
Modh Trascríofa
• Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge
• Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú
• Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú
Fóinéimeanna na Gaeilge Liopach Déadach Ailbh-
eolach Carball-Ailbh-eolach
Ailbheola- Carballach
Carba-llach
Cog-uasach
Glot-asach
Pléascach
Cuimilteach
Leathghuta
Srónach
Cnag
Leathghuta Taobhach
Dáileadh Fóinéimeach
Dáileadh Fóinéimeach: Cén fath?
Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa
chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios
againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.
TÉACS
RialachaLitirfuaim
Áiritheoir
In oirúint don ghléas sintéise
focail
Siombail fóinéimeacha
Méid fóinMéid défóinComhthéacs
An proiséis leis na fóin agus na défóin a chomhaireamh
Dáileadh Fóinéimeach
Dáileadh Fóinéimeach Dul Chun Cinn
• Foclóir Póca– “Lár Chanúint”
– 15000 Focail
– 76254 Fóin (51), 102493 Défóin (1300)
• Foclóir eile– Gaeilge Chonnamara
– 13 noimeád cainte
– 852 Focail
– 3111 Fóin(52), 3953 Défóin(704)
Dáileadh Fóinéimeach: Le deánamh
• Rialacha aistriúcháin: litir fuaim
• Bunaithe ar Ghaeilge Uladh
• Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe
• Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín
Dáileadh Fóinéimeach: Torthaí
0
10
20
30
40
50
60
70
consonant vowel
velarised
palatalised
monophthongs
diphthong
Figure 1: General Distribution
Secondary
%
Dáileadh Fóinéimeach: Torthaí
0
2
4
6
8
10
12
14
b b' d d' f f' g g' ' h k k' l l' m m' n n' p p' r r' s s' t t' v v' w x x' z z'
tapplosivenasallateralglidefricativeapprox.
manner
Figure 3: Dáileadh Consan
%
0
5
10
15
20
25
30
a a: a:i a:u e e: i i: i: o o: u u: u
mid-low
mid-high
mid
low
high
diphthong
Figure 2: Dáileadh Gutaí
Height
%
Trascríobh Uathoibríoch
Trascríobh Uathoibríoch: Cén Fath?
• Níos Tapúla
• Is féidir cur leis
• Trascíobh Láimhe 15 uair dodhéanta
• Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire
Trascríobh Uathoibríoch: Conas?
• HTK (Hidden Markof Model Toolkit)
• Taifeadtaí atá trascríofa ag duine
• Fóclóir agus líosta focal
• Traenáil ar an sraith traenála
• Aithne agus ailíniú
• Ceartú más gá
Trascríobh UathoibríochDul Chun Cinn
• Múineadh a chur ar na HMMaí
• 9 gcomhad – 19 nóimeád
• 3150 focail
• Foclóir tógtha ón trascríobh láimhe
• Tástáil le 6 abairtí nach raibh sa “sraith traenála”
TORTHAÍ
Trascríobh UathoibríochLe Deánamh
• HMMaí a mhúineadh leis na taifeadtaí nua
• Foclóir nua a chur le chéile le focail an taifeadta go léir ann
• Trascríobh uathoibríoch
Sintéis
• Festival Speech Synthesis Engine (CSTR)
• An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine”
• Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl.
• Interface úsáideach, simplí a fhorbairt
Feidhmeanna an Chorpais Urlabhra Ullmhaithe
• Sintéis téacs-go-hurlabhra (TTS)– Úsáid oideachasúil– Úsáid do dhaoine atá faoi mhíchumas
• Acmhainn úsáideacha a thagann as forbairt na sintéise
• Acmhainn taighde
Múineadh na Gaeilge
• Foghlaim idirghníomhach don Ghaeilge• Féinteagascóirí fuaimnithe (‘Artificial
pronunciation tutors’)– An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó
fiú Gaeilge líofa ar fáil go héasca
• Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon
• Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)
Feidhmchláir do Dhaoine Míchumasaithe
• Uirlisí sintéis urlabhra do Ghaeilgeoirí le
- míchumas urlabhra: sintéiseoirí urlabhra
- míchumas radhairc: ‘screen readers’
• Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu
Acmhainn úsáideacha
• Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh.– Foclóir Fuaimnithe, a bheadh in oiriúint don
chanúint– Rialacha aistriúcháin ó litreacha go fuaim
(letter-to-sound)– Hidden Markof Models do fuaimeanna Gaeilge
Uladh
Taighde na Gaeilge
• Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla:– Phonotactics– Rialacha fuaimnithe– Anailís foghraíochta agus fóineolaíochta
Réimse an Tionscadail
• Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge
• De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais
• Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo
Amach Anseo
• An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad
• An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis…
• Comhoibriú le Gnóthais Bheaga agus Meánacha
Amach Anseo
• Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs
• Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise
Buíochas
DCUUCDTCDBangor
Le cabhair airgeadais ón: AE INTERREG IIIA Community Initiative
Programme