Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Preview:

DESCRIPTION

9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005. Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais. Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan - PowerPoint PPT Presentation

Citation preview

Acmhainní Próiseála Urlabhra don Ghaeilge agus don

BhreatnaisWelsh and Irish Speech Processing Resources

(WISPR)Ailbhe Ní Chasaide

Brian Ó Raghallaigh

John Wogan

Áine Ní Bhriain

Christer Gobl

Coláiste na Tríonóide

9ú Comhdháil do Theangeolaíocta na GaeilgeScoil an Léinn Cheiltigh

Institiúid Ard-Léinn Bhaile Átha Cliath9 Aibreán 2005

Cúlra an Tionscadail

• Interreg IIIA Aontas Eorpach– Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na

hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais

– Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra

• Grúpa Urlabhra na Gaeilge &

• Prifysgol Cymru (The University of Wales Bangor)

Rannpháirtithe

• Prifysgol Cymru/The University of Wales, Bangor– Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin,

Rhys Jones

• Coláiste na Tríonóide, Ollscoil BhÁC– Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl,

Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan • Coláiste na hOllscoile, BÁC

– Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin

• Ollscoil Chathair Bhaile Átha Cliath– John McKenna agus Rónán Scaife

• Institiúid Teangeolaíochta Éireann– Elaine Uí Dhonnchadha

Cuspóirí (i gcás na Gaeilge)

• Corpas Gaeilge labhartha a ullmhú • Acmhainn taighde• Dúshraith le haghaidh sintéis na Gaeilge• Acmhainní teicneolaíochta a chur in úsáid go

feidhmeach• Nasc a chothú le daoine a bhainfeadh feidhm as a

leithéid de theicneolaíocht• Oideachas: Múinteoirí Gaeilge• Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus

radhairc

Sintéis Téacs-go-hUrlabhra

• Formant Synthesis

• Concatenative Synthesis– Diphone Synthesis– Unit Selection

Unit Selection

• Ullmhú Corpais – Brian– Roghnú Cainteora– Taifeadadh (JSpeechRecorder)– Trascríobh Láimhe (Praat)

• Dáileadh Fóinéimeach - Áine

• Trascríobh Uathoibríoch (HTK) - Áine

• Sintéis (Festival) - Áine

Ullmhú Corpais

• Canúint agus cainteoir a roghnú

• Taifeadadh a dhéanamh

• Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde

Canúint agus Cainteoir

• Gaeilge Thír Chonaill?

• Cainteoir oiriúnach a roghnú– Cainteoir baineann as Gaeltacht Thír Chonaill

– Léitheoir maith

– Ar fáil do héasca

– Gaeilge nádúrtha dúchasach

An Taifeadadh a Dhéanamh

• Is gá go mbeadh an taifeadadh ar ardchaighdeán– Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach

– Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór

• Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge– Bogearraí oiriúnach roghnaithe don taifeadadh

Bogearraí Taifeadta

• JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder– Leideanna a chur ar an scáileán sa stiúdió– Stóráil uathoibríoch na gcomhad fuaime leis na

leideanna cuí

Treallamh Taifeadta

• Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime– ~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta

• DVD Burner le cóip de na sonraí a thabhairt ón láithreán

• Cárta fuaime proifisiúnta: Edirol UA1000– Nasc High-Speed USB 2.0

– Taifeadadh digiteach: micreafón diosca crua

Scripteanna Ullmhaithe

• Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill

• m.sh. Séamus Ó Grianna

• Téacsanna nua-aimseartha/cúrsaí reatha?

• XML– JSpeechRecorder

Sampla de théacs in XML

• <?xml version="1.0" encoding="UTF-8" standalone="no" ?>• <!DOCTYPE session SYSTEM "file:SpeechRecPrompts.dtd">• <?xml-stylesheet type="text/css" href="print-xml-prompts.css"?>

• <session id="PhoneticsLab">• <!-- ? -->• <metadata>• <key>• Title• </key>• <value>• Irish Language Recording Script - WISPR Project Dublin• </value>• </metadata>

Sampla de théacs in XML

• <recordingscript>

• <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_000.wav">

• <recinstructions mimetype="text/ISO-8859-1">• • </recinstructions>• <recprompt>• <mediaitem mimetype="text/UTF-8">• 1. JAMES GALLAGHER• </mediaitem>• </recprompt>• </recording>

Sampla de théacs in XML

• <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_001.wav">

• <recinstructions mimetype="text/ISO-8859-1">• • </recinstructions>• <recprompt>• <mediaitem mimetype="text/UTF-8">• Ceithre bliana, gan la chuige nó uaidh, a bhí Séimí

Phádraig Duibh nuair a cuireadh chun na scoile é.

• </mediaitem>• </recprompt>• </recording>

Na Sonraí a Ullmhú

• Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt

• Trascríobh láimhe agus uathoibríoch a thosnú

• Rialacha trascríofa a fhorbairt

Pacáiste Bogearraí a Roghnú

• Riachtanais– Pacáiste Bogearraí le haghaidh anailís urlabhra

lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis

• Réiteach– Praat

Sampla ó Praat

L+H* H*+L H*+L

< >< > < >

1 1 1 1 1 4

l' a g d' a d' w ai f' i p

Time (s)9.2 10.8

Trascríobh le haghaidh Sintéis

• Is gá an trascríobh a dhéanamh ar leibhéil éagsúla

• Trascríobh prosóide (lipéid IViE)

– Féach tionscadal Prosóid Chanúintí na Gaeilge

• Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá

• Trascríobh gramadaí (ranna cainte na bhfocal)

Modh Trascríofa

• Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge

• Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú

• Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú

Fóinéimeanna na Gaeilge Liopach Déadach Ailbh-

eolach Carball-Ailbh-eolach

Ailbheola- Carballach

Carba-llach

Cog-uasach

Glot-asach

Pléascach

Cuimilteach

Leathghuta

Srónach

Cnag

Leathghuta Taobhach

Dáileadh Fóinéimeach

Dáileadh Fóinéimeach: Cén fath?

Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa

chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios

againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.

TÉACS

RialachaLitirfuaim

Áiritheoir

In oirúint don ghléas sintéise

focail

Siombail fóinéimeacha

Méid fóinMéid défóinComhthéacs

An proiséis leis na fóin agus na défóin a chomhaireamh

Dáileadh Fóinéimeach

Dáileadh Fóinéimeach Dul Chun Cinn

• Foclóir Póca– “Lár Chanúint”

– 15000 Focail

– 76254 Fóin (51), 102493 Défóin (1300)

• Foclóir eile– Gaeilge Chonnamara

– 13 noimeád cainte

– 852 Focail

– 3111 Fóin(52), 3953 Défóin(704)

Dáileadh Fóinéimeach: Le deánamh

• Rialacha aistriúcháin: litir fuaim

• Bunaithe ar Ghaeilge Uladh

• Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe

• Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín

Dáileadh Fóinéimeach: Torthaí

0

10

20

30

40

50

60

70

consonant vowel

velarised

palatalised

monophthongs

diphthong

Figure 1: General Distribution

Secondary

%

Dáileadh Fóinéimeach: Torthaí

0

2

4

6

8

10

12

14

b b' d d' f f' g g' ' h k k' l l' m m' n n' p p' r r' s s' t t' v v' w x x' z z'

tapplosivenasallateralglidefricativeapprox.

manner

Figure 3: Dáileadh Consan

%

0

5

10

15

20

25

30

a a: a:i a:u e e: i i: i: o o: u u: u

mid-low

mid-high

mid

low

high

diphthong

Figure 2: Dáileadh Gutaí

Height

%

Trascríobh Uathoibríoch

Trascríobh Uathoibríoch: Cén Fath?

• Níos Tapúla

• Is féidir cur leis

• Trascíobh Láimhe 15 uair dodhéanta

• Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire

Trascríobh Uathoibríoch: Conas?

• HTK (Hidden Markof Model Toolkit)

• Taifeadtaí atá trascríofa ag duine

• Fóclóir agus líosta focal

• Traenáil ar an sraith traenála

• Aithne agus ailíniú

• Ceartú más gá

Trascríobh UathoibríochDul Chun Cinn

• Múineadh a chur ar na HMMaí

• 9 gcomhad – 19 nóimeád

• 3150 focail

• Foclóir tógtha ón trascríobh láimhe

• Tástáil le 6 abairtí nach raibh sa “sraith traenála”

TORTHAÍ

Trascríobh UathoibríochLe Deánamh

• HMMaí a mhúineadh leis na taifeadtaí nua

• Foclóir nua a chur le chéile le focail an taifeadta go léir ann

• Trascríobh uathoibríoch

Sintéis

• Festival Speech Synthesis Engine (CSTR)

• An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine”

• Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl.

• Interface úsáideach, simplí a fhorbairt

Feidhmeanna an Chorpais Urlabhra Ullmhaithe

• Sintéis téacs-go-hurlabhra (TTS)– Úsáid oideachasúil– Úsáid do dhaoine atá faoi mhíchumas

• Acmhainn úsáideacha a thagann as forbairt na sintéise

• Acmhainn taighde

Múineadh na Gaeilge

• Foghlaim idirghníomhach don Ghaeilge• Féinteagascóirí fuaimnithe (‘Artificial

pronunciation tutors’)– An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó

fiú Gaeilge líofa ar fáil go héasca

• Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon

• Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)

Feidhmchláir do Dhaoine Míchumasaithe

• Uirlisí sintéis urlabhra do Ghaeilgeoirí le

- míchumas urlabhra: sintéiseoirí urlabhra

- míchumas radhairc: ‘screen readers’

• Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu

Acmhainn úsáideacha

• Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh.– Foclóir Fuaimnithe, a bheadh in oiriúint don

chanúint– Rialacha aistriúcháin ó litreacha go fuaim

(letter-to-sound)– Hidden Markof Models do fuaimeanna Gaeilge

Uladh

Taighde na Gaeilge

• Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla:– Phonotactics– Rialacha fuaimnithe– Anailís foghraíochta agus fóineolaíochta

Réimse an Tionscadail

• Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge

• De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais

• Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo

Amach Anseo

• An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad

• An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis…

• Comhoibriú le Gnóthais Bheaga agus Meánacha

Amach Anseo

• Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs

• Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise

Buíochas

DCUUCDTCDBangor

Le cabhair airgeadais ón: AE INTERREG IIIA Community Initiative

Programme

Recommended