44
Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan Áine Ní Bhriain Christer Gobl Coláiste na Tríonóide 9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005

Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

  • Upload
    tola

  • View
    104

  • Download
    0

Embed Size (px)

DESCRIPTION

9ú Comhdháil do Theangeolaíocta na Gaeilge Scoil an Léinn Cheiltigh Institiúid Ard-Léinn Bhaile Átha Cliath 9 Aibreán 2005. Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais. Welsh and Irish Speech Processing Resources (WISPR) Ailbhe Ní Chasaide Brian Ó Raghallaigh John Wogan - PowerPoint PPT Presentation

Citation preview

Page 1: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Acmhainní Próiseála Urlabhra don Ghaeilge agus don

BhreatnaisWelsh and Irish Speech Processing Resources

(WISPR)Ailbhe Ní Chasaide

Brian Ó Raghallaigh

John Wogan

Áine Ní Bhriain

Christer Gobl

Coláiste na Tríonóide

9ú Comhdháil do Theangeolaíocta na GaeilgeScoil an Léinn Cheiltigh

Institiúid Ard-Léinn Bhaile Átha Cliath9 Aibreán 2005

Page 2: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Cúlra an Tionscadail

• Interreg IIIA Aontas Eorpach– Comhoibriú leis an mBreatain Bheag i bhforbairt Shintéis na

hUrlabhra (Téacs-go-hUrlabhra) don Ghaeilge agus don Bhreatnais

– Comhoibriú leis an mBreatain Bheag i bhforbairt na n-acmhainní a úsáidfear i bhforbairt Shintéis na hUrlabhra

• Grúpa Urlabhra na Gaeilge &

• Prifysgol Cymru (The University of Wales Bangor)

Page 3: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Rannpháirtithe

• Prifysgol Cymru/The University of Wales, Bangor– Delyth Prys, Briony Williams, Dewi Jones, Bill Hicks, Ivan Uemlianin,

Rhys Jones

• Coláiste na Tríonóide, Ollscoil BhÁC– Ailbhe Ní Chasaide, Áine Ní Bhriain, Brian Ó Raghallaigh, Christer Gobl,

Irena Yanushevskaya, Martha Dalton, John Duggan, agus John Wogan • Coláiste na hOllscoile, BÁC

– Fred Cummins, Julie Berndsen, agus Máire Ní Chiosáin

• Ollscoil Chathair Bhaile Átha Cliath– John McKenna agus Rónán Scaife

• Institiúid Teangeolaíochta Éireann– Elaine Uí Dhonnchadha

Page 4: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Cuspóirí (i gcás na Gaeilge)

• Corpas Gaeilge labhartha a ullmhú • Acmhainn taighde• Dúshraith le haghaidh sintéis na Gaeilge• Acmhainní teicneolaíochta a chur in úsáid go

feidhmeach• Nasc a chothú le daoine a bhainfeadh feidhm as a

leithéid de theicneolaíocht• Oideachas: Múinteoirí Gaeilge• Daoine le Gaeilge atá faoi mhíchumas labhartha, cloisteála agus

radhairc

Page 5: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Sintéis Téacs-go-hUrlabhra

• Formant Synthesis

• Concatenative Synthesis– Diphone Synthesis– Unit Selection

Page 6: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Unit Selection

• Ullmhú Corpais – Brian– Roghnú Cainteora– Taifeadadh (JSpeechRecorder)– Trascríobh Láimhe (Praat)

• Dáileadh Fóinéimeach - Áine

• Trascríobh Uathoibríoch (HTK) - Áine

• Sintéis (Festival) - Áine

Page 7: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Ullmhú Corpais

• Canúint agus cainteoir a roghnú

• Taifeadadh a dhéanamh

• Na sonraí taifeadtha (recorded data) a ullmhú le gur féidir iad a úsáid mar acmhainn taighde

Page 8: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Canúint agus Cainteoir

• Gaeilge Thír Chonaill?

• Cainteoir oiriúnach a roghnú– Cainteoir baineann as Gaeltacht Thír Chonaill

– Léitheoir maith

– Ar fáil do héasca

– Gaeilge nádúrtha dúchasach

Page 9: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

An Taifeadadh a Dhéanamh

• Is gá go mbeadh an taifeadadh ar ardchaighdeán– Coinníollacha foirfe taifeadta de dhíth: stiúdeo frith-mhacallach

– Treallamh taifeadta den scoth riachtanach: Cárta fuaime Edirol; Ríomhaire le Diosca Crua mór

• Suas le 15 uair a chloig de shonraí labhartha ag teastáil don Ghaeilge– Bogearraí oiriúnach roghnaithe don taifeadadh

Page 10: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Bogearraí Taifeadta

• JSpeechRecorder: Bavarian Archive for Speech Signals Speech Recorder– Leideanna a chur ar an scáileán sa stiúdió– Stóráil uathoibríoch na gcomhad fuaime leis na

leideanna cuí

Page 11: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Treallamh Taifeadta

• Ríomhaire lena dhóthain spáis ar an diosca crua le haghaidh comhad fuaime– ~550 GB spáis againn faoi láthair ar an ríomhaire taifeadta

• DVD Burner le cóip de na sonraí a thabhairt ón láithreán

• Cárta fuaime proifisiúnta: Edirol UA1000– Nasc High-Speed USB 2.0

– Taifeadadh digiteach: micreafón diosca crua

Page 12: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Scripteanna Ullmhaithe

• Téacsanna roghnaithe atá bunaithe ar chaint na ndaoine i dTír Chonaill

• m.sh. Séamus Ó Grianna

• Téacsanna nua-aimseartha/cúrsaí reatha?

• XML– JSpeechRecorder

Page 13: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Sampla de théacs in XML

• <?xml version="1.0" encoding="UTF-8" standalone="no" ?>• <!DOCTYPE session SYSTEM "file:SpeechRecPrompts.dtd">• <?xml-stylesheet type="text/css" href="print-xml-prompts.css"?>

• <session id="PhoneticsLab">• <!-- ? -->• <metadata>• <key>• Title• </key>• <value>• Irish Language Recording Script - WISPR Project Dublin• </value>• </metadata>

Page 14: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Sampla de théacs in XML

• <recordingscript>

• <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_000.wav">

• <recinstructions mimetype="text/ISO-8859-1">• • </recinstructions>• <recprompt>• <mediaitem mimetype="text/UTF-8">• 1. JAMES GALLAGHER• </mediaitem>• </recprompt>• </recording>

Page 15: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Sampla de théacs in XML

• <recording prerecdelay="2000" recduration="60000" postrecdelay="500" file="Caisleain-Oir-C01_001.wav">

• <recinstructions mimetype="text/ISO-8859-1">• • </recinstructions>• <recprompt>• <mediaitem mimetype="text/UTF-8">• Ceithre bliana, gan la chuige nó uaidh, a bhí Séimí

Phádraig Duibh nuair a cuireadh chun na scoile é.

• </mediaitem>• </recprompt>• </recording>

Page 16: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Na Sonraí a Ullmhú

• Pacáiste oiriúnach bogearraí a roghnú leis an gcorpas a fhorbairt

• Trascríobh láimhe agus uathoibríoch a thosnú

• Rialacha trascríofa a fhorbairt

Page 17: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Pacáiste Bogearraí a Roghnú

• Riachtanais– Pacáiste Bogearraí le haghaidh anailís urlabhra

lenar féidir an tonnchruth a theascánú (‘to segment’) agus trascríobh a chur leis

• Réiteach– Praat

Page 18: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Sampla ó Praat

L+H* H*+L H*+L

< >< > < >

1 1 1 1 1 4

l' a g d' a d' w ai f' i p

Time (s)9.2 10.8

Page 19: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Trascríobh le haghaidh Sintéis

• Is gá an trascríobh a dhéanamh ar leibhéil éagsúla

• Trascríobh prosóide (lipéid IViE)

– Féach tionscadal Prosóid Chanúintí na Gaeilge

• Trascríobh fóinéimeach i dteannta le heolas alaphóineach breise más gá

• Trascríobh gramadaí (ranna cainte na bhfocal)

Page 20: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Modh Trascríofa

• Modh a shocrú le haghaidh trascríobh fóinéimeach na Gaeilge

• Rialacha a shocrú maidir le giorrúcháin (a réitíonn leis an bpacáiste bogearraí agus a chuireann le luas an trascríofa) agus míniú na ngiorrúchán a shonrú

• Próiseas an teascánaithe a chomhshocrú agus a chaighdeánú

Page 21: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Fóinéimeanna na Gaeilge Liopach Déadach Ailbh-

eolach Carball-Ailbh-eolach

Ailbheola- Carballach

Carba-llach

Cog-uasach

Glot-asach

Pléascach

Cuimilteach

Leathghuta

Srónach

Cnag

Leathghuta Taobhach

Page 22: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Dáileadh Fóinéimeach

Page 23: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Dáileadh Fóinéimeach: Cén fath?

Cinntiú go bhfuil go leor samplaí do gach fóinéim sna gcomhthéacsanna cuí againn sa

chorpas. Muna ndeántar staideár ar an dáileadh fónéimeach ní bheidh a fhios

againn riamh an bhfuil an corpas ina iomlán nó nach bhfuil.

Page 24: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

TÉACS

RialachaLitirfuaim

Áiritheoir

In oirúint don ghléas sintéise

focail

Siombail fóinéimeacha

Méid fóinMéid défóinComhthéacs

An proiséis leis na fóin agus na défóin a chomhaireamh

Dáileadh Fóinéimeach

Page 25: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Dáileadh Fóinéimeach Dul Chun Cinn

• Foclóir Póca– “Lár Chanúint”

– 15000 Focail

– 76254 Fóin (51), 102493 Défóin (1300)

• Foclóir eile– Gaeilge Chonnamara

– 13 noimeád cainte

– 852 Focail

– 3111 Fóin(52), 3953 Défóin(704)

Page 26: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Dáileadh Fóinéimeach: Le deánamh

• Rialacha aistriúcháin: litir fuaim

• Bunaithe ar Ghaeilge Uladh

• Na rialacha sin a chur i bhfeidhm ar na téacsanna atá roghnaithe

• Cinntiú go bhfuil dáileadh fóinéimeach ceart ann, muna bhfuil beidh gá leis na scripteanna a athrú beagáinín

Page 27: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Dáileadh Fóinéimeach: Torthaí

0

10

20

30

40

50

60

70

consonant vowel

velarised

palatalised

monophthongs

diphthong

Figure 1: General Distribution

Secondary

%

Page 28: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Dáileadh Fóinéimeach: Torthaí

0

2

4

6

8

10

12

14

b b' d d' f f' g g' ' h k k' l l' m m' n n' p p' r r' s s' t t' v v' w x x' z z'

tapplosivenasallateralglidefricativeapprox.

manner

Figure 3: Dáileadh Consan

%

Page 29: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

0

5

10

15

20

25

30

a a: a:i a:u e e: i i: i: o o: u u: u

mid-low

mid-high

mid

low

high

diphthong

Figure 2: Dáileadh Gutaí

Height

%

Page 30: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Trascríobh Uathoibríoch

Page 31: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Trascríobh Uathoibríoch: Cén Fath?

• Níos Tapúla

• Is féidir cur leis

• Trascíobh Láimhe 15 uair dodhéanta

• Níos cruinne de bharr nach bhfuil ach líon teoranta comharthaí á úsáid ag an ríomhaire

Page 32: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Trascríobh Uathoibríoch: Conas?

• HTK (Hidden Markof Model Toolkit)

• Taifeadtaí atá trascríofa ag duine

• Fóclóir agus líosta focal

• Traenáil ar an sraith traenála

• Aithne agus ailíniú

• Ceartú más gá

Page 33: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Trascríobh UathoibríochDul Chun Cinn

• Múineadh a chur ar na HMMaí

• 9 gcomhad – 19 nóimeád

• 3150 focail

• Foclóir tógtha ón trascríobh láimhe

• Tástáil le 6 abairtí nach raibh sa “sraith traenála”

TORTHAÍ

Page 34: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Trascríobh UathoibríochLe Deánamh

• HMMaí a mhúineadh leis na taifeadtaí nua

• Foclóir nua a chur le chéile le focail an taifeadta go léir ann

• Trascríobh uathoibríoch

Page 35: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Sintéis

• Festival Speech Synthesis Engine (CSTR)

• An guth a aistriú go dtí an fhoirm cuí agus é a stóráil sa “Speech Engine”

• Rialacha a chumadh a chuirfeadh le caighdeán an ghutha, m.sh. Tokenisation, Epenthensis srl.

• Interface úsáideach, simplí a fhorbairt

Page 36: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Feidhmeanna an Chorpais Urlabhra Ullmhaithe

• Sintéis téacs-go-hurlabhra (TTS)– Úsáid oideachasúil– Úsáid do dhaoine atá faoi mhíchumas

• Acmhainn úsáideacha a thagann as forbairt na sintéise

• Acmhainn taighde

Page 37: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Múineadh na Gaeilge

• Foghlaim idirghníomhach don Ghaeilge• Féinteagascóirí fuaimnithe (‘Artificial

pronunciation tutors’)– An-úsáideach nuair nach bhfuil múinteoirí le Gaeilge ó dhúchas nó

fiú Gaeilge líofa ar fáil go héasca

• Bheadh fáil ar áiseanna mar seo sa rang agus ar an idirlíon

• Bheadh éileamh ar áiseanna mar seo ag gach leibhéal (bunscoil – foghlaim aosach)

Page 38: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Feidhmchláir do Dhaoine Míchumasaithe

• Uirlisí sintéis urlabhra do Ghaeilgeoirí le

- míchumas urlabhra: sintéiseoirí urlabhra

- míchumas radhairc: ‘screen readers’

• Uirlisí aithint urlabhra do Ghaeilgeoirí a bhfuil míchumas cloisteála orthu

Page 39: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Acmhainn úsáideacha

• Mar chuid d’fhorbairt na sintéise déantar forbairt ar acmhainn eile, m.sh.– Foclóir Fuaimnithe, a bheadh in oiriúint don

chanúint– Rialacha aistriúcháin ó litreacha go fuaim

(letter-to-sound)– Hidden Markof Models do fuaimeanna Gaeilge

Uladh

Page 40: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Taighde na Gaeilge

• Beidh an corpas féin tábhachtach le haghaidh taighde ar Ghaeilge labhartha mar shampla:– Phonotactics– Rialacha fuaimnithe– Anailís foghraíochta agus fóineolaíochta

Page 41: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Réimse an Tionscadail

• Go bunúsach, acmhainní a fhorbairt a bhaineann le teicneolaíocht urlabhra na Gaeilge

• De bharr srianta ama, cuirfear an bhéim ar fhorbairt an chorpais

• Déanfar iniúchadh freisin ar an úsáid a bhainfidh daoine as acmhainn mar seo amach anseo

Page 42: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Amach Anseo

• An corpas a leathnú le freastal a dhéanamh ar na mórchanúintí ar fad

• An corpas a leathnú le freastal ar Ghàidhlig na hAlban, ar an mBriotáinis…

• Comhoibriú le Gnóthais Bheaga agus Meánacha

Page 43: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Amach Anseo

• Ag cur le réamhiarrachtaí an Ghaeilge a ghiniúint go sintéisiúil ó théacs

• Ag cur le cruinneas an chorpais agus na trascríbhinne le feabhas a chur ar chaighdeán na sintéise

Page 44: Acmhainní Próiseála Urlabhra don Ghaeilge agus don Bhreatnais

Buíochas

DCUUCDTCDBangor

Le cabhair airgeadais ón: AE INTERREG IIIA Community Initiative

Programme