Upload
others
View
13
Download
0
Embed Size (px)
Citation preview
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Prószéky Gá[email protected]
MorphoLogichttp://www.morphologic.hu
Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar
http://www.itk.ppke.hu
Igényesség, helyesírás, számítógépIgényesség, helyesírás, számítógép
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Hogy kell leírni, amit hallunk?Hogy kell leírni, amit hallunk?(azaz: miért is született meg a (azaz: miért is született meg a „„spell-checkerspell-checker””?)?)
I have a spelling checker,
It came with my PC,
It plainly marks for my review
Mistakes I cannot see.
I strike a key and type a word
And wait for it to say
Whether I am wrong or right,
It shows me straightaway.
As soon as a mistake is made
It knows be for too long
And I can put the error right,
It’s rarely ever wrong.
I have run this poem through it.
I'm shure you’re pleased to know,
It’s letter perfect in its way,
My checker told me so.
Eye halve a spelling chequer,
It came with my pea sea,
It plainly marques four my revue
Miss steaks eye kin knot sea.
Eye strike a key and type a word
And weight four it two say
Weather eye am wrong oar write
It shows me strait a weigh.
As soon as a mist ache is maid
It nose bee fore two long
And eye can put the error rite
Its rarely ever wrong.
Eye have run this poem threw it
I'm shore your pleased two no
Its letter perfect in its weigh,
My chequer tolled me sew.
Eye halve a spelling chequer,
It came with my pea sea,
It plainly marques four my revue
Miss steaks eye kin knot sea.
Eye strike a key and type a word
And weight four it two say
Weather eye am wrong oar write
It shows me strait a weigh.
As soon as a mist ache is maid
It nose bee fore two long
And eye can put the error rite
Its rarely ever wrong.
Eye have run this poem threw it
I'm shore your pleased two no
Its letter perfect in its weigh,
My chequer tolled me sew.
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
HelyesírásellenHelyesírásellen rzrz program-történelemprogram-történelem
Szövegszerkeszt k IBM PC-re, kb. 1981-t l
Az els helyesírásellen rz -gyártók a
80-as évek végét l
Egy teljes merevlemez mint korrektúra-tárhely
lehet-e a megoldás?
Az elválasztás szólistás megoldásokkal nem
megy könnyen, pl. ba-goly, bag-ly+ok
Csak a szavak morfológiai szint kezelése lehet a
megoldás: kétszintes morfológia (1983-t l),
unifikációs morfológia (1990-t l)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Szóellen rzés számítógépes morfológiaielemz segítségével
Ha pl. az ismeretlen alak a kérdésse, akkor
kérdése
kérdés[FN]+e[PSe3] f névi
kérd[IGE]+és[IF]+e[PSe3] f névi
kérdéses
kérdéses[MN] melléknévi
kérdés[FN]+es[SKEP] melléknévi
kérd[IGE]+és[IF]+es[SKEP] melléknévi
kérdesse
kérd[IGE]+es[MUV]+se[TPe3] igei
kérdéssé
kérdés[FN]+sé[FAC] f névi
kérd[IGE]+és[IF]+sé[FAC] f névi
kérdéssel
kérdés[FN]+sel[INS] f névi
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Helyesírás-ellenHelyesírás-ellen rzés különbözrzés különböz nyelvekre nyelvekre
Angol (házi feladat Knuth: „A programozásm vészeté”-ben)Az angolnál bonyolultabb, de azért„felsorolhatóan sok” szóalakot használónyelvek gépi leírásaKomplex latinbet s nyelvek: finn, magyar,észt, török (agglutinálnak és fontosak!)Sémi nyelvek (sok a formai többértelm ség!)Ideografikus írások és átírásaik (pl. japánírások, egyszer sített kínai)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
IdId vel további kihívásokvel további kihívások
Kétféle helyesírási rendszer (pl. norvég)A reformhelyesírások megjelenése (pl. német,holland, román)Megjelennek „újabb” nyelvek (szerbhorvát >szerb, horvát, majd bosnyák; most az ír; …)Megjelennek a nem-államnyelvek beszél inekigényei (katalán, szorb, velszi, fríz, …)Helyesírás-ellen rzés és a politika találkozásai:számi, romani (lovari), beás, …Korábban nem egyértelm en szabályozottnyelvek: a máltai és a baszk esete a gépihelyesírással
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Csak lábjegyzetként: két máltai Csak lábjegyzetként: két máltai „„kódoláskódolás””
Xidew il-qada, ja irieni, talli n additkom,
Ma nsab fil-weri u la nsab f’g omorkom
Qalb m’g andha akem, sultan u la mula
Bir img ammiq irmietni, b’tur ien mu sula,
Fejn ajran g all-g arqa, nin el f’tara min eli
Nitla’ u ner a’ nin el dejjem fil-ba ar il-g oli.
Waqg et hi, imrammti, l’ili mien nibni,
Ma tatlix mg allmin, ’mma qatag li tafal mer i;
Fejn tmajt insib il- ebel, sibt tafal mer i;
Waqg et hi, imrammti.
Xideu il cada, ye gireni tale nichadithicum
Mensab fil gueri uele nisab fo homorcom
Calb mehandihe chakim soltan ui le mule
Bir imgamic rimitne betiragin mucsule,
Fen hayran al garca nenzel fi tirag minzeli
Nitla vu nargia ninzil deyem fil bachar il hali.
Huakit hi mirammiti lili zimen nibni,
Mectatilix mihallimin, me chitali tafal morchi;
Fen timayt insib il gebel sib tafal morchi;
Vackit hi, mirammiti.
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Jól kodifikált rendszerben nehéz változásokat bevezetniJól kodifikált rendszerben nehéz változásokat bevezetni
A meglev szabályok megváltoztatására elvileg csak akkorkerülhet sor, ha „az úzus egyáltalán nem képes elfogadni ésalkalmazni hosszú id után sem, vagy a korábban kodifikáltszabály teljességgel ellentmond a nyelv m ködésének,rendszerszer ségének”
(Laczkó K.: Gondolatok a helyesírási szabályzat 12. kiadásárólIn: Balázs G. (szerk.) A magyar nyelvi kultúra jelene és jöv je I-II.)
Ilyen eset például „egy-egy szóalak írásképének a korábbialakhoz képest eltér módon való kodifikálása” (L.K)
Ki által? (pl. a kompatíbilis nem „korábbi” alak volt)
Észre kell vennünk, hogy a mai szövegek nagy része olyantípusú írásbeliség keretében jelenik meg, mellyel korábbannem találkoztunk, és a szabályozásért sokak által felel snekgondolt szakemberek egy része ma sem találkozik
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Ami szokásos, az felsorolható?Ami szokásos, az felsorolható?
Kérdés, hogy az „úzus diktálta kivételek” (szúette,jótett, bérbeadás, napkelte) egyediek, vagy újabbnyomtatott helyesírási szótár megjelenése nélkül isb víthet a lista?
„A meggyökeresedett szokást megtartva nem egyszerjelentésváltozás nélküli szókapcsolatokat isegybeírunk…” (HKSz)
Kinek a szokását? Pl. a nyitvatartás alak hibás vagyinkább ide tartozik?
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Nézzük meg a Nézzük meg a „„szokásokatszokásokat””: mit írnak a magyar : mit írnak a magyar webenweben??És ennek következtében: mit olvasnak a magyar És ennek következtében: mit olvasnak a magyar webenweben??
jobbkéz: 13 600 - jobb kéz: 38 300házifeladat: 57 200 - házi feladat: 106 000
csevely: 21 800 - csevej: 64 300muszály: 147 000 - muszáj: 954 000szervíz: 1 020 000 - szerviz: 1 880 000
köppeny: 2 420 - köpeny: 173 000bakkancs: 9 890 - bakancs: 124 000jappán: 42 600 - japán: 2 160 000eggy: 28 100 - egy: 5 390 000
helyesírásellen rz : 2 900helyesirás ellen rz + helyesirás-ellen rz : 638helyesírás ellen rz + helyesírás-ellen rz : 35 200
meg-e lehetne: 558nem-e lehetne: 8810
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Becslések latin betBecslések latin bet s s internetes
szövegek lehetséges méretér l
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
A nem angol nyelvA nem angol nyelv szövegek növekedése az interneten szövegek növekedése az interneten
egyéb nem-angol
portugál
holland
olasz
francia
koreai
német
spanyol
japán
kínai
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Gépelési tévesztések vizsgálata (1)
1 150 000
441 000
522 000
436 000
2 480 000
19 400 000
1 940 000
19 200 000
47 700
66 400
128 000
193 000
116 000
681 000
67 400
2 460 000 000
A teljes web
2758
1400
418
682
246
27714
7132
1466
4150
538
541
2762
1114
4212
918
>>
417.nternet
315i.ternet
1 250in.ernet
625int.rnet
10 100inte.net
700inter.et
272intern.t
13 100interne.
0niternet
16itnernet
238inetrnet
357intrenet
42intenret
611interent
16internte
2 680 000internet
A magyar web
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Gépelési tévesztések vizsgálata (2)
219.yelv
123n.elv
60ny.lv
288nye.v
(57 000)nyel.
0ynelv
32neylv
0nylev
11nyevl
4 410 000nyelv
A magyar web
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Mit tud egy helyesírási program a helyesírásunkatmeghatározó elvekkel kezdeni?
• Kiejtés szerinti írásmód - semmit
• Szóelemz írásmód – sok mindent (néha túl sokat is!)
• Hagyományos írásmód – amit megadunk „el re”, azmindig úgy lesz!
• Egyszer sít írásmód – nem tud dinamikusan reagálni,csak bizonyos korlátok között
• De még azzal sem tud mit kezdeni, hogy „normálisan” abekezdésvége-jel egyúttal mindig szó, illetve mondatvégét is jelöli, hiszen a számítógépes szövegben sokszortörnek szét a mondatok, pl. felsorolójelek használatamiatt (megoldás van, csak nem szokták tudni!)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Helyesírásunk alapelemei a gép szemévelHelyesírásunk alapelemei a gép szemével
• Bet k és bet rendbe sorolás– sokkal jobb, mint az ember, de a felhasználók nem is tudják kezelni!
• Szótövek írása és toldalékok kapcsolása- ld. fent: a négy alapelv érvényesülése
• Különírás és egybeírás– listás megoldás: tökéletes; de analógia: csak felügyelet mellett!!
• Kis és nagy kezd bet k, a tulajdonnevek kérdése– ha a „köznéviség” nem zavar be, ui. a kisbet s elvileg nemtulajdonnév (de lehet olyan eredet !), a nagybet oka pedig nemfeltétlen tulajdonnévi!
• Az idegen szavak írása– amit nem tud, azt nem tudja!(de: megtanítható egy-egy konkrét nyelven – pl. angol – kiejteni)
• Írásjelek– környezetelemzéssel valamit lehet tenni, de ez max. tanács
• Rövidítések és mozaikszók– minden lehet rövidítés, tehát csak a felsorolhatókkal tud mit kezdeni
• Elválasztás– gyakorlatilag is közel 100%-os megoldás (pontosság/fedés)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Az igazán problémás jelenségek és aAz igazán problémás jelenségek és anyelvhelyességi programok viszonyanyelvhelyességi programok viszonya
Összetételek(pl. Lebensversicherungsgesellschaftsangestellter)Szófajismeretet is igényl produktív szabályok(pl. a magyar 6-3)A mozgószabály formális kezelése(pl. jobbkéz-szabály)Formaváltoztató szóalakok(pl. a német vagy a magyar elválasztás)Tipográfiai szokások és helyesírás(pl. autói)Nyelvismeret-függ szegmentálások kezelése(pl. post+sc-riptum, dia+g-nózis, kon+k-rét, di+sz-tichon)… és ami nem helyesírás, hanem „népnevelés” volna inkább:hogyan kell használni a gépi helyesírás-ellen rz ket, éshogyan kell érteni a „javaslataikat”…
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Nyelvhelyesség-ellen rzés a szóhatáron túl
Hiba-nyelvtan vs. nyelvtan
Parciális elemzések
Hibaelemzések, a hibák súlyozása
A hiba és a nem-hiba határának elmosódása
A nyelvi vagy a formai természet hibák sz résénekpreferálása
Stílusellen rzés számítógéppel
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Hogy fest ez a gyakorlatban?
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
A helyesírás-tanulás motivációjárólA helyesírás-tanulás motivációjáról
„Miért tanulják a diákok a helyesírást? Sokféle választ kaphatunkerre a kérdésre. Talán az iskola szorításának hatására vagy egyrokonszenves magyartanár kedvéért, esetleg szül i ráhatásra, deakadnak olyan diákok is, akiket saját meggy z désük ösztönözhelyesírás-tanulásra. Érzik, tudják, belátják, hogy ahelyesírástudásra szükségük van és szükségük lesz egészéletükben. A magyar helyesírás szabályainak ismeretehatározottságot, biztonságot ad, segít a magán-, a hivatalos, a köz-és a tudományos életben: önéletrajzok, pályázatok, hirdetések,üzenetek, cikkek, tanulmányok, iskolai dolgozatok, személyes éshivatalos levelek megfogalmazásában, a szövegszerkeszt okoshasználatában.”
Antalné Szabó Ágnes (2001): A helyesírás-tanulás motivációja(Beszámoló a Simonyi Zsigmond helyesírási verseny 2001. évi
Kárpát-medencei dönt jér l). Nyr 125(3)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Mit írnak errMit írnak err l a webes fórumokon?l a webes fórumokon?
Egy fórumról, 2007-b l:
„Ezentúl a helyesírás hozzátartozik azalapm veltséghez, de szerintem némely hibahozzátartozik az emberi mivoltunkhoz, arra van ahelyesírásellen rz .”
(sic!)
http://shamalt.scft.hu/1652/helyesiras-es-ertelmesseg/
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Mit gondolnak az emberekMit gondolnak az emberek a gépia gépihelyesírás-ellenhelyesírás-ellen rzésrrzésr l?l?
#1 - KJ - 2006.11.06 - 16:23:37
Olyan természetes, ha az ember ír, legalapvet bb, hogy a helyesírásra figyel. Ha nembiztos valamiben megkérdezi, vagy megnézi valahol. Van, úgy hogy véletlenül, csak atartalomra figyelve becsúszik egy-egy hiba, de itt van lehet ség az utólagos javításrais. Velem is el fordult már. Nekem fizikai fájdalom, ha komoly helyesírási hibákatlátok. Aki arra szánja magát, hogy másnak is megmutatja az írásait, annak kötelességemondatról, mondatra átnéznie m vét, jól írta-e!
#9 - ER - 2006.11.07 - 13:32:53
ha mindenki a szövegszerkeszt be irná be el ször a szöveget, akkor ott automatikusan kilenne javitva.
#10 BM - 2006.11.07 - 13:48:43
hát igen, ennyi kellene, ebben meg is egyezhetünk.
#11 BM - 2006.11.07 - 13:49:27
"Szerintem,,a helyesírás képessége: az általános m veltség tartozéka."
szeritnem meg nem. a telefonkönyv sem az.
#12 - ÖÜ - 2006.11.07 - 13:50:43
Egy francot, az ellen rz se javít ki mindent, ami hibásan is elfogadott szó, azátmegy. Persze a 90-98 %-át javítja.
#13 - ÖÜ - 2006.11.07 - 13:52:17
De egy cikkben legalábbis esztétikailag nem elhanyagolható szempont
#14 - BM - 2006.11.07 - 14:11:45
senki nem mondta, hogy a helyesirásellen rz mindent javít. (vagy irta vki?)
a helyesírás egy cikkben fotnos szempont, egyetértek.
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
A A web web a gépi nyelvi eszközök megítéléséra gépi nyelvi eszközök megítélésér llPZS, 2005. május 6. 16:31
A kérdésem, hogy hogyan lehet (kell) megcsinálni azt, hogy egy angol office-hoz legyenmagyar nyelv helyesírás ellen rzés?
HM, 2005. május 7. 8:20
El kell menni a Morphologichoz és megvenni a helyes-e csomagot, és akkor lesz magyarhelyesírás ellen rz az officeban.
BE, 2005. augusztus 24. 7:22
Hú ez nagyon jó! Én már régóta szenvedek de semmi.... Megnézem mit tud ez aMorfolódzsik:)
Drága? :-)
BE, 2005. augusztus 24. 7:25
VÁáááá! Ez 20.000 ft, ennyiért én magamtól bepötyögöm a saját szótárba :-) Hát milyenrablás ez kérem szépen, egy bolti 2 nyelv szótár az 1/3adába kerül, és itt még papaírsincs, csak egy 200ft-os korong...
SB, 2005. augusztus 25. 13:3
A helyesírás-ellen rz nem egy szótár! Annál egy picit több. Ismernie kell a szavaktoldalékolását, az igék összes alakját és idejét, továbbá a nyelvtani ellen rz jénekmég elemezni is kell tudnia a mondatokat.
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Van azért objektív tájékoztatás isVan azért objektív tájékoztatás is……
http://itl7.elte.hu/~zsolt/Oktatas/SzA/Irogep.pdf
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Mi kell a helyes(és a szabályzattal szinkronban lev ) íráshoz?
• Hibafelismerési készség
• Szabályzatismeret
• Analógiaalkalmazási készség
• De leginkább: igényesség (amib l afentiek könnyebben következhetnek…)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Tanulni kell ezt is használni!Tanulni kell ezt is használni!
„A számítógép úgy segít a hibák javításában, hogy az írónaknem kell félnie egy küls személy ítéletét l, így kevésbéfrusztráló. Bízzuk tehát a géppel javítható eseteket a gépre,és az oktatás és a nyelvm velés er forrásait koncentráljuk anépszer tlen-gépszer tlen helyesírási esetekre. Persze, ezcsak akkor lehetséges, ha az emberek (és nem utolsósorbana magyar szakos tanárok) megtanulják, hogyan kell a gépeterre a célra használni.” Kis Á. (1999) Az akadémiai helyesírási szabályzat és a számítógép. Nyr 123(2)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
A gép nem ember(és viszont: az ember nem gép!)
“Több mint húsz éve vagyok olvasószerkeszt , könyveket,
napi- és üzemi lapokat, üzleti dokumentumokat, pályázatokat
korrektúrázok. A számítógépek elterjedésével sokan azt
hitték, ezt a szakmát felváltja majd a szövegszerkeszt
szoftverek helyesírás-ellen rz opciója. Tévedtek. Az olykor
igénytelenül, sokszor magyartalanul és érthetetlenül
megfogalmazott szövegeket javítani, a helyesírás komplex
szabályait alkalmazni egyetlen szoftver képes csak: a
kreatív, munkájával szemben igényes, gondolkodó ember.”
(Budán László olvasószerkeszt , Magellán PR & Hírügynökség,
http://www.magellanpr.hu/index.php?inc=inc.fedelzet.php&title=Fed%E9lzet)
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
… az igényességet viszontnem pusztán a nyelvtanórán
kell(ene) tanítani!
Prószéky GáborMorphoLogicPPKE ITK
Szarvas Gábor-napok, Ada, 2007. október 13.
Köszönöm a figyelmet!Köszönöm a figyelmet!