Themen Einfhrung: Komplexe Regulre Ausdrcke
Notationskonventionen: Basisoperatoren Definitionen komplexer
regulrer Ausdrcke Enthaltensein Restriktion Ersetzungen
Theoretische Basis des Ersetzungsoperators: Einschrnkung der
Mchtigkeit kontextsensitiver Regeln Anwendungsbeispiele
Restriktionsoperator: Parsing Ersetzungsregel: Phonologisches
Beispiel 6 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre
Ausdrcke 5.7.2010
Folie 7
Enthaltensein-Operator $ Definition $A = def [?* A ?*]
Beispiel: $[a|b] bezeichnet alle Zeichenketten, die mindestens ein
a oder b enthalten Beispiel: $a bezeichnet alle Zeichenketten, die
ein a enthalten 7 Karttunen, Chanod, Grefenstette, Schiller 1997 a
a, ?? [?* a ?*] Karin Haenelt, Abstrakte Operatoren fr komplexe
regulre Ausdrcke 5.7.2010
Folie 8
Restriktionsoperator => Definition A B _ C = def [~[[~[?* B]
A ?*] | [?* A ~[C ?*]]]] 1) oder auch A B _ C = def ~ [ ~ [?* B] A
?*] & ~ [?* A ~[C ?*]] 2) Jedes A muss einen Vorgnger B und
einen Nachfolger C haben 8 1) Beesley, Karttunen 2003 Karttunen,
Chanod, Grefenstette, Schiller 1997 2)Karttunen, 2005, Folie 44
3)Graphik: Karttunen 2005, Folie 44 ?, c b b a c = {a,b,c,?} Karin
Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke
5.7.2010
Folie 9
Restriktionsoperator kodiert auf kompakte Art eine ntzliche
Bedingung, die mit primitiveren Operatoren nur sehr umstndlich
auszudrcken ist kompakte Darstellung a b _ c quivalente regulre
Ausdrcke (Definition): Version 1) ~ [ ~ [?* b] a ?*] & ~ [?* a
~[c ?*]] Version 2) [~[[~[?* b] a ?*] | [?* a ~[c ?*]]]] 9 1)
Beesley, Karttunen 2003 Karttunen, Chanod, Grefenstette, Schiller
1997 2)Karttunen, 2005, Folie 44 ?, c b b a c = {a,b,c,?} Karin
Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke
5.7.2010
Folie 10
Restriktionsoperator quivalente regulre Ausdrcke (Definition):
~ [~[?* b] a ?*] & ~ [?* a ~[c ?*]] [~[ [~[?* b] a ?*] | [?* a
~[c ?*]] ]] De Morgansches Gesetz: ~(x|y) = ~x & ~y Paraphrase
[~[?* B] A ?*] (entspricht x) direkt vor A steht kein B [?* A ~[C
?*]] (entspricht y) direct hinter A steht kein C beide Definitionen
schlieen diese beiden Flle aus. 10 Karin Haenelt, Abstrakte
Operatoren fr komplexe regulre Ausdrcke 5.7.2010
Folie 11
XEROX Finite State Compiler 11 1)nicht mehr online, download:
http://www.fsmbook.com auch auf CD in Beesley/Karttunen 2003
http://www.fsmbook.com Karin Haenelt, Abstrakte Operatoren fr
komplexe regulre Ausdrcke 5.7.2010
Folie 12
Restriktionsoperator Vergleich der beiden Definitionsvarianten
12 XEROX Finite State Compiler ( nicht mehr online, download:
http://www.fsmbook.com & auf CD in Beesley/Karttunen
2003)http://www.fsmbook.com Karin Haenelt, Abstrakte Operatoren fr
komplexe regulre Ausdrcke 5.7.2010
Folie 13
Ersetzungsoperator Definition A B = def [ [~$[A - []] [A.x.
B]]* ~$[A []]] ersetze A durch B A und B bezeichnen regulre
Sprachen, aber der Ausdruck als Ganzes bezeichnet eine Relation Die
[A B] Relation bildet jede Zeichenkette, die kein A enthlt, auf
sich selbst ab Zeichenketten, die ein A enthalten, werden Kopien
zugeordnet, in denen jedes A gegen ein B ausgetauscht ist, die
sonst aber mit der Kette identisch sind 13 Karttunen, Chanod,
Grefenstette, Schiller 1997 Karin Haenelt, Abstrakte Operatoren fr
komplexe regulre Ausdrcke 5.7.2010
Folie 14
Ersetzungsoperator Graphische Darstellung 14 (Karttunen, 1993)
Transduktor zur Regel ab / _b (optional) Karin Haenelt, Abstrakte
Operatoren fr komplexe regulre Ausdrcke 5.7.2010
Theoretische Basis des Ersetzungsoperators Entwicklung stammt
ursprnglich aus dem Bereich der Modellierung phonologischer Regeln
Regeln der Form / _ Chomsky /Halle (1968) ersetze , das zwischen
und steht, durch kontextsensitiv kontextsensitive Regeln sind nicht
so mchtig wie es scheint, wenn man bestimmte Einschrnkungen annimmt
16 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke
5.7.2010
Folie 17
Theoretische Basis komplexer regulrer Ausdrcke Schtzenberger
(1961): fr jedes Paar sequentiell anwendbarer Transduktoren
existiert ein quivalenter einzelner Transduktor Johnson (1972)
(seinerzeit nicht beachtet und vergessen) Kaplan und Kay (um 1980)
(neu entdeckt): Eingabe-Ausgabepaare einer kontextsensitiven Regel
stellen regulre Relationen dar, wenn eine kontextsensitive Regel im
nchsten Zyklus nicht wieder auf ihre eigene Ausgabe angewendet
werden darf 17 Karin Haenelt, Abstrakte Operatoren fr komplexe
regulre Ausdrcke 5.7.2010
Folie 18
Theoretische Basis Folgerung aus der Beobachtung Schtzenbergers
18 (Karttunen, 2005 (1), Folie 21) Folgerung: jede sequentielle
Regelanwendung kann quivalent durch eine Regel beschrieben werden
Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke
5.7.2010
Folie 19
Theoretische Basis Beobachtungen von Johnson und Kaplan und Kay
Effekt der Einschrnkung der Anwendungsposition kontextsensitiver
Regeln Regel ab / _b (optional) fge optional die Zeichenkette ab
vor einem b ein zwei Arten der Anwendung: 19 a b a a b b a a a b b
b... a a n b n b a b a a b b a a b a b b... a [a b] n b (Karttunen,
1993) kontextfreie Spracheregulre Sprache Karin Haenelt, Abstrakte
Operatoren fr komplexe regulre Ausdrcke 5.7.2010
Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999),
Regeln fr Nominalphrasen vereinfachte Regel fr franzsische
Nominalphrasen Kompilationsschritte berfhrung der Einzelregeln in
endliche Automaten Intersektion der Einzelautomaten (Ausfhrung der
&- Verknpfung) 21 Karin Haenelt, Abstrakte Operatoren fr
komplexe regulre Ausdrcke 5.7.2010
Folie 22
Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999),
Erluterung -1- [Noun => _ [ PAdj | Prep |.#. ] ] hinter einem
Nomen steht ein PAdj (nachgestelltes prdikatives Adjektiv) oder
eine Prposition das Ende der Eingabe ist erreicht.#. 22 01 ?,
PAdj,Prep PAdj,Prep Noun Karin Haenelt, Abstrakte Operatoren fr
komplexe regulre Ausdrcke 5.7.2010
Folie 23
Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999),
Erluterung -2- [ Art | Noun ] [ Art | Noun | PAdj | Prep ] * Art
oder Noun, dann drfen folgen Art | Noun | PAdj | Prep 23 01
Art,Noun Art,Noun, PAdj,Prep Karin Haenelt, Abstrakte Operatoren fr
komplexe regulre Ausdrcke 5.7.2010
Ersetzungsoperator: Anwendungsbeispiel 28 Jurafsky/Martin,
2000, S. 78 r0r0 r1r1 r2r2 r3r3 r4r4 r5r5 s # :e ^: z,x z,s,x
#,other z,s,x ^: # other ^:s z,s,x #,other Regel fr die Einfgung
von e im Plural der englischen Nomina, die auf x,s,z enden (foxes)
Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke
5.7.2010
Folie 29
Literatur Beesley Kenneth R. und Lauri Karttunen (2003).
Finite-State Morphology. Distributed for the Center for the Study
of Language and Information. 696 p. (est.). 2003 Series: (CSLI-SCL)
Studies in Computational Linguistics Chomsky, Noam and Morris
Halle. 1968. The Sound Pattern of English. NewYork: Harper and Row.
Grefenstette, Gregory (1999). Light Parsing as Finite State
Filtering. In: Kornai 1999, S. 86- 94. frhere Version: In: Workshop
on Extended finite state models of language, Budapest, Hungary, Aug
11--12, 1996. ECAI'96."
http://citeseer.ist.psu.edu/grefenstette96light.htmlhttp://citeseer.ist.psu.edu/grefenstette96light.html
Johnson, C. Douglas (1972). Formal Aspects of Phonological
Description. Mouton. Jurafsky, Daniel und James H. Martin (2000):
Speech and Language Processing. An Introduction to Natural Language
Processing, Computational Linguistics and Speech Recognition. New
Jersey: Prentice Hall. S. 21-56. Kaplan, R. M. and Kay, M. (1981).
Phonological rules and finite-state transducers. In Linguistic
Society of America Meeting Handbook, Fifty-Sixth Annual Meeting,
New York. Abstract. Kaplan, R. M. and Kay, M. (1994). Regular
models of phonological rule systems. In: Computational Linguistics,
20(3):331378. 29 Karin Haenelt, Abstrakte Operatoren fr komplexe
regulre Ausdrcke 5.7.2010
Folie 30
Literatur Karttunen, Lauri (2005). Finite-State Methods in
Natural Language Processing. LSA Summer Institute. Lecture Notes, 1
: 18.07.2005, 2 : 20.07.2005, 3 : 25.07.2005, 4 : 27.07.2005, 5 :
01.08.2005, 6 : 03.08.2005 -
http://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture1.ppt
-
http://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture2.ppt
-
http://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture3.ppthttp://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture1.ppthttp://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture2.ppthttp://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture3.ppt
Karttunen, Lauri (1995). The Replace Operator. In: Proceedings of
the 33rd Annual Meeting of the Association for Computational
Linguistics. ACL-95, S. 16-23, Boston, Massachusetts.
http://www.xrce.xerox.com/Publications/Attachments/1995-017/mltt-95-03.pdf
http://www.xrce.xerox.com/Publications/Attachments/1995-017/mltt-95-03.pdf
Karttunen, Lauri (1993). Finite-state Constraints.
http://www2.parc.com/istl/members/karttune/publications/fsc-91/fsc91.pdf
http://www2.parc.com/istl/members/karttune/publications/fsc-91/fsc91.pdf
Karttunen, Lauri und Kenneth R. Beesley (2005). Twenty-Five Years
of Finite-State Morphology. In: Antti Arppe, Lauri Carlson, Krister
Lindn, Jussi Piitulainen, Mickael Suominen, Martti Vainio, Hanna
Westerlund and Anssi Yli-Jyr (Eds.). Inquiries into Words,
Constraints and Contexts. Festschrift for Kimmo Koskenniemi on his
60th Birthday. S. 71- 83.
http://csli-publications.stanford.edu/koskenniemi-festschrift/8-karttunen-beesley.pdfhttp://csli-publications.stanford.edu/koskenniemi-festschrift/8-karttunen-beesley.pdf
30 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke
5.7.2010
Folie 31
Literatur Karttunen, Lauri; Jean-Pierre Chanod, Gregrory
Grefenstette und Anne Schiller (1997). Regular Expressions for
Natural Language Engineering. In: Natural Language Engineering, S.
1-24.
http://www2.parc.com/istl/members/karttune/publications/jnle-97/rele.pdfhttp://www2.parc.com/istl/members/karttune/publications/jnle-97/rele.pdf
Koskenniemi, K. (1983). Two-level morphology: A general
computational model for word- form recognition and production.
Publication 11, University of Helsinki, Department of General
Linguistics, Helsinki. Schtzenberger, Marcel-Paul. (1961). A remark
on finite transducers. Information and Control 4:185196. Anssi
Yli-Jyr and Kimmo Koskenniemi (2004). Compiling Contextual
Restrictions on Strings into Finite-State Automata.
Post-proceedings of Eindhoven Fastar Days, September 3-4, 2004
XEROX Finite State Compiler
http://www.xrce.xerox.com/competencies/content-
analysis/fsCompiler/fsnetwork.html (nicht mehr unter dieser Adresse
online) Download unter http://www.fsmbook.com; auch enthalten auf
CD in Beesley/Karttunen 2003, Finite State Morphology (CLSI
Publications 2003)http://www.xrce.xerox.com/competencies/content-
analysis/fsCompiler/fsnetwork.html http://www.fsmbook.com 31 Karin
Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke
5.7.2010
Copyright Karin Haenelt, 2009, 2010 All rights reserved. The
German Urheberrecht (esp. 2, 13, 63, etc.). shall be applied to
these slides. In accordance with these laws these slides are a
publication which may be quoted and used for non-commercial
purposes, if the bibliographic data is included as described
below.Urheberrecht Please quote correctly. If you use the
presentation or parts of it for educational and scientific
purposes, please observe the laws (copyright, Urheberrecht, etc.)
Please include the bibliographic data (author, title, date, page,
URL) in your publication (book, paper, course slides, etc.).
Deletion or omission of the footer (with name, data and copyright
sign) is not permitted Bibliographic data. Karin Haenelt. Komplexe
reulre Ausdrcke. 20.6.2010 ( 1 15.01.2003)
http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_KomplexRegEx.pdf
http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_KomplexRegEx.pdf
For commercial use: No commercial use is allowed without written
permission from the author. In case you are interested in
commercial use please contact the author. Court of Jurisdiction is
Darmstadt, Germany 33 Karin Haenelt, Abstrakte Operatoren fr
komplexe regulre Ausdrcke 5.7.2010