of 33 /33
1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt 5.7.2010

1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt 5.7.2010

Embed Size (px)

Text of 1 Abstrakte Operatoren für komplexe reguläre Ausdrücke Karin Haenelt 5.7.2010

  • Folie 1
  • 1 Abstrakte Operatoren fr komplexe regulre Ausdrcke Karin Haenelt 5.7.2010
  • Folie 2
  • Themen Einfhrung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschrnkung der Mchtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010 2
  • Folie 3
  • Abstrakte Operatoren fr komplexe regulre Ausdrcke erweitern die Notation fr regulre Ausdrcke zur einfacheren Formulierung linguistischer Regeln Konstrukte Enthaltensein $ Restriktionen Ersetzungen und @ erweitern nicht die deskriptive Mchtigkeit regulrer Ausdrcke stellen eine hhere Abstraktionsebene zur Verfgung Quellen: Koskenniemi (1983), Karttunen (1995) und Beesley/Karttunen (2003)) 3 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 4
  • Themen Einfhrung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschrnkung der Mchtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 4 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 5
  • Notationskonventionen 5 Karttunen, Chanod, Grefenstette, Schiller 1997 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 6
  • Themen Einfhrung: Komplexe Regulre Ausdrcke Notationskonventionen: Basisoperatoren Definitionen komplexer regulrer Ausdrcke Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschrnkung der Mchtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Phonologisches Beispiel 6 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 7
  • Enthaltensein-Operator $ Definition $A = def [?* A ?*] Beispiel: $[a|b] bezeichnet alle Zeichenketten, die mindestens ein a oder b enthalten Beispiel: $a bezeichnet alle Zeichenketten, die ein a enthalten 7 Karttunen, Chanod, Grefenstette, Schiller 1997 a a, ?? [?* a ?*] Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 8
  • Restriktionsoperator => Definition A B _ C = def [~[[~[?* B] A ?*] | [?* A ~[C ?*]]]] 1) oder auch A B _ C = def ~ [ ~ [?* B] A ?*] & ~ [?* A ~[C ?*]] 2) Jedes A muss einen Vorgnger B und einen Nachfolger C haben 8 1) Beesley, Karttunen 2003 Karttunen, Chanod, Grefenstette, Schiller 1997 2)Karttunen, 2005, Folie 44 3)Graphik: Karttunen 2005, Folie 44 ?, c b b a c = {a,b,c,?} Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 9
  • Restriktionsoperator kodiert auf kompakte Art eine ntzliche Bedingung, die mit primitiveren Operatoren nur sehr umstndlich auszudrcken ist kompakte Darstellung a b _ c quivalente regulre Ausdrcke (Definition): Version 1) ~ [ ~ [?* b] a ?*] & ~ [?* a ~[c ?*]] Version 2) [~[[~[?* b] a ?*] | [?* a ~[c ?*]]]] 9 1) Beesley, Karttunen 2003 Karttunen, Chanod, Grefenstette, Schiller 1997 2)Karttunen, 2005, Folie 44 ?, c b b a c = {a,b,c,?} Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 10
  • Restriktionsoperator quivalente regulre Ausdrcke (Definition): ~ [~[?* b] a ?*] & ~ [?* a ~[c ?*]] [~[ [~[?* b] a ?*] | [?* a ~[c ?*]] ]] De Morgansches Gesetz: ~(x|y) = ~x & ~y Paraphrase [~[?* B] A ?*] (entspricht x) direkt vor A steht kein B [?* A ~[C ?*]] (entspricht y) direct hinter A steht kein C beide Definitionen schlieen diese beiden Flle aus. 10 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 11
  • XEROX Finite State Compiler 11 1)nicht mehr online, download: http://www.fsmbook.com auch auf CD in Beesley/Karttunen 2003 http://www.fsmbook.com Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 12
  • Restriktionsoperator Vergleich der beiden Definitionsvarianten 12 XEROX Finite State Compiler ( nicht mehr online, download: http://www.fsmbook.com & auf CD in Beesley/Karttunen 2003)http://www.fsmbook.com Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 13
  • Ersetzungsoperator Definition A B = def [ [~$[A - []] [A.x. B]]* ~$[A []]] ersetze A durch B A und B bezeichnen regulre Sprachen, aber der Ausdruck als Ganzes bezeichnet eine Relation Die [A B] Relation bildet jede Zeichenkette, die kein A enthlt, auf sich selbst ab Zeichenketten, die ein A enthalten, werden Kopien zugeordnet, in denen jedes A gegen ein B ausgetauscht ist, die sonst aber mit der Kette identisch sind 13 Karttunen, Chanod, Grefenstette, Schiller 1997 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 14
  • Ersetzungsoperator Graphische Darstellung 14 (Karttunen, 1993) Transduktor zur Regel ab / _b (optional) Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 15
  • Themen Einfhrung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschrnkung der Mchtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 15 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 16
  • Theoretische Basis des Ersetzungsoperators Entwicklung stammt ursprnglich aus dem Bereich der Modellierung phonologischer Regeln Regeln der Form / _ Chomsky /Halle (1968) ersetze , das zwischen und steht, durch kontextsensitiv kontextsensitive Regeln sind nicht so mchtig wie es scheint, wenn man bestimmte Einschrnkungen annimmt 16 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 17
  • Theoretische Basis komplexer regulrer Ausdrcke Schtzenberger (1961): fr jedes Paar sequentiell anwendbarer Transduktoren existiert ein quivalenter einzelner Transduktor Johnson (1972) (seinerzeit nicht beachtet und vergessen) Kaplan und Kay (um 1980) (neu entdeckt): Eingabe-Ausgabepaare einer kontextsensitiven Regel stellen regulre Relationen dar, wenn eine kontextsensitive Regel im nchsten Zyklus nicht wieder auf ihre eigene Ausgabe angewendet werden darf 17 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 18
  • Theoretische Basis Folgerung aus der Beobachtung Schtzenbergers 18 (Karttunen, 2005 (1), Folie 21) Folgerung: jede sequentielle Regelanwendung kann quivalent durch eine Regel beschrieben werden Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 19
  • Theoretische Basis Beobachtungen von Johnson und Kaplan und Kay Effekt der Einschrnkung der Anwendungsposition kontextsensitiver Regeln Regel ab / _b (optional) fge optional die Zeichenkette ab vor einem b ein zwei Arten der Anwendung: 19 a b a a b b a a a b b b... a a n b n b a b a a b b a a b a b b... a [a b] n b (Karttunen, 1993) kontextfreie Spracheregulre Sprache Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 20
  • Themen Einfhrung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschrnkung der Mchtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 20 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 21
  • Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Regeln fr Nominalphrasen vereinfachte Regel fr franzsische Nominalphrasen Kompilationsschritte berfhrung der Einzelregeln in endliche Automaten Intersektion der Einzelautomaten (Ausfhrung der &- Verknpfung) 21 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 22
  • Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erluterung -1- [Noun => _ [ PAdj | Prep |.#. ] ] hinter einem Nomen steht ein PAdj (nachgestelltes prdikatives Adjektiv) oder eine Prposition das Ende der Eingabe ist erreicht.#. 22 01 ?, PAdj,Prep PAdj,Prep Noun Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 23
  • Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erluterung -2- [ Art | Noun ] [ Art | Noun | PAdj | Prep ] * Art oder Noun, dann drfen folgen Art | Noun | PAdj | Prep 23 01 Art,Noun Art,Noun, PAdj,Prep Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 24
  • Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erluterung -3- A 9 : Schnittbildung der Automaten [ Art _ [Noun] & [ Noun _ [PAdj | Prep |.#. ] & [ PAdj _ [PAdj | Prep |.#. ] & [ Prep _ [Art | Noun] 24 01 ? Art 2 Noun Noun, PAdj 3 Prep PAdj Art Noun Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 25
  • Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erluterung -4- 25 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 26
  • Restriktionsoperator: Anwendungsbeispiel Grefenstette (1999), Erluterung -5- 26 01 Art 3 Prep 2 Noun PAdj Art Noun PAdj 01 Art Prep 2 Noun minimieren Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 27
  • Themen Einfhrung Notationskonventionen Abstrakte Operatoren Enthaltensein Restriktion Ersetzungen Theoretische Basis des Ersetzungsoperators: Einschrnkung der Mchtigkeit kontextsensitiver Regeln Anwendungsbeispiele Restriktionsoperator: Parsing Ersetzungsregel: Regelhafte Pluralbildung 27 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 28
  • Ersetzungsoperator: Anwendungsbeispiel 28 Jurafsky/Martin, 2000, S. 78 r0r0 r1r1 r2r2 r3r3 r4r4 r5r5 s # :e ^: z,x z,s,x #,other z,s,x ^: # other ^:s z,s,x #,other Regel fr die Einfgung von e im Plural der englischen Nomina, die auf x,s,z enden (foxes) Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 29
  • Literatur Beesley Kenneth R. und Lauri Karttunen (2003). Finite-State Morphology. Distributed for the Center for the Study of Language and Information. 696 p. (est.). 2003 Series: (CSLI-SCL) Studies in Computational Linguistics Chomsky, Noam and Morris Halle. 1968. The Sound Pattern of English. NewYork: Harper and Row. Grefenstette, Gregory (1999). Light Parsing as Finite State Filtering. In: Kornai 1999, S. 86- 94. frhere Version: In: Workshop on Extended finite state models of language, Budapest, Hungary, Aug 11--12, 1996. ECAI'96." http://citeseer.ist.psu.edu/grefenstette96light.htmlhttp://citeseer.ist.psu.edu/grefenstette96light.html Johnson, C. Douglas (1972). Formal Aspects of Phonological Description. Mouton. Jurafsky, Daniel und James H. Martin (2000): Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall. S. 21-56. Kaplan, R. M. and Kay, M. (1981). Phonological rules and finite-state transducers. In Linguistic Society of America Meeting Handbook, Fifty-Sixth Annual Meeting, New York. Abstract. Kaplan, R. M. and Kay, M. (1994). Regular models of phonological rule systems. In: Computational Linguistics, 20(3):331378. 29 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 30
  • Literatur Karttunen, Lauri (2005). Finite-State Methods in Natural Language Processing. LSA Summer Institute. Lecture Notes, 1 : 18.07.2005, 2 : 20.07.2005, 3 : 25.07.2005, 4 : 27.07.2005, 5 : 01.08.2005, 6 : 03.08.2005 - http://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture1.ppt - http://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture2.ppt - http://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture3.ppthttp://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture1.ppthttp://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture2.ppthttp://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture3.ppt Karttunen, Lauri (1995). The Replace Operator. In: Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. ACL-95, S. 16-23, Boston, Massachusetts. http://www.xrce.xerox.com/Publications/Attachments/1995-017/mltt-95-03.pdf http://www.xrce.xerox.com/Publications/Attachments/1995-017/mltt-95-03.pdf Karttunen, Lauri (1993). Finite-state Constraints. http://www2.parc.com/istl/members/karttune/publications/fsc-91/fsc91.pdf http://www2.parc.com/istl/members/karttune/publications/fsc-91/fsc91.pdf Karttunen, Lauri und Kenneth R. Beesley (2005). Twenty-Five Years of Finite-State Morphology. In: Antti Arppe, Lauri Carlson, Krister Lindn, Jussi Piitulainen, Mickael Suominen, Martti Vainio, Hanna Westerlund and Anssi Yli-Jyr (Eds.). Inquiries into Words, Constraints and Contexts. Festschrift for Kimmo Koskenniemi on his 60th Birthday. S. 71- 83. http://csli-publications.stanford.edu/koskenniemi-festschrift/8-karttunen-beesley.pdfhttp://csli-publications.stanford.edu/koskenniemi-festschrift/8-karttunen-beesley.pdf 30 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 31
  • Literatur Karttunen, Lauri; Jean-Pierre Chanod, Gregrory Grefenstette und Anne Schiller (1997). Regular Expressions for Natural Language Engineering. In: Natural Language Engineering, S. 1-24. http://www2.parc.com/istl/members/karttune/publications/jnle-97/rele.pdfhttp://www2.parc.com/istl/members/karttune/publications/jnle-97/rele.pdf Koskenniemi, K. (1983). Two-level morphology: A general computational model for word- form recognition and production. Publication 11, University of Helsinki, Department of General Linguistics, Helsinki. Schtzenberger, Marcel-Paul. (1961). A remark on finite transducers. Information and Control 4:185196. Anssi Yli-Jyr and Kimmo Koskenniemi (2004). Compiling Contextual Restrictions on Strings into Finite-State Automata. Post-proceedings of Eindhoven Fastar Days, September 3-4, 2004 XEROX Finite State Compiler http://www.xrce.xerox.com/competencies/content- analysis/fsCompiler/fsnetwork.html (nicht mehr unter dieser Adresse online) Download unter http://www.fsmbook.com; auch enthalten auf CD in Beesley/Karttunen 2003, Finite State Morphology (CLSI Publications 2003)http://www.xrce.xerox.com/competencies/content- analysis/fsCompiler/fsnetwork.html http://www.fsmbook.com 31 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 32
  • Versionen 5.7.2010, 20.6.2010 32 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010
  • Folie 33
  • Copyright Karin Haenelt, 2009, 2010 All rights reserved. The German Urheberrecht (esp. 2, 13, 63, etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below.Urheberrecht Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please observe the laws (copyright, Urheberrecht, etc.) Please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). Deletion or omission of the footer (with name, data and copyright sign) is not permitted Bibliographic data. Karin Haenelt. Komplexe reulre Ausdrcke. 20.6.2010 ( 1 15.01.2003) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_KomplexRegEx.pdf http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_KomplexRegEx.pdf For commercial use: No commercial use is allowed without written permission from the author. In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt, Germany 33 Karin Haenelt, Abstrakte Operatoren fr komplexe regulre Ausdrcke 5.7.2010