Upload
isabell-telleria
View
225
Download
0
Embed Size (px)
Citation preview
Extractores de Información de Kushmerick
Índice
• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones
Índice
• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones
Introducción
Nicholas Kushmerick, Daniel S. Weld, Robert B. Doorenbos: Wrapper Induction for Information Extraction.
IJCAI (1) 1997: 729-737
How IE works
Information extractor
Document
Extraction rules
Attributes
The Da Vinci Code
Dan Brown
15.95 €
2006
Robert Langdon…
Doubleday
Templates
Message ID: MUC-0001Message Template: Court resolutionDate of Event: April, 30 2007Charge: Terrorist attackPerpetrator: Salahuddin AminPerpetrator: Anthony GarciaPerpetrator: Waheed MahmoodPerpetrator: Omar Khyam…
The Da Vinci Code
Dan Brown
15.95 €
2006
P1
Robert Langdon…
Doubleday
A1
B1
Ontology instances
Templating/ Ontologisation rules
Índice
• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones
Ejemplo 1
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓</BODY></HTML>
Ejemplo 2
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P>↓<B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓<HR><B>End</B></BODY></HTML>↓
Ejemplo 3
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P><UL>↓<LI><B>Congo</B> <I>242</I><BR>↓<LI><B>Egypt</B> <I>20</I><BR>↓<LI><B>Belize</B> <I>501</I><BR>↓<LI><B>Spain</B> <I>34</I><BR>↓</UL><HR><B>End</B></BODY></HTML>
Ejemplo 4
name: John↓address: 12 Main St↓
name: Jane↓
name: Sally↓address: 10 Oak Ave↓address: 20 Walnut Rd↓
Reglas LR
• Caracterización LR (Left – Right)
LRLR
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
Reglas HLRT
• Caracterización HLRT (Head – Left – Right – Tail)
HLRTHLRT
Head = “* <P>”
Tail = “<HR> *”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
Head = “* <P>”
Tail = “<HR> *”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
Reglas OCLR
• Caracterización OCLR (Open – Close – Left – Right)
OCLROCLR
Open = “* <LI>”
Close = “<BR>”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
Open = “* <LI>”
Close = “<BR>”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
Índice
• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones
Conceptos Preliminares
• Tokenización
• Conjunto de entrenamiento
<B>Congo</B> <I>242</I><BR>↓
Algoritmos de Inducción
LRHLRTOCLRN-LR
LR – Delimitadores Left
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
</I><BR>↓</I><BR>↓
</I><BR>↓<B><B><B>
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>
</I><BR>↓<B>
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
<B>
</I><BR>↓<B>
</I><BR>↓<B>
CADENA SEMILLA
LR – Delimitadores Left
CANDIDATOS
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
</I><BR>↓<B> /I><BR>↓<B> I><BR>↓<B> ><BR>↓<B> <BR>↓<B>
R>↓<B> BR>↓<B>
>↓<B> ↓<B> <B> B> >
Condiciones de validez para candidatos L:
1) Sufijo apropiado2) No formar parte de la cola
de la página si se trata del primer atributo
LR – Delimitadores Right
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
</B> <I></B> <I></B> <I>
</B> <I>
</B> <I>
</B> <I>
</B> <I>
</B> <I>
CADENA SEMILLA
LR – Delimitadores Right
CANDIDATOS
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
Condiciones de validez para candidatos R:1) No formar parte de algún
atributo2) Prefijo del texto que
ocurre inmediatamente después
</B> <I></B> <I</B> <</B> </B></B</<
LR – Delimitadores Left
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
</B> <I></B> <I></B> <I>
</B> <I>
</B> <I>
</B> <I>
</B> <I>
</B> <I>
CANDIDATOS
</B> <I> /B> <I> B> <I> > <I> <I> <I> I> >
CADENA SEMILLA
LR – Delimitadores Right
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
</I><BR>↓</I><BR>↓
</I><BR>↓<B><B><B>
</I><BR>↓<B>
</I><BR>↓<B>
</I><BR>↓<B>
</I><BR>↓</BODY></HTML>
</I><BR>↓</BODY></HTML>
CANDIDATOS
</I><BR>↓<B></I><BR>↓<B</I><BR>↓<</I><BR>↓</I><BR>
</I><B</I><BR
</I><</I></I</<
CADENA SEMILLA
Inductive algorithms
LRHLRTOCLRN-LR
HLRT
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P>↓
<B> <I> <I> <I>
<I>
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> 242<B><B><B>
EgyptBelizeSpain
20501
34
<B>Some Country Codes</B><P>↓
<HR><B>End</B>
<I><I><I>
<I>
</B></B></B>
</B>
</B></B></B>
</B>
</I><BR>↓</I><BR>↓
</I><BR>↓</I><BR>↓
</I></I>
</I></I>
</BODY></HTML><HR><B>End</B><BR>↓
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P>↓<B>
CADENA SEMILLA PARA H Y l1
</BODY></HTML><BR>↓<HR><B>End</B>
CADENA SEMILLA PARA T
CANDIDATOS PARA H
HLRT<HTML><TITLE>Some Country Codes</TITLE><BODY>↓<B>Some Country Codes</B><P>↓<B>Congo</B> <I>242</I><BR>↓<B>Egypt</B> <I>20</I><BR>↓<B>Belize</B> <I>501</I><BR>↓<B>Spain</B> <I>34</I><BR>↓<HR><B>End</B></BODY></HTML>
</TITLE><BODY>↓<B>/TITLE><BODY>↓<B>S…>↓<B>↓<B>S…<BB>>S …
CANDIDATOS PARA T CANDIDATOS PARA l1…<P>↓<B> P>↓<B> >↓<B> … B> >
↓<HR><B><HR><B>E …<HR><HR><B…HRR>><…
HLRT
Condiciones de validez para validar la tripleta h, t, l1:1) H debe pertenecer a todas las
cabeceras de las páginas2) l1 sufijo apropiado cabecera3) T no debe ocurrir entre H y l1
4) T substring de las colas de las páginas
5) l1 no debe ocurrir antes de t6) l1 sufijo apropiado del texto
entre tuplas7) T no debe ocurrir antes que l1
TRIPLETA VÁLIDA
H:<P>T: <HR>L1:<B>H = “*<P>” T = “<HR>*”CountryName = “<B> * </B>”
TRIPLETA NO VÁLIDA
H:<HTML>T: <HR>L1:<B>
TRIPLETA NO VÁLIDA
H:<P>T: </HTML>L1:<B>
Inductive algorithms
LRHLRTOCLRN-LR
OCLR
<I> <I> <I>
<I>
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓
</BODY></HTML>
Congo<B> 242<B><B><B>
EgyptBelizeSpain
20501
34
<B>Some Country Codes</B><P><UL>↓
</UL><HR><B>End</B>
</B></B></B>
</B>
</I></I><BR>↓
</I><BR>↓</I><BR>↓
<LI><LI><LI><LI>
</B></B></B>
</B>
<I> <I>
<I> <I>
</I></I>
</I></I>
CADENA SEMILLA PARA O Y C
CADENA SEMILLA PARA l1
</I><B><LI> </I><BR>↓<B><LI> </I><BR>↓<B><LI>
</I><BR>↓<LI><B>
<BR>↓<BR>↓
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P><UL>↓<LI><B>
<HTML><TITLE>Some Country Codes</TITLE><BODY>↓ <B>Some Country Codes</B><P><UL>↓
<B><LI>
O:<C : >L1:<B>
OCLRCondiciones de validez para validar la tripleta:1) O substring de las cabeceras2) l1 sufijo apropiado después de
O.3) C substring de la cola4) O no debe ocurrir después de C5) O substring del texto entre
tuplas6) C substring del texto entre
tuplas de cada página.7) l1 sufijo apropiado
TRIPLETA VÁLIDA
O:<LI>C : <BR>L1:<B>H = “*<LI>” T = “<BR>*”CountryName = “<B> * </B>”
TRIPLETA NO VÁLIDA
TRIPLETA NO VÁLIDA
O:<BC : >L1:<B>
Algoritmos de Inducción
LRHLRTOCLRN-LR
N-LR
name: ame: me: e: :
Candidatos l1
John 12 Main St
Jane
Sally 10 Oak Ave 20 Walnut Rd
name:
name:
name:
address: address:
address: address:
address: address:
↓↓
↓
↓
↓
↓
↓
↓
↓
Candidatos r1
↓
↓
John 12 Main St
Jane
Sally 10 Oak Ave 20 Walnut Rd
N-LR
name:
name:
name:
Candidatos l2
address: address:
address: address:
address: address:
↓↓
↓
↓
↓
↓
↓
↓
↓
↓ address: address:
address: ddress: dress: …
s: :
Candidatos r2
↓
↓
↓↓
N-LR
CONJUNTO DE DELIMITADORES VÁLIDOS
l1:name: r1:l2:address: r2: Name = “name: * ↓” Address = “address: * ↓”
↓
↓
Condiciones de validez para un conjunto de candidatos l y r:
1) Selección de conjunto de candidatos y validación mediante ejecución del extractor N-LR
Índice
• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones
LRLRLR
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
AtributosAtributos
Congo 242Egypt 20Belize 501Spain 34
…
</BODY></HTML>
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
<B>Congo</B> <I>242 </I>
HLRTHLRTHLRT
Head = “* <P>”
Tail = “<HR> *”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
Head = “* <P>”
Tail = “<HR> *”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
AtributosAtributos
Congo 242Egypt 20Belize 501Spain 34
Congo<B> </B> <I>242 </I><BR>↓<B><B><B>
EgyptBelizeSpain
</B> <I></B> <I>
</B> <I>
20501
34
</I><BR>↓</I><BR>↓
</I><BR>↓
<B>Congo</B> <I>242 </I><B>Some Country Codes</B><P>↓
…<P>
<HR><B>End</B></BODY></HTML>↓<HR>
OCLROCLROCLR
Open = “* <LI>”
Close = “<BR>”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
Open = “* <LI>”
Close = “<BR>”
CountryName = “<B> * </B>”
CountryCode = “<I> * </I>”
AtributosAtributos
Congo 242Egypt 20Belize 501Spain 34
…<B>Some Country Codes</B><P><UL>↓<LI><B>Congo</B> <I>242</I><BR>↓<LI><B>Egypt</B> <I>20</I><BR>↓<LI><B>Belize</B> <I>501</I><BR>↓<LI><B>Spain</B> <I>34</I><BR>↓</UL><HR><B>End</B></BODY></HTML>
<LI><B>Congo </B> <I>242</I><BR>
N-LR
name: John↓address: 12 Main St↓
name: Jane↓
name: Sally↓address: 10 Oak Ave↓address: 20 Walnut Rd↓
N-LRN-LR
Name = “name: * ↓”
Address = “address * ↓”
Name = “name: * ↓”
Address = “address * ↓”
AtributosAtributos
John
12 Main St
Jane
Sally
20 Walnut Rd10 Oak Ave
address:
address:address:
Índice
• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones
Evaluación
• 70% de los casos aprende un tipo de extractor de información
• Sólo se necesitan un par de ejemplos
Índice
• Introducción• Reglas de Extracción• Generación de reglas de extracción• Extrayendo Información• Evaluación• Conclusiones
Conclusions
• LR, HLRT, OCLR, N-LR• Variantes: HOCLRT, N-HLRT• Problemáticos en la web actual