100
S.E.I.T. I D.G.1.T S.E.P. I\ I/ CENTRO NACIONAL DE INVESTIGACI~N Y DESARROLLO TECN~LÓGICO 11 cenidet I; I Clasificadores Genéticos Usados para la Predicción de los Niveles de)Ozono en la Ciudad de México T E S Il s , I QUE PARA OBTENER EL GRNDO DE: MAESTRO EN CIENCIAS EN CIENCIAS COMPUTACIONALES A. I P R E S E N T I JOSÉ ANTONIO ESPARZA GARCÍA DIRECTOR DE TESIS: DR JOSÉ TORRES h N E Z 1 CUERNAVACA, MOR. I AGOSTO DE 1999.

Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

S.E.I.T. I D.G.1.T S.E.P. I\ I/

CENTRO NACIONAL DE INVESTIGACI~N Y DESARROLLO TECN~LÓGICO 11

cenidet I;

I

Clasificadores Genéticos Usados para la Predicción de los Niveles de)Ozono en la

Ciudad de México

T E S I l s , I

QUE PARA OBTENER EL GRNDO DE: M A E S T R O EN C I E N C I A S

EN CIENCIAS COMPUTACIONALES

A. I

P R E S E N T

I JOSÉ ANTONIO ESPARZA GARCÍA

DIRECTOR DE TESIS: DR JOSÉ TORRES h N E Z 1

CUERNAVACA, MOR. I AGOSTO DE 1999.

Page 2: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS

Centro Nacional de Investigación iv Desarrollo Tecnolóqico /I

- REVISION DE TESIS 1 'I REV. 12/97

Cuernavaca, Morelos a 18 de Septiembre de 1998 y:

M.C. Máximo López Sánchez ~

Presidente de la Academia de Ciencias Computacionales Presente

.I

1

:\ Nos es grato comunicarle, que conforme a los lineamientos para la obtención del grado de

Maestro en Ciencias de este Centro, y después de haber sdmetido a revisión académica la tesis denominada: Clasificadores Genéticos Usados para la Predicción de los Niveles de Ozono en la Ciudad de México, realizada por la C. José Ant8nio Esparza García, y habiendo cumplido con todas las correcciones que le fueron indicadas!, acordamos no tener objeción para que se le conceda la autorización de impresión de la tesis!

'I I

I Sin otro particular, quedamos de usted.

Atentamente \ t

La comisión de revisión de tesis '1 I

M.C. José Luis parnírez Alca'ntara Dr. José Ruiz Asbncio

Dr. FranciscdJosé MÚgica Alvarez - I Asesor de tesis''

ccp Dr. Javier Ortiz Hernández/Jefe del Departamento de Ciencias Computacionales ;i

11

50 Institutos TecnolÓ$icos

años de educación superior telcnológica en Mexico !I

M6tredfA /I

:j 'I

',! APARTADO POSTAL5-164. CP 62051, CUERNAVACA. MOR. MhICO-TELS. (73)12 2314.12 7613, FAX (73) 12 2434 -EMAIL: cenidefI~infose1.nef.mx

Page 3: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

1,

Centro Nacional de Investigación y Desarrollo Tecnológico FORMAC4 1

AUTORIZACION DE IMPRESIÓN 'DE II TESIS

Cuernavka, Morelos a 27 de julio de 1999 'I

\

I!

I C. JOSÉ ANTONIO ESPARZA GARCíA Candidato al grado de Maestro en Ciencias en Ciencias Computacionales Presente

I 1

Después de haber atendido las indicaciones sugeridas por la Comisión Revisora de la Academia de Ciencias Computacionales en relación a suiltrabajo de tesis: Clasificadores Genéticos Usados para la Predicción de los Niveles de Ozono en la Ciudad de México, me es grato comunicarle, que conforme a los lineamientos establecidos para la obtención del grado de Maestro en Ciencias en este Centro, se le concede la autorización para que proceda con la impresión de su tesis.

11

11

'I

1 Ortiz Hernández , Ciencias Computacionales

I

B

INTERIOR INTERNADO PALMIRA SIN. CUERNAVACA. MOR. MtXICO APARTADO POSTAL 5-164 C P 62050. CJERNAVACA. TELS. (73112 2314.12 7613.16 7741,FAX (73) 12 2434

EMAIL [email protected]

j

keniúef

Page 4: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

. .- - ... _ _ . - 'I / /

it

Clasificadores Genéticos Usados para la Predicción de los Niveles de,/Ozono en la

Ciudad de México I

I! L.I. José Antonio Esparza Garcia ;I

Tesis Para Obtener el Grado de Maestro en Ciencias en Ciencias Computacionales

Director de Tesis: Dr. José Torres Jiménez

I

I

I 2 de agosto de 1999

Centro Nacional de Investigación y Desurollb Tecnológico cenidet 1 1

!

Page 5: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

\

AGFLADECIMIENTOS

1 Gracias a Dios por darme la vida y fuerza, y por haber terminado mis estudios.

\'

Muy especial para mi esposa Sandra por su amor y comprensión.

A mi hijo José Antonio por la felicidad yila alegria que nos brinda.

I

I

Para mis padres Julia y Antonio por su apoyo incondicional para terminar mis estudios.

A mis hermanos Socorro, Heriberto y Martha mis ejemplos de lucha y trabajo. 1

Para mis tíos Miguel Angel y Elida, por;su apoyo incondicional.

I

1

,I

I

11

A mi asesor de tesis Dr. José Torres, a quien admiro y respeto, y quien luchó para lograr este trabajo.

Al tecnológico de Durarigo, la institución quL me formó

11

profesionalment e. 11

Para todos los Maestros del cenidet, muy en 'especial al M.C. José Luis Alcantara, ejemplo de trabajb y razón.

Finalmente doy gracias a CONACYT, que es kéxico, por brindarme el apoyo económico para realizar mis estudios.

I1

I \

Page 6: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

. - . . . ., .......... ... ._ . - ......

ÍNDICE GENERAL

Abreviaturas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Antecedentes . . . . . . . . . i . . . . . . . . . . . . . . . . . 2

1.3 Objetivo . . . . . . . . . . . . . . . . . . . : . . . . . . . . . . 3

1.4 Sistemas basados en conocimiento . . . . . . . . . . . . . . . 4

1.5 Sistemas de aprendizaje . . . . . . . . . . . . . . . . . . . . . 5

1.6 Sistemas evolutivos . . . . . . . . . . . . . . . . . . . . . . . . 5

1.7 Descripción de la tesis . . . . . . . . . . . : . . . . . . . . . . 6

. i

Sistemas de Clasificación . . . . . . . . . . . . ! . . . . . . . . . . 8

2.1 Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 Representación del conocimiento . . . . . . . . . . . . . . . . 9

2.3 Taxonomía de los sistemas de aprendizaje . . . . . . . . . . . 11

2.4 Sistemas de clasificación tradicionales . . . . . . . . . . . . . 16

I

I 2.4.1 Espacio de versiones I 16 . . . . . . . . . . . . . . . . . . . I 2.4.2 ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.4.3 AQ . . . . . . . . 2.4.4 CN2 . . . . . . .

2.5 Consideraciones generales

. . . . . . . . . . . . . 17

. . . . . . . . . . . . . 18

. . . . . . . . . . . . . 18

Page 7: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

fndice General iv

Algoritmos Genéticos . . . . . . . . . . . . . . . ~ . . . . . . . . . . 20

3.1 Definición . . . . . . . . . . . . . . . . . . . ! . . . . . . . . . . 20

3.1.1 Características de los AG . . . . . . . . . . . . . . . . . 21

3.2 Marco teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3 El teorema de esquemas . . . . . . . . . . . . . . . . . . . . . 23

3.4 Algoritmo básico . . . . . . . . . . . . . . 1 . . . . . . . . . . . 24

3.5 La selección . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.6 Los operadores genéticos . . . . . . . . . . . . . . . . . . . . . 26

3.6.1 Operador clásico de cruce . . . . . . . . . . . . . . . . . 26

3.2.1 Fundamentos de los AG . . . . . . . . . . . . . . . . . . . 22

I

I

3.6.2 Operador clásico de mutación . . . . . . . . . . . . . . 27

3.6.3 27

3.6.4 Operador de cruce uniforme . . . . . . . . . . . . . . . 27

3.6.5 Operadores especiales de cruce para permutaciones . . 28

Operador de cruce con dos cortes . Í . . . . . . . . . . . I

3.6.6 Operador clásico de inversión . . . . . . . . . . . . . . . . 28

3.6.7 Operador de intercambio . . . . . . . . . . . . . . . . 28

3.7 La función de aptitud . . . . . . . . . . . . . . . . . . . . . . 29

3.8 Codificación de un problema . . . . . . . . . . . . . . . . . . . 29

3.8.1 Codificación de un parámetro discreto . . . . . . . . . 30

![ !!

3.8.2 Codificación de un parámetro continuo . . . . . . . . . 30 'I 'I

Sistemas Clasificadores Genéticos . . . . . . ; . . . . . . . . . . . 32 4.1 Definición ' I 32

4.2 Propiedades de los SCG . . . . . . . . . . . . . . . . . . . . . 33

4.3 Esquema de un SCG y algoritmo básico ! . . . . . . . . . . . 34

i . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

f

4.4 Ciclo básico de un SCG . . . . . . . . . . . . . . . . . . . . . 34

4.5 Representación de las reglas . . . . . . . . . . . . . . . . . . . 35 I

Page 8: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

4.6 Algoritmo Bucket Brigade . . . . . . . . . ' . . . . . . . . . . . 37

4.7 E ~ A G ~ ~ ~ ~ S C G . . . . . . . . . . . . . . . . . . . . . . . . 38

4.8 Aplicaciones de los SCG . . . . . . . . . . . . . . . . . . . . . . 39

40

I

Discretización de Atributos Continuos . . . . I . . . . . . . . . . . I1

1 5.1 Métodos de discretización . . . . . . . . . . . . . . . . . . . . 40

5.2 Importancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.3 Algoritmos de discretización de MLC++ . . . . . . . . . . . . 42

5.3.1 Intervalos de longitud igual (BIN) . . . . . . . . . . . 42

5.3.2 Partición por entropía . . . . . . . . . . . . . . . . . . 43

5.3.3 Una regla de discretización (1RD) . . . . . . . . . . . 43

45

6.1 Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6.2 Modelo de solución . . . . . . . . . . . . ! . . . . . . . . . . . 46

6.3 Muestras del sistema RAMA . . . . . . . . . . . . . . . . . . . 47

6.4 Discretización de los datos de RAMA . . . . . . . . . . . . . 48

6.5 Parámetros del usuario . . . . . . . . . . . . . . . . . . . . . . 50

6.6 Esquema de representación de las reglas . . . . . . . . . . . . . 51

6.6.1 Selección del enfoque de representación de reglas . . . 51

6.6.2 Constrncción del esquema de representación de reglas 51

6.7 Evaluación del aprendizaje . . . . . . . . , . . . . . . . . . . . . 53

6.8 Desarrollo e implementación del sistema$i . . . . . . . . . . . . 54

Resultados Obtenidos . . . . . . . . . . . . . , 56 7.1 Diseño de 1% pruebas . . . . . . . . . . 1 . . . . . . . . . . . . 56

7.2 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

7.3 Origin 2000 y SUN sparc station 20 . . . . . . . . . . . . . . 66

I Desarrollo de un SCG para Predicci6n de Ozono . . . . . . . .

'I

!I

11 : I

/ I . . . . . . . . . . . .

I

ii

Page 9: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

fndice General vi

7.4 Comparación de resultados del SCG . . . . . . . . . . . . . . 68 ,I

Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Apéndice A - Tablas de Discretización de Datos de RAMA .

Apéndice B - Tablas de las Reglas Generadas por el SCG . . 79

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

74 I

I

Page 10: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

_ _ .. 11'

I I I

..... . . . . . . . - . !- I

- __

! I

b 6.1 Descubrimiento de reglas de clasificación. . .) . . . . . . . . . 47 I

I 6.2 Validación de reglas descubiertas. . . . . . . . l . . . . . . . . . i 'I 47

7.1

7.2

7.3

7.4

7.5

7.6

7.7

7.8

v

I !#

Predicción para 1 hora con 46 variables . . . !. . . . . . . . . 62

Error para 1 hora coh 46 variables . . . . . . . . . . . . . . . . . 63

Predicción para 2 horas con 46 variables . . . (1 . . . . . . . . 64

Error para 2 horas con 46 variables . . . . . . . . . . . . . . . 65

. . . . . . . . 66

68

69

70

i

I I I

I'

Predicción para 3 hoias con 46 variables . . . 1 I I I

I 1

Error para 3 horas con 46 variables . . . . . . !? . . . . . . . . Predicci6n para 4 hoias con 46 variables . . . .! . . . . . . . . Error para 4 horas con 46 variables . . . . . . 11' . . . . . . . .

I

I 'I I i

Page 11: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

I ÍNDICE DE TABLAS

5.1

6.1

6.2

7.1

7.2

7.3

7.4

7.5

7.6

7.7

7.8

7.9

. .I,. . . . . . . . . 41 I

Métodos de discretiiación . . . . . . . !

. .

Distribución de las lhuestras para probar el SCG . . . . . . . Grupos de parámetros de inicialización del SCG . . . . . . . .

Tabla del diseño de pruebas por grupos de variables

48

50

58

i !

! . . . . . !

Valores iniciales de los parámetros del SCG . . . . . . . . . 58

Pruebas con 11 variables . . . . . . . . . . . . . ; . . . . . . . . 60

Pruebas con 20 variables . . . . . . . . . . . . : . . . . . . . . 60

Pruebas con 29 var.iables . . . . . . . . . ! . . 2 . . . . . . . . 60

Pruebas con 38 variables . . . . . . . . . . . . . . . . . . . . . 61

Pruebas con 46 variables . . . . . . . . . . . . . . . . . . . . . 61

Atributos más importantes descubiertos por el SCG en el

Comparación de tiem os de ejecución en SUN gparc station

I I

L

I

I I I 1

I I

. . aprendizaje . . . . . . . . . . . . . . . . . . . .' . . . . . . . . 63

20 y Origin 2000 . . \ . . . . . . . . . . . . . . ~. . . . . . . . 67 I

L I

7.10 Pruebas con BAM pada predicción a una'hora :I. . . . . . . . 69

7.11 Resultados obtenidos a través de redes bayesian&. . . . . . . 69

7.12 Resultados basados en I celdas holográficas . . . '. . . . . . . . 70

7.13 Resumen comparativo !le medidas de certeza en reconocimien-

I

to de muestras no entrenadas para predicción de8'ozono . . . .

A.l Información de discretización -Muestras para una hora- . . . 75

71 I

. / .

I

Page 12: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

fndice de Tablas ix

A.4 Información de

B. l Información de reglas

B.2 Información de reglas

B.3 Información de reglas

B.4 Información de reglas

discretización -Muestras para Cuatro horas- . 78

80

81

82

83

~

obtenidas para una hora' . . . . . . . . obtenidas para dos horq . . . . . . . . obtenidas para tres horas . . . . . . . . obtenidas para cuatro horas . . . . . .

!

!

i

Page 13: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

ABREVIATURAS

UNAM Universidad Nacior

NP no polinomiales.

BAM memoria asociativa b

imeca índice mexicano de 1e

Autónoma de México.

.eccional.

didad del aire.

Page 14: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 1

resolver problemas a travk de la

1.1 Problemática

selección natural y la evolución.

Page 15: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

capitulo 1. Introducción

En un estudio posterior, ell paradigma de celdas halográficas 131 fue utilizado para la predicción de los niveles de mono para 1, 2, 3 y 4 horas; este estudio reporta una confianza de hasta el 54% en la predicción del ozono a 4 horas usando 242 muestras park entrenamiento y 38 mdestras para prueba, el

I trabajo muestra avances en la investigación de la predicción del ozono, sin I embargo. se estima aue las celdas holagráficas discriminan propiedades cua- a predicción del mono abriendo así la posibilidad predicción a través de métodos evolutivos como

2

- . litativas relacionadas COI

de posteriores estudios c son los SCG.

Existe un estudio m6s re un programa de cómpub ta las relaciones de dep fenómeno. La dirección que se selecciona como 1 priori y condicionales co construye un árbol bayez

dio de este problema, pero arriba del 10%.

1.2 Antecedentes

ente aplicando árboles bayesianos donde se diseñó que genera una estructura de árbol que represen- idencia más significativas entre las variables del e los arcos del árbol es de acuerdo a la variable pótesis (nodo raíz) y genera las probabilidades a espondientes. El algoritmo de optimización, que .no, se aplicó a la predicción de la calidad del aire

presentan niveles de error en la predicción por

Page 16: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

3 I Capítulo 1. IntroduccMq

de la ciudad de México COA lo que se descubrieron las' relaciones de variables que son importantes en el proceso de predicción de los niveles de ozono [20]. El trabajo se enfrentó al phoblema de discretización de las variables para su procesamiento. La metoddlogfa empleada para la construcción y validación de la red bayesiana fue [ZO]! utilizar datos estadísticosipara obtener la estruc- tura del árbol bayesiano, Considerar la variable a predecir como nodo raíz, obtener la estructura de árbol Bayesiano, aplicar el proceso de razonamiento probabilistic0 a través del mecanismo de propagación de probabilidades a partir de una evidencia milnada, considerar el valor Con mayor probabilidad como el valor predicho, si ha variable es continua se discretiza en intervalos y se considera el valor mehio del intervalo, comparar el valor estimado con el valor real, obtener como medida de capacidad predictiva el porcentaje de error. Como resultado de da predicción del ozono, se realizaron pruebas con- siderando las cinco zonas dL monitoreo (47 variables) de la ciudad de México; se construyó el árbol de ehtrenamiento usando 20 muestras tomadas de un conjunto de 436 muestras, se determinaron los atributos más significativos y se seleccionaron los tres más importantes que determinan el nivel de ozono para la región del Pedregal, con los tres atributos seteccionados se probaron 20 muestras no entrenad? A través de una medida de error cuadrático medio, se obtuvieron resultados de predicción del 22% para una hora.

I

I

I

1.3 Objetivo I El objetivo de la tesis es dbseííar, desarrollar y probar un programa de cóm-

información

en reglas para clasificar de México.

reconocer pa-

ozono de la ciudad de México.

Can la información que grama para la prende la fase de discretiSación de variables de escalas continuas, una fase

el sistema RAMA se diseñará el p r e de ozono usando SCG, el cual com- li

Page 17: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 1. Introducci6n 4

1.4 Sistemas

de aprendizaje con las mu proporcionadas por RAMA, validación del aprendizaje y el proceso dk reconocimiento de muestras no entrenadas.

valores escalares continuos! previo al aprendizaje se hará una discretización de éstos para implementar correctamente el lenguaje de representación y e s quema del SCG. Canónica!nente [16] se emplea un sistema de representación usando un sistema binario aunque otros trabajos [I31 1241 [7] (81 proponen el uso de sistemas diferentes para el esquema de representación, en este tra- bajo se utiliz6 una represdntación de esquemas decimal como una forma de reducir el tiempo de procesamiento en el proceso de,aprendizaje del SCG.

Debida a que la informació h proporcionada por e1 sistema RAMA consta de

I

I

basados en conocimiento

Un ejemplo de los sistemas temas expertm los cuales

sistemas basados en conocimiento son los sis- están compuestos por dos partes, una parte es la

Page 18: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 1. Introducci6n 5

1.6 Sistemas ev!dutivos

1.5 Sistemas de aprendizaje

nuevo.

Page 19: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

capitulo 1. Introducci6n

temas de aprendizaje.

El capitulo 3 trata sob] (AG) propuestos por E algoritmo básico, los c codificación de un prob

En el capítulo 4 se enfo< dasificadores geneticos SCG, propiedades, rep1 de asignación de crédit(

En el capítulo 5 describ sistemas de aprendizaje

6

el fundamento teórico de los algoritmos genéticos lland, se habla cobre loa principios, se describe el eradores genéticos, el teorema de esquemas, la - ma y la función de aptitud.

al fundamento teórico y conceptual de los sistemas CCG), definición, algoritmo básico, modelo de un ;entación de las reglas de producción, el algoritmo bucket brigade y la función del AG en el SCG.

la importancia de la discretización de datos en los r algunos algoritmos de discretización.

1.7 Descripción de la tesis

Page 20: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 1. Introducción

..

7

del sistema.

El capítulo 7 muestra los ozono. Describe el diseño que muestran el errar de

resultados obtenidos del SCG para la predicción de de las pruebas, los resultados obtenidos, gráñcas prediccibn, la ejecución del programa en varias

Page 21: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

I

Capítulo 2 i

SISTEMAS DE CLASIFICACIÓN

1 Resumen I

La capaxidad de aprender es uno de los atributos fundamentales de la inteligen- cia artificial. Las investigaciones1 realizadas sobre aprendizaje están divididas en varios campos, por un lado están ;los sistemas adaptativos que supervisan su com- portamiento y tratan de mejorarlo a través del ajuste de sus parámetros; y por otro lado está el enfoque de adqu&ión de conocimiento estructurado en forma de conceptos o reglas de producción: ;En este capitulo se describen algunos conceptos importantes te aprendizaje Mt como la descripció de algunas taxonimtas.

1

! 2.1 Aprendizaje ,

El aprendizaje de máquina (MIL) consiste en la automatización del proceso de aprendizaje cognitivo. El ML en lugar de interactuar con el medio - ambiente (como lo hace el humano), se toman ejemplos'de observaciones codificadas a las que se conoce cbmo conjunto de ejemplos de entrenamiento P31. El proceso de aprendizaje incluye la adquisición de nuevo conocimiento, esto implica desarrollar el proceso cognitivo a travhs de la práctica o por medio de instrucciones, el descubrimiento ,de nuevos hechos a través de la observación y de la experimentación. El objetivo de las ciencias computacionales en el estudio de ML es descubrir la cypacidad de las computadoras para apren- der. El aprendizaje según [I] es, "denotar cambios en los sistemas que son adaptativos en el sentido que ellos habilitan al sistema para hacer la misma tarea o tareas descritas desde la misma población más eficientemente y más

I

1 1

Page 22: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

I

9

efectivamente la próxima ve&. Las investigaciones en ML se han enfocado en cubrir tres objetivos primordiales [14]:

Estudios orientados a la tprea - El desarrollo y análisis de sistemas de aprendizaje para mejorar el funcionamiento en un conjunto predeter- minado de tareas (se conoce como enfoque de ingeniería).

Simulación cognitin - La,investigación y simulación computacional del proceso de aprendizaje humano.

Análisis te6rico - La exp1o;ación teórica del espacio de posibles métodos de aprendizaje y algoritmos independientes del dominio de aplicación.

Capitulo 2. Sistemas de Clasificación

2.2 Representación, del conocimiento

Uno de los principales problemas de los sistemas de aprendizaje es encon- trar una representación del conocimiento adecuada-. Es de vital importancia encontrar un balance entre expjesividad y tiempo de computabilidad. A ma- yor expresividad, mayor tiempo de cómputo; a menor expresividad, menor procesamiento. Un sistema de aprendizaje encuentra descripciones de los objetos que está clasificando, al mayor número de descripciones, mayor será el tiempo de cómputo y la expresividad disminuye, una:solución sería en- contrar una sola descripción de los objetos observados, pero resultaría difícil encontrar una sola expresión p v a un conjunto de ejemplos, lo que implica mayor tiempo de cómputo. Con base en lo descrito anteriormente, se ha trabajado constantemente en f6rma.s de representar el conocimiento, dada la gran variedad de estas formas de representación, lo ideal es estudiarlas y seleccionar aquella que se adecue mejor ai algoritmo de clasificación que se esté utilizando, a continuaci9n se presenta una clasificación de tipos de representación de conocimiento más comunes [33]:

A. Estilo proposicional - Cdnsiste en condiciones del tipo atributo - va- lor, la representación se realiza a través de formas normales conjuntivas (AND) y disyuntivas (OR), esta forma involucra el uso de variables. Algunos de estos tipos de representación son:

a. Arboles de decisi6n:l este tipo de representación muestra los ejem- plos clasificados por un número finito de clases. Es una de las formas más fáciles de' representación de conocimiento. Cada n* do representa un atributo y sus aristas representan los distintos

1

Page 23: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 2. Sistemas de Clasificación 10

~ Q F = que puede tomar iin atributo. El objeto se clasifica - siguiendo una trayectoria de arriba hacia abajo sobre las ramas que correspondan a los valores de los atributos del objeto.

b. Reglas de producción: una forma fácil de obtener reglas de pro- diicci6n es tomando todas las posibles trayectorias de un bbol de decisión, las reglas de producción son del tipo Si <descripción > entonces <clase>, tienen mushas ventajas, la principal de ellas es que estas reglas pueden ser utilizadas en la presentación de conocimiento en un sistema experto y pueden ser leídas fácil- mente por el experto humano. El uso de reglas de producción ha sido la forma más popular de formalismo para representación del conocimiento [is] a este tipo de reglas se les puede dar diferentes tipos de interpretaciones.

c. Listas de decisión: es una lista de pares (descripcioni,clasei), . . . , (&scripcia,, c + ~ ) ; las listas de descripciones pueden ser vistas como: Si < descripcioni > entonces < clase1 > ... además < clase,, >. ,

d. Conjunto de reglas: esta forma de representación permite mane- jar las excepciones de las reglas en forma local, con ello permite tener mejor entendimiento sobre las reglas. Las reglas se pueden expresar de la siguiente manera:

S i <descripción_l> entonces S i <descripci6n-2> entonces

además <clase-i>

<clase-2> . . .

además , <clase-n>

B. Lógica de primer orden - Este tipo de representación es más com- pleto, cubre las limitaciones de la representación de estilo proposi- cional. Existen muchas técnicas que emplean lógica de primer orden para representar el conocimiento adquirido. En esta área se construyen programas en lógica de primer orden cuyo conjunto de entrenamiento es una consecuencia lógica 'del conocimiento adquirido.

Page 24: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

11 Capitulo 2. Sistemas de CIasificaci6n

C. Representaciones estructuradas - Este tipo de representación es una de las más comprensibles, aunque es menos poderosa que la 16gica de primer orden. Algunas técnicas más usadas son:

a. Redes sedt icas: consisten en gráficas en donde los nodos repre sentan conceptos y las aristas representan las relaciones entre los conceptos. Una de las principales ventajas de las redes semán- ticas es que se puede obtener toda la inform+ción de un objeto siguiendo las aristas de éste.

b. Fi-ames: consisten en objetos con una estructura, están definidos por el nombre del objeto y un conjunto de'atributos con sus nombres respectivos, los atributos de un objeto pueden ser la definición de otro frame.

2.3 Taxonomía de los sistemas de aprendizaje

El prendizaje inductive es impiicado por la observación del entorno y el - descubrimiento de similaridades entre los objetos. El hombre en la actividad de aprendizaje [29] busca abstraer el medio mibiente qiie le rodea, le otor- ga nombre a las cosas, las clasifica y crea modelos basados en reglas para predecir el comportamiento de los objetos en su medio.

El proceso inductivo de aprendizaje puede ser clasificado en dos tipos, su- pervisado o no supervisado [lo]:

Aprendizaje supervisado - En este tipo de aprendizaje un agente ex- terno define las clases y proporciona un conjunto de ejemplos de cada clase, el sistema deberá descubrir las propiedades comunes de los ejem- plos. Los ejemplos constan de una descripción de clase y la clase, son de la forma Si <descripci&> entonces <clase>.

Aprendizaje no supervisado. - Bajo esta forma de aprendizaje el sis- tema debe de descubrir por sí mismo las clases, basándose en las propiedades comunes de los objetos observados.

En el campo de ML se estudian las diferentes estrategias pafa el aprendizaje, estas estrategias son clasificadas bajo muchos criterios dependiendo de SU

utilidad para un dominio de aprendizaje dado. A continuación se presentan dos taxonomfas para clasificar los sistemas de ML usados en IA 1141:

9 9 - 0 4 2 0

Page 25: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

12 CapftulO 2. Sistemas de Clasificación

A- Basada en la estrategia de aprendizaje fundamental. Aqui se dis- tinguen 1% estrategias de aprendizaje las cuales son medidas por la cantidad de inferencia que el aprendiz realiza con la información pre porcionada por el experto; primero se consideran dos extremos, la realización sin inferencia y la realización de una substancial cantidad de inferencia. Si una computadora se programa directamente, se in- crementa su conocimiento, pero su realización no inferirá nada, todos los esfuerzos cognitivos están en el programador. Inversamente, si la computadora descubre independientemente nuevas teorías o inventa nuevos conceptos, ella debe realizar una gran cantidad de inferencias; ella está organizando conocimiento de los experimentos y observación.

a. prendizaje por implantaci6n del conocimiento. No hay infe- rencia ni otra tFansfOrmaCi6n del conocimiento que se requiera del aprendiz. Las variantes de este método de adquisición del conocimiento incluye:

Aprendizaje programado, construido o modificado por una entidad externa, sin requerir esfuerzo por parte del principim- te.

Aprendizaje por'memorización de hechos dados y datos sin

b. Aprendizaje del instructor. El aprediz adquiere el conocimien- to del maestro u otra fuente (como un libro), i l aprendiz trans- forma el lenguaje del conocimiento a una reprekentasión interna útil, para que la nueva información se integre 'a su conocimien- to con prioridad para UN efectivo. Por la tanto, e1 aprendiz requiere realizar inferencias, pero con mayor carga del maestro, quién debe presentar y organizar el conocimiento de una manera tal que incremente los argumentos del conocimiento existente del estudiante.

c. Aprendizaje por andogía. Es el adquirir nuevos hechos O téc- nicas transformando conocimiento existente implicado por la - similaridad del nuevo hecho con aquellos ya conocidos. El sistema de aprendizaje por analogía podría ser aplicado para convertir un programa de computadora existente a uno que realice una fun- ción semejante pero pira el cual originalmente no fue diseñada. El aprendizaje por analogfa requiere inferir más de parte del apren-

inferencias realizadas.

Page 26: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

13 capítulo 2. Sistemas de Clasificación

diz que el aprendizaje rutinario o del aprendizaje por parte del instructor.

d- Aprendizaje Por ejemplos. Dado un conjunto de ejemplos y contraejemplos de un concepto, el aprendiz induce una descrip ci6n general del concepto que describe a todos los ejemplos p~ sitivos y a ninguno de los contraejemplos. El aprendizaje por ejemplos es un método que ha sido fuertemente investigado en IA. La cantidad de iuferencias realizadas por &I aprendiz es mu- cho mayor que el aprendizaje por instrucción, ya que no se dan los conceptos generales por el maestro, también es un poco más que el aprendizaje por analogía, ya que no se dan conceptos similares.

En el aprendizaje por ejemplos se clasifica de acuerdo a la fuente de los ejemplos:

- Si la fuente es un maestro, él sabe los conceptos y ge- nera secuencias de ejemplos que implicarán tanto como sea posible. Si el maestro sabe el conocimiento inicial del aprendiz, los ejemplos pueden ser seleccionados para optimizar convergencias en el concepto deseado.

- Si la fuente es el aprendiz mismo, éste tiene su conocimien- to inicial, pero no sabe los conceptos a ser adquiridos. Por lo tanto, el aprendiz puede generar instancias sobre la base de información y él puede creer necesario discri- minar descripciones de conceptos.

- Si la fuente es el medioambiente externo, en este caso el proceso de generación de ejemplos es operacionalmente aleatorio, por lo que el aprendiz adquiere el conocimiento con observaciones relativamente incontroladas.

a Uno puede clasificar el aprendizaje por ejemplos por el tipo de ejemplos disponibles para el aprendiz:

- S61o ejemplos positivos disponibles, cuando ejemplos - positivos son provistos por instancias del concepto a ser adquirido, ellos no proveen información para preservar la sobregeneralización del concepto inferido. En este tipo de sitiiaci6n de aprendizaje, la sobregeneraliaxi6n podría ser evitada considerando s610 la minima generalización

Page 27: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

14 CapItulo 2. Sistemas de Clasificación.

necesaria, O dependiendo del dominio, del conocimiento a Priori Para restringir los conceptos a ser inferidos.

- Ejemplos positivos y negativos disponibles, en este tipo de situación los ejemplos positivos llevan a la generaliza- ción mientras que los ejemplos negativos previenen la sc- bregeneralización (el concepto inducido nunca será tan general que incluya ejemplos negativck), &ta es la forma de aprendizaje por ejemplos más típic,a.

e. Aprendizaje por observation y descubrimiento. Es una for- ma de aprendizaje inductivo que incluye sistemas de descubrim- iento. Esta forma de aprendizaje no supervisado requiere que el aprendiz realice más inferencias para que después pueda dis- cutirlo. El aprendiz no posee un conjunto de instancias de un concepto particular ni tiene acceso a un oráculo que pueda clasi- ficar instancias generadas internamente como instancias positivas o negativas de cualquier concepto. Además, m& que enfocarse a un solo concepto a la vez, la observación podriadarle ciertos con- ceptos que necesiten ser adquiridos; esto se realiza introduciendo un enfoque de atención del problema.

e Se podría clasificar el aprendizaje por observación de acuerdo al grado de interacción con un medioambiente externo. Los puntos son:

- Observación pasiva, cuando el aprendiz clasifica y tax* nomiza observaciones de aspectos múltiples del medioam- biente.

- Experimentación activa, cuando el aprendiz perturba el medioambiente para observar los resultados de sus ac- ciones. La experimentación podría ser aleatoria, dinámi- camente enfoca de acuerdo a criterios generales de in- terés, o una guía de restricciones teóricas.

B; Clasificación de acuerdo al tipo de conocimiento adquirido. Un sistema de aprendizaje podría adquirir regias de funsi?namiento, descrip- ción de objetos físicos, solución de problemas heurísticos, y muchos otros tipos de conocimiento útil en la realización de una amplia va- riedad de tareas. A continuación mostramos tipos de conocimiento

Page 28: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

15 Capítulo 2. Sistemas de Clasificación

adquirido, como una función de la representación de este conocimien- to:

a- ParhnetrOS en expresiones algebraicas. Bajo este contexto el aprendizaje consiste en ajustar parámetros numéricos o coefi- cientes en expresiones algebraicas de una forma funcional fija.

b. Arboles de decisión. Algunos sistemas adquieren árboles de de- cisión para discriminar clases de objetos. Los nodos en árboles de decisiones corresponde a atributos de objetos seleccionados, y las aristas corresponden a valores alternativos predeterminados para estos atributos. Las hojas del árbol corresponden a conjuntos de objetos con una clasificación idéntica.

c. Gramáticas formales. El aprendizaje es reconocer un lenguaje en particular, las gramáticas formales son inducidas a partir de secuencias de expresiones en el lenguaje. Estas,, gramáticas están representadas como expresiones regulares, o reglas de transfor- mación, etc.

d. Reglas de producción. Una regla de producción es un par condi- cidn - accidn, cuando G es un conjunto de condiciones y A es una secuencia de acciones. Si todas las condiciones en una regla de producción son satisfechas, entonces la secuencia de acciones es ejecutada. Este tipo de regla es usado por los SCG.

to general han sido usadas para formular descripciones de obje- tos individuales y descripciones de conceptos 'resultantes. Es- tas toman la forma de expresiones 16gicas formdes cuyos comp0- nentes son: preposiciones, variable con valores idnitos, etc..

f. Grafos y redes semánticas. En muchos dominios los grafos y re- des proveen una representación más conveniente y eficiente que las expresiones lógicas, aunque el poder expresivo de la repre- sentación de las redes se compara con las expresiones lógicas for- males.

g. Marcos y esquemas. Estos proveen unidades de representaci6n más grandes que las expresiones lógicas o reglas de producción. Los marcos y esquemas pueden ser vistos como una colección de entidades etiquetadas (slots), cada slot juega un rol en la repre sentación. Esta representación ha sido útil para aplicaciones de

e. Expresiones lógicas formales. Estas representaciones de propósi-

Page 29: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

16 Capitulo 2. Sistemas de Clasificaci6n

IA.

h. Programas de computadora. La meta de estos sistemas de apren- dizaje es adquirir la habilidad para generar un eficiente proceso específico, más que razonar sobre la estructura interna del prc- ceso. Los sistemas de programación automáticos por lo regular caen en una categoría general (Paradigmas d e Programción).

i. Taxonómicas. Este aprendizaje produce estructuras globales en forma de jerarqufa o taxonomía basándose en la formulación de criterios para clasificación. Consiste en agrupar descripciones de objetos en categorías, lo cual forma una clasificación jerárquica.

j. Representaciones múltiples. Los sistemas de adquisición de cone cimiento usan esquemas de representación para el nuevo conoci- miento adquirido. Algunos sistemas de adquisición de conocimien- to emplean distintos esqucmas de representación para satisfa- cer un requerimiento especifico, estos sistemas se enfrentan a la definición detallada de las condiciones para emplear adecnada- mente los equemas seleccionados.

2.4 Sistemas de clasificación tradicionales

Existen muchos sistemas de clasificación para aprendizaje supervisado y no supervisado, cada sistema tiene sus caracterfsticas que permiten resolver problemas de clasificación con caracterfsticas particulares, en esta sección describimos brevemente algunos de los sistemas de aprendizaje. Se presen- tan las formas de representación de conocimiento de dichos sistemas, las operaciones sobre las estructuras de conocimiento y la función que define la calidad del aprendizaje.

2.4.1 Espacio de versiones

A partir de un conjunto de ejemplos de entrenamiento y de la definición de clases, este sistema de clasificación construye un gran número de descripciones de clases, algunas de las cuales describen los ejemplos de una mejor manera que otras, por ello se tiene la necesidad de crear una medida de calidad de las descripciones construidas. Dada una medida de calidad de la descripción,

Page 30: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

17 Capítulo 2. Sistemas de Clasificación

su construcción se reduce a realizar una búsqueda para encontrar la mejor descripción.

Este proceso de búsqueda que Mitchell describiera como "Espacio de Ver- siones" [22], donde el espacio H es un conjunto de todas las descripciones de conceptos que son consistentes con todos los ejemplos del conjunto de entrenamiento. Inicialmente el espacio de versiones es un espacio completo de reglas de todas las posibles descripciones de clases. A medida que se van alimentando al sistema ejemplos de entrenamiento, se van eliminando conceptos candidatos del espacio de versiones. Cuando sólo contiene un candidato, el concepto deseado ha sido encontrado. Los ejemplos positivos hacen que el sistema generalice, por el contrario, los ejemplos negativos ha- cen que el sistema especialice. De esta forma se va reduciendo el espacio H hasta que se llegue al concepto meta.

2.4.2 ID3

El ID3 se basa en inducción de árboles de decisión [33] [28], y es un sis- tema de aprendizaje supervisado que construye árboles de decisión a partir de ejemplos. Los ejemplos están construidos por tuplas < atributoi, . . . , atributo,, clase >. En general los ejemplos de una sola clase son positivos y los demás ejemplos son negativos. Cuando se tiene un conjunto de ejemplos, normalmente se divide aleatoriamente en dos subconjuntos, uno de entrenamiento y otro de prueba.

Encontrar un árbol puede ser fácil, sin embargo, no es bueno para reconocer casos no vistos. Este sistema de clasificación 9610 memoriza lo visto, por lo que no extrae ningún patrón de los ejemplos.

El algoritmo utilizado por ID3 se basa en teoría de la información [31] como criterio para realizar la clasificación.

2.4.3 A$

El algoritmo AQ fue desarrollado por Michalsky 1969 [29] y mejorado por otros autores quienes generaron las versiones de AQ11, AQ15 y AQR (231. Este algoritmo consiste en un sistema de aprendizaje inductivo que genera reglas de decisión donde la parte condicional es una expresión lógica.

Page 31: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

18 Capítulo 2. Sistemas de Clasificación

Este sistema de aprendizaje hace una construcción inductiva, es decir, el uso del conocimiento del dominio para generar nuevos atri/;utos que no están presentes en los datos de entrenamiento, esta característica hace de AQ un sistema con mayor potencialidad que el algoritmo ID3.

La salida generada por AQ es un conjunto de reglas del tipo i f < condición > then < clase >, una para cada una de las clases presentes en el conjunto de entrenamiento. AQ selecciona un ejemplo positivo de una clase y toma selec- tores de éste, hasta que no se cubra ningún ejemplo negativo. La generación de reglas se hace en etapas; cada etapa genera una sola regla y luego elimina los ejemplos de entrenamiento cubiertos por la regla. Este proceso se repite hasta que se encuentran suficientes reglas para cubrir todos los ejemplos de la clase escogida. Este proceso se repite para cada clase.

2.4.4 CN2

Este algoritmo se desarrolló para atacar los problemas de ruido que se en- cuentran en un sistema como el AQ [23], su contribución principal es la de quitar la dependencia de un ejemplo específico durante su búsqueda. CN2 combina la eficiencia y habilidád de tratar con ruido de ID3 con la forma de reglas if then y flexibilidad de búsqueda de AQ. De forma similar que AQ, CN2 opera en forma iterativa, buscando un complex (regla de clasificación global) que cubra una gran cantidad de ejemplos de una sola clase y pocos de otra.

El sistema CN2 hace una búsqueda de lo general a lo específico, en cada paso retiene un conjunto S (inicio) de tamaño limitado, s610 examina es- pecializaciones de este conjunto, un complex se especializa añadiendo una nueva conjunción o eliminando una disyunción de algunos de sus selectores.

Existen muchos sistemas de aprendizaje o sistemas que han hecho aporta- ciones al campo de ML, tal es el caso de C4.5 1251 [27], redes neuronales, árboles bayesianos, celdas holográficas, etc.

2.5 Consideraciones generales

Los sistemas de aprendizaje mencionados anteriormente,, no dejan de ser algoritmos encaminados a resolver un conjunto específico de problemas rela- cionados con el aprendizaje inductivo. En ciencias computacionales una vez

Page 32: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 2. Sistemas de Clasificación 19

analizados los problemas específicos por resolverse, se procede a un análisis de algoritmos que permitan resolver ese problema de la mejor manera, es por ello que tales problemas son simulados bajo el uso de distintas técnicas que permitan mejorar los resultados de las pruebas.

Bajo esta premisa, el trabajo de esta tesis implementa un SCG con el o b jetivo principal de evaluar sus caracterfsticas, tales como el mecanismo de aprendizaje, representación del conococimiento, reconocimiento de patrones entrenados y no entrenados, y rendimiento computacional.

Page 33: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 3

ALGORITMOS GENETICOS

Resumen

El estudio de los sistemas evolutivos se remonta a finales de la década de los 50 cuando algunos biólogos emprendieron el estudio a través de 4erimentos con apli- caciones computacionales de sistemas genéticos, pero fue en 1975 cuando Holland [16] publicara por primera v a una teoría sobre AG. En este capítulo presentamos el fundamento teórico y formal del trabajo realiado en esta tesis, el cual está basa- do en el uso de AG descritos por Holland [15], le es otorgado este nombre por la similitud con los procesos de selección y reproducción naturales.

3.1 Definición

Los algoritmos genéticos son algoritmos de búsqueda basados en mecanis- mos de selección natural y genética natural. Ellos combinan la supervivencia de los más aptos entre estructuras de datos con la combinación de informa- ción aleatoria de estas estructuras, con esto se da forma & un algoritmo de búsqueda con algunas innovaciones de búsqueda humana.' La teoría de los AG ha sido desarrollados por John Holland, sus colegas y ptudiantes de la universidad de Michigan. Para Goldberg las metas de sus investigaciones han sido dos [13]:

Abstraer y explicar rigurosamente el proceso adaptativo de sistemas naturales, y

los mecanismos de los sistemas naturales. Diseñar sistemas artificiales de software que resalten la importancia de

Page 34: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

21 Capítulo 3. Algoritmos Genéticos

A partir de la primera obra sobre algoritmos genéticos (Adaptation in na- tural and artificial systems) realizada por Holland en 1975 [16], muchos artículos y reportes han surgido como prueba de la robustez de estos algorit- mos los cuales validan la técnica en optimización de funciones y aplicaciones de control.

Los algoritmos genéticos se basan en la evolución natural, el problema al que se enfrentan las diferentes especies es encontrar adaptaciones benéficas en un ambiente cambiante. El "conocimiento" que cada especie ha ganado está incorporado en los cromosomas de dicha especie. Es decir los algoritmos genéticos se basan en imitar lo que la naturaleza hace [Zl].

3.1.1 Características de los AG

Los AG son sistemas de búsqueda y optimización basados en los proce- dimientos naturales de evolución. Los AG sobrepasan en muchas formas en eficiencia y robustez a otras técnicas de búsqueda y optimización, sus características principales son [13, pp 7-10]:

Los AG trabajan con una codificación del conjunto de parámetros.

Los AG buscan desde una población de puntos, no desde un simple punto.

se auxilian del conocimiento. Los AG usan pago de la información (función objetivo), no derivan O

Los AG usan reglas de transición probabilísticas, no reglas determinís- ticas.

Los sistemas evolutivos han demostrado sobresaliente eficiencia en resolución de problemas no lineales, es por ello que el uso de técnicas evolutivas se ha incrementado recientemente en distintas áreas de investigación y se han desarrollado sistemas para resolución de problemas en computación, ciencias sociales, economía, control, etc..

SEP CENIDET DGIT CENTRO QE UVFQRMACIQN

Page 35: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

22 Capitulo 3. Algoritmos Genéticos

3.2 Marco teórico

3.2.1 Fundamentos de los AG

Holland propuso las bases teóricas de los AG y su implementación com- putacional. Además definió que, "el dominio de acción de nuestro plan adaptativo debe ser codificado para trabajar sobre él dado un esquema de representación" [16] [13], un plan adaptativo es el problema que se desea representar, tal esquema puede ser binario o n-ario. La solución a un plan adaptativo se inicia con la creación de una población finita de estructuras llamadas cromosomas, cada cromosoma está compuesto de la concatenación finita de genes cuyos alelos pertenecen al esquema de representación dado, un cromosoma representa una solución al plan adaptativo. Formalmente una población

donde P(t) es la población creada en un tiempo t y las A, son las estructuras las cuales representan cada una de ellas una solución a nuestro problema en un plan adaptativo,

Ai = ui,a2,. . . , aj , ( 3 4

donde uj E V, tal que V es el conjunto de valores de los atributos para algún detector, el cual está comprendido dentro de un rango (pe. V = {O, 1)).

Las características fundamentales de los AG son:

a Utilizar una codificación de los parámetros de un problema como una cadena de unos y ceros (o n - aria). Dicha codificación viene a repre sentar el equivalente a un cromosoma que define a un individuo. Cada posición de la cadena es equivalente a un gen y su valor representa un alelo (un valor uj E V).

a La selección de los individuos que pasarán de una generación a otra debe hacerse considerando la aptitud del individuo y la aptitud prome- dio de la población actual. De modo que los individuos con una aptitud mayor que el promedio tienen una alta probabilidad de sobrevivir y

Page 36: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

23 Capítulo 3. Algoritmos Genéticos

los individuos con una aptitud inferior al promedio tienen una alta probabilidad de morir.

Los operadores genéticos básicos definidos son: cruce, mutación e in- versión.

3.3 El teorema de esquemas

El teorema de esquemas proporciona el fundamento teórico del por qué los al- goritmos genéticos pueden teóricamente resolver diversos problemas. Dentro de este teorema de esquemas se considera una codificación de los paráme- tros en un formato binario y como operadores geneticos 'solo el cruce y la mutación.

Según se define en 116) un esquema se construye al introducir a nuestro alfabeto binario de codificación un tercer símbolo denominado como " n o - importa" que designaremos por * que aparea con ambd valores de cero o uno. En este sentido un esquema puede ser "11*001*0", que representa las cadenas: "11000100, 11000110, 11100100 y 1110011~. Es decir que un esquema aparea 2' cadenas donde r representa el número de símbolos " n o - importa" del esquema.

Considerando una cadena de longitud m existen en total 3" esquemas posi- bles. En una población de tamaño n se pueden representar entre 2" y n2" esquemas diferentes.

Diferentes esquemas presentan diferentes características. Holland definió cuatro propiedades fundamentales de los esquemas:

1. El orden de un esquema. Es el número de elementos diferentes de "no - importa" dentro del esquema, es decir el número de posiciones que ya están definidas con un uno o con un cero. El orden de un esque- ma se designa por O($) donde Si designa a un esquema en particular pe. O(* * *O01 * 110) = 6.

2. La longitud que define a un esquema. Es la distancia entre la primera posición fija y la última posición fija. La longitud definidora se designa por 6(Si) donde Si designa a un esquema en particular pe. 6(* * *O01 * 110) = 6.

3. La aptitud de un esquema. La aptitud de un esquema en el tiempo t se define como el promedio de las aptitudes de I$ cadenas que en

Page 37: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

24 Capítulo 3. Algoritmos 'Genéticos

el tiempo t apareen con el esquema. Si en el tiempo t existe en la población el conjunto de cadenas V = {vi,v2,. . . ,vp} que aparean con el esquema S y que la función eval que representa la aptitud de una cadena en particular, entonces la aptitud del esquema S en el tiempo t será:

4. El número de cadenas que aparean con un esquema en la población. Este número mide cuántas cadenas dentro de la población en un tiempo dado aparean con un esquema en particular. Eso se designa como [(S, t ) indicando el número de cadenas que aparean al esquema 5' en el instante de tiempo t.

Basándose en el teorema de esquemas y de la aplicación de los operadores genéticos básicos en una población determinada, Holland prueba [16] que los individuos con mayor aptitud a la aptitud promedio tienen mayor probabi- lidad de que en las próximas generaciones incrementen el número de cadenas que puedan aparear.

3.4 Algoritmo básico

Holland definió un plan adaptativo, el cual está compuesto de un conjunto de estructuras llamadas cromosomas, cada estructura es de longitud fija y representa una solución al plan reproductivo, estas estructuras son proce- sadas por medio de funciones de evaluación de eficiencia y el mismo plan reproductivo permite cambiar la información de tales estructuras usando un conjunto de operadores. En la sección 3.2.1 definimos formalmente los eie- mentos básicos de un plan reproductivo, el objetivo es hacer que la población de cromosomas mejore su aptitud en cada generación. Los pasos del dg- ritmo básico presentado por Holland es como sigue [16]:

1. Definir el dominio de V

2. Establecer t = O

3. Crear población inicial P(t) de un número z de estructuras A, E V aleatoriamente

Page 38: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

25 Capítulo 3. Algoritmos Genéticos

4. Evalúa la población P(t)

5. Mientras condecidn de teminaci6n = FALSO

6. t = t + l

7. Crea una nueva población P( t ) a partir de P(t - 1) a través de la

8. Modificar P(t) usando operadores genéticos

9. Evalúa P(t )

selección

10. Regresar al paso 5.

3.5 La selección

La función de selección representa un papel fundamental en la convergencia y evolución de un algoritmo genético, ya que para que se dumpla el teorema de esquemas y la hipótesis de los bloques de construcción se requiere que el mecanismo de selección proporcione un número exponencialmente creciente de individuos que representan los esquemas de desempeño excepcional.

Por otro lado, mientras el tamaño de población juega un papel fundamental en la exploración de un algoritmo genético, la función de selección determina la explotación realizada en un algoritmo genético.

La selección de los individuos que pasarán de una generación a otra debe hacerse considerando la aptitud del individuo y la aptitud promedio de la población actual. De modo que los individuos con una aptitud mayor que el promedio tienen una alta probabilidad de sobrevivir y los individuos con una aptitud inferior al promedio tienen una alta probabilidad de morir.

Existen varios métodos para efectuar la selecci6n, la decisi6n para usar un método de selección depende en gran medida del tipo de problema y la representación usada en éste. Los métodos tradicionales de selección son:

Ruleta Este mecanismo es uno de los más utilizados debido a su sencillez y facilidad de implementación. En [13] se define este mecanismo en el que se calcula para cada uno de los individuos de la población una probabilidad acumulada de ser seleccionado en base de SU aptitud, y a través de la generación de un número aleatorio uniformemente distribuido se selecciona una determinada solución.

Page 39: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

26 Capfttulo 3. Algoritmos Genéticos

Selección por torneo Este método se basa en formar tantos grupos de t individuos como el tamaño de la población. El mejor de cada grupo es introducido en la nueva población.

Selección por rango En este método se ordenan los individuos de acuerdo a su aptitud y el número de copias que recibe cada individuo depende de su posición y no del valor de su aptitud.

3.6 Los operadores genéticos

Los operadores genéticos nos permiten realizar explotación y exploración de soluciones en un espacio de búsqueda determinado, la forma de trabajar de un operador se puede clasificar de dos formas, una codiste en compartir información entre estructuras y la otra es de reordenamiento de informa- ción en un cromosoma. Los operadores genéticos clásicos para Holland son el cruce, mutación e inversión. Pero a lo largo de muchas investigaciones se han establecido operadores adicionales los cuales pueden hacer contribu- ciones importantes para situaciones más complejas. Otras investigaciones se encaminaron a modificar los operadores canónicos de Holland para mejorar el desempeño en la resolución de problemas muy específicos.

3.6.1 Operador clásico de cruce

El cruce es el operador más importante del AG, permite generar nuevos in- dividuos a partir de un par de individuos padres, este operador da capacidad de explotación al plan reproductivo. Inicialmente se define 'una probabilidad de cruce Pc, en el proceso de cruce, dos estructuras

(3.4) / / / A = ala2 . . . aj y A' = ala2.. .ai,

son seleccionadas aleatoriameute de la población P(t) , un factor p , es gene- rado aleatoriamente y se verifica si los pares de cromosomas seleccionados serán cruzados, si p, 5 Pc, entonces A y A' serán cruzados, para ello un número c E {l, 2 , . . . , j - 1) es seleccionado aleatoriamente y dos nuevas estructuras son creadas a partir de A y A' compartiendo los atributos del lado derecho desde la posición c,

Page 40: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

. .. - - - ~ - - . _. . ... . . -~ - - .... -

27 Capitulo 3. Algoritmos Genéticos

(3.5) (3.6)

= ala2 ... a,a,+ I , . . .aj I I / I = a,% ... a,a,+i ... a,

las nuevas estructuras generadas A” y A”’ son insertadas en la nueva población P(t + I); si p, > Pc, las estructuras A y A’ son reproducidas integramente en la nueva población P(t + 1).

3.6.2 Operador clásico de mutación

La mutación es un operador que permite introducir nueva información a la población, para su aplicación, inicialmente se determina una factor de probabilidad de mutación PM que por lo regular es pequeño, entonces cada cromosoma A, de la nueva población se recorre secuencialmente y a través del factor pm generado aleatoriamente se verifica si la posición del alelo a, dentro del cromosoma A, va ha ser cambiado por un nuevo valor, para ello si pm 5 &, entonces el alelo a, es reemplazado por un nuevo valor ai E V, tal que ai # a,.

3.6.3

Este operador es semejante al operador de cruce clásico, la diferencia radica en que son seleccionados de manera aleatoria dos puntos dc cruce en el par de cromosomas padres seleccionados de la población actual, esta variante del operador de cruce se utiliza en casos en que las longitudes de los cromosoma son muy grandes.

Operador de cruce con dos cortes

3.6.4 Operador de cruce uniforme

Este operador se deriva del cruce clásico y del de dos cortes, consiste en intercambiar uniformemente cada uno de los genes de cada cromosoma padre de manera intercalada sin distinción, así que dadas las estructuras

(3.7) , , I A = aia2as.. .aj y A’ = ala2a3.. .a$,

Page 41: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

- . - . . . .

28 Capftuio 3. Algoritmos Genéticos

son generadas dos nuevas estructuras 4 y An' intercambiando cada gen de las estructuras originales A y A', entonces

3.6.5

Otros operadores de intercambio de información de uso muy frecuente en problemas que impliquen permutaciones son [13] el operador de cruce de map- parcial (PMX), operador de cruce ordenado ( O X ) y o p e rador de cruce cíclico (CX).

Operadores especiales de cruce para permutaciones

3.6.6 Operador clásico de inversión

La hversi6n introduce al sistema capacidad de exploración, se selecciona un cromosoma A aleatoriamente de la población P(t) , se determinan dos puntos z1 y x2 aieatoriamente (zI,z2 E {1,2, . . . j - 1) y z1 < z2), entonces todos los alelos a, que se encuentran entre los dos puntos son invertidos creando una nueva estructura A',

A = a i . . .a,,a,,+ia,,+2.. .ax,ax2+i.. .aj , (3.10)

después de la aplicar la inversión,

A I = a i . . .axlaz2-~az2-2. . .a,,+ia,, . . .aj. (3.11)

3.6.7 Operador de intercambio

Consiste en intercambiar el contenido de dos posiciones seleccionadas aleato riamente de un cromosoma. La figura 3.1 muestra un ejemplo.

Page 42: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

29 Capitulo 3. Algoritmos Genéticos

Crom. A kBZZ@@ J.

Crom. A J bE@Z@

Fig. 3.1: Ejemplo de la aplicación del operador de intercambio.

3.7 La función de aptitud

Dentro del AG, la función de aptitud es la más importante para poder selw- cionar los mejores individuos que dan la solución global de algún problema desarrollado bajo este paradigma. A través de la función' de aptitud pode mos establecer la condición de paro del programa. La función de aptitud es la que permite discriminar entre soluciones de bajo desempeño y de al- to desempeño. La función de aptitud puede ser una medida cuantitativa o cualitativa de la bondad de una posible solución. La función de aptitud es la base para determinar qué soluciones tienen mayor o menor probabilidad de sobrevivir (ver teorema de esquemas de la sección 3.3). Por otro lado la función de aptitud permite discriminar entre soluciones que no violen - restricciones y soluciones que violan restricciones, lo cual es fundamental para poder operar en la misma población con soluciones Alidas e inválidas.

Los algoritmos genéticos de acuerdo a la definición de Holland tratan de resolver un problema viéndolo como un problema de maxknización. Si de- seamos atacar un problema de minimización con un algoritmo genético lo único que requerimos es transformar la aptitud de cada individuo de acuer- do a la fórmula: 4 = Maximo - Ai, donde Máximo representa la aptitud máxima de la población.

3.8 Codificación de un problema

El primer paso para implementar la solucidn de un problema con AG es el codiñcar los parámetros del problema. Dicha codificación como se mencionó en la sección 3.2.1 es representada por algún sistema numérico adecuado para nuestro problema.

Existen muchas maneras para codificar un problema, algunas investigaciones han usando el código gray, representaciones con enlaces, representaciones con secuencias modificadas, representación decimal, alfabética, etc..

Page 43: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

30 Capítulo 3. Algoritmos Genéticos

La representación de un problema puede consistir de parámetros discretos o flotantes.

3.8.1

Si tenemos un problema de optimización con un solo parámetro discreto, y deseamos encontrar el valor óptimo en el rango Superior a Inferior inclu- sive requerimos utilizar el número de bits dados por la fórmula:

Codificación de un parámetro discreto

[log, (Superior - Inferior + i)] (3.12)

Para codificar el valor X tenemos que convertir a binario X - Inferior. Esto lo podemos designar como:

Bin(X - I n feriar) (3.13)

Para obtener el valor de una codificwión Y, debemos sumarle a In ferior el resultado de convertir a decimal Y. Esto lo podemos designar por:

Inferior + Dec(Y) (3.14)

3.8.2

Si deseamos codificar un parámetro en punto flotante en el rango Superior a Inferior y con una exactitud dada por Precisión, requeriremos tantos bits como lo indica la fórmula:

Codificación de un parámetro continuo

>1 [log' ( Precision Superior - Inferior (3.15)

Para codificar el valor X parecería que solo requerimos convertir a binario X-In er ior

Pree{sim y designamos esto por:

Page 44: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 3. Algoritmos Genéticos 31

X - Inferior Precision

Bin ( (3.16)

pero como X es de punto flotante el cociente xG2LAm no necesariamente da un número con parte decimal igual a cero. En este sentido se debe utilizar una función que convierta un número con parte decimal a otro sin parte decimal, esta función podría ser Round (redondear) 6 TruncC (truncar). Esto podría designarse como:

1) Bin && X-Inferior ( { Precision

(3.17)

Para obtener el valor de una codificación Y , debemos sumarle a Inferior el resultado de multiplicar la Precisión por la conversi6n a decimal de Y . Esto lo podemos designar por:

Inferior + Precisim x Dec(Y) (3.18)

Page 45: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 4

SISTEMAS CLASIFICADORES GENÉTICOS

Resumen

Los sistemas clasificadores son sistemas basados en reglas de producción llamadas "clasificadores" semejantes a los sistemas expertos [15] [17] 1161. A cada clasifi- cador le es asignada una ponderación, que le da fuerza dentro de un proceso de competencia, la fuerza del clasificador indica su utilidad en la obtención de las metas del sistema, cuando el clasificador interviene en la obtención de metas recibe un pago por su participación, el cual es realizado por un algoritmo de asignación de crédito. Las metas principales de un SCG son la búsqueda de reglas y la adaptación de las reglas descubiertas al ambiente donde son aplicadas. '

4.1 Definición

Un sistema clasificador es un sistema de aprendizaje de máquina que aprende canedas de reglas de sintaxis simples llamadas clasificddores para guiar su eficiencia en un ambiente arbitrario 1131. Un sistema clasificador consiste de tres componentes principales:

a Sistema de mensajes y reglas.

a Sistema de aportación de crédito.

a Algoritmo genético.

El sistema de reglas y mensajes de un SCG es una clase especial de sistema de produeczdn. Un sistema de producción es un esquema computacional que

Page 46: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

33 Capitulo 4. Sistemas Clasificadores Genéticos

usa reglas como mecanismo algorítmico. Aunque existe una gran variedad de sintaxis en sistemas de producción, las reglas son generalmente de la siguiente forma:

Si < condición > entmces < acción >

El significado de regla de producción es que la acción (la regla es disparada) es tomada cuando la condición es satisfecha.

Una de las grandes ventajas de los SCG es que usan un sistema de activación paralelo de regias, sin importar que computacionalmente se resuelva en una máquina secuencia1 o paralela, ya que los SCG buscan más'de una solución usando distintas reglas en forma independiente; en un SCG, las reglas tienen un peso (fuerza) según la utilidad que tengan en el sistema; otra ventaja importante es la adaptación de las reglas, cuando los sucesos en el ambiente cambian, un SCG es capaz de adaptar sus reglas a las nuevas condiciones.

4.2 Propiedades de los SCG

Las propiedades más importantes de un sistema clasificador son las si- guientes [15] [17]:

Paralelismo. Un gran número de reglas, llamadas clasificadores, pueden ser activadas simultáneamente. No existen conflictos entre clasifi- cadores debido a que la acción de un clasificador activo es la de enviar un mensaje a la lista de mensajes, esto implica que mientras haya clasificadores activos, habrá mensajes enviados (los mensajes son eje- cutados en paralelo).

Paso de mensajes. Los clasificadores consisten de una parte de condición y una parte de acción. La parte de condiciún es una cadena de longitud k construida sobre el alfabeto {O, 1, #}, la parte de acción es una cadena de longitud 1 construida sobre el alfabeto {O, 1, #}. La parte de acción de un clasificador especifica un mensaje a ser enviado a la lista de mensajes o al ambiente en el siguiente paso. Toda la comunicación desde el clasificador y hacia el clasificador es dada vía mensajes, así que un sistema clasificador dado puede ser conectado fácilmente a un ambiente.

Page 47: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 4. Sistemas Clasificadores Genéticos 34

Carencia de intbrprete. Debido a que el orden en el cual los clasificadores son ejecutados es independiente del orden en el cual los clasificadores están almacenados, y porque la satisfacción de las condiciones es deter- minada por una simple operación de apareo entre cadenas de ternarias {O, 1, #} o binarias {O, 11, no es necesario un intérprete de alto nivel como parte del mecanismo computacional.

4.3 Esquema de un SCG y algoritmo básico

Un sistema clasificador básico consiste de una lista finita de clasificadores {Ci,Cz, .. . ,Cn}, unalistafinitademensajes { M I , M2, . . . ,A&}, unainterfaz de entrada, y una interfaz de salida. La figura 4.1 muestra la forma en que se relacionan cada uno de los elementos del SCG.

4.4 Ciclo básico de un SCG

El ciclo de ejecución básico de un SCG procede como sigue [15] [17]:

Colocar todos los mensajes de la interfaz de entrada sobre la actual lista de mensajes.

Comparar todos los mensajes sobre la actual lista de mensajes con todas las condiciones de todos los clasificadores y registrar todas las comparaciones.

Para cada conjunto de comparaciones que satisfagan la parte de la condición de algunos clasificadores, enviar el mensaje especificado por su parte de acción a la nueva lista de mensajes.

Remplazar la actual lista de mensajes con la nueva lista de mensajes.

Procesar la lista de mensajes a travbs de la interfaz de salida para producir la salida actual del sistema.

Regresar al paso 1.

Page 48: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 4. Sistemas Clasificadores Genéticos 35

Sistema Clasificador r - - - - - - - - - - - - 1

Lista de Lista de reglas

I Bucket Bragade I EnirdJ ajuste d. reglas

I

I I I

- la

Ambiente

Fig. 4.1: Esquema de un sistema clasificador genético

4.5 Representación de las reglas

La parte de condición de un clasificador está formada por una cadena de longitud finita definida por el alfabeto {O, 1, #}, donde el símbolo # juega el rol de "no-importa"; la parte de acción del clasificador está construida por una cadena de longitud fija que pertenece al alfabeto {O, 1, #}, en la parte de acción el símbolo # juega el rol de "pasar a través"; un mensaje está compuesto por la cadena binaria { O , 1) el cual se mapea con uno o varios clasificadores. Tanto los clasificadores como los mensajes deben ser de una misma longitud k.

Page 49: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capftulo 4. Sistemas Clasificadores Genéticos 36

Descriptivamente, las condiciones en la parte de condición del clasificador se separan por ”,”, y la parte de acción del clasificador es separada por ”\”.

C L C ~ , . . . ,%\a (4.1)

Formalmente, una condición C está especificada por un subconjunto de men- sajes M ,

C = ~ 1 ~ 2 . . . sj ... ski donde sj E {O, 1, #}

entonces el mensaje de longitud k,

M = mlmz.. .mj . . . m k , donde mj E { O , 1)

(4.2)

(4.3)

pertenece al subconjunto especificado en caso de

si s j = 1 si sj = o (4.4)

Si la condición es satisfecha por algún mensaje que cumpla este requerimien- to, entonces un mensaje de salida es enviado a través de la parte de acción de la regla. MBs formalmente, sea ‘A una cadena de símbolos en la parte de acción de un clasificador de longitud k,

A = a l w . . . aj . . . a k , donde aj E { O , 1, #} (4.5)

y sea M el mensaje que satisface la parte de la condición del clasificador. Entonces el mensaje de salida (M’) en la posición j tiene el valor de

aj si aj = 1 mi= { aj si aj = O

mj si a, = # (4.6)

Page 50: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 4. Sistemas Clasificadores Genéticos 37

4.6 Algoritmo Bucket Brigade

Sobre este ciclo de ejecución básico, un algoritmo de aportación de crédito llamado bucket brigade es implementado para proveer las bases de com- petencia entre clasificadores otorgándoles crédito con base en su utilidad pasada [13] [15] [17]. Para este propósito, inicialmente se les asigna un valor a todas las reglas, llamado fuerza, el algoritmo bucket brigade se encarga de ajustarlo. Es fácil implementar el hecho de que cuando un clasificador se activa realiza un pago, el problema es decidir cuál de los clasificadores activar primero. El algoritmo trabaja en la modificación del ciclo de ejecu- ción al introducir una competencia entre ellos. Esto es que, durante el ciclo de ejecución todos los clasificadores buscan en la lista de mensajes algún mensaje que permita producir nuevos mensajes a través de la satisfacción de condiciones. Los clasificadores que son activados por un mensaje realizan una uportucidn con base en su fuerza, solamente los clasificadores que rea- licen las más altas aportaciones pondrán su mensaje en la lista de mensajes. La cantidad de aportación que debe realizar cada clasificador activo no so- lamente depende de su fuerza, sino también de su especificidad, esto es útil, ya que reglas demasiado específicas tienden a desaparecer del sistema y las más generales también, estas últimas agotan su fuerza activándose constan- temente y porque hacen menor aportación al ser demasiado generales. Esto implica que el algoritmo bucket brigade permite obtener el mejor conjunto de reglas a lo largo de varios ciclos de ejecución.

De manera formal, cuando un clasificador Ci se activa en un tiempo t , su aportación esta dadá por,

Bid(C, t ) = b * R(C) * fuerza(C, t ) (4.7)

donde b es un constante de aportación menor que 1, R(C) es la especificidad de C, la cual es igual al niímero de ”no#’s” en la parte de la condición diiidido por la longitud,

R(C) = - I C ’ donde c j ~ C # # , (4.8) k ’

fuerza(C, t) es la fuerza de C en el tiempo t .

Page 51: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 4. Sistemas Clasificadores Genéticos 38

Los clasificadores ganadores depositan su mensaje en la lista de mensajes y se reduce su fuerza por el monto de su aportación,

fuerza(C, t ) = fueTza(C, t ) - Bid(C, t ) (4.9)

Los clasificadores {C’} que enviaron su mensaje en un tiempo t - 1 verán incrementada su fuerza por el total de la nueva aportación en forma propor- cional al número de clasificadores de 1 C’ I,

fuerza(C’, t + 1) = fuerra(C’, t ) + a . Bid(C, t ) (4.10)

(4.11) 1 a=--

I C’ I

4.7 El AG en un SCG

El AG se activa cada cierto número de ciclos de ejecución del sistema clasifi- cador, su función es la de descubrir nuevos clasificadores a partir de aquellos que poseen mayor fuerza, esto permite el mapeo de mensajes que quizás no se habían realizado por no cumplir las condiciones de los clasificadores anteriores. El ciclo básico para la ejecución del AG es [15]:

1. Seleccionar TI pares de clasificadores del conjunto de clasificadores ac- tuales de acuerdo a su fuerza.

2. Aplicar los operadores geuéticos a los pares de clasificadores selecciona- dos, creando con eilo nuevos clasificadores (ver capítulo 3 secciones 3.4, 3.5 y 3.6).

3. Reemplazar TI peores pares de clasificadores del conjunto actual de clasificadores por los nuevos individuos generados en el paso 2, la se- lección de los peores clasificadores se hace aleatoriamente con base en su fuerza.

Tanto el algoritmo bucket brigade como el AG trabajan en conjunto, apor- tando las bases del mecanismo de aprendizaje del sistema [17]. Holland habla sobre el proceso de aprendizaje de los SCG [is] en el cual queda claro que ”El mecanismo de aprendizaje se realiza a través del descubrimiento”.

Page 52: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 4. Sistemas Clasificadores Genéticos 39

LOS mecanismos de aprendizaje en cualquier sistema inductor de reglas puede ser mejorados realizando una discretización de los atributos continuos [11] [is], esto permite mayor rapidez en el proceso de aprendizaje y mayor parsimonia en las reglas resultantes. En el siguiente capítulo se hablará de los métodos de discretización de características continuas y como serán implementados en la solución ai problema planteado en esta tesis.

4.8 Aplicaciones de los SCG

Los sistemas clasificadoes han sido utilizado para innovar soluciones técnicas a problemas complejos de aplicación práctica, es por ello que se han utilizado en la determinación de la presión de las tuberías de gas en los Estados Unidos de Norte América, en el reconocimiento de imágenes por computadora, en el comportamiento de robots para realizar movimientos, en estadística para juegos de azar, en el diseño de juegos de lógica, entre otros. En el área de la investigación científica se han aplicado para diseño de modelos de agentes inteligentes, resolución de modelos cognocitivos, lenguaje natural, entre otros trabajos.

Page 53: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 5

DISCRETIZACIÓN DE ATMBUTOS CONTINUOS

Resumen

Algunos trabajos realizados en ML han requerido el procesamiento de atributos cuyo dominio son valores reales, pero muchos de ellos reportaron problemas en el proceso de aprendizaje donde la búsqueda de reglas resulta una tarea lenta y tediosa, espe- cialmente cuando el conjunto de datos utilizado por el mecanismo de aprendizaje es grande. Esto se debe a que en la implementación de los algoritmos de clasificación los datos se procesaron tal cual como 'fueron recabados. Muchos estudios reporta- dos de ML han proporciona soluciones útiles en el proceso de aprendizaje a través del empleo de técnicas de discretización de variables.

5.1 Métodos de discretización

De las distintas técnicas de discretización que hay hasta este momento, cada una de ellas está enfocada a ciertas técnicas de clasificación y al dominio de las variables a discretizar. En una publicación sobre machine learning [19], James Dougherty hace una explicación breve sobre los diferentes ejes que han tomado los métodos de discretización, y los clasifica como globales, Eomles, supervisados, no supervisados, estáticos y dinámicos.

Los métodos locales - producen particiones de los atributos que son apli- cados para localizar regiones en el espacio instanciado.

Los métodos globales - producen una malla sobre el espacio instanciado de entradas continuas n-dimensionales, donde cada atributo es parti- cionado dentro de regiones independientes a la de los otros atributos,

Page 54: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 5. Discretización de Atributos Continuos 41

Globales 1RD (Holte)

Cuantificadores Adaptativos Margen de Chi (Kerber)

Fayyad e Irani Ting

Max. Valor Predictivo Intervalo de igual longitud

intervalo de frec. igual MCC no supervisado

Supervisado D-2 (Catlett)

MCC Supervisado

No supervisado

la malla contiene IC, regiones, donde i E (1.. . n} , n es el número de atributos y IC, es el número de particiones de la i-ésirna caracterfstica.

Los métodos supervisados - utilizan las etiquetas de las clases para efec- tuar el proceso de discretización.

LOS métodos no supervisados - no requieren de las etiquetas de las cla-

Los métodos estáticos - determinan un valor k para cada característica independientemente de los otros atributos, donde IC es el número de particiones a realizar en una característica.

ses para poder discretizar.

Los métodos dinámicos - por su parte, realizan una búsqueda a través de los posibles k que pueden ser generados para todas las característi- cas de manera simultánea, tomando en consideración la influencia de los atributos entre ellos en su discretizxión.

La tabla 5.1 muestra algunos métodos de discretización y su clasifi- cación, los cuales son mencionados por Dougherty 1191.

Locales

Cuautificación de Vector Entropía de Máxima Jerarquía

Fayyad e Irani c4.5

Agrupamiento de k - medias

5.2 Importancia

En el proceso de aprendizaje, un sistema de clasificación cuyas características continuas no están discretizadas, tal es el caso de los clasificadores genéti- cos, pretende encontrar un conjunto de reglas donde las condiciones son más estrictas, aquí descubrir reglas se convierte en un espacio muy amplio donde se deben establecer operadores boleanos como el AND, OR, NOT, <, >, =, etc. para hacer reglas más generales y que, cubran un rango de valores de

Page 55: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 5. Discretizaci6n de Atributos Continuos 42

alguna característica, entonces la representación de las reglas sería de forma variable como lo establece el enfoque de Pittisburg [30]. Sistemas que mane- jan valores continuos serían muy deficientes en el proceso de aprendizaje bajo este esquema.

Un problema de clasificación de datos escalares continuos usando discretiza- ción sería más fácil de representar y de procesar computacionalmente, dado que el sistema clasificador estaría comprendido por reglas cuya parte de condición está representada por el número de división que corresponde a cada característica. Cada división comprende un rango de valores perteneciente al dominio de la característica a la cual se esté refiriendo. Bajo este contexto, la representación de las reglas puede ser de longitud fija (enfoque de Michigan [30]) o de longitud variable (enfoque de Pittisburg 1301).

5.3 Algoritmos de discretización de MLC++

Para la implementación del Sistema Clasificador Genético, los datos de entre namiento fueron discretizados usando las utilerias de MLC++ [27], MLC++ implementa tres tipos de discretización de los datos: por entropía, algoritr mo 1RD y divisiones de longitud igual. Cada uno de los métodos tienen en cuenta el número de divisiones por cada característica de las instancias dadas. MLC++ lee una base de datos de entrenamiento, una de prueba y otra donde se especifican los nombres de los atributos y de las clases; como resultado, obtenemos una base de datos de entrenamiento ya discretizados, otra con los datos de prueba también discretizados, y una base de datos donde están los nombres de los atributos y de las clases que incluye la infor- mación de cómo está particionada cada característica. Este último archivo es el usado para la implementación del SCG.

5.3.1 Intervalos de longitud igual (BIN)

El método de divisiones de tamaño igual es del tipo no supervisado, su implementación es simple para discretizar datos [ll] [19] [27]. El método consiste en ordenar los valores de la característica a discretizar, tomar los valores zmin (mínimo) y x,, (máximo) como límites, y el rango entre los valores se divide por el número de divisiones k (k es dado por el usuario) de igual tamaño que se desea obtener,

Page 56: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

43 Capítulo 5. Discretizacidn de Atributos Continuos

Xmas - Xmin

k 6=

a partir de este resultado se construyen los rangos de cada división de la forma %,in + i6, donde i = { 1, . . . , k - 1). El método es aplicado de manera independiente a cada característica que se desea discretizar.

5.3.2 Partici6n por entropía

Es un método de discretización de características continuas basado en una heurística de entropía minimal, fue publicada por Catlett en 1991 1191. Es una algoritmo supervisado que usa la entropía de información de la clase de particiones candidatas [31], con el propósito de seleccionar límites de divisiones para discretización. La entropía de información de la clase es una partición inducida T que está dada por:

Donde S es un conjunto de instancias, A es un atributo y T es el límite de una partición. Para un atributo A, el límite Tmin minimiza la función de entropía sobre todas las posibles particiones T seleccionadas. El método puede ser aplicado recursivamente para las particiones inducidas por Tmin hasta observar alguna condición de parada. Una condición de parada óptima fue propuesta por Fayyad e Irani [19].

5.3.3

Este método desarrollado por Holte en 1993, describe un clasificador simple que induce un árbol de decisiones de un nivel [19]. Trata propiamente con dominios que poseen características de valores continuos, es un método de discretización supervisado. El método lRD, ordena los datos observados de una característica continua e intenta dividir en partes el dominio de la ca- racterística, cada parte contiene solamente instancias de una clase particular. El algoritmo está restringido para formar divisiones de un tamaño mínimo predefinido.

Una regla de discretizacidn (1RD)

Page 57: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 5. Discretización de Atributos Continuos 44

Se realizaron pruebas con los distintos métodos de' discretización de datos proporcionados por MLC++, el método 1RD fue el que realizó mas divi- siones sobre los valores de los atributos, esto permte distancias más cortas entre el límite inferior y superior de una división en cualquiera de los atri- butos discretizados.

El método 1RD fue usado para el trabajo de predicción de los niveles de ozono, este método necesita como información de entrada el número mínimo de divisiones que va ha realizar, si se omite, MLC++ determina automá- ticamente a través de entropía en número de divisiones adecuado. Con estas discretizaciones se entren6 el SCG. La utilería fue aplicada sobre los datos de muestra del sistema RAMA, la cual genera una tabla de discretización que fue utilizada por el SCG.

Page 58: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 6

DESARROLLO DE UN SCG PARA PREDICCIÓN DE OZONO

Resumen

Existen trabajos de investigación relacionadas con la predicción de los nivele de ozono en la ciudad de Méxim, son sistemas probados para aprender una relación entre las variables causantes de la calidad del aire, estas sistemas han mostrado avances en la predicción de la calidad del aire encontrando patrones que se relacic- nan de manera directa con los niveles de ozono, cada sistema tiene distintos mecan- ismm para encontrar estas relaciones y distintas formas de representarlas. En este capitulo explicamos la aplicación de los sistemas clasificadores genéticos (SCG) en el aprendizaje de patrones ambientales del valle de México, con el propósito de encontrar reglas que modelen un sistema de predicción a corto plazo del mono en la ciudad de México.

6.1 Problemática

Basándose en la problemática de la baja calidad del aire del Valle de México, para el estudio de la contaminación atmosférica en esta ciudad, se ha insta- lado una red automática de monitoreo ambiental (RAMA), que cuenta con 25 estaciones, cinco de ellas, las más importantes por la información que proporcionan, están instaladas en los puntos noroeste (Tlanepantla), noreste (Xalostoc), sureste (C. Estrella), suroeste (Pedregal) y centro (Merced). Estas estaciones registran 9 variables cada minuto durante las 24 horas del día, las variables medidas son: dirección del viento (DV), velocidad del viento (VV), temperatura (T), humedad relativa ( H R ) , dióxido de azufre (SOz), monóxido de carbono (CO), dióxido de nitrógeno (NOz) , óxidos

Page 59: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

46 Capítulo 6. Desarrollo de un SCG para predicci6n de ozono

de nitrógeno (No,) Y ozono (03). En total son obtenidas 47 variables incluyendo el mes y la hora en que se tomó la muestra [3] [5].

Como se explicó en el capítulo 1 en la sección de antecedentes, varios trabajos orientados al estudio de la predicción del ozono en la ciudad de México se han realizado utilizando varias técnicas como son: redes neuronales [6] 1261, celdas holográficas [3], y árboles bayesianos [20]. Tales sistemas han mostrado avances en el estudio de este pro-blema, pero han mostrado niveles de error en la predicción por arriba del 10%. Al igual que los SCG estos sistemas se enfrentan a un problema donde los datos son variantes, tales datos cambian con el tiempo [12] 121. A pesar de que pueden tolerar un nivel de ruido, no son capaces de ajustar sus reglas de clasificación, dicho de otra manera, una vez determinadas sus reglas resulta dificil hacer adaptaciones de reglas. Los sistemas basados en técnicas evolutivas [is] como son los SCG permiten la coadaptación de sus regla de clasificación descubiertas.

6.2 Modelo de solución

Los conceptos teóricos y conceptuales mostrados sobre los AG y los SCG han sido utilizados en este trabajo de tesis para proponer un modelo de aplicación de los SCG, el cual explicaremos a través de un diagrama general de procesos figuras 6.1 y 6.2.

Una vez hecha una reseña sobre los antecedentes relacionados con la prw blemática de predicción de la calidad del aire en la ciudad de México y presentados los resultados que en esta materia se han realizado aplicando diversos paradigmas, mostraremos un modelo de solución al problema de predicción del ozono usando SCG.

Los SCG han sido una técnica poco utilizada hasta la actualidad, su po- tencialidad y facilidades han sido poco estudiadas hasta el momento. Este trabajo nos ha permitido conocer y estudiar las caracterfsticas de los SCG para la predicción del ozono, dado que las variables que intervienen en la calidad del aire en la ciudad de México cambian con el tiempo y los datos pueden ser clasificados.

En las figuras 6.1 y 6.2 mostramos el esquema de trabajo el cual nos será útil para entender y comprender el funcionamiento del SCG implementado para predicción del ozono.

Page 60: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

. _ _ _ - -

- Muestras Pard-

del metros Sistema RAMA "$"ario

- del

I

47 Capítulo 6. Deuarrolio de un SCG para predicci6n de ozono

Discretización de Atributos de lag Muestras

1 - Mejores EWl"8- Reglas Sistema Clasificador

+ Genético ci6n Dese"-

c biertas

t Muestras de Datos de Entrenamiento

Fig. 6.1: Descubrimiento de reglas de clasificación.

Diseretización de I Atributos de las Muestras

Muestras

Sistema

__

Mejores

Reglas

Descu-

biertas

__

Sistema Clasificador

Genético

I I Muestras de Datos

no Entrenadas

Fig. 6 . 2 Validación de reglas descubiertas.

6.3 Muestras del sistema RAMA

Las muestras utilizadas en este trabajo fueron recopiladas durante varios meses, se seleccionaron algunas muestras entre el horario de la mañana y de la tarde. Se consideraron las nueve variables de cada estaci6n de monitoreo, únicamente de la estaci6n del Pedregal se tomaron en cuente ocho variables, ya que se predecirá el ozono en esta regibn. En total tenemos 44 variables, más las variables de mes y hora en que se tom6 la muestra con lo cual suman 46 variables descriptoras y 1 variable de salida. Las muestras de entrenamiento están compuestas de una parte descriptora y otra de salida esperada 131.

Page 61: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

48 Capítulo 6. Desarrollo de un SCG para predicci6n de ozono

1 Unahora 11 435 I o l . d a t a 1 69 I o i . t e s t

(6.1) (6.2) (6.3)

Mi =< descripción >< salida > < descrip~ón >= ( A l , Az, . . . , A 6 )

< salida >= {&,}

Dos horas Tres horas

Cuatro horas

Donde A1-46 son los atributos descriptores en un tiempo t y es el atri- buto correspondiente al ozono de la región del Pedregal en un tiempo t + n, donde n indica la hora a la cual se hará la predicción. Dicho de otra ma- nera, el SCG buscará un modelo basado en reglas donde el 0 3 ~ ( t + n) está determinado por las variables descriptoras en el tiempo t .

Del total de muestras recopiladas se seleccionaron cuatro conjuntos de mues- tras, a su vez, cada subconjunto se subdivide en muestras de entrenamiento del sistema y muestras para validar el sistema (muestras no entrenadas que permitirán predecir el ozono para n horas). Cada conjunto es usado para entrenar y validar el sistema para distinta hora de predicción del ozono de la regi6n del Pedregal (03t+,,n = 1 ,2 ,3 ,4 ), la tabla 6.1 describe la dis- tribución de las muestras antes mencionada.

I Hora a 11 Muestras para I Archivo (1 Muestras no I Archivo I

335 02. data 69 o 2 . t e s t 295 03. data 54 o 3 . t e s t 242 04. data 38 d.test

6.4 Discretización de los datos de RAMA

Los datos de RAMA representan un conjunto de muestras del monitoreo en una fecha y tiempo dados, el conjunto de muestras,

Page 62: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

49 Capítulo 6. Desarrollo de un SCG para predicción de ozono

M = {Tl , . . . , E , . . . ,Tn}, (6.4)

donde Ti es un registro de m atributos seleccionados para el procesamiento,

(6.5) E = Ai ,..., Aj ,..., A,,,,

donde cada Aj representa el valor j-ésimo de un atributo en algún registro Ti del conjunto de muestras.

Del conjunto de muestras obtenidas del sistema RAMA se toman SUS atri- butos para ser discretizados por una utilería de discretización de MLC++ [27], esta utilería encuentra el número de divisiones d, para cada atributo Aj , MLC++ fue configurado para utilizar el método 1RD de discretización.

Se crearon tres archivos para la discretización: ozono. data, ozono. t e s t y ozono.names.

ozono.data . Contiene el conjunto de registros de entrenamiento del SCG para determinada hora de predicción.

ozono.test . Contiene un conjunto de muestras no entrenadas que son usadas para verificar la certeza del aprendizaje del SCG.

ozono .names . Contiene la descripción de los nombres de los atributos de las muestras y el dominio del atributo, para este trabajo, todos los datos son continuos, en MLC++ se indica con la palabra continuous.

Posteriormente se ejecutó la utileria d i sc re t i ze para proceder a discretizar los datos. La utileria pregunta el método de discretización que se usará, en este caso se indicó que se utilizara el método 1RD. Las tablas contenidas en el apéndice A muestran los resultados de la discretización de las muestras de RAMA, tales resultados fueron utilizados para establecer el esquema de representación de las reglas del SCG. Las tablas de discretización son cuatro, una para cada conjunto de muestras dependiendo de la hora a la cual se quiere entrenar y predecir, las tablas son: A. l , A.2, A.3 y A.4.

Page 63: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

50 Capltulo 6. Desarrollo de un SCG para predicci6n de ozono

6.5 Parámetros del usuario

Cada una de las partes del modelo de SCG de la figura 4.1 debe ser alimeu- tada con parámetros iniciales para realizar su funciones, en la tabla 6.2 se describen los grupos de parámetros utilizados por el programa.

Grupo Clases

AG

Refuerzo Ambiente

Tiempo

Parámetros número de posiciones de cada reda - número de posiciones para la clase número de clasificadores iniciales porcentaje de generalidad tasa de aportación sigma, parámetro que genera ruido fxtor de especificidad permitido letra 'G', para generar reglas letra 'D', para leer reglas de archivo factor de selección factor de mutación factor de cruza factor de búsaueda tipo de selección 'ruleta' valor de refuerzo por parte del ambiente número de atributos a usar de cada muestra vector de atributos a ut.ilizar número de atributo que representa la clase número de muestras a usar periodo para generar reporte periodo de activación del AG total de iteraciones a realizar (paro)

Tab. 6.2: Grupos de parámetros de inicialización del SCG

Los parámetros proporcionados por el usuario varían dependiendo de la etapa que esté ejecutando el sistema, en la parte de entrenamiento son im- portantes los datos referentes a la activación del algoritmo genético y las constantes que éste va a usar. En la parte de reconocimiento o validación, la ejecución del algoritmo genético es omitida, ya que solamente se utilizan las mejores reglas almacenadas en la etapa de entrenamiento.

Page 64: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

51 Capítulo 6. Desarrollo de un SCG para predicción de ozono

6.6 Esquema de representación de las reglas

6.6.1 Selección del enfoque de representación de reglas

Originalmente se realizó un estudio bibliográñco que permitiera seleccionar de la mejor manera el esquema de representación de reglas que se usaría en el SCG para evitar hacer varios prototipos los cuales retrasarían la imple- mentación correcta del SCG, como se mecionó anteriormente, existen dos enfoques de representación de reglas, Pittisburg y Michigan.

El enfoque de Pittisburg [30] permite una representación de reglas de número de atributos variable, la implementación de un sistema clasificador usando este enfoque permite de manera natural realizar la discretización de atri- butos ai mismo tiempo que descubre las regias de clasificación, la principal desventaja es que el tiempo de procesamiento requerido es mayor.

En el enfoque de Michigan 1301 el esquema de representación de atributos en reglas es de tamaño fijo, y para descartar atributos menos importantes hace uso de "comodines"en las reglas de clasificación descubiertas, este enfoque resulta ser más ventajoso en el tiempo de procesamiento, sin embargo las reglas resultantes deben ser traducidas a un lenguaje enfocado al usuario para su entendimiento.

Considerando que compntacionalmente es más rápido procesar cadenas de longitud fija y que el diseño de las reglas de clasificación para problema de predicción de ozono a través SCG son cadenas de longitudy fija también, se decidió usar el método de Michigan para realizar la representación de reglas de clasificación, así también este enfoque resulta ser más apropiado para la implementación de SCG [15].

6.6.2 Construcción del esquema de representación de reglas

Una vez discretizados los datos, se genera una población de reglas iniciales para el sistema, cada regla es una posible solución en el proceso de búsqueda de reglas que clasifiquen los datos de entrenamiento seleccionados. Para ello se selecciona el número de atributos A a ser utilizados, el cual es de tamaño m, cada solución es codificada como un vector en esquema decimal por cada atributo de la siguiente manera:

Page 65: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 6. Desarrollo de un SCG para predicción de ozono 52

Am = d l , . ..,&am = loglo(&),

donde A, es el atributo a codificar, d, es la división i-ésima de un atributo dado, así que d, es el tamaño de divisiones existente en un atributo dado, y Q

es tamaño de la información en decimal que puede ser representada para un atributo, entonces la codificación de una regla esta dada por la concatenación de los Q determinados para todos los atributos seleccionados,

C = a1a2.. .arn, (6.7)

donde C es una regla codificada y Q es la representación de un atributo, entonces los valores de un ai están dados por el alfabeto { O , . . . ,9, #} para la parte de la condición de la regla, el atributo que representa la clase de la regla (acción) es,

E = d l , . . . ,d,e = logla(dz), (6.8)

donde e está expresada en el alfabeto {O,. . . ,9} como parte de la acción de la regla. Así pues, una regla i? está formada por,

Para la implementación del SCG se determina una población P de tamaño k de reglas iniciales, entonces la población

P = { R l , ..., Rk}. (6.10)

Cada regla está acompañada de un valor llamado fuerza, la cual inicialmente es igual para todas las reglas de la población inicial.

Page 66: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

53 Capitulo 6. Desarrollo de un SCG para predicci6n de ozono

La certeza en el aprendizaje del SCG se mide a través de "aciertos", con- siste en determinar el porcentaje de muestras mapeadas correctamente con respecto a los clasificadores existentes, un 100% de aprendizaje demuestra que existe al menos una regla que es activada por una muestra de datos. La efectividad en la predicción de los niveles de ozono se medirá con base en el proceso de mapear un conjunto de muestras no entrenadas con las reglas descubiertas en el proceso de aprendizaje, en tal caso la forma de validar el reconocimiento es también a través de "aciertos".

6.7 Evaluación del aprendizaje

Como se mencion6 en el capítulo 4, el SCG provee de un algoritmo que funciona como evaluador de las reglas (evaluación del aprendizaje), éste es el algoritmo bucket brigade. El sistema clasificador genético tiene dos etapas de activación:

La primera parte es utilizada en la parte de entrenamiento para descubrir n u e w reglas, este proceso de descubrimiento fue explicado anteriormente en forma teórica. En la primera etapa, antes que se active el AG se guardan las mejores reglas en una estructura. El sistema en su parte de entrenamiento lleva un control que sirve como medida para la condición de terminación del aprendizaje del SCG, este control se lleva a través de la variable certeza; la certeza es el porcentaje de ejemplos mapeados correctamente desde el primer ciclo de ejecución del sistema hasta la iteración en la que se tome este dato (conocido también como aciertos). La certeza es el indicador que nos muestra el momento en que el sistema ha aprendido un conjunto de muestras considerables para comenzar la segunda etapa del SCG, el criterio es tomado por el módulo de evaluación. El módulo de evaluación a través de la variable que indica la certeza determina el momento de terminar la parte de ejecución del sistema en su parte de entrenamiento, y la estructura de las mejores reglas encontradas son pasadas a la segunda etapa del SCG.

La segunda parte del SCG es una etapa para encontrar la clase correspon- diente a cada muestra del conjunto de datos de prueba, para ello se desactiva el AG, en esta etapa se calcula el error de predicción con el cual se evalúa la certeza de predicción del ozono. El error de predicci6n se define como la diferencia entre el punto medio del límite inferior y superior del valor discretizado de Ozono regresado por el SCG, y valor real que la muestra tiene.

Page 67: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

54 Capftulo 6. Desarrollo de un SCG para predicción de ozono

El nivel de confianza es una medida que nos permite determinar cuando el resultado que regresa el SCG es aceptable para considerarla como válida, para el caso de este trabajo de tesis no fue fácil definir el nivel de confianza, ya que en cada grupo de datos la variable del ozono fue discretizada con tamaños de división de discretización diferentes. En las tablas 7.3, 7.4, 7.5, 7.6 y 7.7 la columna de nivel de confianza muestra el tamaño inferior y superior de cada conjunto de datos, el tamaño superior resulta ser el mismo tamaño que la primera y la última división de discretización del ozono dado que la regla de discretización pretende cubrir valores de los atributos por a bajo del límite inferior o muy por encima del límite superior.

6.8 Desarrollo e implementación del sistema

Primero se implement6 el programa usando una representación de reglas basadas en un esquema binario, los resultados se vieron afectados por el tiempo de procesamiento de cadenas muy largas para cada regla. Un es- quema binario según Holland 1161 permite aprovechar mejor el espacio de búsqueda en la solución de un problema basado en AG, en este trabajo, debido a que los atributos se están discretizando, no se requiere encontrar una solución muy especifica, es por ello que apoyado en el teorema de esque- mas de Holland [16] se optó por usar un esquema decimal para realizar la representación de las reglas. Con una representación decimal se obtuvieron resultados de buena calidad con menos tiempo de procesamiento.

Cuando se planteó el problema, se contempló anticipadamente la necesidad del uso de supercómputo o procesamiento paralelo, se sabía que la imple- mentación de un SCG bajo el contexto de aprendizaje de un gran número de ejemplos con 47 atributos comprendía mucho procesamiento de información. El ambiente de trabajo fue el siguiente: máquina UltraSparc SUN Station, sistema operativo Solaris ver. 5.4, lenguaje de programación C; bajo este ambiente se trabajó en la predicción del ozono usando 11 y 20 variables de entrenamiento. El tiempo de cómputo necesario para entrenar ai sistema con más variables (véase tabla 7.9) nos llevó a implementar el sistema en una máquina Origin 2000 propiedad de la Universidad Nacional Autónoma de México (UNAM) [9]. Se entrenó al SCG con 11,20,29, 38 y 46 variables, en 8 procesadores de la máquina Origin 2000 donde se logró reducir el tiempo de cómputo considerablemente.

Basado en el modelo de SCG propuesto por Holland I151 117) [is] y Goldberg

Page 68: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 6. Desarrollo de un SCG para predicción de ozono 55

[13] para implementar las funciones de cada parte del modelo esquematiza- do en la figura 4.1 el programa desarrollado en esta tesis está compuesto principalmente de los siguientes módulos:

inicializa - función que lee los parámetros necesarios para cada uno de los módulos del SCG, también crea las reglas iniciales en la fase de aprendizaje o las lee de una base de datos en la fase de optimización y validació,

clasificador - es la implementación del ciclo básico del SCG el cual llama a cada una de las funciones necesarias para la clasificación,

ambiente - función que guarda en una estructura todos los ejemplos con los cuales aprenderá el sistema, se encarga de codificar los ejemplos, enviarlos a la interfaz de entrada del SCG, recibe la respuesta del SCG desde la interfaz de salida y recompensa a las reglas que hayan acertado en una respuesta igual a la esperada,

aportaci6n - este módulo calcula la aportación de cada regla activada en base a su fuerza y la tasa de aportación, recolecta dicha aportación y realiza la competencia entre reglas para determinar cual de ellas pondrá sn mensaje sobre la interfaz de salida,

ag - esta rutina realiza la ejecución del AG, permite la selección de reglas, y la aplicación de los operadores genéticos de cruce y mutación. En el caso de la selección se utilizó el método de rueda de la ruleta,

mapeo - esta función realiza el mapeo del ejemplo codificado en la interfaz de entrada con cada una de las reglas existentes y marca las reglas que fueron mapeadas para posteriormente hacer competencia entre ellas para determinar cuál será la que deposita el mensaje de salida en la interfaz hacia el ambiente,

Brevemente estos son los módulos usados en el programa, una aplicación de ejemplo desarrollada por Goldberg [13] explica más detalladamente los módulos que utiliza usando el mismo modelo de SCG.

Page 69: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 7

RESULTADOS OBTENIDOS

Resumen

Este capítulo muestra los resultados generados a través del uso de SCG, se discuten también algunos aspectos importantes tales como la eficiencia en el aprendizaje, la eficiencia en la predicción, los atributos más importantes que el SCG encontró, g r á . 6 ~ ~ comparativas del error en la predicción (resultado obtenido contra lo es- perado) y una comparación de los resultados del SCG respecto a otros paradigmas que fueron utilizados también para la predicción del ozono.

7.1 Diseño de las pruebas

Las pruebas se realizaron en 5 fases, tomando en consideración que cada regi6n de monitoreo proporciona 9 variables más el mes y hora en que se tom6 la muestra. Como se ve en la tabla 7.1 primero se realizaron pruebas con pocos atributos de las muestras para observar su comportamiento en cuanto al tiempo de cómputo utilizado, nivel de certeza de aprendizaje y porcentaje de ejemplos no entrenados reconocidos. Estas fases de pruebas se realizaron para cada una de las bases de datos que contienen las muestras preparadas para entrenar y probar el sistema (ver tabla 6.1), en total se realizaron 20 pruebas.

El significado de los subíndices de la tabla 7.1 son: F - Tlanepantla, L - Xalostoc, Q - Merced, T - Pedregal y X - C. Estrella.

La base de conocimientos está formada por cuatro grupos de muestras p r e porcionadas por el sistema RAMA, dependiendo de la hora en que se va a predecir. Para todas las pruebas realizadas se proporcionaron los mismos

Page 70: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

57 Capítulo 7. Resultados Obtenidos

parámetros al SCG para el entrenamiento, la tabla 7.2 muestra 10s valores de lo parámetros iniciales más importantes:

Algunos parhe t ros iduyen más en el comportamiento del AG para des- cubrir nuevas reglas, los parámetros más importantes para el AG son 10s siguientes:

Porcentaje de generalidad - en un SCG este porcentaje determina el número de símbolos nwimporta (#) que deberá tener como máximo una regla de clasiíkación en su generación inicial. Cuando este por- centaje es establecido muy bajo genera reglas iniciales muy espectficas, con ello el sistema pierde más tiempo en aprender debido a que en cada activación del AG éste generaba nuevas reglas más específicas. Para el problema de aprendizaje en este trabajo fue adecuado un porcentaje de generalidad entre 70% y 90%, ya que el descubrimiento de nuevas reglas permite un mapeo de ejemplos con reglas ajustadas en cuanto especificidad.

Factor de selecci6n - en el algortimo genético este valor es usado para determinar el núnero de individuos a ser seleccionados para realizar la reproducción, esto se obtiene a través del producto del factorde selección por el número de individuos en la población. Este factor es útil para determinar qué reglas serán seleccionadas como padres de las nuevas reglas en la ejecución del AG, el criterio general para la selección es buscar las reglas con mejores pesos, cuando el factor de selección es muy alto en la selección se realiza una búsqueda más profunda por lo que se presentan dos problemas: una población paimítica y mayor tiempo de cómputo.

Factor de mutación - es la probabilidad de que un gen sea mutado al realizar la reproducción de los indivuduos dentro de una población. En las pruebas realizadas se logró establecer que para este trabajo la mutación debe ser establecida en un factor muy bajo, de lo contrario en cada proceso de producción de nuevas reglas éstas eran más específicas y el proceso evolutivo resultaba palmítico.

Número de iteraciones del SCG - la condición de parada del SCG es el número de iteraciones a realizar sobre el ciclo básico del SCG, el valor de este parámetro depende básicamente del número de ejemplos con que entrenó el SCG. A mayor número de iteraciones aumenta prin- cipalmente el tiempo de procesamiento, la certeza en el aprendizaje, la certeza en la predicción y la optimización de las reglas.

Page 71: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

58 Capítulo 7. Resultados Obtenidos

I No. de I Vector de

Tab. 7.1: Tabla del diseño de pruebas por grupos de variables

Tab. 7.2 Valores iniciales de los parámetros del SCG

Page 72: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 7. Resultados Obtenidos 59

la fase de descubrimiento de reglas (entrenamiento) el AG busca a t~-avés de sus operadores un conjunto de reglas evolutivamente descubiertas V e mapean al conjunto de ejemplos proporcionados. El conjunto de reglas re- sultantes en la fase de entrenamiento a través del mecanismo de asignación de crédito es sometido a una coadaptación u optimización que consiste en buscar reglas lo más específicas posibles que cubran los ejemplos propor- cionados y lo más general posible lo cual permite la parsimonia de las reglas. La coadaptación de las reglas consiste en un refinamiento del aprendizaje por parte del sistema. Las reglas debidamente optimizadas son utilizadas para realizar la fase de predicción, la cual consiste en reconocer un conjunto de muestras no entrenadas a partir de las reglas aprendidas.

Las primeras pruebas fueron realizadas en una estación de trabajo SUN sparc station 20, debido a que el tiempo de cómputo se incrementaba al utilizar más variables de las muestras de RAMA, se optó por realizar pruebas en el equipo Origin 2000.

Inicialmente se contempló el uso de supercomputo para mejorar los tiempos de respuesta, la justificación para ello está dado por las siguientes carac- terísticas del sistema: en el peor de los casos para las pruebas realizadas en la parte de aprendizaje se usan 435 muestras máximo, por cada mues- tra son 47 atributos, cada muestra es mapeada con 2000 reglas dadas por la configuración inicial del sistema para el aprendizaje y las 2000 reglas en función son procesadas por 7 rutinas (clasificador, el ambiente, el aporta- dor de crédito, el mapeo de reglas y el algoritmo genético -selección, cruza, mutación y reproducción-).

El principal problema es el tiempo de procesamiento, no se buscó hacer un estudio del paralelismo del algoritmo, sino mejorar los tiempos de apren- dizaje, es por ello que al compilar el código del programa en la Origin 2000 se usaron los parámetros por defecto que posee el compilador paralelo de dicho sistema. El código que anteriormente había desarrollado en 'C' no fue necesario cambiarlo, ya que el compilador de 'C' de la Origin 2000 posee la opción de hacer una análisis automático del paralelismo del programa que deseamos compilar, por lo cual hice uso de esta facilidad. Los resultados en la Ongin 2000 fueron aceptables, el tiempo de cómputo se redujo conside- rablemente. Posteriormente en la tabla 7.9 se muestra una comparación de los tiempos de procesamiento en la SUN spcarc station 20 y Ongin 2000.

Page 73: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

60 Capitulo 7. Resultados Obtenidos

Hora de predicción

1 2 3 4

7.2 Resultados

Porcentaje de Porcentaje de Nivel de aprendizaje predicción codanza

97% 72% 113 - A29.25 99% 98% 114 - 130.25 100% 100% 117.5 - i38.25 99% 100% 130 - 156.75

Hora de predicción

1 2 3 4

Porcentaje de Porcentaje de Nivel de aprendizaje predicción confianza

98% 72% 113 - 1429.25 98% 91% &14 - 130.25 89% 72% 117.5 - i38.25 100% 100% 530 - i56.75

Hora de predicción

1 2 3 4

Porcentaje de Porcentaje de Nivel de aprendizaje predicción confianza

97% 85% 113 - i29.25 100% 95% A14 - 430.25 98% 98% *17.5 - &38.25 100% 100% *30 - +56.75

Page 74: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Hora de Porcentaje de Porcentaje de predicción aprendizaje predicción

75% 1 100% 100% 97% 2

3 98% 92% 4 100% 100%

Tab. 7.6 Pruebas con 38 variables

Nivel de confianza

*13 - f29.25 zk14 - f30.25

&17.5 - f38.25 f30 - f56.75

I Hora de 1 Porcentaje de predicci n I aprendizaje

1 I 100% 100%

100% 1 1 93%

Porcentaje de predicci n

88% 91%

~ ..

90% 100%

Nivel de confianza

2Z13 - 429.25 3x14 - zk30.25

f17.5 - 3~38.25 f30 - f56.75

Tab. 7.7: Pruebas con 46 variables

sección 6.3 mostramos el número de muestras para cada hora de predicción. Esto es importante debido a que en la tabla de resultados existe un mejor aprendizaje conforme aumenta la hora de predicción, este comportamiento se explica dado a que el número de iteraciones fue igual para todas las pruebas, asimismo el número de reglas iniciales fue igual para todas las pruebas, pero el número de muestras y atributos variaron entre cada prueba y el nivel de confianza aumentó conforme aumentó el horizonte de predicción.

Dicho lo anterior podemos obervar lo siguiente: a menor número de atributos y muestras se requiere menos tiempo de cómputo, mientras el número de muestras de aprendizaje es menor el porcentaje de aprendizaje se eleva, mientras el número de muestras de prueba también es menor el procentaje de predicción también se eleva, y mientras aumenta el horizonte de predicción de una a cuatro horas, el nivel de confianza aumenta.

El reto mayor computacionalmente hablando es el de entrenar y hacer el reconocimiento de muestras no entrenadas con las 46 variables; para realizar estas pruebas se requirió de mayor tiempo de procesamiento. En seguida se muestran cuatro figuras comparativas de la predicción de ozono entre los datos arrojados por el SCG y los valores reales de ozono que tienen las muestras no entrenadas.

La comparación entre los datos de la predicción y los reales para 1 bora se muestra en la figura 7.1 y el error correspondiente se muestra en la figura 7.2.

Page 75: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

62 Capitulo 7. Resultados Obtenidos

Pndlcel6n de Ozono Pam 1 l i o n

300

260

200

0 160

8 100

60

0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ~. ~

- ‘ ” = “ “ “ N ~ W ñ o ~ O $ ~ % a 3 W ~ ~ ~ uue*tras

Fig. 7.1: Predicción para 1 hora con 46 variables

Los datos obtenidos para predicción a 2 horas se muestran en la figura 7.3 además de la gráfica 7.4 que muestra el error respectivo entre lo real y la predicción.

Los resultados obtenidos para predicción a 3 horas se presentan en la figura 7.5 y su error respectivo entre lo real y la predicción en la gráfica 7.6.

Los datos obtenidos por el SCG para predicción a 4 horas se muestran en la figura 7.7 y la gráfica respectiva de error de predicción se presenta en la figura 7.8.

Los resultados anteriores son importantes, representan una gran eficiencia en el aprendizaje y en la predicción. Cabe señalar que los resultados obtenidos se lograron debido a la discretización de los atributos. Como se mencionó, la discretización de atributos continuos acelera considerablemente el apren- dizaje en sistemas de clasificación [19] [U]. Dependiendo del tamaño de las divisiones de cada atributo, será el nivel de especificidad de las reglas induci- das por el sistema clasificador. Los rangos de discretización del ozono de la región del Pedregal (variable que se está prediciendo) son comparables con los usados en el trabajo basado en árboles bayesianos [20] y en casi todos los casos es menor el rango (ver apéndice A).

Unas de las cualidades de la mayoría de los sistemas basados en aprendizaje inductivo es que su propio mecanismo de búsqueda de reglas de clasificación permite hacer una selección de los atributos que son más importantes para clasificar. Con base en esto, tenemos dos clases de atributos, aquellos que

Page 76: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

63 Capítulo 7. Resultados Obtenidos

3 horas

4 horas

Fig. 7.2: Error para 1 hora con 46 variables

TMPQ, TMPT, S O ~ T , COX-, 0 3 ~ N 0 2 ~ , NOXx DVQ, VVL, VVQ,TMPQ, S 0 2 ~ O ~ F , N 0 2 ~ HORA, DVL, DVX,TMPL,TMPQ R H F , C O F , C O L , O ~ L , ~ ~ O

discriminan a lac muestras, esto es, que cada valor posible del atributo puede estar asociado a una clase distinta; y el otro tipo de atributo que no es dis- criminante ya que varios valores distintos del atributo pueden estar asociados a una misma clase. Dado lo anterior, las reglas resultantes del SCG nos per- mitieron medir cuáles son los atributos más importantes para discriminar muestras; dichos atributos fueron obtenidos para cada uno de los resultados del aprendizaje del sistema clasificador para 1, 2, 3 y 4 horas de predicción, estos resultados se muestran en tabla 7.8.

I Prueba I/ Atributos 1 1 hora HORA, DVT, VVL, VVT, VVx

T M P Q , S O ~ T , O ~ L , N O X T 2 horas ( 1 MES, DVF, DVQ, DVT, VV,

N O ~ L , N ~ ~ Q , N O ~ T , N O ~ ~ , NOXF NOXQ

Tab. 7.8: Atributos más importantes descubiertos por el SCG en el apren- dizaje

Page 77: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

64 Capitulo 7. Resultados Obtenidos

Fig. 7.3: Predicción para 2 horas con 46 variables

Los resultados de la tabla 7.8 pueden variar, el mecanismo de aprendizaje del SCG no genera exactamente los mismos resultados, éstos pueden variar un poco, un atributo más o un atributo menos, pero siempre llega a resultados similares, podemos observar en la tabla 7.8 que varios atributos se repiten en varias de las pruebas de aprendizaje del sistema, es evidente que esto se debe a que el SCG encuentra que tales atributos son importantes para discriminar muestras y poderlas categorizar en distinta clase.

Otro de los aspectos importantes del SCG es que no sabemos exactamente el número de regias resultantes para clasificar ejemplos no aprendidos, esto se debe a la heurística que emplea el programa a través de los mecanismos estocásticos del SCG y del AG. Esta propiedad provoca que en los resulta- dos finales haya redundancia de reglas, así mismo, no es fácil decidir cuáles descartar para hacer más reducido el número de reglas clasificadoras. D e pendiendo de la aplicación que se esté desarrollando, será el tipo de selección de reglas que se hará. Goldberg [I31 sugiere incluir una función basada en la especificidad de las reglas en el módulo de competencia de reglas para decidir a cuales reglas darles más prioridad de activarse, ya sea a las más generales o a las más específicas. Por otro lado Escazut [8] [7] en su tra- bajo doctoral, recomienda que sea usado un operador más, a este operador lo llama opemdor de especificidad, en el cual implementa una función de especificidad como la de Goldberg, pero agrega la propiedad de tomar en cuenta el contexto de una regla, para lograr esto propone una estructura diferente para cada regla, en la cual el peso de la regla en sí está basado en

Page 78: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

65 Capitulo 7. Resultados Obtenidos

Q m r a 2 Horas

110

100

eo

10

o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ~~

r * h O m Y l m N w - , , , , , W ñ X & 8 J P 9 M B W S Z & h r l n Pirrdkko

IgDs.l

Fig. 7.4 Error para 2 horas con 46 variables

un peso para cada atributo de esta regla. Bajo esta propuesta en el modelo de Escazut se seleccionan las reglas más específicas.

En este trabajo de tesis se utilizaron dos tipos de selección de reglas en la fase de competencia, en la etapa de aprendizaje se us6 el modelo de Golberg, el cual utiliza un parámetro llamado sigma para generar un valor aleatorio y que éste se sume al producto de la especificidad de la regla por su aportación, con ello la competencia está dada por el peso de la regla, la especificidad y una función aleatoria, esto permite explorar más el espacio de búsqueda de reglas de clasificación. En la fase de reconocimiento de ejemplos no aprendidos, se aplicó una función basada en el modelo de Escazut [8] (también usado en otros trabajos), dicha función hace una selección de las reglas más específicas de manera determinista. Debido a la presencia de redundancia, para este trabajo esta función fue muy importante, a pesar de que haya muchas reglas descubiertas en la fase de aprendizaje, en la parte de validación sólo se activan aquellas que son más específicas.

Una regla óptima es cuando dado dos reglas con igual nivel de confianza, la más general es la mejor, ya que ésta clasificará más muestras, debemos de tener en antecedente que en la fase de aprendizaje se busca tener reglas óptimas, estas reglas tienen la característica de no tan específicas y ni tan generales. Sin embargo, la ventaja de las reglas específicas es que permiten categorizar mejor las muestras no entrenadas, ya que para algunas clases se requieren de un mayor número de atributos descriptores. Las reglas resul- tantes usadas en la fase de validación ya poseen cierto grado de optimización

Page 79: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

66 Capitulo 7. Resultados Obtenidos

Fig. 7.5: Predicción para 3 horas con 46 variables

dado que las regias seleccionadas resultan ser las más importantes para ma- pear más muestras.

En el apéndice B en las tablas B. l , B.2, B.3 y B.4 se muestran las reglas generadas por el sistemas clasificadores genéticos (SCG).

7.3 Origin 2000 y SUN sparc station 20

La ejecución del programa puede ser probada el cualquier equipo de cóm- puto, pero es sabido que dependiendo de la arquitectura que se posea y las capacidades del equipo los resultados pueden ser obtenidos en menos tiem- po. El aprovechamiento de un equipo rápido y eficiente como lo es la Origin 2000 permite planificar nuestro diseño de solución del problema para que podamos tener resultados mejores en un tiempo relativamente corto.

En esta sección, presentamos a través de la tabla 7.9 de los tiempos de ejecuci6n de algunas pruebas del programa, estas pruebas fueron realizadas en las estaciones de trabajo SUN sparc station 20 y la Origin 2000 usando 8 procesadores.

En la tabla 7.9 podemos observar el efecto del número de muestras que se procesaron, dado que a menor número de horas de predicci6n se tienen más muestras, éstas son procesadas con mayor tiempo de c6mputo a diferencia de las pruebas que representan una predicción a cuatro horas. Podemos ver

Page 80: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

67 Capítulo 7. Resultados Obtenidos

cuatro

dos tres

cuatro HrF I I/ tres

cuatro kz---kF cuatro

Tiempo de ejecución en SUN sparc 20

4 hrs. 3.5 hrs. 3.5 hrs. 2.9 hrs. 10 hrs. 9 hrs. 9 hrs. 8 hrs. N P N P N P N P N P N P N P N P N P N P N P

cuatro N P

Tiempo de jecución en Origin 2000

3 min. 3 min. 2 min. 2 min. 10 min. 10 min. 9 min. 7 min. 15 min. 15 min. 12 min. 10 min. 20 min. 19 min. 19 min. 15 min. 30 min. 27 min. 28 min. 26 min.

lo

Tab. 7.9 Comparación de tiempos de ejecución en SUN sparc station 20 y Origin 2000

Page 81: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

68 Capitulo 7. Resultados Obtenidos

Fig. 7.6 Error para 3 horas con 46 variables

la relación de número de muestras y tiempo de cómputo: cómo desciende según la hora a predecir y aumenta según el número de atributos usados.

El tiempo es aproximado debido a que varía en cada prueba como resultado de la heurística del programa. Se realizaron mayor número de pruebas en la Origin 2000 con 29, 38 y 46 variables de entrenamiento, se ejecutó el programa con 11 y 20 variables sólo para probar el equipo de cómputo.

7.4 Comparación de resultados del SCG

En contraste con estos resultados, mostramos a continuación algunos re- sultados obtenidos en predicción de ozono a corto plazo a través de imple- mentación de programas basados en otros paradigmas.

Una de las investigaciones realizadas en México sobre predicción de @&on0 a una hora se basa en el uso de redes neuronales, este trabajo 1261 empieza con un estudio sobre la red neuronal de retropopagación, para el estudio se utilizaron solamente 16 muestras para entrenamiento y 11 muestras no en- trenadas para validación, y de las 47 variables sólo se utilizaron 12 variables correspondientes a la región del Pedregal, el porcentaje de certeza obtenido fue del 73% para una hora de predicción.

En ese mismo trabajo se realizaron pruebas usando una red memoria ase ciativa bidireccional (BAM) cuyos resultados superan a los de la backprw

Page 82: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

69 Capítulo 7. Resultados Obtenidos

Número de

Fig. 7.7: Predicción para 4 horas con 46 variables

Muestras Muestras Porcentaje entrenadas de prueba de

pagation, tales resultados se muestran en la tabla 7.10.

variables 12 18

predicción 100 14 42% 267 21 86%

46 430 1 51 78%

Tab. 7.10: Pruebas con BAM para predicción a una hora

Un estudio posterior [20] basado en redes bayesianas obtuvo los resultados mostrados en la tabla 7.11

I 1 Método I intervalo I Intervalo I

Aprendizaje Prueba

relativo de 30 de 50 84% 85% 85% 78% 80% 85%

Tab. 7.11: Resultados obtenidos a través de redes bayesianas

Este estudio seleccionó de un total de 436 muestras 20 para generar el ár- bol y 20 muestras no entrenadas para validar la predicción. Del árbol de aprendizaje se tomaron tres de los más importantes atributos para realizar la validación de la predicción, con estos tres atributos se realizó la predicción usando las muestras no entrenadas.

Page 83: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

70 Capítulo 7. Resultados Obtenidos

Hora de predicci6n

1 2 3 4

Fig. 7.8: Error para 4 horas con 46 variables

Muestras Muestras Certeza en entrenadas de prueba predicción

430 69 68% 335 69 67% 295 53 62% 242 38 54%

Page 84: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capitulo 7. Resultados Obtenidos 71

Tab. 7.13 Resumen comparativo de medidas de certeza en reconocimiento de muestras no entrenadas para predicción de ozono

obtenidos para el SCG en base a las muestras para las pruebas con 11,20,29, 38 y 46 variables y para una, dos, tres y cuatro horas de predicción. Mayor información sobre los niveles de conflaza de las otras técnicas mencionadas en esta tesis, están ubicados en los documentos fuente citados en la bibliografía.

Page 85: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Capítulo 8

CONCLUSIONES

Las características del SCG permiten realizar un aprendizaje basado en el descubrimiento de reglas de clasificacióu, presenta muchas ventajas respecto a otros sistemas de clasificación, las principales ventajas son:

o Este trabajo de tesis propone un modelo de implementación de un SCG a través de un programa de cómputo.

o Permite una representación más sencilla de las reglas descubiertas.

o Las reglas descubiertas pueden ser adaptadas cuando el dominio cam- bia al pasar el tiempo, en este caso el SCG no requiere de hacer nu+ vamente el descubrimiento de reglas lo cual es lento, sino que una vez descubiertas, los nuevos cambios en el dominio provocan sólo la coadaptación de las reglas ya descubiertas a las nuevas condiciones del dominio.

0 Presentan soluciones importantes para problemas de aprendizaje; los resultados presentados en este trabajo son buenos respecto a otras investigaciones similares de predicción a corto plazo de los niveles de ozono en la ciudad de México, sin embargo todos eiios tienen diferentes medidas de niveles de confiaza para precedir el Ozono.

0 La investigación realizada abre nuevos caminos para la investigación de nuevas tkcnicas para clasificación de información (P.e. la predicción de contaminación atmosférica).

A través de este trabajo se demuestra la efectividad de los SCG para resolver problemas de clasificación y predicción en dominios que cam- bian con el tiempo, con ello quedan probadas las hipótesis mencionadas en las sección 6.1 sobre el objetivo de este trabajo de tesis.

Page 86: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

73 Capítulo 8. Conclusiones

uno de los a considerar y que pudieran ser una desventaja en este trabajo y para otros del mismo tipo, es 10 referente a 10s rangos de discretización. En este trabajo los tamaños de las divisiones de 10s atributos obtenidos a través de MLC++ 1271 son considerablemente m P h Pero la herramienta asegura aplicar una heurística sobre los atributos pasa hacer una buena discretización; entre más grandes sean los rangos de discretización, el aprendizaje del sistcma es más rápido, la parsimonia de las reglas es mejor, pero la precisión de la respuesta del SCG disminuye generando con ello respuestas muy generales.

Basándose en los resultados presentados en este trabajo y considerando el desarrollo de éste, se proponen líneas de investigación con el propósito de profundizar en la implantación de aplicaciones de SCG, las cuales son:

o En un sistema de aprendizaje cuyo mecanismo requiere que los datos estén discretizados, no es fácil decidir cuál es la mejor discretización que podemos usar, para ello se tendría que realizar un estudio profundo y completo de técnicas de discretización, aplicarlas y medir la eficiencia de aprendizaje del sistema con cada técnica de discretización, más aún, ver si es posible hacer una propuesta de una técnica de discretización nueva.

Otra de las líneas de investigación sería incluir más muestras en la fase de entrenamiento para poder predecir para más de cuatro horas, inclusive hacer predicción para días.

Un área importantc dc estudio sería el diseno e implementación de un SCG basado en reglas de longitud variable, esto ayudaría a resolver algunos de los problemas de computablidad donde sólo se procesen los atributos que el mismo sistema considere importantes para el apren- dizaje.

Una investigación sería el diseño de un sistema clasificador que en- cuentre la discretización de atributos continuos mientras realiza el aprendizaje de las muestras, la predicción del ozono sería una bu+ na aplicación de este caso.

Esta tesis muestra y explica una solución a un problema enfocado a clasi- ficación para predecir los niveles de ozono en el valle de México. La tesis explica la metodología de los algoritmos genéticos (AG) y los sistemas clasi- ficadores genéticos (SCG) así como el modelo de solución para la predicción de ozono a corto plazo. Queda como antecedente para trabajos futuros.

Page 87: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Apéndice A

TABLAS DE DISCRETIZACIÓN DE DATOS DE RAMA

Las siguientes tablas muestran los resultados obtenidos de la utilería de discretización de MLC++ con el método 1RD. En las siguientes tablas A es algún atributo dado, d es el número de divisiones del dominio del i- ésirno atributo, limi - lim, son los límites superior e inferior del atributo y dilh, _l imJ es el tamaño de las divisiones de d.

Page 88: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

75 Apéndice A. Tablas de discretización de datos de RAMA

- - - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 21 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 -

d 1 5 7 6 6 6 6 5 6 6 6 5 7 7 5 6 6 7 6 6 6 7 6 6 5 4 5 5 5 5 5 5 6 6 6 6 6 6 6 5 6 6 6 6 6 6 6

- -

-

!irni - lim.

0-5 o 1 24 O u 391 o I 284 o u 221 O ++ 305 O ++ 229 o H 97

O H 115.5 O - 63 O - 70 o u 120 0-384 o - 393 o -292.5 0-341 O u 411 O u 1005 O - 857

O ++ 858.5 O - 969.5 O u 1107.5 o u 133.5 O u 228.5 o - 94 O ++ 107 O ++ 103 O ++ 135 O ++ 148 O ++ 156 o - 111 O u 125 O ++ 236 0- 190.5 O - 187 O ++ 368.5 O ++ 103 O u 119.5 o 1 102 O u 71

O - 138.5 O - 207 o - 190 O - 218.5 O - 247.5 o u 243.5 O - 250.5

*,I,." -I..""

0-5 &9.5,9.5-10.5,10.5-11.5,11.5-14414.5-24 0-45,45-133.5,133.5-166.5,166.5-269.5,269.5-317,5,317.5-346,3463~1 0-43.5,43.5-93.5,93.5-131,131-175,175-240.5,240.5-284

0-62.5,62.5-78.5,78.5-100.5,100.5-166.5,166.5-242.5,242.5-305 0-43.5,43.5-72.5,72.5-92,5,92.5-128,5,128.5-185.5,~85.5-~2~ 0-29.5,29.5-38.5,38.5-47.5,47.5-67.5,67.5-g7 0-26.5,26.5-37.5,37.5-48.5,48.561.5,61.5-89,89-115.5

0-18.5,18.5-25.5,25.5-36.5,36.5-43.5,43.5-51.5,51.5-70 0-27.5,27.5-34.5,34.5-44.5,44.5-92.5,92.5-120 0-120.5,120.5-155.5,155.5-181.5,181.5-200.5,200.5-228.5,228.5-263.5,263.5-384 0-128.5,128.5-162.5,162.5-1~6.5,1~6,5-208.5,208.5-225.5,225.5-264.5,264.~3~3 0-59,59-159.5,159.5-194.5,194.5-233.5,233.5-292.5

0-150.5,150.5-187.5,187.5-209.5,209.5-240.5,240.5-260 5,260.5-411 0-199,199-257.5,257.5-319,319-430.5,430.5-59~,5~9~06,8061005 0-258.5,258.5-304.5,304.5-352.5,352.5-469,46g-593.5,5g3.5-857 0-212,212-301,301-376.5,376.5-495.5,495.5-646.5,646.5-858.5 0-262.5,265.5-354,354-419,419-535.5,535.5-707,707-~69.5 0-242.5,242.5-310.5,310.~380.5,380.5-469.5,469.5-614.5,614.5-865,865-1107.5 0-38.5,38.5-47.5,47.5-57.5,57.5-69.5,69.5-g5,95-133.5 0-70.5.70.5-89.5,89.5-108.5.108.5-130.5-,130.5-158.158-228.5

0-12.5,12.5-52.5,52.~-88.5,88.~.157.5,157.5-208.5,208.5-221

0-i4.5,14.5-24.5,24.5-28.5,28.5-33.5,33.5-48.5,48.5-63

0-115.5,115.5-148.5,148.~181.5,181.5-197.5,197.5-225.5,225.5-341

O-31.5,31.5-45.5,45.5-51.5,51.5-71.5,71.5-103 0-36.5,36.5-51.5,51.5-59.5,59.5-98.5,98.5-135 0-41.5,41.5-48.5,48.5-66.5,66.5-106.5,106.5-148 0-35.5.35.5-60.5.60.5-76.5.76.5-120.5.120.5-156 0-38 5.38.5-46.5,46.5-60.5,60.5-7? 5.72 5-1 1 1 0-39 5.39.5-50.5.50.5-66.5.665-85.5,d5.5-I25 0.61 3.61 5-81) 5.8lI.5-102.~.102.O-12M 5.128.'r174.j.l74 5.23ti . O-GI .5,61.5-75 5-75 O-81.5,8~.5-104.5,10~.O-l~9,I~~~l~O 5 ll-46.5,46 >54.5.54.5-73.5.73.5-96.5,9fi 5-140.5.140 &IS¡ 0-45.5,45.665.5,65.5-89.5,89.5-152.5,152.5-323,323-368.5 0-20.5,20.5-30.5,30.5-40.5,40.5-53.5,53.5-82.5,82.5-103 0-26.5,26.5-37.5,37.5-44.5,44.5-55.5,55.5-93,93-llg.5 0-26.5.26.5-35.5.35.5-45.5.45.5-56.5.56.5-75.5.75.5-102 ,~~ ~ ~ ~, ~~ ~ ~

U-IO 5.19.5-27 5.27 i-3G.j,36.5-51 ;,;I 5-71 0-29 5.29.5-37 5.37.5-55.5.55.5-73 5.73.5-109.109-138.i 0-36.5.36.654.5.54.5-80.5.80.5-109.109-170.5.170.5-207 . ~~

ll.29.5,29.5-44.;,4.~ 5-55.5.55.5-&.1 5.84.5-l60.5.160 O- 190 0-41.5.41.5-57 5. i7 .5-7d 5.78 5-116 5.116 5-177.177-218 5 0.29 5.29.5-50 5.50 540.5,GS 5-92 5.'J2.6-218.21824i 5

0-51.5,51.5-79.5,79.5-105.5,105.5-140.5,140.5199,199-250.5

Tab. A.l: Información de discretización -Muestras para una hora-

Page 89: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

76 Apéndice A. Tablas de discretización de datos de RAMA

- - - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 -

d - - 1 3 5 4 5 5 5 5 4 4 5 4 5 5 4 5 6 5 5 5 4 5 3 4 5 4 5 5 5 4 5 4 5 5 4 5 5 5 5 4 6 5 5 5 4 5 5 -

!im. - lim.

0 - 5 O u 23

O ++ 451.5 O u 268 O ++ 260 O 1 315.5 O - 326 o - 90 o - 95 O - 56

O - 87.5 O ++ 80 o u 354

o ++ 355.5 0-296 O ++ 245.5 o u 447.5 O u 870 O - 833.5 O ++ 1021.5 o u 935.4 O ++ 1069.5 O ++ 131 O u 225 O ++ 104 o u 110 O u 136.5 O - 135 O u ln .5 o - 128 o u 111

O * 100.5 O - 232 O 1 216.5

O ++ 206 o ++ 221 o 1 1 2 2 O u 113.5 O - 105 0-71 O I 164 O ++ 187.5 O u 230 O ++ 260 o u112 O ++ 239.5 O ++ 230.5

O-9.5,9.5-13.5,13.5-23 0-103.103-154.5.154.5-286.5,286.5-348.5,348.5-451.5 ~.80.5,8li.5.130.5,130.~-I87.5,l8~ 5.268 íi-32.j,32 5.79.5,:9.5.l73.5,173.5-22: 5.227.5260 0-64 5.64.5-1113.5.103.5-158,1~8-251.251-3Lj.j 0-50.5.50.5-9.1 5,94.5.139,13%275 5,2:5.>326 U.2:.5,2;.5.3:, 5,35 5.45.5..16.5-62.5,G2.C,-90 0-31 5.31 544.44-63 5.63 .515

~~~ ~ , ~ ~~ ~

O-19.5,19.5-28.5,28.5-36.5,36.5-56 O-22.5.22.5-33.5.33.5-44.5,44.5-65,65-87.5 0-25.5:25.5-37.5.37.5-54.5.54.5-80 ~~

ul25.~.i25.5-i6G.5,i6ti.~?Ol.5.201 5-226.5,228 j.354 ~ - I ~ ' J , I ? ~ I ~ ~ . ~ . I F ~ . ~ - z ~ ~ 5.205 5-230.5.230 2-355.5 0-60 5,60 5-161,161-235.5,235 5-296 0-12j,12j.l5C.5,156.5-ld9 j , l 8Y 5-220.5-.2211 5-215.5 0.I5.5.lb9 $186 5,186.5.215.5.215 5-24: 5,247.b28d.288-44:.5 0-237.5.237.5-3 IU 5,311~ 5431.543 I .5-632.:,.632.;1-6:0 0.263.~.263.5.339.5.331.5431,431-57O,~70-333.: 0-2dO.j,28ü.5-378.5.3:9.5 5 12.5 12-74 1,741- 1021 5 O-302,302-4 13.4 I5-ü33.5.633.5-935.5

0-55.5,5j.5-75.5.75.5- 131 0-76 5.76 '+IO6 5.71lü.5-14&5,1~18 5-22> ~~29.j,2<J.j.38.5,38.r>-49.~,49.5.7.1.j.7~.5-10.1 U3d 5.38 5-52 5.52.5-71.5.71.5-110

0-261 5,261 b - w 5,361 -,531.~~.1-808,808106~.~

O-43.5,43.5-50.5,50.5-58.5,58.5-134,13~177.5 0-40.5,40.567.5,67.5-87.5,87.5-128 O-39.5,39.5-47.5,47.5-55.5,55.5-71.5,71.5-111 O-16,16-58.5,58.5-84.5,84.5-100.5 O-62.5,62.5-81.5,81.5-115.5,115.5-169.5,169.5232 O-65.5,65.5-80.5,80.5-104.5,104.5-151,151-216.5

0-28.5.28.5-36.5.36.5-49.5.49.5-85.85-113.5 . ~ ~~,~~ ~~~~

0-30.5;30.5-42.5;42.5-53.5,53.5-74,5,74.5-105 O-24.5,24.5-34.5,34.5-46.5,46.5-71 O-30.5,30.5-39.5,39.555.5,55.5-75.5.75.5-133.5,133.~164 O-33.5,33.5-60.5,60.5-90.5,90.5-154,154187.5 O-33.5,33.5-43.5,43.5-65.5,65.5-196.5,196.5-230 0-56.r>,56.5-78.5,78.5-124.5,124.5-203.5,2O3.~260 O-27.5,27.5-51.5,51.5-84.5,84.5-112 0-34,34-90.5,90.5-134.5,134.5205.5,205.5.239.5 0-6O.5,60.5-88.5,88.5-122.5,122.5-110,17230.5

Tab. A.2: Información de discretización -Muestras para dos horas

Page 90: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

77 Apéndice A. Tablas de discretiaaci6n de datos de RAMA

- i

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 48 46 47

- -

-

- d

1 3 5 4 5 5 5 4 4 4 4 4 5 4 4 4 4 4 4 5 5 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 4 4 4 4 4 4 4 5

- -

-

!im; - lim.

0-5 o ++ 22

O u 467.5 o ++ 258

o ++ 348.5 o 299.5 O ++ 386 O H 76 O H 88 O - 82 o u 85 o I 73 o ++ 383 o - 352 O - 300 O ++ 330 O -445 O ++ 926.5 o ++ 795

O x 1129.5 O x 1058.5

o x 891 O ++ 124 o ++ 242.5

o I 80 O - 118.5 O ++ 123 O x 158 O ++ 134.5 O ++ 136 O I 116 O H 123 o H 209 O ++ 198.5 o 1 190 O - 187 O ++ 125.5 O I 138.5 O H 108 O u 70 o ++ 119 O u 203 O ++ 154.5 O ++ 204 O u 133 o - 252 O u 266.5

0-9.5,~.5-12.5,12.5-22 0-121.5.121.5.166.5,166.5.286.5.286.5-346,346-467.5 0.75 5,:s 5-118 5.118.Fld2.5.182 5258

0-GG.5.66.5-84 5.84.5-137 6,137.j-233,233-209.5 0.74.j,74 j.96.5.96 5-140.5,140 3-311.5.311 XIS6 0.26 5,2G 2-35.5.35 5-19.5,49.5-76 0-29.5,29.5-39.5,J0.5-58.5,5X 5-88 0-17 5,17.5-30.5,30.5.61 X . 1 5-82 0-26.5.26 5-41.5.11.5-58 5.58.5-85 0-27 5.27.5-31 5.34.5-4L5.45.5-73

0-32.32-8~.~,8'~.~-1;5.5.175 5316.5,316.5-3485

0-132 5,132.5 I %;,i 73 i~ui.5,~07.~-~2u 5,250.5-3bJ 0-133.5.133.5-183 2.183 5-218 5.218.5-352

0-268;268-360,360-527,527-i95 0-293.5.293.5-428.5.42X.5.519.5.519.5-836.836-1129.5 0-313.31.1-408.5,408.5-j255,525 5-74: 5,742 2-1058.5 0-261 3,261 b438,438-629 5.629.5.891 (1.47 j,47.j.62.62-79.',,7<.~.1~1 0-74 5,74 5.1 12.5.1 12.5168.168.242.5

0-39 Q9.5-51 5,51 5-79,7<-118.5 0.39 5.39 j-jl.5.51 5-83 L8.3 5.123 0-54.5.54.5-71.5,7l.5-1035,lU3..5-I 58 0-14.5,44.5-jG 5.56.'r90,9¡I-134.6

11-~0.s.30.~-37 5,s: 5-49 5.49 5-81)

0-38.~--0.70-98.~8- I 36 0-45.5,45.5.53.5.53.5-70 5,70 5.116 U-37.5J7.5-61 .;,GI %d5.r>,85.5.123

0-G8.5.G8.5-88.5.88.5-121,1?1-lX9.5

0-56.5.56.G-79.G.iQ.5- 130.:. 130.5- I87 0-34.5,34.5-52.5.52.6-91.91-125.5

0-64 5.64.5-911 5.90 j l l 4 .5 ,1?4 .b20<

0-51 .5,51.5-78.78- I 38 ~ , I s ~ . s IYU

0-32 5,32 5-43.5.43.5-58.í.jd.j- 106,106133 2 u-30 2,3n.fi.4i.5,11.5-54.5.5.1 5-77.5.77.5- 108 0-22.s.22.5-r~ 5 3 5-47.5.47.5.70 0-36.5.3~.554 5.5.1 5-82.5.82.5.119 O-58.5,58.5-91.5,91.5-144.5,144.5-203 O-36.5,36.5-62.5,62.5-118,118-154.5

O-34.5,34.5-67.5.67.5-98.5,98,5-133 0-58.5,58.5-88.5,88.5-145.5,145.5-2~

0-59.5,59.5-114.5,114.5.192.5,192,5.252 0-76.5,76.5-111.5,111.5.147.5,147.5.190,190-266.5

Tab. A.3: Información de discretización -Muestras para tres horas-

Page 91: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Apéndice A. Tablas de discretizaci6n de datos de RAMA

- i

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

- -

17 18

19 2n 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 4n 41 42 43 44 45 46 47 -

d - - 1 2 4 3 4 4 4 3 4 4 4 3 4 3 3 3 4 3 4 3 3 4 3 3 3 3 3 4 4 3 3 4 4 4 3 3 4 3 4 3 4 4 4 4 4 4 3 -

!irni - lim.

0-5 o u 19

O - 470.5 O u 257 O ++ 275 O - 410 O ++ 231.5

O u 67 o u 78 O u 60 O - 72 0 - 6 1 O ++ 234 O u 326 O u 238.5 O w 304 00407 O - 865.5 O ++ 1131.5 o u 975.5 o u 1 0 0 1 O - 1109.5 o - 139 O - 225 0-88 o u 111 O - 135.5 o - 364.5 O w 143.5 O u 104 o u 118 o u 198 O - 281.5 O w 260.5 O - 155.5 O u 228.5 O u 114 O u 106 O - 153 0 - 8 4

O - 229.5 O u 284 O - 216 O I 217 O w 187.5 0-345 O u 287

78

d i M , " - l h s

0-9.5,9.5-19 0-5

0-129,129-243,243-341.5,341.5-470.5 O-94.5,94.5-162.5,162.6257 0-45.5,45.6127,127-229.5,229.6275 0-71.5,71.5-115.5,115.5-328.5,328.5-410 0-62.5.62.5-100.5.1M.5-169,169-231.5 O-24.5,24.5-42.5,42.5-67 0-26.5.26.5-35.5.35.5-51.5,51.5-78 0.2i.5,21.5-26.5,26.5-3n.5,38.5-60 O-23.5,23.5-34.5,34.5-48.5,48.5-72 0-25.5,25.5-35.5,35.5-61 O-126,126172.5,172.5-208.5,208.5-234 0-133.5J33.5-192.5,192.5-326 O-64.5,64.5-174,174-238.5

O-170.5,170.6203.5,203.5-236.5,236.5-407 O-335.5,335.6530,530--865.5

0-126.5,126.5-177.5,177.5-304

0-339,339-478,478-792.5,792.61131.5 0-371,371-547.5,547.5-975.5 0-411.5,411.5-589.5,589.5-1001 O-345,346507.5,507.5-764.5,764.5-1109.5 O-52.5,52.5-86.5,86.5-139 0-88.5.88.5-136.5.136.6225 0-35.5;35.5-52.5,52.5-sn 0-45.5,45.5-65.5,65.5-111 0-49.5.49.5-86.86-135.5

0-28.5,28.5-75.5,75.5-104

0-45.5,45.5-73.5,73.5-152.5,152.5-198 0-63.5.63.5-95.5.95.5-218.218281.5

0-49.5,49.5-68.5,68.5-iis

0-68.5;68.5-85.5;85.5-192;192-260.5 0-48.5,48.5-107,107-155.5 0-74.5,74.5-154,154-228.5 O-35.5,35.5-49.5,49.5-78.5,78.5-114 0-41.5,41.664.5,64.5-106 0-40.5,40.5-58.5,58.5-112.5,112.5-153 O-29.5,29.5-54.5,54.5-84 0-48.5,48.5-68.5,68.5-181,181-229.5 0-64.5,64.5-117.5,117.5-219.5,219.5-284 O-44.5,44.5-75.5,75.5-171.5,171.6216 0-70470.5-104.5,104.6146.5,146.5-217 0-52.5m52.5-80.5.80.5-135,135-~87.5 0-58.5,58.5-136.5,136.5-286.5,286.5-345 O-113.5,113.6173.5,173.5-287

Tab. A.4: Información de discretización -Muestras para cuatro horas-

Page 92: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Apéndice B

TABLAS DE LAS REGLAS GENERADAS POR EL SCG

Las siguientes tablas muestran las reglas optimizadas y obtenidas del SCG. En eilas se puede apreciar la generalidad y la especificidad de los clasifi- cadores, además se muestra en tablas la interpretación de dichas reglas de clasificación.

Page 93: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Apéndice B. Tablas de las reglas generadas por el SCG

- No.

- - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 35 37 38 39 40 41 42 43 44 45 46 47 48 49 50 -

Tab. B.

Reglas . . . . . . . . . 1.........2.........3.........4.......4 12345678901234567890123~5678901234567890123456:7 ===r=r==------= a~1aaaa~aaaaaa~aaa~aaaaaaaaaalaanaaaalaaaaaaaa;3

: Información de reglas obtenidas para una hora

Page 94: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Apéndice B. Tablas de las reglas generadas por el SCG

- N O .

- - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 25 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 -

~

Reglas

81

Tab. B.2: Informaci6n de reglas obtenidas para dos horas

Page 95: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

82 Apéndice B. ‘hblas de las reglas generadas por el SCG

-

No.

- - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 -

Reglas ......... 1.........2.........3.........4.......4

Tab. B.3 Información de reglas obtenidas para tres horas

Page 96: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Apéndice B. Tablas de las reglas generadas por el SCG

- No. - - 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 -

Reglas ......... 1.........2.........3.........4.......4

Tab. B.4: Información de reglas obtenidas para cuatro horas

Page 97: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

BIBLIOGRAFíA

[I] Simon Herbert A. Why should machins learn? In Morgan Kaufmann Pub., editor, Machine Learning: An Artificial Intelligence Approach. Carnegie-Mellon University, 1983.

[2] Ríos Flores A h a . Sistema basado en algoritmos genéticos para encon- trar reglas de clasificaci6n. Maestría en ciencias computacionales, insti- tuto Tecnológico y de Estudios Superiores de Monterrey. Cuernavaca, Morelos, Diciembre 1995.

[3] Mayora Ibarra Oscar Arturo. Redes neuronales holográficas. Maestría en ciencias computacionales, Instituto Tecnol6gico y de Estudios Supe- riores de Monterrey. Cuernavaca, Morelos, Diciembre 1994.

[4] Ruiz Suárez. J. C. Datos de RAMA obtenidos a través de la SEMARNAP y seleccionados por el autor. Departamen- to de Física Aplicada, CINVESTAV-IPN, Unidad Mérida, A. P. 73 Cordemex, C. P. 97310 Mérida, Yucatán, México. e-mail: cruiz~kin.cieamer.conacyt.mx.Informaci6n adicional sobre RAMA se ubica en www.semarnap.gob.mx, 1996.

[5] Ruiz-Suárez J. C., Mayora-Ibarra O. A., Torres-Jiménez J., and Ruiz- Suárez L.G. Short-term ozone forecasting by artificial neural networks. Advances in Engineering Software, 3(00076):143-149, 1995.

[6] Ruiz-Suárez J. C., Mayora O. A., Smith-Pérez R., and Ruiz-Suárez L. G. A neural network-based prediction model of ozone for méxico city. Azr Pollution '94, September 1994. Barcelona, España.

[7] Escazut Cathy and Collard Philippe. Dual classifier systems. Technical report, University of Nice-Sophia Antipolis, Laboratoire I3S, Valbonne, fiance, escazut~mimosa.unice.fr, 1997.

(81 Escazut Cathy, Collard Philippe, and Cavarero Jean-Louis. Dynamic management of the specificity in classifier systems. Technical report,

Page 98: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Bibliografía 85

University of NiceSophia Antipolis, Laboratoire I3S, Valbonne, fiance, escazutOmimosa.unice.fr, 1997.

Origin 2000, 8 procesadores. Equipo de Cómputo 1997, Universidad Nacional Autónoma de Mbx- ico, México, D.F., [email protected].

[io] Karsten M. Decker and Focardi Sergio. Technology overview: A report on data mining. Technical Report CSCS TR-95-02, Swiss Scientific Computing Center, May 1995.

[ll] Bauer Richard J. Dr. Genetic Algorithms and Inuerstment Strategies. John Wiley & Sons. Inc., 1994.

1121 Golberg David E. What make a problem hard for a classifier system? IlliGAL Report 92007, Illinois Genetic Algorithms Laboratory, Univer- sity of Illinois, Urbana-Champaign, May 1992.

191 Dirección General de Supercómputo.

[I31 Goldherg David E. Genetic Algorithms in Search, Optimization & Ma- chine Learning. Addison Wesley Publishing Company, Inc., Univerity of Alabama, 1989.

1141 Carbonell Jaime G. An overview of machine learning. In Morgan Kauf- mann Pub., editor, Machine Learning: An Artificial Intelligence Ap- proach, 1983.

[15] Holland John H. Escaping brittleness: The possibilities of general- purpose learning algorithms applied to parallel rule-bases systems. In Morgan Kaufmann Pub., editor, Machine Learning: A n Artzficial In- telligence Approach, Vol. 2, 1989.

[is] Holland John H. Adaptation in Natural and Artificial Systems. The MIT Press, Massachusetts Institute of Technology, Cambridge, Mas- sachusetts, 1992.

[17] Holland John H., Holyoak Keith J., Nisbett Richard E., and Tha- gard Paul R. Induction, Processes of Inference, Learning, and Diswu- e% chapter 4. The MIT Press, Massachusetts Institute of Technology, Cambridge, Massachusetts, 1993.

[is] Bratko Ivan. Prolog, Programming for Artificial Intelligence. Addison Wesley, 1990.

I191 Dougberty James, Kohavi Ron, and Sahami Mehran. Supervised and unsupervised discretization of continuous features. In Morgan Kauf-

Page 99: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Bibliografía 86

mann, editor, Machine Learning: Proceedings of the Twelfth Interna- tional Confewnce, pages 194-202. In Priedits, A,, and Russell, s., eds., 1995.

Aprendizaje estructural en redes bayesianas. Maestría en ciencias computacionales, Instituto Tecnológico y de ES- tudios Superiores de Monterrey. Cuernavaca, Morelos, Abril 1995.

I201 Pérez Brito Joaqufn.

(211 Torres Jiménez José. Reporte del estado del arte sobre algoritmos genéticos. Technical report, ITESM, Campus Morelos, Cuernavaca, Mor., 1995.

1221 Tom M. Mitchell. Generalization as search. Artificial Intelligence, Num- ber 18, 1982.

[23] Clark Peter and Niblett Tim. The cn2 induction algorithm. In Machine Learning 3, pages 262-266. Kluwer Academic Publishers, 1989.

[24] Collard Philippe and Escazut Cathy. A polymorphic genetic algorithm for classifier systems. Technical report, University of Nice-Sophia An- tipolis, Laboratoire I3S, Valbonne, Rance, [email protected], 1997.

1251 Quinlan J. R. C4.5; Programs for Machine Learning. Morgan Kauf- mann, Los Altos, Ca., 1993.

1261 Smith Pérez Raúl. Redes neuronales, una aplicación para la predicción de ozono. Maestría en ciencias computacionales, Instituto Tecnológico y de Estudios Superiores de Monterrey. Cuernavaca, Morelos, Mayo 1994.

(271 Kohavi Ron, John George, Long Richard, Maniey David, and Pfleger Karl. M L C f f : A machine learning library in Cff . In Tools with Artificial Intelligence, pages 740-743. IEEE Compuk er Society Press, 1994. Available by anonymous ftp from: star- ry.Stanford.EDUpub/ronnyk/mlc/toolsmic.ps.

[28] Quinlan J. ROSS. Learning efficient classification procedures and their application to chess end games. In Morgan Kaufmann Pub., editor, Machzne Learning: An Artificial Intelligence Approach, 1983.

[29] Michalski R. S. Learning &om observation: Conceptual clustering. In Morgan Kaufmann Pub., editor, Machine Learning; An Artificial In- telligence Approach, 1983.

Page 100: Tecnológico Nacional de México campus CENIDET - CENTRO … · 2020. 7. 7. · SISTEMA NACIONAL DE '~NSTITUTOS TECNOLÓGICOS Centro Nacional de Investigación iv Desarrollo Tecnolóqico

Bibliografía 87

1301 William M. Spears. Using genetic algorithms for supervised concept learning. In Proceedings of Tools for AI, pages 335-341. IEEE Computer Society Press, 1990.

chapter 5. Chapman & Hall, 1 edition. [31] Thornton C. U. Techiques in Computational Leaning, An introduction,

[32] P. H. Winston. Artificial Intelligence. Addison Wesley, 1970.

[33] González Sustaeta Jorge y Morales M. Eduardo. Notas Sobre Des- cubrimiento de Informacidn y Minería de Datos. Curso de Bases de Datos Inteligentes, Instituto Tecnol6gico de Estudios Superiores de Monterrey Campus Morelos, 1996.

SEP CEWIDET DGlT CENTPIO DE INFORMACEON

9 9 - 0 4 2 0