23
Data mining Con el marketing de precisión se almacenan, depuran y anali- zan los contenidos de las bases de datos de manera sistemáti- ca para, seguidamente, explotarlos como un verdadero filón; en analogía a la explotación minera, en la que se intenta sacar partido a cada metro cúbico de tierra removida, tal y como ocurre ahora con la información. Este tema está dedicado al estudio del data mining (minería de datos). Veremos qué es, cuándo y cómo se utiliza, y cuáles son las técnicas más utilizadas. ................. Data Mining Curso: Telemarketing

Curso Telemarketing Clase 4

Embed Size (px)

Citation preview

Page 1: Curso Telemarketing Clase 4

79

Tema 4: Data mining

Con el marketing de precisión se almacenan, depuran y anali-zan los contenidos de las bases de datos de manera sistemáti-ca para, seguidamente, explotarlos como un verdadero filón; en analogía a la explotación minera, en la que se intenta sacar partido a cada metro cúbico de tierra removida, tal y como ocurre ahora con la información. Este tema está dedicado al estudio del data mining (minería de datos). Veremos qué es, cuándo y cómo se utiliza, y cuáles son las técnicas más utilizadas.

......

......

.....

Data Mining

Curso: Te lemarket ing

Page 2: Curso Telemarketing Clase 4

Tema 4: Data mining 80

4.1 Fundamentos del data mining Algunos sistemas producen una cantidad inmensa de datos que, con frecuencia, contie-ne una información muy valiosa y puede ser vista como filones de oro por los ejecutivos de una organización. En este apartado vamos a estudiar qué es el data mining, cómo tra-baja, qué beneficios aporta a la empresa y cuáles son sus principales aplicaciones. El data mining es una automatización de la búsqueda de patrones relevantes en una base de datos. Por ejemplo, un patrón podría ser que los hombres casados sin hijos conducen coches deportivos en el doble de ocasiones que los casados con hijos. En este caso, esta información puede ser muy valiosa para un director de marketing de una empresa de automoción. La operación de minería siempre había sido realizada por estadísticos a mano, buscan-do patrones estadísticamente significativos. Ahora se utilizan técnicas de inteligencia artificial para construir modelos y predecir el comportamiento del cliente. El proceso de minería se integra con el sistema para el almacenamiento de cantidades masivas de datos (data warehouse) de la empresa y presenta la información dirigida a usuarios con capacidad de decisión en el negocio. Para que la minería de datos pueda obtener información útil de las bases de datos de la empresa, es necesario que éstas dispongan de datos de calidad (completos, estructurados, relevantes, históricos, actua-lizados, etcétera).

El data mining ayuda a los profesionales del marketing a entender mejor los patrones de los clientes. Les per-mite definir con preci-sión el target a quien dirigir las campañas de marketing, permi-tiendo orientar las campañas hacia las necesidades, deseos y actitudes de los clientes.

Imagen 4-1

El data mining ayuda a los profesionales del marketing a entender mejor los patrones de los clientes.

Page 3: Curso Telemarketing Clase 4

81

Tema 4: Data mining

Ejemplos de preguntas que podría responder un proceso de data mining son: • ¿Qué consumidores es más probable que anulen su contrato de telefonía móvil? • ¿Cuál es la probabilidad que un cliente compre por lo menos 60 € del último catá-

logo de venta por correo? Las respuestas obteni-das ayudan a fidelizar clientes, incrementar los impactos de las campañas, incremen-tar las ventas, generar ventas cruzadas y me-jorar el retorno de in-versión (ROI). La tecnología data mi-ning aporta dos bene-ficios clave en los ne-gocios: • Modelos descriptivos. En un contexto de objetivos definidos en los negocios,

permite a las empresas explorar automáticamente, visualizar y comprender los da-tos e identificar patrones, relaciones y dependencias que impactan en los resulta-dos finales de la cuenta de resultados (aumento de ingresos, incremento de bene-ficios, etcétera).

• Modelos predictivos. Permite que relaciones no descubiertas e identificadas a través del data mining se expresen como reglas de negocio.

Esos resultados pueden comunicarse en formatos tradicionales, tales como informes, presentaciones... para guiar la estrategia y planificación de la empresa. A modo de ejemplo, vamos a mencionar algunas de las áreas donde el data mining se ha implanta-do con éxito. • Identificar patrones de compra de los clientes: determinar cómo compran, a partir

de sus principales características, conocer el grado de interés sobre tipos de pro-ductos, si compran determinados productos en determinados momentos...

• Segmentación de clientes: consiste en la agrupación de los clientes con caracterís-ticas similares, por ejemplo demográficas. Es una importante herramienta en la es-trategia de marketing que permite realizar ofertas acordes a diferentes tipos de comportamiento de los consumidores.

• Predecir respuestas a campañas de mailing: estas campañas son caras y pueden

Imagen 4-2

Las respuestas obtenidas en un proceso de data mining ayudan, entre otros aspectos, a fidelizar clientes.

Page 4: Curso Telemarketing Clase 4

Tema 4: Data mining 82

llegar a ser molestas para los clientes a los que no les interesa el tipo de producto promocionado, por lo que es importante limitarlas a los individuos con una alta probabilidad de interesarse por el producto. Está, por ello, muy relacionada con la segmentación de clientes.

• Análisis de cestas de la compra: consiste en descubrir relaciones entre productos, esto es, determinar qué productos suelen comprarse junto con otros, con el fin de distribuirlos adecuadamente.

Para aplicar mejor las técnicas de data mining, éstas deben estar totalmente integradas con el data warehouse y con herramientas flexibles e interactivas para el análisis de ne-gocios. El data warehouse se basa en un proceso llamado OLAP (On Line Analitical Process), orientado al análisis de los datos de negocio. Las herramientas de consulta OLAP permiten exprimir los datos de negocio almacenados en el data Wwarehouse y ayudan a tomar decisiones, ya que las consultas se realizan de una forma gráfica y rá-pida. Es decir, la pieza final del data warehouse es una herramienta de análisis de da-tos que permite acceder, combinar, filtrar… los datos.

Habitualmente se dispone de dos posibilidades: OLAP y data mining. El mercado actual está lleno de productos que se venden como uno, otro o ambos. Veamos las diferen-cias más relevantes entre OLAP y data mining. Podríamos comparar las herramientas OLAP con los “caballos de trabajo”, ya que ofre-cen una amplia posibilidad de funcionalidades alrededor de la generación de informes y consultas con una capacidad multidimensional. Por ejemplo, supongamos que quere-

Imagen 4-3

Para aplicar mejor las técnicas de data mining, éstas deben estar totalmente integradas con el data warehouse y con herramientas flexibles e interactivas para el análisis de negocios.

Page 5: Curso Telemarketing Clase 4

83

Tema 4: Data mining

mos conocer el resultado de la consulta: “Cuántos productos he vendido, ordenados por tipo”. Esta es una consulta muy sencilla, pero un OLAP permitirá analizar esa infor-mación desde distintas dimensiones: podremos escoger de qué regiones estamos hablando, o de qué período de tiempo, etcétera. Desde la interfaz visual de la aplica-ción OLAP podrán manejarse todas esas dimensiones y obtener las distintas informa-ciones deseadas al instante, presentadas de una forma gráfica. Continuando con la misma similitud anterior, podríamos decir que data mining es como un “caballo de carreras”. Puede proporcionarnos información que ni siquiera sabíamos que existía, que no buscábamos. Una vez recogidos los datos, data mining permite descubrir, por ejemplo, tendencias y patrones de los hábitos de los clientes. Las herramientas de data mining disponen de poderosas capacidades de análisis esta-dístico que nos permitirán conocer aspectos en los cuales ni habíamos pensado. Para terminar diremos que no se trata de elegir entre OLAP y data mining, ya que en muchos casos serán necesarias ambas herramientas. Pero aquellas empresas que im-plementen una estrategia CRM, deben tener en cuenta que van a tener una gran canti-dad de datos sobre sus clientes y que es imprescindible sacar el máximo provecho de esos datos para convertirlos en información de valor para el negocio.

Ejercicio

Page 6: Curso Telemarketing Clase 4

Tema 4: Data mining 84

Cuando se almacenan grandes cantidades de información y se quiere agregar valor, hay que automatizar el proceso y descubrir información valiosa que, de otra forma, será subutilizada o desperdiciada. El data mining es la aplicación de técnicas de inteligencia artificial a grandes cantidades de datos para descubrir relaciones, tendencias y trayec-torias ocultas, con el objetivo de convertir esos datos en planes de negocio, como redi-reccionar los esfuerzos de mercadeo, por ejemplo. La práctica del mercadeo con una base de datos y data mining requiere una alta inversión económica, que siempre podrá reducirse mediante outsourcing (a través de una compañía externa). Además, requiere la integración de tres componentes fundamentales: • La información almacenada. • Técnicas estadísticas o instrumentos que utilicen modelos predictivos. • Equipos sofisticados de presentación. Una aplicación, por ejemplo, consistiría en implementar un proceso que genere una segmentación de los clientes. Una vez que el motor del excavador de datos (data mi-ning) selecciona un grupo adecuado de segmentos de clientes de su bodega de datos (data warehouse), el próximo paso será extrapolar los perfiles de los consumidores. Cada vez que llegan nuevos clientes, se aplica un nuevo conjunto de modelos estadís-ticos y se ejecuta el programa para comparar con los segmentos existentes o crear otros nuevos, si fuera necesario. Este método tiene muchas aplicaciones, entre ellas:

4.2 Mercadeo y data mining

Imagen 4-4

Una vez que el motor del excavador de datos (data mining) selecciona un grupo adecuado de segmentos de clientes de su bodega de datos (data warehouse), el próximo paso

será extrapolar los perfiles de los consumidores.

Page 7: Curso Telemarketing Clase 4

85

Tema 4: Data mining

• Segmentación del mercado. • Tendencias de deserción de clientes. • Descubrimiento de transacciones fraudulentas. • Mercadeo directo. • Mercadeo interactivo. • Análisis de tendencias. • Perfiles de clientes. El mercadeo mediante data mining convierte una plataforma tecnológica en un sistema de información sobre el que se construyen soluciones de negocios. Se necesitarán equipos de cómputo, sistemas operativos y la infraestructura necesaria para apoyar el proyecto de extracción de datos. Posteriormente, serán necesarias las técnicas de inte-ligencia artificial y de análisis estadístico que permitirán extraer la información. El data mining integra los procesos modernos de ventas, por lo que pueden aplicarse diver-sas técnicas, como por ejemplo el networking y el cross-selling. • El networking

(venta piramidal) es una técnica de ventas que se ex-tiende en forma de pirámide. Un cliente capta nue-vos clientes y asesora a los que ya lo son, registra sus pedidos y liquida los encar-gos con la casa matriz. Éstos, a su vez, hacen lo propio captando nuevos clientes, y así sucesivamente.

• El cross-selling (venta cruzada) consiste en ofertas y ventas efectuadas a clien-tes que han comprado otros productos de una compañía, pero que por su perfil son potenciales consumidores de otros productos o servicios de la misma. Por ejemplo, una persona que compra un automóvil necesita un seguro, el manteni-miento del vehículo, artículos para su cuidado o reparación, etcétera.

Actualmente, es importante conseguir una relación de confianza con el cliente y, por ello, el cross-selling es una práctica muy extendida y en continua expansión, ya que ex-

Imagen 4-5

El data mining integra los procesos modernos de ventas, por lo que pueden aplicarse diversas técnicas.

Page 8: Curso Telemarketing Clase 4

Tema 4: Data mining 86

plota de manera muy positiva esta relación. Las empresas utilizan el cross-selling por-que resulta más fácil y beneficioso ofrecer un nuevo producto o servicio a un cliente ac-tual que encontrar un cliente nuevo. Los clientes, por su parte, suelen ver bien los nue-vos productos o servicios que se les ofrecen, siempre que sean de calidad. Para que el cross-selling sea efectivo, las empresas deben tener en cuenta los siguientes factores: • Deben conseguir que el cliente considere a la empresa como una consejera. Con

ello, la empresa está en ventaja sobre los competidores a la hora de vender pro-ductos diversificados.

• La empresa debe ofrecer toda clase de comodidades a sus clientes en cuanto a horarios, competencia de los empleados, etcétera.

• La empresa debe ofrecer una amplia gama de productos cruzados para asegurar la competitividad en su venta.

• El servicio recibido por el cliente respecto al nuevo producto debe ser satisfacto-rio; en caso contrario, el cliente borrará a la empresa de su lista de proveedores y puede borrarla también de la lista de proveedores del producto o servicio inicial.

Para una empresa, utilizar el cross-selling puede mejorar su imagen y aumentar los be-neficios por cliente. Un requisito imprescindible para conseguirlo es que los productos o servicios gocen de calidad suficiente para satisfacer a los clientes. Un nuevo producto de baja calidad puede perjudicar seriamente a la organización.

El data mining también se aplica en la estrategia CRM, ya que permite evaluar y des-arrollar un conjunto de reglas de negocio sobre todos los aspectos de las interacciones

Imagen 4-6

Para una empresa, utilizar el cross-selling puede mejorar su imagen y aumentar los beneficios por cliente.

Page 9: Curso Telemarketing Clase 4

87

Tema 4: Data mining

con los clientes. Basándose en esas reglas, las campañas de marketing de una empre-sa pueden tener como objetivo generar un nivel deseado de respuesta, ingresos o be-neficios. En el ámbito de CRM, también se puede aplicar data mining para: • Crear modelos de clientes potenciales: para objetivos de marketing y otras iniciati-

vas CRM. • Analizar la pérdida de clientes: para atención al cliente y reclamaciones. • Monitorizar los riesgos de pérdida: para análisis de clientes y aprobación de crédi-

tos. • Investigación del fraude: para reducir pérdidas.

Al utilizar técnicas de minería de datos en un proyecto, el proceso que se lleva a cabo es una "extracción de información implícita, previamente desconocida a partir de los datos", con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso ex-cepciones útiles que sirvan como ayuda en la toma de decisiones. Para ejecutar un proceso de data mining, existe una extensa gama de técnicas, como son: Análisis estadístico, árboles de decisión, algoritmos genéticos, redes neuronales,

Ejercicio

4.3 Técnicas y proceso de data mining

Page 10: Curso Telemarketing Clase 4

Tema 4: Data mining 88

lógica difusa, series temporales, técnicas de visualización, redes bayesianas y reglas de inducción. Vamos a ver en qué consiste cada una de estas técnicas. El análisis estadístico utiliza herramientas propias de la estadística como, por ejemplo: • Análisis de la varianza. • Regresión. • Ji cuadrado. • Componentes. • Análisis cluster. • Análisis discriminante.

Otra técnica de data mining consiste en aplicar métodos basados en árboles de deci-sión, como el método CHAID (Chi Squared Automatic Interaction Detector). Se trata de estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisio-nes generan reglas para la clasificación de un conjunto de datos. Para poder predecir el comportamiento de un cliente es necesario poder contar con una clasificación previa. Esto implica una predicción de que un cliente pertenece a cierto grupo de clientes. Data mining también utiliza algoritmos genéticos para extraer información. Se trata de métodos numéricos de optimización, en los que aquella variable o variables que se pre-tenden optimizar junto con las variables de estudio constituyen un segmento de infor-

Imagen 4-7

Page 11: Curso Telemarketing Clase 4

89

Tema 4: Data mining

mación. Aquellas con-figuraciones de las va-riables de análisis que obtengan mejores va-lores para la variable de respuesta corres-ponderán a segmentos con mayor capacidad reproductiva. A través de la reproducción, los mejores segmentos perduran y su propor-ción crece de genera-ción en generación. Además, se pueden in-troducir elementos aleatorios para la modificación de las variables (mutaciones). Al ca-bo de cierto número de iteraciones, la población estará constituida por buenas solucio-nes al problema de optimización. Otra técnica de data mining son las redes neuronales. Consisten en métodos de proce-so numérico en paralelo, en el que las variables interactúan mediante transformaciones lineales o no lineales, hasta obtener unos resultados. Estos resultados se contrastan con los que deberían haberse obtenido, basándose en unos datos de prueba, dando lu-gar a un proceso de retroalimentación mediante el cual la red se reconfigura hasta ob-tener un modelo adecuado. La lógica difusa también es utilizada por data mining para extraer información. Se trata de una generalización del concepto de estadística. La estadística clásica se basa en la teoría de probabilidades, y ésta, a su vez, en la técnica conjuntista, en la que la relación de pertenencia a un conjunto es dicotómica (por ejemplo: el dos es par o no lo es). Si definimos un conjunto borroso como aquel en el que la pertenencia tiene una cierta gra-duación, dispondremos de una estadística más amplia y con resultados más cercanos al modo de razonamiento humano. Data mining también utiliza series temporales. Consiste en el conocimiento de una va-riable a través del tiempo para, a partir de ese conocimiento, y suponiendo que no van a producirse cambios estructurales, poder realizar predicciones. Suelen basarse en un estudio de la serie en ciclos, tendencias y estacionalidades, que se diferencian por el ámbito de tiempo abarcado, para obtener la serie original por composición. Estas series temporales pueden combinarse con los métodos anteriores. Así, la serie podrá explicar-

Imagen 4-8

Para poder predecir el comportamiento de un cliente es necesario poder contar con una clasificación previa.

Page 12: Curso Telemarketing Clase 4

Tema 4: Data mining 90

se no sólo en función del tiempo, sino como combinación de otras variables de entorno más estables y, por lo tanto, más fácilmente predecibles. Las técnicas de visualización que utiliza data mining para extraer datos son adecuadas para ubicar patrones en un conjunto de datos. Este método puede ser utilizado al co-mienzo del proceso de data mining para tener una referencia de la calidad del conjunto de datos. Data mining puede utilizar redes bayesianas, que buscan predeterminar relaciones cau-sales que expliquen un fenómeno en base a los datos contenidos en una base de da-tos. Se utilizan principalmente para realizar predicciones.

Finalmente, las reglas de inducción son una técnica de data mining que consiste en la ex-tracción de reglas if-then (si… entonces…) de datos basados en significado estadísti-co. La técnica para realizar todas estas operaciones en data mining se denomina “modelado” y es, sim-plemente, el acto de construir un modelo en una situación don-

de se conoce la respuesta, y luego aplicarla en otra situación de la cual se desconoce la respuesta. La construcción de un modelo es algo que la gente ha estado haciendo desde antes del auge de los ordenadores y de la tecnología de data mining. El proceso que siguen los ordenadores no es muy diferente de la forma en que la gente construye modelos. Los ordenadores se cargan con mucha información acerca de una variedad de situaciones donde una respuesta es conocida. Luego, el software de data mining debe ejecutarse a través de los datos y distinguir las características de los datos que permitirán construir el modelo. Una vez construido, el modelo puede ser utilizado en situaciones similares donde no se conoce la respuesta.

Imagen 4-9

Las técnicas de visualización que utiliza data mining para extraer datos son adecuadas para ubicar patrones en un conjunto de datos.

Page 13: Curso Telemarketing Clase 4

91

Tema 4: Data mining

Para utilizar todas las técnicas mencionadas de forma eficiente, es necesario aplicar una metodología estructurada al proceso de data mining. Dicha metodología dependerá del negocio particular al que se aplique, pero las fases que suele integrar son cuatro:

1. Filtrado de datos. 2. Selección de variables. 3. Extracción de conocimiento. 4. Interpretación y evaluación.

Vamos a ver en qué consiste cada una de estas fases. El formato de los datos conteni-dos en la fuente de datos (base de datos, data warehouse…) nunca es el idóneo, y la mayoría de veces ni siquiera puede utilizarse algún algoritmo de minería sobre los da-tos “brutos”. Durante la fase de filtrado de datos se llevan a cabo las siguientes opera-ciones: • Se filtran los datos: para eliminar valores incorrectos, no válidos, desconocidos,

etcétera, según las necesidades y el algoritmo o técnica a utilizar. • Se obtienen muestras de los datos: para obtener una mayor velocidad de res-

puesta del proceso. • Se reduce el número de valores posibles: mediante redondeo, por ejemplo. Incluso después de haber sido filtrados, en la mayoría de casos se tiene una cantidad in-mensa de datos. La selección de varia-bles reduce el tamaño de los datos al elegir las variables más influ-yentes en el problema, sin disminuir la calidad del modelo de conoci-miento obtenido en el proceso de minería. Los métodos para la selección de variables son dos: • Aquellos basados en la elección de los mejores atributos del problema. • Y aquellos que buscan variables independientes (mediante tests de sensibilidad,

por ejemplo). En la extracción de conocimiento se utiliza una técnica de data mining para obtener un modelo de conocimiento que representa patrones de comportamiento observados en

Imagen 4-10

Incluso después de haber sido filtrados, en la mayoría de casos se tiene una cantidad inmensa de datos.

Page 14: Curso Telemarketing Clase 4

Tema 4: Data mining 92

los valores de las variables del problema o relaciones de asociación entre dichas varia-bles. También pueden utilizarse varias técnicas a la vez para generar distintos mode-los, aunque generalmente cada técnica obliga a un filtrado de los datos y una selección de variables diferente. Durante la última fase del proceso, interpretación y evaluación, y una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones obteni-das son válidas y suficientemente satisfactorias. Si se han obtenido varios modelos me-diante el uso de distintas técnicas, hay que comparar los modelos para localizar aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados es-perados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

La minería de datos web (web mining) es una tecnología usada para descubrir co-nocimiento interesante en todos los aspectos relacionados a la web. El enorme vo-lumen de datos en la web generado por el gran número de usuarios y el desarrollo de librerías digitales hace que la extracción de la información útil sea un gran pro-blema. Cuando el usuario navega por la web se encuentra frecuentemente satura-

Ejercicio

4.4 Minería de datos web

Page 15: Curso Telemarketing Clase 4

93

Tema 4: Data mining

do por los datos. La integra-ción de herramientas de mi-nería de datos puede ayudar a la extracción de la informa-ción útil. La minería de datos web se puede clasificar en tres grupos distintos, dependiendo del tipo de información que se quiera extraer, o de los objetivos a conseguir: • Minería del contenido

de la web (web content mining): extraer informa-ción del contenido de los documentos en la web. Se puede clasificar a su vez en:

- Text mining: si los documentos son textuales (planos). - Hypertext mining: si los documentos contienen enlaces a sí mismos o a otros documentos. - Markup mining: si los documentos son semiestructurados (con marcas). - Multimedia mining: para imágenes, audio, vídeo...

• Minería de la estructura de la web (web structure mining): se intenta descubrir un modelo a partir de la tipología de enlaces de la red. Este modelo puede ser útil para clasificar o agrupar documentos.

• Minería del uso de la web (web usage mining): se intenta extraer información (hábitos, preferencias, etcétera, de los usuarios o contenidos y relevancia de do-cumentos) a partir de las sesiones y comportamiento de los usuarios navegantes.

Obtener una información fiable sobre el comportamiento de los usuarios de un sitio web es una labor dificultada por varios motivos: • Las particularidades de Internet (cachés intermedias, direcciones IP dinámicas, et-

cétera). • La heterogeneidad de las visitas (usuarios con diferentes expectativas, robots, na-

vegadores, buscadores, etcétera). • La complejidad de la información recibida (concepto de sesión, visitantes detrás

de proxies, protocolos, etcétera).

Imagen 4-11

La integración de herramientas de minería de datos puede ayudar a la extracción de la información útil.

Page 16: Curso Telemarketing Clase 4

Tema 4: Data mining 94

Para hacer esta información accesible, fiable y útil al propietario de un sitio web, se han desarrollado técnicas de análisis de uso de un sitio web. El análisis del tráfico de acce-so a un determinado servidor web, previamente registrado de una manera adecuada, es fundamental por una parte para entender el comportamiento y hábitos de los clien-tes/usuarios del sitio, y por otra parte, ayudan a mejorar su diseño. Las tecnologías alternativas para la medición de accesos a sitios web son: • Contadores de accesos web. • Analizadores de logs. Un contador web es un pequeño script que sirve para contar los accesos que se hacen a una página web. Normalmente, el script se aloja en una máquina distinta a la del sitio web que lo utiliza y que almacena un número. En la página de entrada del sitio web se incluye un enlace a ese script; así, cada vez que un visitante accede por la página prin-cipal (la forma más habitual) se ejecuta el script, que incrementa en una unidad el nú-mero almacenado y devuelve un pequeño gráfico con dicho número. Así se cuenta el número de visitas que recibe el sitio web. Un contador está ligado a una página y no a un sitio web, por lo que la información que ofrece es sólo relativa a esa página.

Los analizadores de logs proporcionan información estadística sobre las visitas a un si-tio web a partir de los ficheros log que registran los servidores web. Los analizadores de logs tienen un defecto muy importante: la fuente de la que toman su información es

Imagen 4-12

Un contador web es un pequeño script que sirve para contar los accesos que se hacen a una página web.

Page 17: Curso Telemarketing Clase 4

95

Tema 4: Data mining

muy poco fiable y está dis-torsionada por dos facto-res: no pueden incorporar las páginas que son servi-das por cachés e incluyen en sus estadísticas los ac-cesos de robots. Por la combinación de ambos efectos, estos analizado-res resultan inservibles, excepto como herramienta para estimar las necesida-des de ancho de banda de un sitio web. El despliegue masivo de cachés y proxies en Internet hace que, en muchos casos, las páginas de un sitio no sean entregadas por el servidor del sitio, sino por otras máquinas que en algún momento se han quedado copia de las mismas. El motivo para realizar esas copias es reducir el tráfico en la red, ahorrando coste de comunicaciones. Esto in-teresa tanto a los proveedores de contenidos como a los proveedores de acceso. Si una página llega al navegador de un usuario directamente desde una caché de su proveedor de acceso a Internet, o desde el proxy de su empresa, o incluso desde la ca-ché de su propio navegador, el proveedor del contenido pierde la posibilidad de cono-cer que esa página fue accedida, ya que no fue servida por el servidor del sitio ni, por lo tanto, registrado el acceso en el registro log del servidor. El efecto de las cachés es do-ble para el propietario de un sitio web: se ahorra ancho de banda de comunicaciones, pero pierde control sobre el uso del sitio. Otra fuente de distorsión de la información que afecta a los programas analizadores de logs es el acceso de robots (también conocidos como crawlers, web-spiders o simple-mente bots). Los analizadores de logs no distinguen, en general, los accesos realiza-dos por humanos de los realizados por programas, y no filtran los accesos de robots, o lo hacen de forma limitada. La información estadística que aportan incluye de forma in-discriminada todo tipo de accesos. Esta información, que puede ser de utilidad para es-timar el consumo de ancho de banda, es inútil para los responsables de marketing o de negocio de un sitio web. Como consecuencia, las estadísticas de los sistemas que ana-lizan los archivos log de servidores web se construyen a partir de datos muy poco fia-bles. Será necesario usar otros métodos de registro de la información, como los basa-dos en huellas o marcadores.

Imagen 4-13

Los analizadores de logs proporcionan información es-tadística sobre las visitas a un sitio web a partir de los

ficheros log que registran los servidores web.

Page 18: Curso Telemarketing Clase 4

Tema 4: Data mining 96

El análisis de visitas a sitios web basado en huellas o marcadores es un sistema de re-cogida de información que surgió como respuesta a los problemas asociados al análisis de los ficheros logs e intenta resolver los problemas de las cachés intermedias y de los robots. Una huella es una pequeña pieza de código (una o unas pocas líneas) que se

introduce en cada página web a medir y que hace que el navegador del visitante, al descargarlas, lance la ejecución de un script o solicite un objeto pequeño (generalmente una imagen invisible) a otro servidor. Procesando estas peticiones del otro servidor se pue-de reconstruir, de forma mucho más fiable, la forma en que cada visitante ha visitado el sitio web. Los sistemas basados en huellas o marcadores pre-sentan una serie de ventajas sobre los sistemas ba-sados en análisis de logs: • La información es completa y veraz: se registran todos los accesos de personas y no de robots, por lo que es útil para los responsables de marketing, de la explotación de contenidos o, en general, de directivos y responsables de negocio en Internet.

• Implantar un sistema de recogida de información usando huellas es muy simple: basta ejecutar un pequeño programa para colocar la huella en todas las páginas de un sitio web. A partir de ese momento, basta poner la huella en las plantillas de los contenidos del sitio.

• Usar un sistema de estadísticas web basado en huellas es muy simple: cualquier persona autorizada puede ver la información de accesos en cualquier momento, desde cualquier lugar, usando un navegador web cualquiera.

• Las páginas cuyos accesos se analizan conjuntamente no necesitan estar en un único sitio web. Puede analizarse el acceso a contenidos distribuidos en más de una máquina, o analizar separadamente colecciones de páginas ubicadas en el mismo servidor web.

En los sistemas avanzados de estadísticas web, el cálculo de todos los informes se de-sarrolla en función del concepto de visita (o sesión de usuario), a diferencia de la mayo-ría de los programas más básicos, que lo hacen en función de los accesos (hits o clics). “Visita” es el conjunto de páginas consecutivas de un sitio web consultadas por un usuario en intervalos entre páginas inferiores a 10 minutos. Este es el criterio adoptado de forma estándar por los organismos internacionales que se dedican a la auditoría de las visitas a medios de comunicación y otros portales en Internet. Para cada visita pue-de registrarse, por ejemplo, las siguientes informaciones:

Imagen 4-14

Los sistemas basados en huellas o marcadores

presentan una serie de ventajas sobre los sistemas basados en análisis de logs.

Page 19: Curso Telemarketing Clase 4

97

Tema 4: Data mining

• Hora de inicio de la visita. • Página de entrada (primera página visitada). • Duración de la visita. • Número de páginas visitadas. • Página de salida (última página accedida antes de la finalización de la visita). • Nombre, dirección IP y país de la máquina del visitante. • Organización (empresa o proveedor de acceso del visitante). • Camino completo de la visita. A partir de esta información, se elaboran todas las estadísticas y análisis avanzados. El análisis de uso de la web, permite convertir la web en un canal… • Bidireccional: permite que los responsables comerciales y de marketing de las

empresas puedan recibir realimentación de la interacción de los visitantes al sitio web.

• Identificativo: da información parcial de la identidad de los visitantes. • Activo: con múltiples posibilidades de acción según el comportamiento del visi-

tante. • Personalizado: se guía y orienta al visitante respecto a la búsqueda de conteni-

dos, o la adquisición de productos o servicios. • Transparente: permite un control y una medición precisa de su impacto.

Ejercicio

Page 20: Curso Telemarketing Clase 4

Tema 4: Data mining 98

Page 21: Curso Telemarketing Clase 4

99

Tema 4: Data mining

A continuación, se exponen los enunciados de los ejercicios que deberás responder desde el campus de teleformación. El resultado del mismo queda registrado en la base de datos para la posterior evaluación en el curso.

1. El almacenamiento de cantidades masivas de datos, se llama: A) Data Mining. B) Data Warehouse.

C) Outsourcing.

2. ¿Cuál de las siguientes afirmaciones es correcta?

A) Data Mining puede proporcionar información desconocida. B) Data Warehouse puede proporcionar información desconocida. C) Data Mining y Data Warehouse pueden proporcionar información desconocida.

3. ¿Qué requiere el mercadeo con bases de datos y Data Mining? A) La práctica de outsourcing. B) Una alta inversión económica. C) Utilizar herramientas OLAP.

EJERCICIOS DE EVALUACIÓN

ATENCIÓN:

Para cada uno de los temas hay publicados en el campus de teleformación dos exáme-nes, el alumno que suspende el primer examen puede repasar otra vez los contenidos

y volver a efectuar el segundo examen para el mismo tema.

Page 22: Curso Telemarketing Clase 4

Tema 4: Data mining 100

4. ¿Cuál de las siguientes técnicas de ventas consiste en ofertar y vender productos que no son propios de la empresa? A) Outsourcing. B) Networking. C) Cross-selling. 5. ¿Cuál es el requisito imprescindible para tener éxito al utilizar cross-selling? A) Ofrecer una amplia gama de productos cruzados. B) Ofrecer todas las comodidades posibles al cliente. C) Ofrecer productos y servicios de calidad. 6. ¿Cuál de las siguientes aplicaciones de Data Mining no corresponde al ámbito de CRM? A) Analizar las cestas de la compra. B) Analizar la pérdida de clientes. C) Crear modelos de clientes potenciales. 7. ¿En qué técnica de Data Mining se utiliza el análisis de la varianza, el análisis clus-ter y el análisis discriminante? A) Redes neuronales. B) Análisis estadístico. C) Algoritmos genéticos. 8. ¿Cuál de las siguientes técnicas de Data Mining se basa en el conocimiento de una variable a través del tiempo? A) Algoritmos genéticos. B) Reglas de inducción. C) Series temporales.

Page 23: Curso Telemarketing Clase 4

101

Tema 4: Data mining

9. ¿Cuál de las siguientes técnicas de Data Mining se usa principalmente para reali-zar predicciones? A) Árboles de decisión. B) Redes bayesianas. C) Lógica difusa. 10. Construir un modelo en una situación donde se conoce la respuesta y luego aplicarla en otra situación de la que no se conoce la respuesta, se llama: A) Modelado. B) Filtrado. C) Estadística.

Desde la opción Expediente Académico del campus de teleformación podrás consultar el resultado de los exámenes realizados durante el curso.