La estadística y sus aplicacionesminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:d... · Web viewPoblación y muestra, selección aleatoria de una muestra 12

Dosier módulo VIII

Módulo VIII

2

INTRODUCCIÓN...........................................................................................................................................3

Unidad I. Conceptos básicos de la estadística.....................................................................................................................4

1. La estadística y sus aplicaciones......................................................................................................42. Escalas de medición.........................................................................................................................83. Variables y tipos de variables ........................................................................................................114. Población y muestra, selección aleatoria de una muestra ............................................................125. Estadística descriptiva y estadística inferencial ............................................................................146. Fuentes y recolección de la información estadística .....................................................................14

Unidad II. Análisis Estadístico ...................................................................................................................17

1. Tablas de frecuencias ....................................................................................................................172. Gráficos para datos estadísticos ...................................................................................................233. Medidas de tendencia central y dispersión ..................................................................................334. Medidas de dispersión para datos discretos y continuos .............................................................425. Medidas de posición .....................................................................................................................48

Unidad III. Introducción a la probabilidad ....................................................................................................60

1. Experimento aleatorio, espacio muestral, suceso o evento .........................................................602. Reglas básicas para el cálculo de probabilidades ..........................................................................643. Probabilidad condicional ..............................................................................................................694. Probabilidad de eventos independientes .....................................................................................715. Teorema de la probabilidad total .................................................................................................746. Teorema de Bayes ........................................................................................................................77

REFERENCIAS DOCUMENTALES ................................................................................................................79

3

Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte que oriente la actitud crítica de los especialistas para analizar, interpretar, evaluar y realizar inferencias (habilidades cognitivas propias del pensamiento crítico) de la vasta información disponible actualmente y que, en numerosas oportunidades, es presentada mediante gráficos estadísticos, ya que estos son los más utilizados por los medios informativos.

Además, en el desarrollo del dosier se plantea el reto de hacer que la estadística y la probabilidad y su enseñanza dejen de ser “sólo una técnica para tratar los datos cuantitativos (…), y pasen a ser herramientas para la vida en sociedad, (…) en términos de capacidad de comprender la abstracción lógica que hace posible el estudio cuantitativo de los fenómenos colectivos” (Ottaviani, citado en Batanero, 2002). En pocas palabras, la estadística debe fomentar disposiciones y habilidades cognitivas en los ciudadanos para que analicen y reflexionen en torno a problemas sociopolíticos del contexto, y que la probabilidad oriente a determinar la posibilidad de que un suceso ocurra y a valorar distintas alternativas necesarias para la toma de decisiones en una situación dada, de acuerdo a las ventajas e inconvenientes que estas presenten.

En la unidad uno se presenta los conceptos básicos de la estadística, iniciando con definición de estadística y sus aplicaciones en diferentes áreas del conocimiento humano. El segundo tema se refiere a las escalas de medición utilizadas en la recolección y análisis de datos y continúa con los tipos de variables que se definen en la población o muestra objeto de estudio. Finaliza esta unidad diferenciando la estadística descriptiva de la inferencial y que la unión de ambos conceptos engloba lo que se entiende por estadística. El objetivo principal de esta unidad es lograr determinar una muestra representativa de la población objeto de estudio.

La unidad dos se refiere al análisis estadístico de datos, presentando las diferentes formas de resumir la información original (datos brutos), de tal manera que sea comprensible y describa las características principales del fenómeno en estudio. Los temas que se estudian en esta unidad son: Las tablas de frecuencias, representación gráfica, medidas de tendencia central y dispersión, y se finaliza con las medidas de posición. El objetivo principal de esta unidad es conocer y aplicar las herramientas estadísticas para elaborar un informe descriptivo del comportamiento del fenómeno objeto de estudio.

El estudio de las unidades uno y dos, permiten describir el comportamiento del fenómeno de estudio. Sin embargo, las conclusiones que se obtienen son totalmente descriptivas y no presentan métodos rigurosos que midan la incertidumbre de la ocurrencia o no de lo observado en los datos, por lo que es necesario dar el siguiente paso e iniciar el estudio de la estadística inferencial. Es así que en la unidad tres se presenta una introducción a la probabilidad, iniciando con el estudio de experimento aleatorio, espacio muestral y sucesos, para continuar con las reglas básicas de probabilidad y llegar hasta el teorema de Bayes.

4

Conceptos básicos de la estadística

1. La estadística y sus aplicaciones

Es difícil conocer los orígenes de la estadística. Sin embargo, desde los comienzos de la civilización han existido formas sencillas de estadística, pues los estados establecían registros de población, nacimientos, defunciones, impuestos, cosechas, etc. Con esta información los antiguos gobernantes controlaban a sus súbditos y mantenían dominios económicos. Estas técnicas evolucionaron con el desarrollo de las matemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información.

Lo que se tiene registrado es que, en el siglo XIX, la estadística entra en una nueva fase de su desarrollo con la generalización del método para estudiar fenómenos de las ciencias naturales y sociales. Galton (1822-1911) y Pearson (1857-1936) se pueden considerar como los padres de la estadística moderna. Por otra parte, los fundamentos de la estadística actual y muchos de los métodos de inferencia son debidos aR. A. Fisher. Sus trabajos culminan con la publicación de la obra Métodos estadísticos para investigaciones.

Con la aparición y popularización de las computadoras, la estadística tiene un avance significativo, ya que utiliza técnicas de computación intensiva para el análisis de grandes masas de datos, y se empieza a considerar el método estadístico como un proceso iterativo de búsqueda del modelo ideal para describir o predecir un determinado fenómeno con cierto grado de certidumbre medible.

La Estadística es una ciencia que estudia las características de un conjunto de datos para hallar en ellos regularidades en su comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. a través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones.

En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más relevantes de un idioma.

5

Aplicaciones de la estadística

Mucha gente piensa que la estadística no tiene nada que ver con otras disciplinas que no sean las ingenierías y economía. Otros, nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad, partiendo, ante todo, en lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias sociales e incluso en algunas ramas del área jurídica. El trabajo del experto estadístico no consiste sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a través de modelos estadísticos- matemáticos, aumentando el alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría de probabilidad y al desarrollo computacional.

Dentro de las aplicaciones de la estadística se destacan las siguientes:

a) La estadística en el periodismo

En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de interés público.

La encuesta periodística de opinión pública: Un periodista pregunta a las personas que se encuentran en los alrededores de la Asamblea Legislativa:

Preguntas Característica de los entrevistados

¿La opinión de los entrevistadosrepresenta el sentir de la población salvadoreña?

¿Se debe aprobar la ley contra la minería metálica?

Personas que han llegado a la Asamblea Legislativa, porque les interesa el tema y representan a un grupo muy reducidos de ciudadanos.

Probablemente los datos no sean “representativos” de todo El Salvador, debido a que las entrevistas se realizaron a un grupo de personas sumamente reducido.

¿Los diputados deben aprobar la leydel agua?¿Se debe aprobar más dinero paracubrir los compromisos del gobierno?

La encuesta de opinión calificada: Un presentador de un medio de comunicación entrevista a un panel de expertos:

Preguntas Característica de los entrevistados

¿La opinión de los entrevistadosrepresenta el sentir de la población salvadoreña?

¿Se debe aprobar la ley contrala minería metálica?

El panel de entrevistados estáconstituido por un grupo de personas seleccionadas por su preparación, su prominencia o por las funciones que desempeñan, características que otorgan credibilidad y validez a las opiniones sobre el tema

El panel de expertos norepresenta a la población de El Salvador, pero sus respuestas generan opinión en la población. Las autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si este el caso.

¿Los diputados deben aprobarla ley del agua?¿Se debe fortalecer losprogramas sociales que impulsa el gobierno?

6

El profesional de la comunicación en la actualidad debe entender la importancia y el impacto que las cifras numéricas causan en la audiencia, por ello se requiere un entendimiento básico de terminología estadística.

b) La estadística en la política

Son conocidas las famosas encuestas de tipo político, que entregan una orientación de la intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de Estado, etc. También de todos es conocido que al aproximarse la fecha de las elecciones de cargos públicos (presidente, diputados, alcaldes, etc.) aparecen diferentes casas encuestadoras presentando la opinión de la población salvadoreña sobre el apoyo o no a cierto partido político o candidato.

c) La estadística en la publicidad

Cuando las grandes marcas trasnacionales y/o nacionales diseñan slogans, música y colores en sus comerciales, lo único que buscan es que la gente adquiera los productos y/o servicios que ofrecen.

Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una de ellas, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de ventas deseado.

d) La estadística en la economía y las finanzas

En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el comportamiento pasado de los precios de los mismos.

También, sirve para estudiar el comportamiento de la bolsa de valores, la demanda de energía eléctrica de una región o país, el análisis del costo de la canasta básica, etc. En general, los estadísticos y los economistas por lo regular se sienten magos que creen predecir o conocer el comportamiento futuro de cierto fenómeno.

Ejemplo 1.1. En El Salvador, la Unidad de Transacciones, S. A. de C. V. (UT) es la empresa Administradora del Mercado Mayorista y la encargada de realizar el despacho de energía eléctrica a medida que la demanda se presente, por lo que tiene que realizar pronósticos de demanda eléctrica precisos que permitan desarrollar programas de operación que prevén el uso de los recursos de las unidades generadoras de energía de manera eficaz y eficiente en horizontes tanto de corto plazo (semanal) como mediano plazo (periodos de 52 semanas). Actualmente la UT cuenta con una herramienta para realizar el pronóstico de mediano plazo (52 semanas), la cual se basa en un modelo econométrico, y consiste en estimar el Producto Interno Bruto (PIB). En el 2012 un estudiante de Maestría en Estadística de la Universidad de El Salvador, encontró un modelo ARIMA que mejore las predicciones de demanda de energía eléctrica en El Salvador y evitar altos errores de pronóstico que ocasionan pérdidas tanto económicas como una deficiencia en la administración de los recursos energéticos. Es evidente que el buen uso de las herramientas estadísticas permite obtener resultados con menor error.

e) La estadística en la banca y seguros

El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la

7

predicción

8

adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo que se asume. A continuación se presentan algunas situaciones de estudio y se espera que los especialistas completen las características.

Situaciones Características a considerarSistemas de concesión de tarjetas de crédito y fijación de sulímiteTipologías de clientes en una compañía telefónicaAnálisis de colas para brindar un servicio de calidad en unaagencia bancaria

f) La estadística en Ciencias Sociales

Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos de la informática y aplicaciones estadísticas. Por ejemplo, en El Salvador, se ha elaborado el mapa de pobreza, donde se ha interrelacionado una gran cantidad de variables de diferentes áreas: educativas, económicas, salud, entre otras. También, se ha hecho investigación sobre los factores que están asociados al rendimiento académico de los estudiantes.

g) La estadística en Ciencias Biológicas

En el área de las ciencias biológicas, interesa entre otros, estudiar el comportamiento de ciertas plantas y sus cruces a fin de determinar cómo se relacionan genéticamente, hablando de Genotipo y Fenotipo.

Otros ejemplos:

a) Efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes.

b) Cruce de un gato negro (NN) con uno gris (nn), en la primera generación se obtienen gatos negros (Primera ley de Mendel).

En la primera generación se obtiene el 100% de gatos negros, aunque estos gatos tienen el gen de N: dominante y gen del n: recesivo.

9

c) En la segunda generación, ¿qué porcentaje de gatos grises se obtienen?

Al observar los cruces y los genes dominantes se concluye que en la segunda generación se obtiene el 75% de gatos negros y el 25% de gatos grises. Esto es la segunda ley de Mendel.

h) La estadística en las Ciencias Médicas

Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, el grado de eficacia de un medicamento, la propagación de cierta enfermedad, entre otras.

Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un recorrido por diversas áreas del conocimiento humano, con el fin de conocer cómo se relacionan con las diversas ciencias. Evidentemente, existen, muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente la estadística.

2. Escalas de medición

La medición puede definirse como la asignación de números a objetos y eventos de acuerdo con ciertas reglas; la manera como se asignan esos números determina el tipo de escala de medición. Las escalas de medición comúnmente conocidas son: nominales, ordinales, de intervalos y de razón.

Escalas nominales

Ejemplos 1.2.

1. Si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidadesdel color azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el color solicitado entre cientos de colores.

2. En muchas solicitudes se le asigna el número 1 al sexo masculino y al número 2 al femenino y esta clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no quiere decir que las personas de sexo masculino tengan más o menor valor que las del sexo femenino.

3. El número de DUI de los salvadoreños es un código para identificar a las personas.

En la escala nominal, las unidades observadas se agrupan en clases o categorías excluyentes según determinada propiedad, con lo que se define una partición sobre el conjunto de tales unidades. Los números que se utilizan para efectos de identificación en una escala nominal nunca se utilizan para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división; la única operación matemática permitida es el conteo.

Escalas ordinales

Ejemplos 1.3.

1. Se realiza una carrera de atletismo sin medir el tiempo que tarda cada participante, en este caso se puede saber quién llegó primero, segundo y tercero, pero no se puede saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.

2. En un determinado grupo escolar se seleccionan los cinco estudiantes con el promedio más alto y resulta que Esteban quedó tercero con un promedio de 8.9, seguido de Jorge con 8.8 y, luego Leticia con 8.5. A Esteban, como primero, se le asigna el número 1, pero esta designación numérica sólo indica su posición con relación a los otros cuatro alumnos. Se sabe que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no se puede saber hasta qué punto es mejor su promedio comparado con los otros.

3. Etapas de desarrollo de los seres humanos: prenatal, infancia, niñez, adolescencia, juventud, adultez y ancianidad.

Las escalas ordinales surgen a partir de la operación de ordenamiento y se utilizan para clasificar a las personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Con las escalas ordinales no se pueden llevar a cabo las operaciones aritméticas de suma, resta, multiplicación y división.

Escalas de intervalos

Ejemplos 1.4.

1. La temperatura en grados centígrados (°C) de una persona sana. La variación de la temperatura normal dependerá de cada persona o del momento del día. Por ejemplo: A las 5 de la mañana la temperatura está más baja; y, a las 3 de la tarde, probablemente alcanza su valor más alto. Considerando como normal la variación entre 35 °C y 37.5 °C. Observe que, si se selecciona una persona al azar y se le mide su temperatura, esta puede tomar cualquier valor entre 35 °C y 37.5 °C. En este ejemplo qué interpretación se da al valor (cero), la elección del origen (cero) es arbitraria, no implica que realmente haya cero (ninguna) temperatura.

2. Ubicación en una carretera respecto de un punto de referencia (kilómetro 17 de la carretera Panamericana). Nuevamente qué interpretación se da al valor (cero), la elección del origen (cero) es arbitraria, no implica que realmente haya cero (ninguna) distancia en el kilómetro cero.

9

3. La puntuación obtenida en pruebas de IQ (Coeficiente Intelectual). La escala de inteligencia posee un punto cero, pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a encontrar un ser humano con cero inteligencia. Nuevamente, concluimos que la elección del origen (cero) es arbitraria.

Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión.

Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de la escala. Así, por ejemplo, en la escala de temperatura centígrados puede decirse que la distancia entre 25° y 30 °C es la misma que la existente entre 20° y 25° C, pero no puede afirmarse que una temperatura de 40° C equivale al doble de 20° C en cuanto a intensidad de calor se refiere, debido a la ausencia de cero absoluto.

Escalas de razón1

Ejemplos 1.5.

1. Estatura de las personas o largo de una columna. Se observa que, si una columna mide seis metros, este es el doble del largo de otra columna que mide tres metros. Si una columna mide 0 metros, esta columna no existe (tiene cero de largo)

2. Litros de agua consumidos por persona al día.3. Número de hijos en una familia. Si una familia tiene 4 hijos, es el doble de hijos de otra familia que

tiene 2.

La escala de razón o cociente se diferencian de la de intervalos en que el punto cero no es arbitrario y corresponde a una total ausencia de la característica estudiada. Además, pueden llevarse a cabo las diferentes operaciones aritméticas.

A manera de conclusión es importante tener siempre presente la escala de medición que se está usando, pues no todos los procedimientos estadísticos son apropiados para cualquier análisis.

Ejemplo 1.6. Indicar el tipo de escala de las siguientes expresiones:

Características EscalaNiños, jóvenes, adultosIngeniería Eléctrica, Mecánica, Civil, IndustrialCalificaciones de un grupo de estudiantesDirectiva de sexto grado: Presidente, vicepresidente, tesorero y secretarioGuatemalteco, salvadoreño, hondureño, nicaragüenseNúmero de carné de los estudiantesVelocidad de un auto en la carretera

1 En la mayoría de textos estadísticos se usa la escala de razón, para obtener una escala que considere el cero absoluto y se diferencie de la escala de intervalo. Además, la escala de razón compara dos magnitudes que pueden tener diferentes unidades (cero salario mensual, compara dinero y tiempo), sin embargo, en el Módulo 6, Razones y Proporciones, se estudió el concepto de razón en un sentido más amplio.

10

3. Variables y tipos de variables

Las variables estadísticas son características que poseen todas las unidades del universo o población en estudio.Sea U el universo o población a investigar, formado por las unidades �1, �2, �3, . . . , ��, donde N representa el tamaño de la población, el conjunto universal es:

U = {�1, �2, �3, . . . , �� }

Si el universo fuera los centros educativos públicos de El Salvador, entonces las �� representan los centroseducativos y las variables que se pueden investigar son: el nombre, la dirección, el teléfono, la regióndonde está ubicado, número de alumnos, tipo de administración, número de profesores, entre otras.

Las variables según el periodo de tiempo en que se miden se clasifican en transversales o longitudinales. Una variable es de corte transversal cuando los resultados de la medición están referidos a un mismo momento o período de tiempo.

Ejemplos 1.7. Variables de corte transversal

1. Ingresos de los hogares de El Salvador en un mes determinado.2. Ventas de las empresas de la industria manufacturera en un año determinado.

Una variable es de corte longitudinal o también llamada serie temporal, cuando los datos corresponden a diferentes momentos o períodos de tiempo, a intervalos regulares (misma amplitud de tiempo que transcurre en tomar las diferentes mediciones: diarias, semanales, mensuales, trimestrales, anuales, etc.).

Ejemplos 1.8. Variables longitudinales

1. La tasa de desempleo trimestral en un determinado país, durante los últimos 10 años.2. El Producto Interno Bruto anual de un determinado país, durante los últimos 20 años.

Las variables dependiendo del tipo de datos que toma se clasifican en:

Cualitativas o atributos Variables

Cuantitativas : Discretas o Continuas

Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes cualidades que poseen las unidades objeto de estudio. Por ejemplo: sexo, estado civil, color de los ojos, entre otras. Las variables cuantitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman un número entero de valores o la distancia entre dos datos consecutivos es constante, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.

Se utiliza, como notación habitual para las variables estadísticas, las letras mayúsculas del alfabeto: X, Y, Z y los valores que toman las variables se representan con las letras minúsculas x, y, z.

11

4. Población y muestra, selección aleatoria de una muestra

Analiza la siguiente situación:

Los titulares del Ministerio de Salud quieren saber cuántos niños nacidos en los últimos 6 meses han sido vacunados y cuántos no, y las variables asociadas (nivel socioeconómico, lugar donde se vive, educación), con el fin de tomar decisiones para formular estrategias de vacunación y mensajes dirigidos a persuadir la pronta y oportuna vacunación de los niños. Para esta situación, responder los siguientes literales:

a) Definir la población objeto de estudiob) ¿Es posible investigar toda la población o es recomendable analizar una muestra?c) Definir un procedimiento aleatorio de selección de la muestra.

Análisis de la situación:

a) Población (N): Mujeres de El Salvador que en los últimos 6 meses han tenido hijo(a)

b) El total de mujeres que han dado a luz en los últimos 6 meses son muchas (según datos del MINSAL son más de 50,000). Para lograr entrevistar a todas las mujeres de la población en estudio se requiere de mucho recurso humano, económico y tiempo; por tanto, es recomendable tomar una muestra aleatoria representativa de la población.

c) Procedimiento aleatorio de selección de la muestra.

1. Crear una base de datos con la información de todas las mujeres de El Salvador que han dado a luz en los últimos 6 meses (suponer que hay 50,000).

2. Definir el número de mujeres a entrevistar (tamaño de la muestra n). Para resolver estasituación puede utilizar fórmulas matemáticas, con base al tipo de muestreo a utilizar (el estudio de los diferentes tipos de muestreo está fuera de los objetivos de este módulo). Algunos textos estadísticos sugieren que con muestras de tamaño entre un 5% y 10% de los elementos de la población, se obtienen margen de error aceptable. En esta situación, se considerará el 5%, así:

� = 50,000 ∗ 0.05 = 2,50012

3. Listar del 1 al 50,000 las unidades de la población (madres que han dado a luz en los últimos 6 meses). Generar 2,500 números aleatorios entre 1 y 50,000, para ello puede utilizar una tabla de número aleatorios, seleccionar aleatoriamente de una urna los 2,500 números o utilizar la hoja de cálculo de Excel para generar una muestra aleatoria de 2,500 números.

Comentario de la situación problema. Este tipo de estudio, donde se hace una asociación entre variables, cuyos resultados servirán de información para tomar decisiones políticas que afectarán a una población, se logra por medio de una investigación por encuestas y definitivamente a través de una muestra probabilística, diseñada de tal manera que los datos pueden ser generalizados a la población con una estimación precisa del error que pudiera cometerse al hacer tales generalizaciones.

Población. Un conjunto de unidades (personas, establecimientos, empresas, etc.) respecto de las cuales se desea conocer alguna o algunas de sus características para sacar conclusiones.

Parámetro. Es una cantidad numérica calculada sobre las unidades de una población y resume los valores que esta toma en algún atributo.

Muestra. Un subconjunto de una población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. En consecuencia, muestra y población son conceptos relativos. La población es un todo y la muestra es una fracción o segmento de ese todo.

Estadístico. Es una cantidad numérica calculada sobre las unidades que pertenecen a la muestra y que resume su información sobre algún aspecto. Se usa para estimar un parámetro.

Procedimiento de selección de una muestra aleatoria: Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población.

Con frecuencia leemos y oímos hablar de “muestra representativa”, “muestra al azar”, “muestra aleatoria” como si con los simples términos se pudiera dar más seriedad a los resultados. En realidad, pocas veces se puede medir a toda la población, por lo que obtenemos o seleccionamos una muestra y se pretende que este subconjunto sea un reflejo fiel del conjunto de la población. Todas las muestras deben ser representativas, por tanto, el uso de este término es por demás inútil. Los términos al azar y aleatorio denotan un tipo de procedimiento mecánico relacionado con la probabilidad y con la selección de elementos, pero no logra esclarecer tampoco el tipo de muestra y el procedimiento de muestreo.

Básicamente categorizamos a las muestras en dos grandes ramas: las muestras no probabilísticas y las muestras probabilísticas2. En estas últimas todos los elementos de la población tienen la misma posibilidad de ser escogidos. Esto se obtiene definiendo las características de la población, el tamaño de la muestra y a través de una selección aleatoria y/o mecánica de las unidades de análisis.

En las muestras no probabilísticas, la elección de los elementos no depende de la probabilidad, sino de causas relacionadas con las características del investigador o del que selecciona la muestra. Aquí el

2 En este dosier se presentan ejemplos de muestras probabilistas.

13

procedimiento no es mecánico, ni con base en fórmulas de probabilidad, sino que depende del proceso de toma de decisiones de una persona o grupo de personas y, desde luego, las muestras seleccionadas por decisiones subjetivas tienden a estar sesgadas.

5. Estadística descriptiva y estadística inferencial

Al inicio de esta unidad se mencionó que la estadística trata del recuento, ordenación y clasificación de los datos obtenidos en las observaciones, para poder hacer comparaciones y sacar conclusiones o hacer predicciones. Bajo este contexto, la estadística se divide en dos áreas: Estadística descriptiva y estadística inferencial.

Estadística descriptiva: permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.

Ejemplos 1.9.

1. Durante los últimos tres días de la pausa pedagógica se desarrollaron dos talleres diarios de matemática.

2. La encuesta Cid Gallup informa una ventaja de 5% para el oficialismo en las próximas elecciones.

Estadística inferencial: Es una parte de la estadística que generaliza los resultados de una muestra a los de una población total. Generalmente el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.

Ejemplos 1.10.

1. El BCR informa que en el 2017 el PIB tendrá un incremento del 2%.2. La DIGESTYC informa que la población de El Salvador en 2025 será de 7,057,892.

6. Fuentes y recolección de la información estadística

De manera general encontramos que existen dos posibilidades de tener acceso a la información, una de ellas es de manera inmediata a través del contacto directo con las unidades de la población; la otra es a través de la experiencia ajena, la cual se constituye a su vez en fuente de información. Bajo estas premisas, se llamará información primaria a aquella que el investigador recoge a través de un contacto directo con su objeto de estudio. De igual manera se llamará información secundaria a aquella que el investigador obtiene a partir de investigaciones realizadas por otros investigadores con otros propósitos, y que es registrada de alguna manera ya sea en libros, bases de datos, material fílmico, etc. El investigador que recurre a información secundaria se ve obligado a trabajar con instrumentos diseñados con propósitos diferentes a los de su investigación.

La información primaria, por lo general, permite un mayor control sobre la investigación. La pregunta es: ¿En qué situaciones de investigación es preferible recurrir a la información primaria y en cuáles a la información secundaria? La respuesta no es inmediata. Por ejemplo, el trabajo de los auditores contables se basa en la información que se encuentra registrada en los libros contables que han elaborado otras personas.

14

Fuentes de datos primarias: Son las publicaciones y trabajos hechos por personas o instituciones que han recolectado directamente los datos.Fuentes de datos secundarias: Son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la información.

Ejemplo 1.11. El profesor de matemática quiere conocer el peso de los alumnos de su grado, a fin de constatar si hay alumnos con desnutrición. Para llevar a cabo la investigación tiene dos opciones:

a) Pesar a cada alumno, en este caso se utiliza una fuente primaria.b) Tomar el peso de los alumnos del historial clínico que lleva la enfermera, en ese caso utilizaría

los resultados de fuentes secundarias.

¿Qué información debe utilizar el profesor, primaria o secundaria? ¿Por qué?

Recolección de información:

Los procedimientos de recolección para la elaboración de estadísticas son:

1) Censo.2) Muestreo.3) Registros administrativo.

En una investigación estadística habitualmente se utiliza un solo procedimiento, pero en ocasiones se suelen combinar dos o más procedimientos para hacer una mejor utilización de la información existente.

El censo es una investigación estadística en la que se obtiene información de la totalidad de las unidades que componen la población.

Ventajas

1. La información obtenida puede desagregarse y publicarse por diversos criterios de clasificación y tabular los resultados con cualquier grado de detalle, incluso contemplando categorías de clasificación con escasa frecuencia.

2. A partir de la fecha de realización de un censo, los datos se pueden actualizar periódicamente mediante agregados o disminuciones de las variaciones establecidas, utilizando los registros administrativos.

3. Permite la preparación de los marcos de referencia de diferentes diseños muestrales que facilitan la selección de la muestra.

4. La credibilidad de las estadísticas que se obtienen mediante censo es mayor que la de cualquierotro tipo de procedimiento de recolección.

Desventajas

1. Es necesaria una compleja organización que abarque todo el universo por investigar, evitando omisiones y duplicaciones.

2. Exige el empleo de gran cantidad de recursos humanos, materiales y financieros.

15

1

El muestreo es un procedimiento de investigación estadística que pretende estudiar el universo de interés con base en la información que se obtiene de una parte de las unidades que componen dicho universo. Es el procedimiento mediante el cual se selecciona una muestra.

Ventajas

1. Se recolecta únicamente la información que se requiere para desarrollar la investigación planteada.

2. No se requiere una compleja organización para la recolección y procesamiento de la información.3. No se requiere el empleo de gran cantidad de recursos humanos, materiales y financieros.

Desventajas

1. Las medidas que se obtienen están sujetas a márgenes de error.2. La información no se utiliza para análisis futuros, ya que la información es válida para el espacio

y tiempo en que se recolectó.

El registro administrativo es un directorio de unidades (personas, viviendas, empresas, etc.) creado exclusivamente para fines administrativos de registro, de recaudación, de fiscalización o de control. Son las fuentes secundarias más utilizadas por los investigadores debido al alto grado de validez de la información.

Ventajas

1. No requiere de ninguna organización especial de campo para capturar los datos. Los gastos se limitan a los aspectos de procesamiento de la información.

2. Si el registro es completo, entonces se trabaja con todos los datos de la población.

Desventajas

1. La información se obtiene como un subproceso de la gestión administrativa, y en muchos casos, las definiciones y conceptos utilizados para obtenerla no coinciden con los requeridos para fines estadísticos.

2. Los cambios en los resultados de la gestión administrativa pueden influir en la calidad de las informaciones que se utilicen con fines estadísticos.

La elección de la información a utilizar dependerá del balance entre las ventajas y desventajas de los diferentes métodos en relación a las condiciones particulares de la investigación. Se deberán maximizar las ventajas y en lo posible eliminar las desventajas.

Distracción del conductor Distracción del conductorNo guardar distancia reglamentaria No guardar distancia reglamentariaVelocidad excesiva Velocidad excesivaNo guardar distancia reglamentaria Distracción del conductorNo respetar señal de prioridad No guardar distancia reglamentariaNo guardar distancia reglamentaria Velocidad excesivaNo respetar señal de prioridad Invadir carrilNo guardar distancia reglamentaria No respetar señal de prioridadNo guardar distancia reglamentaria No respetar señal de prioridadInvadir carril No guardar distancia reglamentariaDistracción del conductor Velocidad excesivaNo respetar señal de prioridad Invadir carrilDistracción del conductor Velocidad excesivaDistracción del conductor Distracción del conductorNo guardar distancia reglamentaria Invadir carril

1

Análisis Estadístico

1. Tablas de frecuencias

1.1. Análisis de datos cualitativos o categóricos

Muchas veces, la información que se comparte en el diario vivir pasa desapercibida. Sin embargo, con estrategias adecuadas y con el conocimiento pertinente esta información puede ser muy útil. El análisis de datos categóricos se ocupa del estudio de variables que no son medibles (color, nacionalidad, enfermedades, sexo, afiliación política, etc.), denominadas también atributos o caracteres cualitativos. A continuación se presenta una situación en concreto de un caso del acontecer cotidiano: Los accidentes de tránsito.

Situación

El Viceministerio de Transporte a través de la División de Tránsito Terrestre de la Policía Nacional Civil, ha reportado las causas principales que ocasionaron los accidentes de tránsito el primer día de vacación de Semana Santa de 2017. A continuación, se muestran los casos:

Velocidad excesiva Distracción del conductor Invadir carrilVelocidad excesiva Invadir carril Velocidad excesiva Ebriedad

No guardar distancia reglamentaria Distracción del conductorNo respetar señal de prioridadNo guardar distancia reglamentaria No guardar distancia reglamentaria No respetar señal de prioridad Distracción del conductor Distracción del conductor

1

No guardar distancia reglamentaria Velocidad excesiva Invadir carrilDistracción del conductor Invadir carril Invadir carrilNo respetar señal de prioridad Invadir carril Distracción del conductorDistracción del conductor Invadir carril Invadir carril

¿Qué hacer con los datos brutos? Seguramente hasta este momento parece que todo va bien, pues se ha entendido qué tipo de datos se han proporcionado y qué significa cada uno de ellos. Pero ahora es necesario dar el siguiente paso y seguramente surgirán preguntas como: ¿Ahora qué hago con estos datos?¿Cómo se ordenan? ¿Se podrá hacer algún tipo de análisis? ¿Qué conclusiones voy a dar? ¿Qué esperarán que se muestre con estos datos? ¿Será realmente útil mostrar un gráfico, mostrar una tabla o cifras puntuales? ¿Qué tipos de análisis estadísticos existen?

Lo primero que se debe tener en cuenta es que todo lleva un orden y todo se hace por partes. No se debe comenzar por el final, sino más bien dejar que las ideas fluyan y que eso permita ir descubriendo la riqueza de los datos y todas las maravillas que se pueden hacer con ellos.

¿Cómo se organizan y se presentan los datos? Una vez que se han recolectado los datos necesarios, es sumamente importante saber organizarlos o agruparlos de alguna manera o mecanismo para poder “manejarlos” de manera más eficiente y eficaz. Sin la estadística, los datos que se han recolectado para una investigación podrían resultar como una masa caótica de números. La presentación de estos datos en tablas permite apreciarlos con mejor claridad, permitiendo explorar la información antes de analizarla. Mientras que las tablas aportan una descripción más detallada de los datos, los gráficos permiten observar los patrones generales.

Se debe resaltar que existen casos en donde es un poco estresante estar visualizando los datos con nombres de categorías tan largas como es el caso planteado de los accidentes de tránsito. Muchas veces se recurre a hacer una “codificación” tratando de reducir el tamaño de las respectivas categorías como a continuación se muestra:

Código CategoríasCausa 1 Distracción del conductorCausa 2 No guardar distancia reglamentaria Causa 3 Invadir carrilCausa 4 EbriedadCausa 5 No respetar señal de prioridad Causa 6 Velocidad excesiva

Tabla de distribución de frecuencias

Para la construcción de la tabla de distribución de frecuencias de datos categóricos se comienza por identificar todos los posibles nombres, códigos, identificadores o categorías que aparecen en los datos.

Muchas veces se tendrá una misma categoría, o la otra opción de categoría se presenta en varias ocasiones dentro de los datos y así sucesivamente para cada una de las categorías. A este número de veces que aparece cada categoría se le llama Frecuencia de la categoría o frecuencia absoluta o

1

simplemente frecuencia.

2

Una vez que se han obtenido las frecuencias, es importante conocer el peso que tiene cada una de las categorías respecto al total de los datos. Esto consiste en obtener el cociente entre la frecuencia absoluta y el número de observaciones realizadas, a esto se le llama frecuencia relativa.

Categoría Frecuencia Frecuencia RelativaDistracción del conductor 14 14/57 = 0.24No guardar distancia reglamentaria 13 13/57 = 0.23Invadir carril 12 12/57 = 0.21Ebriedad 1 1/57 = 0.02No respetar señal de prioridad 8 8/57 = 0.14Velocidad excesiva 9 9/57 = 0.16

n = 57 Suma: 1

Interpretación: A partir de la tabla de distribución de frecuencias anterior se pueden observar ciertos aspectos como:

• Las primeras tres causas de accidentes de tránsito son: 1) Distracción del conductor, 2) no guardar distancia reglamentaria y 3) invadir carril.

• Las primeras tres causas de accidente de tráfico presentan registros bastante similares.• La causa menos registrada por accidentes en el período vacacional fue por ebriedad.

El análisis de datos categóricos se ocupa del estudio de variables que no son medibles (color, nacionalidad, enfermedades, sexo, afiliación política, etc.), denominadas también atributos o caracteres cualitativos. Se distingue entre datos en escala nominal (sexo, estado civil, distintas ramas de actividad económica, profesión, ideología política...) y datos en escala ordinal (nivel de estudios, estratificación de familias por su capacidad de consumo, nivel de autoestima...), cuando se puede establecer un determinado orden o rango entre las observaciones.

1.2. Análisis de datos discretos

Hasta este punto se ha estudiado como construir una tabla de distribución de frecuencias de datos que tienen naturaleza cualitativa o categórica. Sin embargo, se puede aplicar la tabla de distribución de frecuencias cuando los datos son números. Este tipo de variables se denominan cuantitativas y se clasifican en: Variables cuantitativas discretas y Variables cuantitativas continuas.

Un caso interesante de estudiar, que en El Salvador ha sido siempre un fenómeno geológico común y sigue generando temor en la población por su difícil predicción de ocurrencia y por las consecuencias que conlleva, es el tema de Sismos.

Situación

En el Ministerio de Medio Ambiente y Recursos Naturales de El Salvador (MARN) se analiza la información relacionada a sismos locales y regionales registrados de manera periódica y con los diferentes parámetros que los acompañan. Por ejemplo: localización, coordenadas, magnitud, intensidad, profundidad, entre otros. A continuación se presentan los datos de la cantidad de sismos registrados (locales y regionales) en el mes de marzo del año 2015 (cada dato corresponde a cada uno de los días del mes):

2

1 4 4 8 74 4 5 8 83 0 5 2 123 5 11 6 36 9 4 12 6

0

¿Qué hacer con los datos brutos? Lo más lógico es aplicar la misma técnica utilizada para datos categóricos: La tabla de distribución de frecuencias. Sin embargo, se debe tener ciertas precauciones para notar las diferencias que poseen los datos discretos con los datos categóricos.

Tabla de distribución de frecuencias

Para la construcción de la tabla de distribución de frecuencias de datos discretos se comienza por identificar todos los posibles valores que aparecen en los datos. Ahora ya no son categorías sino valores o números, ya que se está trabajando con una variable cuantitativa. A esta columna se le llama variable y generalmente se

tiende a representar con �� u otra letra. En el análisis de tablas de frecuencias de datos discretos cada

valorse repite determinado número de veces y a ello se le llama frecuencia absoluta o simplemente frecuencia.

Muchas veces, además de las frecuencias relativas, se está interesado en conocer la cantidad de todos aquellos casos o eventos que han ocurrido un número de veces menor o igual a un determinado valor de referencia. Es aquí que se define la frecuencia absoluta acumulada que no es más que la suma acumulada de las frecuencias absolutas de los valores menores o iguales al valor de referencia. Para conocer la proporción de todos aquellos casos o eventos que han ocurrido un número de veces menor o igual a un determinado valor de referencia se calcula la frecuencia relativa acumulada, que consiste en la suma acumulada de las frecuencias relativas de los valores menores o iguales al valor de referencia.

De esta forma para la cantidad de sismos ocurridos en El Salvador en marzo de 2015 se tiene:

Variable Frecuencia Frecuencia relativa F. Acum. Abs. F. rel. Abs.0 2 2/31 = 0.065 2 0.0651 1 1/31 = 0.032 3 0.0972 3 3/31 = 0.097 6 0.1943 4 4/31 = 0.129 10 0.3234 5 5/31 = 0.161 15 0.4845 3 3/31 = 0.097 18 0.5816 4 4/31 = 0.129 22 0.717 1 1/31 = 0.032 23 0.7428 4 4/31 = 0.129 27 0.8719 1 1/31 = 0.032 28 0.903

11 1 1/31 = 0.032 29 0.93512 2 2/31 = 0.065 31 1

n = 31 Suma: 1

2

Supóngase que se tiene una muestra de tamaño n, donde la variable estadística X toma los valores distintos x1, x2 ,…, xn. Se debe empezar por ordenar los diferentes valores que toma la variable estadística (en orden normalmente creciente).

En el caso de las variables discretas, generalmente, un mismo valor de la variable aparecerá repetido más de una vez (es decir k < n). De forma que el siguiente paso es la construcción de una tabla en la que se indiquen los valores posibles de la variable y su frecuencia de aparición (las veces que aparece el mismo valor).

Interpretación: de la tabla de distribución de datos discretos:

• El valor que toma la variable (N° de sismos) ahora si tiene un significado o valor cuantitativo y ya no es solamente una codificación.

• El día que más sismos ocurrieron en marzo de 2015, registró un total de 12 sismos y ocurrió en dos días.

• El día que menos sismos ocurrieron en marzo de 2015, registró un total de 0 sismos y ocurrió en 2 días.

• La cantidad de sismos diarios que más se repitió en el mes de marzo de 2015 es de 4.

1.3. Análisis de datos continuos

Cuando se tiene una situación donde la variable cuantitativa discreta toma demasiados valores distintos o los valores de las variables son resultados de mediciones para los cuales no es viable construir una tabla de distribución de frecuencias simple, se debe comprender la naturaleza de los datos continuos. Para ello, se plantea una situación referida al sistema educativo de El Salvador.

Situación

El Ministerio de Educación desarrolló en el año 2012 la Prueba de Logros para nivel de Educación Básica en los centros educativos. Se muestra la lista de las notas que obtuvieron los estudiantes de 6° grado de los centros educativos del municipio de San Salvador (en adelante se le llamará PAESITA 2012).

4.6 5.3 4.5 4.3 4 4.2 4.8 4 6.1 4.8 6.9 4.2 4.75.5 5.9 4.4 5.6 3.6 4.4 4.3 3.7 7 4.8 7.3 3.7 4.34.3 7.2 4.1 4.3 3.5 4.2 6.4 4.1 5.3 4.4 4.8 5.1 5.34.4 6.2 4.2 5 4 5.7 4.4 5.5 4.3 4.1 7.6 3.8 4.7

4 4.8 4.3 4.6 4 6.1 4.6 5 4.1 4.7 4.8

Al ordenar las notas de menor a mayor se obtienen 28 datos diferentes y al hacer la tabla de distribución de frecuencias con los datos anteriores quedarían 28 categorías, lo cual no es práctico para su análisis. Para disminuir el número de categorías se agrupan los datos en intervalos y se ubica cada dato en su intervalo correspondiente.

Para construir la tabla de frecuencia agrupada se sugiere los siguientes pasos:

2

1. Encontrar la amplitud que tienen los datos, esto es, la diferencia entre el valor más grande con el valor más pequeño:

�𝑇= � á𝑥� − � í � � = 7.6 − 3.5 = 4.12. Determinar el número de intervalos o clase: usualmente el número de clases lo decide el investigador,

teniendo en cuenta que no debe ser mayor que 15. Lo recomendable es que el número de clases debe estar entre 8 y 12. Por otra parte, existen reglas empíricas, que permiten tener una idea del número de clase, por ejemplo, la regla de Sturges, que se define como:

� = 1 + 3.332 log(�)Donde: c: Número de clases a construir; log(n): logaritmo base 10 del número de datos de la muestra.

Al aplicar esta regla a la situación planteada se tiene:

� = 1 + 3.332 log(63) = 6.98 ≈ 7El número se redondea al entero más próximo (siempre se aproxima hacia delante) ya que sonnúmero de clases las que se quieren definir.

3. Lo último que se debe definir es el ancho o intervalo, es decir cuánto tendrá cada clase de ancho.

� � = �

𝑇=�

4 . 1= 0.59 ≈ 0.67El método para ir construyendo las clases es a partir del valor más pequeño de los datos,

en este caso 3.5 y sumarle el �� , con lo cual tendríamos la primera clase que será:

3.5 –< 4.1. Notar que el símbolo “<” indica que no se tomará en cuenta el extremo derechodel intervalo.

De esta manera se construyen las clases o intervalos siguientes:

Ahora que ya se tienen las clases o intervalos, se puede generar la “marca de clases”, esto es el punto medio de cada intervalo. Así:

Intervalo

3.5 - < 4.14.1 - < 4.74.7 - < 5.35.3 - < 5.95.9 - < 6.56.5 - < 7.17.1 - < 7.7

�� = 3.5 + 4.12

= 3.8Así sucesivamente para cada clase. Estas marcas de clase servirán para realizar algunas medidas de

2

tendencia central que se estudiarán posteriormente.

Al igual que en el caso de datos discretos, se puede calcular la frecuencia relativa, la frecuencia absoluta acumulada y la frecuencia relativa acumulada, así:

2

Intervalo Frecuencia Frecuencia relativa Marca de clase F. Abs. Acum. F. rel. Acum.3.5 - < 4.1 10 0.16 3.8 10 0.164.1 - < 4.7 24 0.38 4.4 34 0.544.7 - < 5.3 12 0.19 5.0 46 0.735.3 - < 5.9 7 0.11 5.6 53 0.845.9 - < 6.5 5 0.08 6.2 58 0.926.5 - < 7.1 2 0.03 6.8 60 0.957.1 - < 7.7 3 0.05 7.4 63 1

n = 63 Suma = 1

Interpretación. De la distribución de clases y frecuencias anterior se destaca:

• Los valores que toma la variable ahora son intervalos, lo cual significa que no necesariamente debe tomar valores puntuales.

• La mayoría de puntajes de la prueba de logros realizada osciló entre 4.1 y 4.7.• Más de la mitad de centros educativos evaluados, específicamente 34, obtuvo un puntaje menor a

4.7.• La máxima nota obtenida por un centro educativo en la prueba de logros está entre 7.1 y 7.7.• Ningún centro educativo obtuvo una nota menor a 3.5.• Solamente 5 centros educativos reportan una nota mayor a 6.5.

Si la variable es continua, se definen intervalos dentro de los cuales caerán cada uno de los datos.

¡Nunca olvidar que un dato no puede pertenecer a más de una clase o intervalo!

2. Gráficos para datos estadísticos

Un gráfico estadístico es una representación visual de una serie de datos estadísticos. Es una herramienta muy eficaz, y tiene las siguientes características:

• Capta la atención del lector.• Presenta la información de forma sencilla, clara y precisa.• No induce a error.• Facilita la comparación de datos y destaca las tendencias y las diferencias.• Ilustra el mensaje, tema o trama del texto al que acompaña.

2.1. Gráfico de barras

Un gráfico de barras es una representación gráfica en un eje cartesiano, tal que en uno de los ejes se representa las categorías y en el otro eje se representan las frecuencias de una variable categórica (cualitativa) o discreta.

La altura de las barras representa la magnitud de los valores asociados a cada categoría de datos. Por ejemplo, las barras podrían representar:

2

• Las ventas totales de cuatro tiendas durante un año.

2

• La media de los diámetros de piezas producidas por cuatro máquinas diferentes en una fábrica durante una semana.

• Los conteos de accidentes de tránsito durante un período del año.

En el apartado 2.1.1 se presentó el ejemplo de las causas principales de accidentes de tránsito del primer día de vacación de Semana Santa 2017. La tabla de frecuencias correspondiente a esa situación y el gráfico de barras elaborado para esos datos se muestra a continuación.

Categoría FrecuenciaDistracción delconductor 14

No guardar distanciareglamentaria 13

Invadir carril 12Ebriedad 1No respetar señal deprioridad 8

Velocidad excesiva 9

En el eje horizontal se posicionan las distintas categorías de la variable cualitativa o categórica (en el ejemplo, la causa del accidente) y en el eje vertical se presenta el valor o frecuencia de cada categoría en una determinada escala (en el ejemplo, la cantidad de accidentes en unidades).

Las categorías que tienen frecuencia similar están representadas por barras con altura similar. La categoría con mayor frecuencia tiene una barra con la mayor altura.

Del gráfico elaborado puede visualizarse claramente que la distracción del conductor es la principal causa de accidentes de tránsito mientras que la ebriedad es la causa menos reportada.

La orientación del gráfico de barras puede ser:

• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias crecen verticalmente.

• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen usarse cuando hay muchas categorías o sus nombres son demasiado largos.

En un gráfico de barras orientado horizontalmente las categorías pueden ordenarse alfabéticamente facilitando su búsqueda o por sus frecuencias facilitando la comparación de los datos. Se muestra el siguiente ejemplo de la cantidad de casos de conjuntivitis bacteriana aguda reportadas por la Unidad de Vigilancia Epidemiológica del Ministerio de Salud de El Salvador, para la semana 15 del año 2017.

2

Unidad de Vigilancia Epidemiológica - Ministerio de Salud de El Salvador

Casos reportados de conjuntivitis bacteriana agudaSemana 15 del año 2017

Departamento Frecuencia Departamento FrecuenciaAhuachapán 24961 La Paz 21921

Santa Ana 39404 Cabañas 12159

Sonsonate 35653 San Vicente 15576

Chalatenango 23716 Usulután 32984

La Libertad 54723 San Miguel 42715

San Salvador 187280 Morazán 17612

Cuscatlán 15931 La Unión 19248

Se presenta el gráfico de barras en orientación horizontal, ordenado por magnitud de frecuencias (menor a mayor).

Conjuntivitis aguda, Ministerio de Salud

Cabañas San

Vicente Cuscatlán Morazán

La PazLa

Unión Chalatenango

Ahuachapán Usulután

Sonsonate Santa Ana

San Miguel La Libertad

San Salvador

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

Fuente: Unidad de Vigilancia Epidemiológica del Ministerio de Salud de El Salvador.

En el gráfico se observa que el departamento de San Salvador es el que reporta la mayor cantidad de casos (presenta la barra más larga) y en el otro extremo se observa que los departamentos Cabañas, San Vicente y Cuscatlán son los que reportan la menor cantidad de casos (presentan las barras más cortas).

En los ejemplos anteriores de gráficos de barras se han comparado las magnitudes (cantidad de accidentes, casos de conjuntivitis bacteriana) asociadas a variables categóricas (causas de accidentes, departamentos).

2

También se pueden utilizar los gráficos de barras para visualizar la evolución en el tiempo de la magnitud de una categoría concreta.

Mile

s de

quin

tale

s

US$

Mill

ones

2

30002500200015001000

5000

Producción de café oro uva en El Salvador Años 2008 a 2016 (miles de quintales)

2008 2009 2010 2011 2012 2013 2014 2015 2016

Fuente: Consejo Salvadoreño del Café. Departamento de Estudios Económicos y Estadísticas Cafetaleras.

En este gráfico puede darse cuenta del comportamiento que ha tenido la producción de café en El Salvador en los últimos 9 años. El año de mayor producción de café en ese período fue el año 2010. A partir de ese año se observa una disminución de la producción, habiéndose estabilizado en los últimos 3 años del período.

Tipos de gráficos de barras:

• Sencillo: Contiene una única serie de datos. Un ejemplo de este tipo de gráfico de barras se presentó con el ejemplo anterior de la producción de café oro uva en El Salvador.

• Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de un mismo color o textura. Las barras correspondientes a un mismo valor de la variable categórica o cuantitativa se colocan una al lado de la otra (agrupadas).

15,000

10,000

5,000

Exportaciones e Importaciones El Salvador 2009 - 2013

9,964 10,258 10,772

7,325 8,416

3,866 4,4995,308 5,339 5,491

02009 2010 2011 2012 2013

Exportaciones Importaciones

Fuente: El Salvador en cifras. Ministerio de Relaciones Exteriores El Salvador

En el gráfico de barras mostrado, se presentan las series de datos de importaciones y exportaciones durante los años 2009 a 2013. Las barras de cada año se presentan agrupadas y se diferencian por el color.

Departamento PorcentajeAhuachapán 16.5Santa Ana 24.9Sonsonate 14.4Chalatenango 34.3La Libertad 17.9San Salvador 13.5Cuscatlán 16.9La Paz 20.3Cabañas 32.7San Vicente 27.6Usulután 31.6San Miguel 29.1Morazán 35.0La Unión 47.8

Depa

rtam

ento

3

Se observa del gráfico anterior que las importaciones han ido teniendo un crecimiento más pronunciado que las exportaciones dentro del periodo 2009-2013.

2.2. Pictograma

Un pictograma es un gráfico que representa mediante figuras o símbolos las frecuencias de una variable cualitativa (categórica) o discreta.

Al igual que los gráficos de barras suelen usarse para comparar magnitudes o ver la evolución en el tiempo de una categoría concreta. Las barras están constituidas por símbolos o figuras del mismo tamaño que representan una cantidad específica (a mayor frecuencia, más acumulación de figuras).

En el gráfico de la derecha se muestran los porcentajes de hogares del país que recibieron remesas del exterior en el año 2013.

Porcentaje de hogares receptores de remesas

Fuente: Dirección General De Estadística y Censos. EHPM 2013

La Unión

Morazán San Miguel

Usulután San

Vicente Cabañas

La PazCuscatlán

San Salvador La Libertad

Chalatenango Sonsonate Santa Ana

Ahuachapán 0.0 10.0 20.0 30.0 40.0 50.0 60.0Porcentaje de hogares

En el pictograma se puede observar que las barras correspondientes al porcentaje medido para cada departamento están construidas con un símbolo que representa un paquete de billetes. Para construir la barra, se utiliza la cantidad requerida de imágenes según sea su longitud.

La barra correspondiente al departamento de la Unión es la más larga y está compuesta de mayor cantidad de símbolos; es decir La Unión presenta el mayor porcentaje de hogares que recibieron remesas durante el 2013. La barra más corta es la correspondiente a San Salvador y por ello está compuesta de menor

Centro turístico Cantidad devisitantes

Atecozol 980

Costa del Sol 2160

Ichanmichen 530

Lago de Ilopango 1430

Centro turístico Cantidad de visitantes Ángulo del sectorAtecozol 980 69°Costa del sol 2160 152°Ichanmichen 530 37°Lago de Ilopango 1430 101°Total 5100 360°

3

cantidad de símbolos; es decir San Salvador presenta el menor porcentaje de hogares que recibieron remesas durante el 2013.

2.3. Gráfico de sectores

Un gráfico de sectores es una representación circular de las frecuencias relativas de una variable cualitativa (categórica) o discreta que permite su comparación de una manera sencilla y rápida.

Suponga que el Ministerio de Turismo ha publicado una tabla con los conteos de visitantes a 4 centros turísticos durante las vacaciones de Semana Santa 2017. El gráfico de sectores correspondiente quedaría como se muestra a continuación.

Visitantes a centros turísticosLago de Ilopango

1430

Atecozol 980

Fuente: Ministerio de Turismo de El Salvador. Ichanmichen

530Costa del Sol

2160

Se observa que la categoría que tiene la mayor cantidad de visitantes (Costa del Sol), tiene el sector más grande en el gráfico. Observación similar podemos hacer con la categoría que tiene la menor cantidad de visitantes (Ichanmichen).

El círculo representa la totalidad que se quiere observar (en el ejemplo, total de visitantes) y cada porción, llamadas sectores, representan la proporción de cada categoría de la variable (en el ejemplo, centro turístico) respecto al total. Puede expresarse en valores absolutos o en porcentajes.

Obtención de los ángulos de cada sector:

Para elaborar un diagrama de sectores manualmente, se requiere calcular el ángulo que abarcará cada uno de los sectores que representa las categorías de la variable. El cálculo del ángulo de cada sector sehace a través de la fórmula siguiente: Angulo de sector = Frecuencia del sector

Suma total de frecuencias×360

Frec

uenc

ias

3

2.4. Histograma

Se usa para representar las frecuencias de una variable cuantitativa continua. En uno de los ejes se posicionan las clases de la variable continua (los intervalos o las marcas de clase que son los puntos medios de cada intervalo) y en el otro eje las frecuencias. No existe separación entre las barras.

Considérese la situación planteada en el apartado 2.1.3, en el que se recopilaron datos de la prueba de logros para los centros educativos de Educación Básica.

Intervalo Frecuencia FrecuenciaRelativa

Marca declase F Abs. Acum. F Rel. Acum.

3.5 - < 4.1 10 0.16 3.8 10 0.164.1 - < 4.7 24 0.38 4.4 34 0.544.7 - < 5.3 12 0.19 5.0 46 0.735.3 - < 5.9 7 0.11 5.6 53 0.845.9 - < 6.5 5 0.08 6.2 58 0.926.5 - < 7.1 2 0.03 6.8 60 0.957.1 - < 7.7 3 0.05 7.4 63 1

n = 63 Suma = 1

El Histograma correspondiente a los datos de esta tabla se presenta a continuación.

Resultados de Prueba de logros 201230

24

20

1012

10 7 52 3

03.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7

Intervalos de notas

Algunas características que se observan en el histograma son:

• Las barras no tienen separación entre ellas.• En el eje horizontal se presentan los intervalos de clase de las notas de la prueba de logros.• En el eje vertical se colocan los valores de las frecuencias correspondientes a cada intervalo de

clase.• Las notas más frecuentes son las que corresponden al intervalo 4.1 – 4.7

3

Frec

uenc

ias

Polígono de frecuencias

Si se unen los puntos medios de las bases superiores de las barras del histograma se obtiene el polígono de frecuencias.

Resultados de Prueba de logros 201230

25 24

20

15 1210

10 75

5 2 3

0.. 3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7 ..

2.5. Gráficos Bi-direccionales y pirámides poblacionales

Un gráfico de barras bi-direccional tiene o rie n t ación h o ri z o n tal y contiene dos series de datos cuyas barras de frecuencias crecen en sentidos opuestos. Las más comunes son las pirámides de población.

Matrícula en Educación Básica por nivel 2016

Ciclo III

Ciclo II

Ciclo I

350 300 250 200 150 100 50 0 50 100

Miles de matriculados

Público Privado

Fuente: Censo escolar 2016 MINED El Salvador

En este gráfico bi-direccional se presentan los datos de la variable Matrícula en Educación Básica, que tiene tres categorías: Ciclo I, Ciclo II, Ciclo III. Obsérvese que al estar las barras en disposición horizontal, los rótulos de las categorías de la variable aparecen en el eje vertical, mientras que los datos de las frecuencias de cada categoría aparecen en el eje horizontal. Para esa variable categórica se grafican dos series de

3

datos. Una de ellas se refiere a la matrícula en el sector público y la otra serie se refiere a la matrícula en el sector privado. Cada serie de datos se diferencia por el color de la barra y crecen en sentidos opuestos.

Pirámide de población

Una pirámide de población es un h ist o g r a ma bi-d irecc i o n al que muestra la estructura demográfica de una población, por sexo y edad, en un momento determinado. Por la naturaleza de los datos, es un gráfico que corresponde a una variable de naturaleza continua. En el eje vertical se posicionan los rangos de edades y en el horizontal los porcentajes de población de cada rango de edad.

En una de las direcciones se colocan las barras que representan la distribución (% sobre el total de población) por edad de los varones y en la otra la distribución por edad de las mujeres.

Fuente: VI Censo de Población 2007. DIGESTYC El Salvador

Del gráfico mostrado se puede extraer las siguientes observaciones:

1. La base de la pirámide poblacional es relativamente ancha y comienza a estrecharse a partir del rango de 15 a 19 años de edad, tanto en los hombres como en las mujeres. Esta tendencia a estrecharse se mantiene en los rangos de edad siguientes.

2. En los hombres el mayor porcentaje de la población se encuentra en el rango de edad de 10 a 14 años, respecto de los demás rangos de edad. El mismo resultado se observa para la población de mujeres. Esta característica de la pirámide poblacional coloca a El Salvador entre los países con población joven.

3. En todos los rangos de edad, el porcentaje de población de mujeres es muy similar al de hombres.

IPC 2016 - 2017(Base diciembre 2009)

ene-16 110.67feb-16 110.37

mar-16 110.32abr-16 110.05

may-16 110.13jun-16 110.24jul-16 110.12

ago-16 109.85sep-16 109.51oct-16 109.79nov-16 109.78dic-16 109.58

ene-17 110.39feb-17 110.69

mar-17 110.92

3

2.6. Gráfico de líneas

Un gráfico de líneas es una representación gráfica en un eje cartesiano, tal que en el eje horizontal se representan los valores o categorías de la variable cuyo comportamiento se quiere observar y en el eje vertical se colocan los valores que corresponden a cada medición de la variable en estudio.

Gráfico de líneas para una variable

A continuación, se muestra una tabla de datos del índice de precios al consumidor durante el período de enero 2016 a marzo 2017 en El Salvador. En el eje horizontal se presentan los meses y en el eje vertical la media mensual del índice de precios al consumidor (IPC) correspondiente a cada uno de los meses.

Indice de precios al consumidor Base Diciembre 2009

111.5

111.0

110.5

110.0

109.5

109.0

108.5

Fuente: Estadísticas del Banco Central de Reserva de El Salvador.

Los gráficos de líneas se suelen usar para presentar tendencias temporales y pueden incluirse en un mismo gráfico los datos de varias variables para compararlas.

Gráfico de líneas para varias variables

Cuando se elabora un gráfico de líneas para más de una variable y los datos recolectados de las variables corresponden a una serie de tiempo, en el eje horizontal se colocan las unidades de tiempo y en el vertical se introduce la serie de valores de las variables cuya variación en el tiempo se quiere observar. Esta situación se muestra en el siguiente gráfico que corresponde a los índices de precios al consumidor reportados por el Banco Central de Reserva para 4 bienes o servicios en los meses desde enero 2016 a marzo 2017.

IPC

Ene

Feb

Mar

Abr

May

Jun Jul

Ago

Sept

Oct

Nov

Dic

Ene

Feb

Mar

3

150

140

130

120

110

100

90

Indice de precios al consumidorde bienes seleccionados - Base Dic 2009

1.2 Bebidas Alcohólicas, Tabaco

1.4 Alojamiento, Agua, Electricidad, Gas y otros Combustibles

1.1 Alimentos y Bebidas no Alcohólicas

1.3 Prendas de Vestir y Calzado

I---------------------------2016------------------------I----2017---I

Fuente: Estadísticas del Banco Central de Reserva de El Salvador

En el gráfico se observa la tendencia de los valores de cada uno de los 4 bienes o servicios reportados. Cada línea corresponde a un bien o servicio. En el eje horizontal se colocan los meses correspondientes a las mediciones y en el eje vertical se colocan los valores reportados para cada bien o servicio.

Algunas conclusiones que se obtienen del gráfico son:

• Los precios de las prendas de vestir y calzado (la línea de menores valores en el gráfico) inician con un valor cercano a 100 al inicio del período, lo cual significa que ese precio es prácticamente igual al precio base de diciembre 2009. En el transcurso de los meses ese precio se acerca al valor 90, lo cual significa que el precio de ese bien ha experimentado una disminución en su precio relativo al precio del mes de referencia (diciembre 2009), tendiendo a ser un 90% de ese precio.

• Los precios de las bebidas alcohólicas y tabaco (línea de mayores valores en el gráfico) inician con un valor 140, que representa un incremento del 40% en el precio de ese bien para el mes de enero 2016 respecto de su precio en el mes de base (diciembre 2009). A lo largo del período, su precio tiende a incrementarse y llegando a un valor cercano a 145 en el mes de marzo 2017, lo cual representa un incremento del 45% en el precio de ese bien respecto al precio en el mes de base.

3. Medidas de tendencia central y dispersión

Se ha venido analizando en los temas anteriores, las diferentes estrategias para poder representar y organizar la información a través de tablas de frecuencias y gráficas elementales, que son obtenidas de una investigación de una población o de una muestra. Sin embargo, el análisis de información estadística no solo finaliza con la representación de tablas y gráficas, sino que más bien se requiere que la información sea representada a través de un número o estadístico que describa el comportamiento de lo observado.

Las medidas de tendencia central, permiten que los datos se condensen en un solo valor para

3

representar la totalidad de los datos.

3

El propósito principal de obtener las medidas de tendencia central es:

I. Mostrar en qué lugar se ubica el elemento promedio o típico del grupo.II. Sirve como un método para comparar o interpretar cualquier valor en relación con el puntaje

central o típico.III. Sirve como un método para comparar el valor adquirido por una misma variable en dos

diferentes ocasiones.IV. Sirve como un método para comparar los resultados medios obtenidos por dos o más

grupos. Entre los tipos de medidas de tendencia central más comunes se tienen:

• Media aritmética o media• Mediana• Moda

3.1. Media aritmética

Datos numéricos no agrupados

Es la medida más conocida, la más fácil de calcular. Es una medida que siempre se ha utilizado para calcular el promedio de calificaciones obtenidas en cada periodo escolar (ciclo, año, etc.), entre otras aplicaciones. Normalmente se le denomina simplemente media o promedio, y es utilizada en la mayoría de los casos, aunque a veces conduce a resultados que no revelan lo que se pretende representar.

La media es altamente sensible a cualquier cambio en los valores de la distribución. No es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan variaciones dentro de un margen razonable.

Ejemplo 2.1. Volvamos a los datos del número de sismos (marzo 2015), estudiado en la distribución de frecuencias. Ahora, se presentan en la siguiente serie simple: 1, 4, 4, 8, 7, 8, 4, 4, 5, 8, 8, 3, 3, 0, 5, 2, 12, 6,3, 5, 11, 6, 3, 2, 6, 9, 4, 12, 6, 2, 0. ¿Cuál es el promedio diario de sismos?

Solución:

x 1 + 4 + 4 + 8 + 7 + . . . . + 1 2 + 6 + 2 + 0 16 1 5.1931 31

El número de sismos del mes de marzo 2015, en promedio fue de 5.19. Este número representa un valor central del conjunto de datos.

Media Aritmética es la suma de los valores de todas las observaciones divididas entre el número de observaciones realizadas. Su fórmula es:

� ̅ = � � 𝑎 � �� 𝑎 ��

3

= 𝑥1+𝑥2+⋯+𝑥𝑛 ∑𝑛𝑥𝑖= 𝑖=1�ú�� 𝑎�� 𝑎��

X �𝒊 �𝒊∙ 𝒙𝒊0 2 01 1 12 3 63 4 124 5 205 3 156 4 247 1 78 4 329 1 9

11 1 1112 2 24

Total n = 31 161

3

Media aritmética: Datos agrupados en frecuencia simples

Ejemplo 2.2. Retomando el ejemplo de la cantidad de sismos diarios del mes de marzo de 2015 en El Salvador, se requiere calcular la media aritmética o promedio de sismos en el periodo reportado.

Solución:

1. Debe añadirse a la tabla original una columna

encabezada por �𝒊∙ 𝒙𝒊en donde se anotarán losresultados correspondientes a las multiplicaciones de

cada valor nominal �� por su frecuencia �� respectiva.

2. La suma de los valores de la columna �𝒊∙ 𝒙𝒊es 161 y eltotal de datos es 31. De esta forma, la media aritméticase obtiene:

� ̅ = 16131= 5.19

Se observa que se obtiene el mismo resultado que en datossimples, esto es, que el promedio de sismos diarios del mes de marzo del 2015 fue 5.19.

Media Aritmética para una distribución de frecuencia simple es la suma del producto de los valores de todas las observaciones por la frecuencia absoluta, divididas entre el número de observaciones realizadas o tamaño de la muestra. Su fórmula es:

� ̅ = 𝑥1�1+𝑥2�2+⋯+𝑥𝑛�𝑛

�

∑𝑛𝑥�= 𝑖=1 𝑖𝑖donde n = número de observaciones o tamaño de la muestra.

�

Media aritmética: Datos agrupados en clases de una distribución frecuencia

Cuando los datos recolectados han sido organizados en una tabla de frecuencias por intervalos, el cálculo del promedio, o la media, es parecido al utilizado para tabla de frecuencias simples.

Ejemplo 2.3. Retomando los datos de la prueba de aptitudes y aprendizaje 2012 de los centros educativos, de sexto grado del municipio de San Salvador. ¿Cuál es la nota promedio de un centro educativo?

Intervalo Frecuencia Marca de clase�𝒊

Producto�𝒊∙ �𝒊

3.5 - < 4.1 10 3.8 38

4.1 - < 4.7 24 4.4 105.64.7 - < 5.3 12 5 605.3 - < 5.9 7 5.6 39.25.9 - < 6.5 5 6.2 316.5 - < 7.1 2 6.8 13.6

7.1 - < 7.7 3 7.4 22.2

Total n = 63 309.6

𝑛

3

Solución:

1. Debe añadirse otra columna conteniendo el producto de la marca de clase y la

frecuencia absoluta, es decir: �� .2. La suma de los valores de la columna ��la cual es 309.6 y el total de datos es n = 63,

luego la media aritmética, se obtiene:309.6� ̅ = 63 = 4.91

En promedio cada sección de sexto grado de los centros educativos del municipio de San Salvador hatenido una nota de 4.91 en la prueba de aptitudes y aprendizaje para el año 2012.

La media aritmética para datos agrupados corresponde al cociente del total de la suma del producto de la marca de clase de cada intervalo y la frecuencia absoluta con el número total de datos estudiados:

�̅ = �1 �1 + � 2 �2 + ⋯ + � 𝑛 �𝑛 = ∑𝑖=1 �𝑖�𝑖� �

�: �� ( ú� �� ).��: �� y ��: �� Características de la media:

• La media aritmética viene expresada en las mismas unidades que la variable.• En su cálculo intervienen todos los valores de la distribución.• Es el centro de gravedad de toda la distribución, representando a todos los valores observados.

3.2. Mediana

Datos

simples

La mediana en ocasiones es llamada media posicional, porque queda exactamente en la mitad de un grupode datos, luego de que los datos se han ordenado de forma ascendente. En este caso la mitad (50%) de los datos estará por encima de la mediana y la otra mitad (50%) estará por debajo de ella.

a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central ordenados de manera ascendente o descendente.

Ejemplo 2.4. Se consideran los salarios en dólares para 11 vendedores: $243, $320, $311, $254, $234,$261, $239, $310, $218, $267, $287. Calcular la mediana de los salarios.

Solución:

3

1. Primero se ordenan los datos de menor a mayor: $218, $234, $239, $243, $254, $261, $267, $287,$310, $311, $320.

3

2. Obtener la posición central donde se encuentra la mediana, se utiliza la siguiente expresión:�+1 → 11+1 = 12 = 6. La posición donde se encuentra la mediana es 6.2 2 23. El valor de la mediana (está sombreado con escala gris en los datos ordenados) es:

Mediana = Md= $261

La mitad de los salarios de los vendedores están por debajo de $261 y la otra mitad son mayores que$261.

b) Cuando el número de datos es par: La mediana será el valor medio de los dos valores centrales ordenados de manera ascendente o descendente.

Ejemplo 2.5. Ahora se consideran los salarios en dólares para 12 vendedores; los cuales se han presentado ordenados anteriormente $218, $234, $239, $243, $254, $261, $267, $287, $310, $311,$320 y $322: Calcular la mediana de los salarios.

Solución:

Los datos ya están ordenados de forma ascendente. Ahora, para obtener la posición central

nuevamente se utiliza la expresión:n 1

12 1

6.5 . Entonces la mediana corresponde

al2 2

promedio de los dos valores centrales, los que están en la posición 6 y 7, esto es:$261 + $267 2 = $264Este valor indica que la mitad de los salarios de los vendedores son menores que $264 mientras que laotra mitad de salarios es mayor que $264.

Mediana: Datos agrupados en frecuencia simples

Variable (x)01234

Frecuencia

�𝒊21345

Frecuencia

Acumulada, 𝑵𝒊236

1015

Ejemplo 2.6. Nuevamente, haciendo referencia a los datos delregistro de sismos reportados en marzo 2015, calcular la mediana en el periodo reportado.

Solución:

1. Para obtener la posición central, se utiliza la expresión:

5 3 186 4 22 n 1 31 1 16 ,7 1 23 2 2

4

8 4 279 1 28 2. Identificar la primera frecuencia acumulada mayor o

11 1 29 igual a 16 (posición de la mediana), esta es 18.12 2 31

n = 31

4

3. Localizada la frecuencia acumulada mayor o igual a la posición de la mediana, se determina el valor dela variable, ya que dicho valor corresponde a la mediana, esto es: Md = 5.

Interpretación: El 50% de los sismos diarios ocurridos en marzo de 2015 están por debajo de 5, mientras que el otro 50% está por arriba de 5 sismos diarios.

Mediana: Datos continuos

Si los datos están agrupados en clases, la mediana no se obtiene de forma directa, sino que se utiliza interpolación, tal como se muestra a continuación.

Deducción de la fórmula de la mediana para datos agrupados en clasesSuponer que la mediana (��) se encuentra en la fila i-ésima de la tabla de frecuencias agrupadas, cuyos datos se representan en la siguiente gráfica.

En el gráfico se observa dos triángulos semejantes, utilizando la relación entre ambos triángulos se tiene:

n 2 − Ni−1Md − Li−1

ni= Li − Li−1

⟹ Md = Li−1

n + (2 − Ni−1) Cni i

Donde:

Li−1 : Límite inferior del intervalo donde se encuentra la mediana, el cual se determina observando la primera frecuencia acumulada mayor o igual a �⁄2Ni−1: Frecuencia acumulada anterior del intervalo donde se encuentra la mediana.ni: Frecuencia absoluta del intervalo donde se encuentra la mediana.

Ci: Ancho del intervalo i-ésimo.

Intervalo Frecuencia, 𝐧𝐢 𝐍𝐢3.5 - < 4.1 10 104.1 - < 4.7 24 344.7 - < 5.3 12 465.3 - < 5.9 7 535.9 - < 6.5 5 586.5 - < 7.1 2 607.1 - < 7.7 3 63

Total n = 63

(

4

Ejemplo 2.7. Se consideran nuevamente los datos de la prueba de aptitudes y aprendizaje 2012 de los centros educativos del municipio de San Salvador, para estudiantes de sexto. Obtener la mediana para los datos en estudio.

Solución:

1. Total de datos (n=63).2. Calcular la posición de la mediana, utilizando la siguiente

�expresión 2 ⟹ 632= 31.5, independientemente si n es

par o impar.3. Se ubica la posición de la mediana en la tabla de frecuencias. Para ello se observa la primera

frecuencia acumulada que tenga un número mayor o igual a la posición de la mediana (clase de la mediana).

4. La primera frecuencia acumulada (Ni) mayor o igual que 31.5, se encuentra en la segunda clase, que corresponde al intervalo 4.1 – < 4.7, que tienen Ni = 34.5. Identificada la clase de la mediana se utiliza la siguiente ecuación:n − N

Md = Li−1 + (2 i−1

ni) Ci

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6Sustituyendo los datos anteriores en la fórmula de la mediana se tiene:

Md = 4.1 +31.5−10

24

) 0.6 = 4.1 + (

21.5) 0.6 = 4.1 + 0.54 = 4.6424

Interpretación: La mitad de los resultados obtenidos en la PAESITA 2012 que representa a los estudiantesde sexto grado de los centros educativos del municipio de San Salvador están por debajo de 4.64 y la otra mitad tiene notas arriba de 4.64.

Características de la mediana:

• No se ve afectada por los valores extremos. Esta es la propiedad más importante que tiene.• Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, excepto, cuando

la posición de la mediana caiga en una de las clases abiertas.

La mediana: Es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente. Representa al valor que deja por debajo al 50% de los datos y por encima de él al otro 50%

4

de los datos. La mediana se simboliza con las letras: Md

4

Categoría FrecuenciaDistracción del conductor 14No guardar distancia reglamentaria 13Invadir carril 12Ebriedad 1No respetar señal de prioridad 8Velocidad excesiva 9

n = 57

3.3. Moda (Mo)

Datos categóricos

Ejemplo 2.8. Retomando la información obtenida en la tabla de distribución de frecuencias de las causas de accidentes de tránsito.

¿Cuál será ese número que mejor los representa?

Solución:

Se observa que la distracción del conductor aparece con mayor número de repeticiones respecto a los demás. Esto quiere decir que los accidentes de tránsito fueron ocasionados con mayor frecuencia por la distracción del conductor (causa 1). A esta causa se le llama Moda (Mo)

Moda: Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el que tiene mayor frecuencia absoluta. Y se representa por:

Mo = mayor frecuencia o repeticiones de elementos

Ejemplo 2.9. En el Programa de Formación Docente se desea investigar el estado civil de los especialistas del módulo 8 de Matemática. Para esto se hace la consulta a 10 de ellos, obteniendo los siguientes resultados: Soltero, Soltero, Casado, Soltero, Divorciado, Casado, Soltero, Acompañado, Viudo y Soltero. Determine la moda del estado civil de los 10 especialistas.

Solución:

Existen cinco categorías de estado civil y el que aparece con mayor frecuencia es Soltero. Por lo tanto:

Mo = Soltero

El valor de Mo se interpreta como: El estado civil de la muestra de especialistas del Programa de Formación Docente, resulta que en su mayoría son Solteros o, dicho de otra forma, es el estado civil que más predomina o se repite entre los especialistas.

Moda: Datos simples

Ejemplo 2.10. La cantidad de errores de facturación por día en un almacén, durante un período de 20 días, fueron los siguientes (se han ordenado los datos de forma ascendentemente): 0, 0, 1, 1, 1, 2, 4, 4, 4, 5, 6,6, 7, 8, 8, 9, 9, 10, 12, 12. Determinar la moda de los errores.

4

Intervalo Frecuencia3.5 - < 4.1 104.1 - < 4.7 244.7 - < 5.3 125.3 - < 5.9 75.9 - < 6.5 56.5 - < 7.1 27.1 - < 7.7 3

Total n = 63

Variable(x)

Frecuencia𝒇0 21 12 33 44 55 36 47 18 49 1

11 112 2

n = 31

Solución:

Se observa que el 1 y el 4 se repiten igual número de veces (3 ocasiones). Por lo tanto, esta serie de datos tiene 2 modas. Se la llama distribución bimodal. Moda 1 = 1 y Moda 2 = 4.

Ejemplo 2.11. Volvamos al ejemplo de sismos reportados por el MARN en el periodo de marzo 2015 agrupados en tablas de frecuencia simples. Ahora se requiere calcular la moda.

Solución:

Al recorrer la columna de las frecuencias, se localiza que la mayor frecuencia es 5 y corresponde al valor de 4 en la variable en estudio (número de sismos). Por lo tanto, es: Mo = 4.

Interpretación: La mayor frecuencia de sismos ocasionados en el periodo reportado en 2015 corresponde a 4. Dicho de otra forma, en el mes de marzo de 2015 la cantidad de sismos que más ocurrieron diariamente fueron 4.

Moda: Datos agrupados en clases

Ejemplo 2.12. Considerando la tabla de frecuencia agrupada en clase de la PAESITA 2012. Determinar la moda de los datos.

Solución:

4. Determinar el intervalo que tiene la mayor cantidad de repeticiones.2. Al recorrer la columna de las frecuencias, se localiza que la clase con

mayor frecuencia es: 4.1 – < 4.7, se le denomina clase modal.3. Partiendo de la clase modal se determina los siguientes

valores:

Li−1 = L1 = 4.1, n1 = 10, n2 = 24, n3 = 12 y Ci = C2 = 0.6además: �1 = 24 − 10 = 14 y �2 = 24 − 12 = 12

Sustituyendo los datos anteriores en la fórmula de la moda se tiene:

�1�0 = ��−1 + ( 14 ) �� ⟹ �0 = 4.1 + ( ) 0.6 = 4.42�1 + �2 14 + 12

Interpretación: Las notas que más se repitieron en la PAESITA 2012 para estudiantes de sexto grado delos centros educativos del municipio de San Salvador, fue alrededor de 4.42.

�

4

La Moda: El valor más repetido o frecuente en los datos.

�0 = ��−1 + ( 1�1+ �2

) ��

��−1 = �� 1 = �� (�1 = �� −��−1)�2 = �� (�2 = �� −��+1)

� � = �� Característica de la moda

• Se puede utilizar para datos cualitativos nominales u ordinales y para datos cuantitativos.• No se ve afectada por los valores extremos.• Se puede utilizar cuando la distribución de frecuencias tenga clases abiertas, excepto que la clase

modal sea abierta.• Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, se dice que no tiene

moda.

4. Medidas de dispersión para datos discretos y continuos

A pesar de la gran importancia de las medidas de tendencia central y de la cantidad de información que aportan individualmente, en muchas ocasiones esa información no es completa, o puede inducir a errores en su interpretación. Por ejemplo, hay 3 personas que trabajan en la construcción cuyos salarios son de$235, $240 y $238, y dos ejecutivos de empresas con salarios de $5,200 y $5,250, se obtiene que el salario promedio de las 5 personas es: $2,232.60. Esta cifra sin más información llevaría a pensar que cada individuo gana alrededor de $2,200, lo cual es totalmente falso, por lo que se hace necesario conocer otras medidas, que indiquen la variabilidad de los datos y, por ende, la confiabilidad del resultado.

Existen diversas medidas de dispersión, algunas de ellas son:

• Rango.• Varianza y desviación estándar.• Coeficiente de variación.

4.1. Rango, amplitud total o recorrido

Ejemplo 2.13. Se presenta a continuación dos series de datos discretos donde se compara la cantidad de niños reportados con lesiones. Determinar la variabilidad total de cada serie.

Serie 1: 1 5 7 7 8 9 9 10 17Serie 2: 2 4 6 8 10 12 14 16 18

4

Solución:Serie 1: El dato mayor de la serie 1 es �(�) = 17 y el dato menor e �(1) = 1, el rango o variabilidad total de los datos es: 17 -1 = 16.

Serie 2: El dato mayor de la serie 2 es �(�) = 18 y el dato menor e �(1) = 2, el rango o

variabilidad totalde los datos es: 18 -2 = 16.

Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido. El uso de esta medida de dispersión, es bastante limitada.

Características del rango:

• Es relativamente sencilla su obtención.• El significado de esta medida es fácil de comprender, ya que representa la variabilidad total de

los datos.• Se utiliza en variables numéricas.

Rango: Es la diferencia entre el mayor y el menor de los valores observados: � = �(�) − �(1), siendo �(�)la observación mayor y �(1) la observación menor.4.2. Varianza y desviación estándar

muestral

Las medidas de dispersión más utilizadas son las que consideran las desviaciones promedio con respecto a alguna medida de tendencia central. Su información mide el grado de representatividad de las medidas de tendencia central del conjunto de datos que provienen. En este dossier se presentan: la varianza y la desviación estándar.

Varianza: Datos simples

Ejemplo 2.14. Con el fin de ilustrar el cálculo de la varianza se presenta la siguiente serie de datos no agrupados 9, 3, 8, 8, 9, 8, 9, 18. Determinar la varianza y la desviación típica o estándar.

Solución: Para calcular la varianza se sugieren los siguientes pasos:

1. Primero se obtiene la media de la serie de datos:

� ̅ = 9 + 3 + 8 + 8 + 9 + 8 + 9 + 18 = 982. Se obtienen las desviaciones de los datos respecto a la media (�� − � ̅) y se elevan al

cuadrado(�� − � ̅)2, así:

(9 − 9)2, (3 − 9)2, (8 − 9)2, (8 − 9)2, (9 − 9)2, (8 − 9)2, (9 −

9)2, (18 − 9)23. Se obtiene la suma de las desviaciones al cuadrado, tal como se muestra a continuación:

(0)2 + (−6)2+(−1)2 + (−1)2 + (0)2 + (−1)2 + (0)2 + (9)2

0 + 36 + 1 + 1 + 0 + 1 + 0 + 81 = 12043

4

4. Se divide el total de la suma de las desviaciones al cuadrado entre el total de datos menos 1 (n-1).En algunos textos de estadística se divide por n, sin embargo, en este documento se utilizará como denominador (n-1), ya que esta variante hace que la varianza sea insesgada (el estudio de la propiedad de estimadores insesgados supera los objetivos de este módulo).

1208 − 1120= 7

= 17.14Interpretación. Esto significa que el promedio de alejamiento al cuadrado de todos los valores respectode la media (de 9) es de 17.14.

No es recomendable utilizar la varianza para determinar la representatividad de la media sobre un conjunto de datos, ya que las unidades de la varianza están elevadas al cuadrado (no en las unidades de los datos), por lo que, se recomienda utilizar la desviación estándar que se obtiene como raíz cuadrada de la varianza y representa la variabilidad de los datos respecto a la media.

Determinar la desviación típica o estándar

Desviación típica = s = √17.14 = 4.14Interpretación: En promedio los valores se alejan de la media en 4.14 unidades.

Para finalizar con este ejemplo observe lo siguiente:

•En el intervalo (� ̅ − �, � ̅ + � ) = (9 − 4.14, 9 + 4.14) = (4.86, 13.14) están el 75% de los datos, esto es, únicamente no están dentro del intervalo los valores de 3 y 18.

•En el intervalo (� ̅ − 2�, � ̅ + 2� ) = (9 − 2(4.14), 9 + 2(4.14)) = (0.72, 17.28) están el87.5% de los datos, esto es, únicamente no está dentro del intervalo el valor de 18.

•En el intervalo (� ̅ − 3�, � ̅ + 3� ) = (9 − 3(4.14), 9 + 3(4.14)) = (−3.42, 21.42) están el100% de los datos.

En general, si los datos se distribuyen aproximadamente normal (hay una concentración alrededor de la media) se tiene que:

• En el intervalo (� ̅ − �, � ̅ + � ) están aproximadamente el 68% de los datos.

• En el intervalo (� ̅ − 2�, � ̅ + 2� ) están aproximadamente el 95% de los datos.

• En el intervalo (� ̅ − 3�, � ̅ + 3�) están aproximadamente el 99% de los datos.Si se cumplen las condiciones anteriores, se considera que la media es un buen representante de los datos.

4

En la serie de datos del ejemplo 2.14 que se acaba de analizar, los datos se distribuyen así:

• En el intervalo están aproximadamente el 75% de los datos.• En el intervalo están aproximadamente el 87.5% de los datos.• En el intervalo están aproximadamente el 100% de los datos.

Por lo que se concluye que la media es un buen representante de los datos de esta muestra.

Variable Frecuencia �� ∗ (� − (� − 0 2 0 26.97 53.951 1 1 17.59 17.592 3 6 10.20 30.603 4 12 4.81 19.254 5 20 1.42 7.125 3 15 0.04 0.116 4 24 0.65 2.607 1 7 3.26 3.268 4 32 7.88 31.509 1 9 14.49 14.49

11 1 11 33.71 33.71

12 2 24 46.33 92.66

Total n = 31 161 167.35 306.84

2

4

La varianza muestral se representa por: �2 = ( 𝑥1−𝑥̅)La desviación típica o estándar es: � = √�2

+(𝑥2−𝑥̅)2

�

−1

+⋯+(𝑥𝑛−𝑥̅)2

Datos agrupados en frecuencias simples

Ejemplo 2.15. Retomando ejemplo del número sismos del mes de marzo de 2015 en El Salvador, determinar la varianza muestral y la desviación típica.

Solución:

Paso 1. Se obtiene la media o el promedio de los datos. 161

� ̅ = = 5.1931Paso 2. Se agrega otra columna que

contendrá la diferencia de (� − � ̅)2Paso 3. Se realizará el producto de ladiferencia al cuadrado por la

frecuencia. Paso 4. Sumar los valores de la última columna de la tabla de la izquierda (306.84).

Paso 5. Dividir el resultado del paso 4 entre n-1 (31-1=30).

Los pasos 4 y 5 se resumen en la siguiente expresión (varianza): ∑11 (�� − � ̅)2��

306. 84 𝑉��

�� = �2 =

�=031 − 1= = 10.2330

Desviación típica: � = √10.23 = 3.2Interpretación: En promedio el número de sismos diarios se alejan de la media (de 5.19) en 3.2.

¿Es para este caso la media un buen representante de la cantidad de sismos que ocurren por día durante

4

el mes de marzo de 2015?

Datos agrupados continuos

Cuando los datos han sido organizados en clases o intervalos, la varianza y desviación estándar se obtiene de manera similar al proceso utilizado para tablas de frecuencias simples, sustituyendo el valor de la variable (x) por el punto medio de la clase (m). A continuación se ilustra este proceso.

4

Intervalo �𝒊 �𝒊 �𝒊∗ �𝒊 (�𝒊− � ̅)2 (�𝒊− �̅)2 ∗ Ejemplo 2.16. Se retoman nuevamente los datos de la prueba de aptitudes y aprendizaje, PAESITA 2012. Determinar la varianza y la desviación típica.

Solución:

Paso 1. Se obtiene la media o el promedio de los datos. 309.663Paso 2. Se obtiene la diferencia de lamarca de clase y la media, y se eleva al cuadrado.

3.5 - < 4.1 10 3.8 38.0 1.2 12.4

4.1 - < 4.7 24 4.4 105.6 0.3 6.3

4.7 - < 5.3 12 5 60.0 0.0 0.1

5.3 - < 5.9 7 5.6 39.2 0.5 3.3

5.9 - < 6.5 5 6.2 31.0 1.7 8.3

6.5 - < 7.1 2 6.8 13.6 3.6 7.1

7.1 - < 7.7 3 7.4 22.2 6.2 18.5

Total n = 63 309.6 56.1

Paso 2. Se obtiene la diferencia de la marca de clase y la media, y se eleva al cuadrado.

Paso 3. Se realiza el producto de la diferencia de la marca de clase y la media, al cuadrado y se multiplica la frecuencia absoluta.

Paso 4. Se suman los valores de la última columna y se divide por n-1 (63-1=62), esto es equivalente a realizar la siguiente operación:

11 2�2 = ∑𝑖=0(�𝑖−�̅�) �𝑖= 56 . 1 = 0.9.63−1 62

El resultado anterior es la varianza muestral. A continuación se obtiene la desviación típica:

� = √0.9 = 0.95Interpretación: Los centros educativos tienen notas muy similares, ya que en promedio se alejan de lamedia (de 4.9) en 0.9 unidades. En este ejemplo, la media es un buen estadístico para representar la nota de todos los centros educativos que participaron en la PAESITA 2012.

La varianza muestral se representa por �2 y se obtiene a través de la siguiente expresión:( �1 − � ̅)2�1 + (�2 − � ̅)2�2 + ⋯ + (�� − � ̅)2��

�2 = � − 1NOTA: La varianza es el puente para llegar a la desviación típica y esta última es la que mide la variabilidadde los datos.

4.3. Coeficiente de Variación (CV)

Se utiliza para comparar la dispersión de dos conjuntos de datos que tienen unidades diferentes, ya que representa una medida relativa de dispersión.

√ √

4

�� ó� = =��

�(100)� ̅

Ejemplo 2.17. Una empresa que produce botellas, quiere investigar la variabilidad de la resistencia alrompimiento de dos tipos de marca, para ello toma las siguientes muestras:

Muestra 1: 230 250 245 258 265 240Muestra 2: 190 228 305 240 265 260

Utiliza los datos anteriores para determinar el tipo de botella que tiene menor variabilidad de la resistencia al rompimiento.

Solución:

Primero se determina la media y la desviación típica para ambos tipos de

botellas: Muestra 1: Muestra 2

x

248∑6 (�� − � ̅)2 = 790 ∑6 (�x

248− � ̅)2 = 7510

�=1 �=1 �n = 6 n = 6

� = 7905

= 12.57 � =75105

= 38.76CV = (12.57/248)*100= 5.07% CV = (38.76/248)*100 = 15.63

Interpretación: La media es la misma en ambos tipos de botella, sin embargo, el coeficiente de variación es menor en la muestra 1 (tipo de botella 1), por tanto, el tipo de botella 1 presenta menor variabilidad de la resistencia al rompimiento.

Finalmente, el CV se utiliza para determinar el grado de representatividad de la media de los datos, para ello, se considera los siguientes criterios:

Valor de CV Grado de representatividad de la media.0 - < 10% Media altamente representativa

10% - < 20% Media bastante representativa

5

20% - < 30% Media tiene representatividad30% - < 40% Media con representatividad dudosa40% o más Media carente de representatividad

5

5. Medidas de posición

Una vez desarrollado el estudio de las distribuciones de frecuencias y representaciones gráficas de una variable, se avanzó a resumir la información de las variables mediante las medidas de tendencia central y de dispersión. Por otra parte, un elemento importante en el análisis de un conjunto de datos, es conocer la ubicación de los datos dentro de un contexto de valores posible.

5.1. Cuartiles

Datos simples

Ejemplo 2.18. Inasistencia a clases

Al finalizar el año escolar el profesor de Matemática cuenta los días de inasistencia a clase de cada uno de sus alumnos, obteniendo los siguientes datos: 4, 8, 5, 6, 4, 7, 2, 4, 7, 8, 9, 10, 11, 12, 13, 12, 11, 10, 12, 6,7, 12, 9, 8, 9, 12, 11, 13, 14, 15, con dicha información quiere calcular los siguientes estadísticos:

a) ¿Cuál fue el número máximo de días que faltó a clases el 25% de los alumnos con menos inasistencias?

b) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos inasistencias?

c) ¿Cuál fue el número mínimo de días que faltó a clase el 25% de los alumnos con más inasistencias?

Solución:

Al analizar cada uno de los literales anteriores, se observa que se quiere dividir los datos en 4 grupos de estudiantes, tal como se representan en el siguiente esquema:

Ahora, para responder cada uno de los literales se realizarán los siguientes pasos:

1) El total de alumnos es: n = 30.2) Ordenar los datos de menor a mayor, esto es: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11,

11, 12, 12, 12, 12, 12, 13, 13, 14, 15.3) Calcular la posición de cada uno de los cuartiles, para ello, se utiliza la siguiente expresión:

�(� + 1)4 , � = 1, 2, 3Si la posición del cuartil se encuentra en medio de dos valores concretos, el cuartil se obtienepromediando dichos valores.

5

a) Para responder el literal a) se requiere la posición del cuartil 1, esto es:

valores: k = 1 y n = 30 se tiene:

�(�+1). Sustituyendo los

4

4

�(� + 1) =41(30 + 1) =4

31 = 7.754La posición del cuartil 1 es 7.75 y se ubica en la serie de datos ordenados, tal como se muestra acontinuación: 2, 4, 4, 4, 5, 6, 6, posición del cuartil uno, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11,12, 12, 12, 12, 12, 13, 13, 14, 15.

El cuartil 1, entonces, será: �1 =

6+7 =2

13 = 6.52

El valor de 𝑸� = �. � se interpreta como: El 25% de los alumnos faltó a clase 6.5 días o

menosdurante todo el año.

b) Para responder el literal b) se requiere calcular el cuartil 2. Para ello, lo primero es calcular la�(�+1)posición, utilizando la siguiente expresión:

, sustituyendo los valores de k=2 y n=30 se tiene:4

�(� + 1) =4 2(30 + 1) =462 = 15.54

La posición del cuartil 2 es 15.5 y se ubica en la serie de datos ordenados, tal como se muestra acontinuación: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, posición del cuartil dos, 9, 10, 10, 11, 11, 11,12, 12, 12, 12, 12, 13, 13, 14, 15.

El cuartil 2, entonces, será: �2 =

9+9 =2

18 = 92

El valor de 𝑸� = � se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos

durantetodo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de losalumnos fue 9. Es de notar que el cuartil 2 deja un 50% de datos a la izquierda e igual porcentaje deja a la derecha.

c) Para responder el literal c) se requiere calcular el cuartil 3. Para ello, lo primero es calcular la posición, �(�+1)utilizando la siguiente expresión:

, sustituyendo los valores de k=3 y n=30 se tiene:4�(� + 1) = 4 3(30 + 1) =

5

4 93 = 23.254La posición del cuartil 3 es 22.5 y se ubica en la serie de datos ordenados así: 2, 4, 4, 4, 5, 6, 6, 7,7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12 12, posición del cuartil tres, 12, 12, 12, 13, 13, 14, 15.

El cuartil 3, entonces será: �3 =

12+12 =2

24 = 122

El valor de 𝑸� = �� se interpreta como: El 75% de los alumnos faltó a clase 12 días o

menosdurante todo el año o de forma equivalente, 12 fue el número mínimo de días que faltó a clasesel 25% de los alumnos con más inasistencia.

6

Cuartiles: En tablas de frecuencias simples

Ejemplo 2.19. Suponga que las autoridades del Ministerio de Salud están interesadas en conocer el tiempo que se tarda en programar la cirugía a los pacientes de cierto hospital público. Solicitan, entonces, a la Unidad de Consulta Externa y al servicio de hospitalización la programación de los pacientes que han llegado en los primeros 7 días de enero, y obtienen los siguientes datos:

Fecha de consulta N° de pacientes Programación de cirugía2 de enero 6 2 el 8 y 4 el 10 de agosto3 de enero 8 5 el 22 y 3 el 24 de agosto4 de enero 6 3 el 26 y 3 el 28 de septiembre5 de enero 4 3 el 2 y 1 el 4 de octubre6 de enero 7 3 el 8 y 4 el 12 de octubre7 de enero 5 2 el 13 y 3 el 18 de octubre8 de enero 6 3 el 4 y 3 el 8 de noviembre

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 25% de los pacientes?b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 75% de los pacientes?

Solución:

Cuando se tienen los datos agrupados en tabla de frecuencia simples, se utiliza un procedimiento análogo al de datos simples, esto es realizar los siguientes pasos:

1. El total de datos (pacientes) es: n = 42.2. Ordenar los datos de menor a mayor, es equivalente a construir una tabla de frecuencias

que contenga el número de pacientes y número de días que se tardaron para realizar la cirugía, esto es:

Fecha deconsulta

N° depacientes

N° de días deespera

FrecuenciaAcumulada

Programación decirugía

2 de enero2 217 2 8 de agosto4 219 6 10 de agosto

3 de enero5 229 11 22 de agosto3 231 14 24 de agosto

4 de enero3 264 17 26 de septiembre3 266 20 28 de septiembre

5 de enero3 269 23 2 de octubre1 271 24 4 de octubre



8 de enero3 299 39 4 de noviembre3 303 42 8 de noviembre

5

Se observa que se han creado dos columnas que son sumamente importante para responder las preguntas planteadas.

3. Al igual que en datos simples, se calcular la posición de cada uno de los cuartiles, pero para datos�(�)agrupados se utilizará la siguiente expresión: 4 , � = 1, 2, 3.

4. Se ubica la posición de los cuartiles en la tabla de frecuencias. Para ello se observa la primerafrecuencia acumulada que tenga un número mayor o igual a la posición del cuartil. En dichafrecuencia se encuentra el cuartil buscado y. si la posición del cuartil se encuentra entre los valores de dos frecuencias acumuladas. se promedia los dos datos, tal como se hizo para datos simples. Esta situación se presenta en el literal c) de este ejemplo.

a) Para responder el literal a) se requiere la posición del cuartil 1, la cual se obtiene utilizando la�(�)

expresión: 4 y sustituyendo los valores: k=1 y n=42 se tiene:

�(�) =41(42)

42=4 4= 10.5

La posición del cuartil 1 es 10.5 y la primera frecuencia acumulada que supera este valor es 11,entonces el cuartil 1 será:

�1 = 229 días

El valor de 𝑸� = �� se interpreta como: El hospital se tarda 229 días para realizar la cirugía al

25% de los pacientes o equivalentemente que el 25% de los pacientes tuvo que espera a lo sumo229 días para que le realizaran la cirugía desde la fecha de la consulta.

b) Para responder el literal b) se requiere la posición del cuartil 2. Para ello, se sustituyen los valores: k=2 y n=42 en:

�(�) =42(42)

84=4 4= 21

La posición del cuartil 2 es 21 y la primera frecuencia acumulada que supera este valor es 23,

entonces el cuartil 2 será: �2 = 269 días

El valor de 𝑸� = �� se interpreta como: El hospital se tarda 269 días para realizar la cirugía al50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo269 días para que le realizaran la cirugía desde la fecha de la consulta.

c) Para calcular la posición del cuartil 3, se sustituyen los valores: k=3 y n=42 en:

5

�(�) =43(42) =4

1264

= 31.5La posición del cuartil 3 es 31.5 y se ubica exactamente entre dos frecuencias acumuladas, talcomo se muestra en el siguiente parte de la tabla de frecuencias (fondo gris):

5

6 de enero 3 274 27 8 de octubre4 278 31 12 de octubre

7 de enero 2 280 33 15 de octubre3 283 36 18 de octubre

Por lo que, para obtener el cuartil 3 debe promediarse los dos valores, estos son:

�3 = 278+280 = 2

558 = 279 días2

El valor de 𝑸� = �� se interpreta como: El hospital se tarda 279 días para realizar la

cirugía al75% de los pacientes o equivalentemente que 279 días es lo mínimo que debe esperar el 25% delos pacientes que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.

Cuartiles: Tablas de frecuencias agrupadas en clases

Si los datos están agrupados en clases, entonces el cálculo de los cuartiles no se hace de forma directa. Se utiliza interpolación, tal como se hizo con la mediana, la cual coincide con el cuartil 2, esto es:

2 n 4 − Ni−1 =ni ⟹ Md = Q = L

2 n + ( 4 − Ni−1) C

Donde: Md − Li−1

Li − Li−1

2

i−1ni i

Li−1 : Límite inferior del intervalo donde se encuentra el cuartil 2, el cual se determina observando la2nprimera frecuencia acumulada mayor o igual a .4Ni−1: Frecuencia acumulada anterior del intervalo donde se encuentra el

cuartil.ni: Frecuencia absoluta del intervalo donde se encuentra el cuartil.Ci: Ancho del intervalo i-

ésimo.Esta notación se utilizará en las siguientes medidas, evidentemente adaptando a cada situación, porejemplo, si el cálculo se refiera a deciles.

Ejemplo 2.20. Notas de los estudiantes (PAESITA 2012)

5

Para el estudio de los cuartiles para datos agrupados se retoma el ejemplo de las notas que obtuvieron los estudiantes de 6° grado en el municipio de San Salvador en la PAESITA 2012, donde su tabla de frecuencias agrupadas es la siguiente:

Intervalo Frecuencia (𝐧𝐢) Frecuencia acumulada (𝐍𝐢)

3.5 - < 4.1 10 104.1 - < 4.7 24 344.7 - < 5.3 12 46

5

Intervalo Frecuencia (𝐧𝐢) Frecuencia acumulada (𝐍𝐢)5.3 - < 5.9 7 535.9 - < 6.5 5 586.5 - < 7.1 2 607.1 - < 7.7 3 63

n = 63

A partir de los datos de la tabla de frecuencia obtener los siguientes estadísticos:

a) ¿Cuál fue la calificación máxima para el 25% de los centros educativos con menores calificaciones?

b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?

c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

Solución:

Para el cálculo de los cuartiles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza un procedimiento análogo al de datos en tablas de frecuencias simples, esto es:

a) Para responder el literal a) se requiere la posición del cuartil 1. Para ello, se sustituyen los valores: k = 1 y n = 63 en:

�(�) =41(63)=4

63 = 15.754La posición del cuartil 1 es 15.75 y la primera frecuencia acumulada que supera este valor es 34.Entonces el cuartil 1 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula: n − N

Q1 = Li−1 + (4 i−1

ni) Ci


Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6Sustituyendo los datos anteriores en la fórmula del cuartil 1 se tiene:15.75 − 10 5.75

Q1 = 4.1 + (

) 0.6 = 4.1 + ( ) 0.6 = 4.1 + 0.14 = 4.2424 24

5

El valor de 𝑸 � = �. � � se interpreta como: El 25% de los centros educativos que participaron

en laprueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012obtuvieron notas menores o igual que 4.24.

−

5

b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?

La posición del cuartil 2, es: �(�) =4

2(63) =4

1264

= 31.5La primera frecuencia acumulada que supera la posición del cuartil 2 es 34. Entonces el cuartil 2 seencuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula: 2 n − N

Q2 = Li−1 + ( 4 i−1

ni) Ci



Q2 = 4.1 + (

) 0.6 = 4.1 + ( ) 0.6 = 4.1 + 0.54 = 4.6424 24El valor de 𝑸 � = �. � � se interpreta como: el 50% de los centros educativos que participaron

en laprueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012,obtuvieron notas menores o iguales que 4.64.

c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

La posición del cuartil 3 es: �(�) =4

3(63) =4

1894

= 47.25La posición del cuartil 3 es 47.25 y la primera frecuencia acumulada que supera este valor es 53.Entonces el cuartil 3 se encuentra en el cuarto intervalo y se obtiene utilizando la siguiente fórmula:

3n i−1Q3 = Li−1 + ( 4ni ) CiA partir de los datos de la tabla de frecuencia se obtiene:

5


Q3 = 5.3 + (

) 0.6 = 5.3 + (7

) 0.6 = 5.3 + 0.02 = 5.327

El valor de 𝑸 � = �. � � se interpreta como: el 75% de los centros educativos que participaron

en laprueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012,obtuvieron notas menores o iguales que 5.32, o que 5.32 fue la calificación mínima para el 25% delos Centros educativos con mayores calificaciones.

Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

5.2. Deciles

Datos simples

Ejemplo 2.21. Inasistencia a clases

Retomando el ejemplo del apartado de los cuartiles sobre inasistencia a clase, cuyos datos ordenados son: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15. Calcular lossiguientes estadísticos:

a) ¿Cuál fue el número máximo de días que faltó a clases el 20% de los alumnos con menos inasistencias?

b) ¿Cuál fue el número mínimo de días que faltó a clase el 30% de los alumnos con más inasistencias?

c) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos inasistencias?

Solución:

En este caso lo que se quiere es dividir los datos en 10 grupos de estudiantes, como se muestra en el siguiente esquema:

a) Para obtener la posición del decil 2, se sustituyen los valores de k=2 y n=30 en la siguiente expresión:

�(� + 1) =102(30 + 1)=10

62 = 6.210La posición del decil 2 es 6.2 y se ubica en la serie de datos ordenados, tal como se indica: 2, 4, 4, 4, 5,6, posición del decil dos 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15.

El decil 2, entonces será: �2 =

6+6 = 62

55

El valor de �� = � se interpreta como: El 20% de los alumnos faltó a clase 6 días o menos

durantetodo el año.

b) Para responder el literal b) primero calcular la posición del decil 7, sustituyendo los valores de k=7 y n = 30, en:

�(� + 1) =107(30 + 1) =10

21710

= 21.7La posición del decil 7 es 21.7 y se ubica en la serie de datos ordenados así: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7,8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, posición del decil siete, 12, 12 12, 12, 12, 13, 13, 14, 15.

El decil 7, entonces será: �7 =

11+12 =2

23 = 11.52

El valor de �� = ��. � se interpreta como: El 70% de los alumnos faltó a clase 11.5 días o

menosdurante todo el año o de forma equivalente, el número mínimo de días que faltó a clases el 25%de los alumnos que más faltaron a clase fue 11.5.

c) Para calcular la posición del decil 5, se sustituyen los valores de k=5 y n=30, en:

�(� + 1) =105(30 + 1) =10

15510

= 15.5La posición del decil 5 es 15.5 que es exactamente la misma posición del cuartil 2. El decil 5, entonces será: �5 = 9 = �2El valor de �� = � se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante todo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de losalumnos fue 9.

OJO: ¡El cuartil 2 es igual al decil 5!

Deciles: En tablas de frecuencias simples

Ejemplo 2.22. Retomando los datos del Ministerio de Salud del caso de cálculo de cuartiles que se refiere altiempo que se tarda en programar la cirugía a los pacientes de cierto hospital público, responder las preguntas:

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 20% de los pacientes?b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Solución:

Se procede de manera análoga en el caso de los deciles para datos simples:

1) El total de datos (pacientes) es: n = 42.2) Retomar la tabla de distribución de frecuencias construida para los cuartiles.

56

5

3) Calcular la posición de cada uno de los deciles tal como se hizo para datos simples.4) Se ubica la posición de los deciles en la tabla de frecuencias, para ello se observa la primera

frecuencia acumulada que tenga un número mayor o igual a la posición del decil. En dicha frecuencia se encuentra el decil buscado y si la posición del decil se encuentra entre los valores de dos frecuencias acumuladas se promedia los dos datos, tal como se hizo para datos simples, esta situación se presenta en el literal c) de este ejemplo.

a) Para responder el literal a) se requiere la posición del decil 2, para ello, se sustituyen los valores: k = 2 y n = 42 en la siguiente expresión:

�(�) =102(42)=10

84 = 8.410La posición del decil 2 es 8.4 y la primera frecuencia acumulada que supera este valor es 11,entonces el decil 2 será:

�2 = 229 días

El valor de �� = �� se interpreta como: El hospital se tarda 229 días para realizar la cirugíaal 20% de los pacientes o equivalentemente que el 20% de los pacientes tuvo que espera alo sumo 229 días para que le realizaran la cirugía desde la fecha de la consulta.

b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?

Sustituyendo los valores: k = 5 y n = 42 se tiene:

�(�) =105(42) =10

21010

= 21La posición del decil 5 es 21 exactamente la misma del �2 , entonces el decil 5 será:

�5 = 269 días = �2El valor de �� = �� se interpreta como: El hospital se tarda 269 días para realizar la cirugíaal 50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera alo sumo 269 días para que le realizaran la cirugía desde la fecha de la consulta.

c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Sustituyendo los valores: k=8 y n=42 se tiene:

�(�) =108(42) =10

336

10

5

= 33.6La posición del decil 8 es 33.6 y se ubica exactamente entre dos frecuencias acumuladas, talcomo se muestra en el siguiente parte de la tabla de frecuencias (fondo gris):

−

5



Por lo que, para obtener el decil 8 debe promediarse los dos valores, estos son:

�8 = 280+283 = 2

563 = 281.5 días2

El valor de �� = ��. � se interpreta como: El hospital se tarda 281.5 días para

realizar lacirugía al 80% de los pacientes o equivalentemente que 281.5 días es lo mínimo que debeesperar el 20% de los pacientes que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.

Deciles: Tablas de frecuencias agrupadas en clases

Al igual que en el caso de los cuartiles se usa interpolación para deducir la expresión matemática que le define. La fórmula para calcular los cuartiles para datos agrupados en clase es la siguiente:

�� −1

� � = ��−1 + (10��

) ��

Donde k=1, 2, 3, …, 9

��−1: Límite inferior del intervalo donde se encuentra el decil buscado, el cual se determina

observando ��en que clase se encuentra la posición .10

��−1: Frecuencia acumulada anterior al intervalo donde se encuentra la posición del decil buscado.��: Frecuencia absoluta del intervalo donde se encuentra la posición del decil buscado.

��: Es el ancho del intervalo donde se encuentra la posición del decil buscado.Ejemplo 2.23: Notas de los estudiantes (PAESITA 2012)

Retomando el ejemplo de los resultados de la PAESITA 2012 visto en el cálculo de los cuartiles, responder las preguntas:

a) ¿Cuál fue la calificación máxima para el 20% de los centros educativos con menores calificaciones?

b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?

Solución:

6

Para el cálculo de los deciles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza un procedimiento análogo al de datos en tablas de frecuencias simples, esto es:

a) Para calcular la posición del decil 2, se sustituyen los valores: k=2 y n=63 en la siguiente expresión:

6

�(�) =102(63)=10 12

610= 12.6

La posición del decil 2 es 12.6 y la primera frecuencia acumulada que supera este valor es 34, entoncesel decil 2 se encuentra en el segundo intervalo. A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6, k = 2

Sustituyendo los datos anteriores en la fórmula del decil 2 se tiene:12.6 − 10 2.6D2 = 4.1 + (

) 0.6 = 4.1 + () 0.6 = 4.1 + 0.065 = 4.1724 24El valor de �� = �. �� se interpreta como: El 20% de los centros educativos que

participaron enla prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012obtuvieron notas menores o igual que 4.17.

b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?Sustituyendo los valores: k=8 y n=63 se tiene:

�(�) =10 8(63) =1050410

= 50.4La posición del decil 8 es 50.4 y la primera frecuencia acumulada que supera este valor es 53,entonces el decil 8 se encuentra en el cuarto intervalo. A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L3 = 5.3, Ni−1 = N3 = 46 , n4 = 7 y Ci = C4 = 0.6, � = 8

Sustituyendo los datos anteriores en la fórmula del cuartil 3 se tiene:50.4 − 47 3.4D8 = 5.3 + (

6

) 0.6 = 5.3 + () 0.6 = 5.3 + 0.29 = 5.597 7El valor de �� = �. �� se interpreta como: El 80% de los centros educativos que

participaron enla prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012obtuvieron notas menores o iguales que 5.59, o que 5.59 fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones.

Los deciles son los nueve valores de la variable que dividen a un conjunto de datos ordenados en diez partes iguales.

D1, D2 , …, D9 determinan los valores correspondientes al dividir en porciones de 10% respectivamente. D5

coincide con la mediana.

Existen otras medidas de posición que son útiles en el análisis estadístico, pero no se presentan en este documento, ya que se obtiene de forma análoga a los cuartiles o deciles, por ejemplo, los quintiles o percentiles.

6

Introducción a la probabilidad

1. Experimento aleatorio, espacio muestral, suceso o evento

Experimentos

En la vida cotidiana hay muchas situaciones en las que se pueden obtener resultados diferentes, aunque las condiciones iniciales en las que se producen dichas situaciones sean las mismas. Por ejemplo, si un día Pablo sale de su casa hacia la escuela a una hora determinada y espera el transporte escolar 5 minutos y el siguiente día sale de su casa a la misma hora, pero le toca esperar el transporte 7 minutos, el tiempo que Pablo debe esperar el transporte no será el mismo todos los días, entonces se puede decir que es probable que un día deba esperar más o menos tiempo que otro día. En el caso de Pablo, la hora a la que sale de su casa es siempre la misma, por lo que se puede decir que se trata de un e v en t o d ete r mi n ist a , sin embargo, la hora a la que pasa el transporte no es la misma todos los días, por lo que se puede decir que este es un e v ento ale a t o r i o . Así, el primer paso para comenzar a estudiar probabilidad es diferenciar las situaciones aleatorias y deterministas.

A continuación, se presenta una serie de eventos que ayudan diferenciar lo que es un evento determinista y un evento aleatorio.

Ejemplos 3.1. Para cada una de las siguientes situaciones se determinará si es aleatoria o determinista.

No. Evento Resultado1 Ir a la escuela de lunes a viernes Determinista2 Al tirar de un segundo piso un vaso de vidrio, este se romperá al caer. Determinista3 Después del día sigue la noche. Determinista4 Alimentarse al mediodía. Determinista5 Ganar el libro que se está rifando en la Escuela. Aleatoria6 Elegir al azar una vocal de la palabra mariposa. Aleatoria

7 Elegir con los ojos vendados una manzana de una caja que contiene manzanas, peras y mangos. Aleatoria

Se puede observar que cada una de las situaciones planteadas del 1 al 4 tiene únicamente una respuesta, la cual es posible determinar con anterioridad. En los fenómenos presentados en los

6

numerales del 5 al 7,

6

no es posible asegurar cada resultado. Por ejemplo, en el numeral 6 se puede elegir cualquiera de las vocales {a, i, o}, pero no se sabe cuál de ella se va a elegir.

Los e x p e r ime n t o s de te r m i n ist a s o también llamados exactos, se caracterizan porque cada vez que se realizan bajo condiciones similares, producen el mismo resultado. Estos fenómenos no son de interés en probabilidad ya que es posible conocer con anterioridad el resultado.

La probabilidad fundamenta su desarrollo y su aplicación en los denominados experimentos aleatorios. Lo aleatorio es algo que no se puede predecir ya que interviene el azar. Por lo tanto, no es posible prever su resultado antes de que se concrete. Esta clase de fenómenos son estudiados desde la probabilidad para saber con qué frecuencia se puede obtener un determinado resultado, siempre que sea posible.

Un e x p e rime n to a l e a t o ri o : Es cualquier acción o proceso para la que no se tiene certeza del resultado final, hasta que se ejecuta. Este tipo de experimento debe satisfacer los siguientes requerimientos:

1. Las mismas condiciones iniciales pueden dar lugar a diferentes resultados finales.2. Todos los resultados posibles se conocen por anticipado, pero no se puede predecir el resultado

en cada experimento particular.3. En general, puede repetirse en las mismas condiciones indefinidamente.

Espacio muestral

Ejemplos 3.2.

1. Se lanzan 2 dardos sobre una diana que tiene 3 sectores (A: amarillo, R: rojo y Az: azul), como se muestra en la figura.

Escribir todas las posibles parejas de sectores en las que pueden caer los 2 dardos (d1 y d2).

Solución:

Usando métodos de conteo puede determinarse que se tienen 9 posibles resultados, ya que el primer dardo puede caer en cualquiera de los 3 sectores y el segundo dardo tiene los mismos resultados posibles, lo que da lugar a una variación con

repetición 𝑉�3,3 = 32 = 9. Además, una herramienta útil,

paralistar todos los resultados de un experimento aleatorio es eldiagrama de árbol, el cual se presenta en la figura de la derecha.

En el diagrama de árbol se observa que el dardo 1 puede caer

6

en cualquiera de los tres sectores (A, R o Az) y el dardo 2, también puede caer en cualquiera de los tres sectores (A, R o Az). Estolleva a los 9 resultados posibles que constituyen los elementos de un conjunto “S”:

S = {(A, A), (A, R), (A, Az), (R, A), (R, R), (R, Az), (AZ, A), (Az, R), (Az, Az)}.

2. Se lanzan dos dados y se anota la suma de los puntos obtenidos. Obtener todos los posibles resultados.

Solución:

Como en cada uno de los dados, los resultados posibles son 1, 2, 3, 4, 5 y 6, el conjunto S que contiene todos los posibles resultados del problema, es:

S= {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

Espacio muestral (S): Es el conjunto de todos los posibles resultados que se obtienen al realizar un experimento aleatorio. A cada resultado del experimento se conoce como suceso elemental.

Ejemplo 3.3. Hallar el espacio muestral del siguiente experimento: El papá de un bebé próximo a nacer quiere que su hijo se llame Juan, Pedro o Felipe. La mamá por su parte, pretende que se llame Andrés o Pablo. Para que ambos queden felices, deciden combinar los nombres propuestos, considerando que primero irá el del papá y, luego, el de la mamá ¿De cuántas formas diferentes se puede proponer un nombre para el bebé?

Solución:

El espacio muestral lo conforman todas las ordenaciones que se puedan formar con los 3 nombres que propone el papá y los 2 que propone la mamá; se debe tener en cuenta que primero irá el del papá y luego el de la madre. El espacio muestral se puede determinar así:

El total de nombres posibles se puede encontrar usando un método de conteo. Las posibles selecciones del nombre de entre los propuestos por el papá, se calcula por el combinatorio:

3( ) =13!(3 − 1)! 1! = 3

Luego se calculan las posibles selecciones del nombre de entre los propuestos por la mamá:

2( ) =12!(2 − 1)! 1! = 2

Por el principio de la multiplicación el total de nombres posibles es 3*2=6.

Los 6 nombres posibles constituye el espacio muestral, el cual se presenta a continuación:

S= {Juan Andrés, Juan Pablo, Pedro Andrés, Pedro Pablo, Felipe Andrés, Felipe Pablo}

Suceso o Evento (E)

Ejemplo 3.4. Ahora, volviendo al ejemplo del lanzamiento de dos dardos, encontrar:

62

a) Los resultados donde al menos uno de los dardos cayó en el sector R.b) Los resultados donde los dos dardos cayeron en el mismo sector.

Solución:a) Sea �1: Lanzar dos dardos y al menos uno cae en el sector R, el conjunto �1 estaría formado

por los elementos del espacio muestral que tienen R como una de sus componentes:

�1= {(A, R), (R, A), (R, R), (R, Az), (Az, R)}

b) Sea �2: Lanzar dos dardos y ambos caen en el mismo sector, el conjunto �2 estaría formado porlos elementos del espacio muestral que tienen sus dos componentes iguales:

�2= {(A, A), (R, R), (Az, Az)}

Se observa que, tanto �1 como �2 son subconjuntos del espacio muestral S correspondiente al

ejemplo de la diana y los dardos.

Suceso o evento: Es un subconjunto del espacio muestral. Se llaman sucesos elementales a cada uno de los resultados posibles del experimento aleatorio, que no se puede descomponer en otros más simples. El espacio muestral es un suceso seguro. Por otra parte, cada suceso tiene cierta incertidumbre de ocurrencia, la cual se medirá a través de la probabilidad de que ocurra dicho suceso.

Tipos de sucesos o eventos:

Ejemplo 3.5. Considerando de nuevo el ejemplo de lanzar dos dados, se desea anotar la suma de los puntos obtenidos.

a) Obtener el suceso definido como: el resultado del experimento sea 1.b) Dado el suceso E = {3, 5, 7, 9, 11} obtener el suceso que contiene todos los elementos que le

faltan a E para completar el espacio muestral.

Solución:

Recordar que el conjunto S contiene todos los posibles resultados del experimento de lanzar dos dados y anotar la suma de los puntos obtenidos, así:

S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

a) Es evidente que el menor valor que se obtiene al lanzar dos dados y anotar la suma de los puntos obtenidos, es 2, por lo tanto, nunca aparecerá el valor de 1, éste es un suceso imposible de ocurrir en este ejemplo. Se denotará dicho suceso como: E =

b) Dado el suceso: E = {3, 5, 7, 9, 11}, se desea obtener el suceso que contiene los valores que hacenfalta para obtener S. El suceso solicitado es el complemento de E, esto es:

�𝒄= {2, 4, 6, 8, 10, 12}63

6

Se observa que � contiene los números impares y � � los números pares del espacio muestral de

esteexperimento.

Suceso imposible: Es un resultado que no se puede dar, corresponde al conjunto vacío y se representa pory se define como el conjunto E que no contiene ningún suceso elemental.

Sucesos complementarios: Si � es un suceso entonces su complemento se denota como ��, tal

que

� ∪ � � = �, se tiene que � es incompatible con ��.Obviamente, los sucesos son conjuntos, por lo tanto, al hablar de uniones, intersecciones, diferencia,complementario, etc. de sucesos no es más que hablar de uniones, intersecciones, diferencias, complementarios, etc. de conjuntos. Por otra parte, cada suceso tiene una probabilidad de ocurrencia.

2. Reglas básicas para el cálculo de probabilidades

El concepto de probabilidad nace con el deseo del hombre de conocer con certeza los eventos futuros. Es por ello, que el estudio de probabilidades surge como una herramienta utilizada por los nobles para ganar en los juegos y pasatiempos de la época. En la vida diaria se aplican inconscientemente probabilidades, por ejemplo, cuando se compra un billete de lotería o cuando se lleva un paraguas al observar el cielo nublado.

La palabra probabilidad viene del latin probabilitas, posibilitatis, formada del verbo probare (comprobar, probar), el sufijo – bilis (indica posibilidad), y el sufijo – tat, que indica cualidad. Entonces indica la cualidad (-dad) de poder (-able) probar.

El diccionario de la Real Academia Española (R. A. E.) define «azar» como una casualidad, un caso fortuito, y afirma que la expresión «al azar» significa «sin orden». La idea de probabilidad está íntimamente ligada a la idea de azar y nos ayuda a comprender las posibilidades de ganar un juego de azar o analizar las encuestas.

Ejemplo 3.6. Se desea elegir un departamento de El Salvador al azar para poder llevar a cabo un estudio. Se pide:

a) Definir el espacio muestral.b) Calcular la probabilidad de seleccionar el departamento de Ahuachapán.

Solución:a) El espacio muestral es � = {Ahuachapán, Cabañas, Chalatenango, Cuscatlán, La Libertad, La Paz, La Unión, Morazán, San Miguel, San Salvador, San Vicente, Santa Ana, Sonsonate, Usulután}.

b) Se define el suceso �: "��

6

ℎ� �� ℎ� ��á�", a la probabilidad del suceso �

se denotará �(�). La cual se calcula a continuación:

DepartamentoFrecuencia de Centro

educativoNP<6 NP≥6 Total

Ahuachapán 21 5 26Cabañas 14 1 15Chalatenango 12 5 17Cuscatlán 15 0 15La Libertad 32 4 36La Paz 19 3 22La Unión 21 7 28Morazán 14 6 20San Miguel 21 10 31San Salvador 54 9 63San Vicente 15 2 17Santa Ana 25 9 34Sonsonate 22 3 25Usulután 24 4 28Total 309 68 377

6

Paso 1. Se determina el numerador como la cardinalidad del subconjunto referido al suceso �, elcual es 1, ya que sólo se tiene el departamento de Ahuachapán.

Paso 2. Se determina el denominador como la cardinalidad del espacio muestral �, que es igual a

14.Paso 3. Se calcula el cociente de la cardinalidad del subconjunto � y la cardinalidad del espacio

muestral �. La probabilidad se calcula así: 1�(�) =14Se puede deducir la probabilidad de seleccionar al azar cualquier departamento que será de 1 . Es14de notar que cada departamento tiene la mima probabilidad de ser seleccionado, en tal condiciónse dice que el espacio muestral es equiprobable.

Un evento equiprobable es aquel donde todos los posibles resultados tienen la misma probabilidad de ocurrir.

Ejemplo 3.7. Las autoridades del Ministerio de Educación están interesadas en implementar un plan de estudio con el objetivo de aumentar la nota promedio de la PAESITA, para ello necesitan seleccionar un centro educativo al azar e implementar el plan piloto de dicho proyecto. Se dispone de las notas globales promedio por centro educativo que participó en la PAESITA 2012. Un resumen de los datos se presenta en la siguiente tabla:

Se pide:

a) Calcular la probabilidad de elegir, del total de centros educativos, a uno con nota promedio global mayor o igual que 6.

b) Calcular la probabilidad de elegir, del total de centros educativos, a uno con nota promedio global menor que 6.

c) Para el departamento de Cuscatlán, calcular la probabilidad de seleccionar un centro educativo cuya nota promedio global sea mayor o igual que 6.

d) Para el departamento de Cuscatlán, calcular la probabilidad de seleccionar un centro educativo cuya nota promedio global sea menor que 6.

Solución:

a) Con base en los resultados obtenidos, se tiene un total de 377 centros educativos evaluados, de los cuales 68 han obtenido una nota promedio global mayor o igual que 6, entonces la probabilidad de elegir un centro educativo al azar cuya nota promedio global sea mayor o igual a 6, está dada por:

68 377

6

∙ 100% ⋍ 0.1804 ∙ 100% ⋍ 18%

6

Se concluye que la probabilidad de seleccionar un centro educativo con nota promedio global mayor o igual que 6 es de 18%.

b) Realizando un análisis análogo al del literal anterior, la probabilidad de elegir del total de centroseducativos uno con nota promedio menor que 6 es:

309377 ∙ 100% ⋍ 0.8196 ∙ 100% ⋍ 82%Otra forma de resolver este problema es observando que laprobabilidad de elegir un centro educativo con nota promedio mayor

o igual que 6 es ⋍ 18%, y la probabilidad de elegir un centroeducativo con un promedio menor que 6 puede calcularse aplicandola siguiente expresión:

1 − 0.1804 = 0.8196 ∗ 100% ⋍ 82%Con ayuda del diagrama de Venn se visualizan las probabilidadesanteriores así:

La probabilidad del complemento del suceso � se define como �� y se calcula

así:

�(�� ) = 1 − �(�)c) Con ayuda del cuadro anterior se puede identificar que la probabilidad es cero, ya que el cociente0

es = 0. A este evento se le llama suceso imposible.15El suceso � es un suceso imposible si: �(�) = 0

d) En el departamento de Cuscatlán todos los centros educativos obtuvieron notas menores que 6,15por tanto, la probabilidad solicitada es:15 = 1 en otras palabras, al elegir un centro educativo alazar del departamento de Cuscatlán, es seguro que el resultado promedio de la PAESITA seamenor a 6, a este tipo de eventos se le llama suceso seguro.

El suceso � es un suceso seguro si: �(�) = 1Como se ha visto, todas las probabilidades calculadas oscilan entre cero y uno (o entre 0 y 100), con lo quese concluye que sin importar el suceso o evento que se presente, la probabilidad del mismo tendrá un valor entre cero y uno.

Laplace, en su obra Teorie analytique des probabilités (1812), define la probabilidad de un suceso que puede ocurrir en un número finito de modalidades como: “La proporción del número de casos favorables al número de casos posibles, siempre que todos los resultados sean igualmente probables”.

A la regla de Laplace también se le denomina “probabilidad a priori”, ya que para aplicarla hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas probabilidades, como se ha visto en el ejemplo anterior.

Regla de Laplace: Es la proporción del número de casos favorables al número de casos posibles, siempre

que todos los resultados sean igualmente probables. La probabilidad de cualquier suceso � de � se

obtienemediante:

�(�) = ú� �� ú� ��

�(�) = ��

��(�)=��(�)

Existe infinidad de formas de resolver un problema de probabilidad, todo depende de la naturaleza delmismo. A continuación se muestra como el diagrama de Venn ayuda a la resolución de problemas.

Ejemplo 3.8. Las autoridades de un centro educativo están interesadas en determinar la preferencia entre las materias de Matemáticas, Ciencias Naturales y Lenguaje y Literatura para implementar una estrategia educativa que permita explotar el potencial de todos los alumnos. El centro educativo cuenta con 70 alumnos y los resultados fueron los siguientes:

• A 50 alumnos les gusta Lenguaje y Literatura.• A 35 alumnos les gusta Ciencias Naturales.• A 40 les gusta Matemática.• A 20 les gusta Lenguaje y Literatura y Ciencias Naturales.• A 15 les gusta Ciencias Naturales y Matemática.• A 25 les gusta Matemática y Lenguaje y Literatura.• A 5 les gustan las tres materias.

Se pide calculas las siguientes probabilidades:

a) Seleccionar a un estudiante que le guste la Matemática.b) Seleccionar a un estudiante que le guste la Matemática y las Ciencias Naturales.c) Seleccionar a un estudiante que le guste las Ciencias Naturales o Lenguaje y Literatura.d) Seleccionar a un estudiante que le guste las 3 materias.e) Seleccionar un estudiante que le guste la Matemática o las Ciencias Naturales o Lenguaje y

Literatura.

Solución:

Para facilitar los cálculos se realizará un diagrama de Venn con la información proporcionada. Para ello se define lo siguiente:

:�� "�� "��: "�� "��: "�� á��"Del diagrama se comprueba que el conjunto universal es el total dealumnos que participaron en la encuesta son 70.

67

a) Para calcular la probabilidad de seleccionar un estudiante que le guste la Matemática se aplica la regla de Laplace en la cual se debe tomar en cuenta los siguientes alumnos: a los que les guste sólo la Matemática, la Matemática y las Ciencias Naturales, la Matemática y Lenguaje y Literatura y a los alumnos que les gusta la Matemática, las Ciencias Naturales y Lenguaje y Literatura, observando el diagrama de Venn se tiene:

Les gusta solamente:

• Matemática: 5.• Matemática y Ciencias Naturales: 10.• Matemática y Lenguaje y Literatura: 20.• Matemática, Ciencias Naturales y Lenguaje y Literatura: 5.

Por tanto, la probabilidad de seleccionar un estudiante que le guste la Matemática será:

�(��) = 5 + 10 + 20 + 540=70 70b) Para determinar la probabilidad de seleccionar un estudiante que le guste la Matemática y las

Ciencias Naturales se debe de aplicar la regla de Laplace tomando en cuenta que, según la teoría de conjuntos, aplicaremos la intersección de ellos.

Sea:��⋂��: Alumnos que les gusta la Matemática y las Ciencias Naturales, del diagrama se observa que son 15 alumnos, por tanto, la probabilidad pedida es:

�(��⋂��) = 10 + 5 15=70 70c) Para determinar la probabilidad de seleccionar un estudiante que le gusten las Ciencias Naturales

o Lenguaje y Literatura aplicaremos la fórmula de la unión de conjuntos y tomando en cuenta la regla de Laplace.

Sea:

�� ⋃ ��: Alumnos que les gusta Ciencias Naturales o Lenguaje y Literatura, entonces:

��(��⋃��) = ��(��) + ��(��) − ��(��⋂ )��

Donde ��⋂��, son los alumnos que les gustan las Ciencias Naturales y Lenguaje y Literatura.Aplicando la regla de Laplace se tiene que:

�(��⋃ )�� = �(��) + �(��) − �(��⋂��)Sustituyendo las probabilidades:

�(��⋃��) =35 50 20 65+ − =70 70 70 70

68

6

d) La probabilidad de seleccionar un estudiante que le guste la Matemática, las Ciencias Naturales y Lenguaje y Literatura viene dada por el número de estudiantes a los que les gustan las 3 materias dividido por el total de estudiantes.

Sea: ��⋂��⋂��: Los estudiantes a los que les gustan las 3 materias,

entonces

��(��⋂��⋂��) = 5, por tanto: 5�(��⋂��⋂��) =70e) Al determinar la probabilidad de seleccionar un estudiante que le guste la Matemática o las

Ciencias Naturales o Lenguaje y Literatura se aplica una fórmula semejante a la utilizada en el literal c) en la cual se usó la cardinalidad de la unión de conjuntos, de la siguiente forma:

�(��⋃ ⋃�� ) = �(��) + �(��) + �(��) − �(��⋂��) − �(��⋂��) − �(��⋂��) +�(��⋂��⋂��) , sustituyendo las probabilidades se tiene:

�

(��⋃��⋃�

�) =

40 35++70 7050 15− −70 70

25 20 570− + =70 70 7070

Ya que la probabilidad solicitada es la probabilidad de seleccionar todos los elementos del espaciomuestral, la probabilidad debe de ser igual a 1.

Sean �, �, � subconjuntos de �. La probabilidad de la unión de tres conjuntos viene dada por:

�( ⋃� �⋃�) = �(�) + �(�) + �(�) − �( ⋂� �) − �( ⋂� �) − �(�⋂�) + �( ⋂� �⋂�)

3. Probabilidad condicional

En el cálculo de las probabilidades, muchas veces, se dispone de información adicional que condiciona la ocurrencia o no del suceso en estudio, tal como se muestra en los siguientes ejemplos.

Ejemplo 3.9. Se tiene un tablero con 7 llaves, 3 abren la puerta y 4 no. La probabilidad de seleccionar una

llave al azar, que abra la puerta es 3/7 y de que no la abra es de 4/7. Se selecciona una llave al azar y nose devuelve al tablero, luego se elige una segunda llave al azar, ¿Cuál es la probabilidad de que la segundallave abra la puerta?

7

Solución:

El espacio muestral inicial es: � = {3 �� , 4 �� }.

• Si la primera llave seleccionada abre la puerta, el espacio se restringe a

�1 = {2 �� , 4 �� } 2 1Por tanto, la probabilidad de elegir una segunda llave que abra la puerta es de =

6 3

8

• Si la primera llave seleccionada no abre la puerta, el espacio se restringe a�1 = {3 �� , 3 �� } y la probabilidad de que la3 1segunda llave abra la puerta es de = .6 2En este ejemplo, la probabilidad de que la segunda llave abra la puerta, depende de la llave quese haya seleccionado en la primera extracción. Para continuar con el análisis de este ejemplo, se definen los siguientes sucesos:

�1: "��

y �2: "�� "Ahora, se define �(�2/�1) como la probabilidad condicional de �2 dado �1, e indicará laprobabilidad de que la segunda llave elegida abra la puerta dado que la primera también abre lapuerta, entonces se tiene: 2 1 � 3 1

�(�2/�1) = 6 = 3 y �(�2/�1 ) = 6 = 2Ejemplo 3.10. El Viceministerio de Transporte a través de la División de Tránsito Terrestre de la PolicíaNacional Civil, ha reportado la cantidad de accidentes de tránsito ocurridos del lunes 10 al domingo 16 deabril de 2017 (Semana Santa 2017). Quiere utilizar esta información para tomar acciones que permitan reducir la cantidad de accidentes. Se plantea las siguientes situaciones:

a) ¿Cuál es la probabilidad de que ocurra un accidente el sábado 15 de abril de 2017?b) Si un accidente ocurrió el sábado 15 de abril de 2017, ¿cuál es la probabilidad de que la causa

haya sido por distracción del conductor?

PRINCIPALES CAUSAS DE ACCIDENTES DE TRÁNSITO DEL 10 AL 16 DE ABRIL DE 2017

N° CAUSAS DÍASLUN 10 MAR 11 MIR 12 JUE 13 VIE 14 SÁB 15 DOM 16 TOTAL

1 Distracción del conductor 11 13 11 15 5 6 7 68

2 Invadir carril 8 15 14 9 4 8 5 63

3 No guardar distancia de seguridad 9 11 9 5 2 8 5 49

4 No respetar señal de prioridad 5 9 11 3 2 4 4 38

5 Circular en reversa 6 6 7 7 2 4 2 34

6 Velocidad excesiva oinadecuada 6 5 4 3 5 4 0 27

7 Falla mecánica 3 0 1 0 1 2 2 9

TOTAL 48 59 57 42 21 36 25 288

Solución:

Sea:

��: “Ocurra un accidente el sábado 15”DC: “Distracción del conductor”

7

; ;

a) Debe ubicarse en la columna del día sábado y dado que se pide calcular la probabilidad de que ocurra un accidente, sin importar la causa, se tiene que ubicar en la fila del total, cuyo valor es 36, además se conoce el total de accidentes ocurridos que es 288. Por tanto, la probabilidad buscadaes: �(��) = 36

288b) Se sabe que ocurrió un accidente el día sábado, por tanto, se debe calcular una probabilidadcondicional. La cual se obtiene, ubicándose en la intersección de la fila distracción del conductor y la columna del día sábado 15. El valor seleccionado es 6 (casos favorables) y el total de accidentes son los que ocurrieron el día sábado 36, (casos posibles):

6�(��/��) =36

Otra forma, comúnmente utilizada para obtener la probabilidadcondicional es calcular la probabilidad de la intersección del suceso conocido y el suceso que se quiere calcular su probabilidad, luego este resultado se divide entre la probabilidad del suceso conocido, esto es (se ilustra en el diagrama de Venn):

�(��/��) = � ( �� ⋂ �� ) �(��)=

6 288 36 288

6 =36

La notación para dos sucesos � y � condicionados es:�(�/�): �� (�/�): ��

Se define la probabilidad condicional de dos sucesos � y �, de un espacio muestral �, como:�(�/�) = 𝑃(�⋂�)

𝑃(�)�(�) ≠ 0 o �(�/�) = 𝑃(�⋂�)

𝑃(�)�(�) ≠ 0

4. Probabilidad de eventos independientes

Es muy común en el cálculo de probabilidades el querer saber si la ocurrencia de un suceso A tiene alguna relación o no con la ocurrencia de otro suceso B. Tal es el caso de lanzar los dardos en la diana

7

que se presentó al inicio de la unidad. Por ejemplo, sea A el suceso de dar en el centro de la diana con el primer dardo y B el suceso de dar en el centro de la diana al lanzar el segundo dardo, entonces surge la siguiente pregunta: ¿La probabilidad de dar en el centro de la diana con el segundo dardo, depende si dio en el centro el primero? Por supuesto que no, la probabilidad de acertar al centro con el segundo dardo, no depende de si el primero acertó al centro o no.

Ejemplo 3.11. Se tiene una bolsa con 10 cubitos de colores, 8 verdes y 2 azules y se extraen consecutivamente dos cubitos. Se pide determinar la probabilidad de que el segundo cubito sea verde si:

a) El primer cubito extraído se regresa a la bolsa.b) El primer cubito extraído no se regresa a la bolsa.

7

Solución:

a) En este caso, antes de extraer el primer cubito se tiene un espacio muestral formado por 10 cubitos (8 verdes y 2 azules). Se extrae el primer cubito y se regresa a la bolsa, esto significa que el espacio muestral no se modifica y se tiene de nuevo 10 cubitos (8 verdes y 2 azules) como antes de la primera extracción. Así en ambas extracciones la probabilidad de extraer un cubito verde es 8/10.

b) Si el cubito seleccionado en la primera extracción no se regresa, significa que la extracción se hace sin reemplazamiento; por lo tanto, se modifica el espacio muestral, ya que ahora se tienen solamente 9 cubitos en la bolsa. Si el cubito extraído es verde, el espacio muestral estaría formado por 7 cubitos verdes y 2 azules y la probabilidad de que el segundo cubito sea verde es 7/9. Si ese primer cubito extraído es azul, el espacio muestral estaría formado por 8 cubitos verdes y 1 azul; y la probabilidad de que el segundo cubito sea verde es 8/9.

Se observa que la probabilidad de extraer un cubito verde en la segunda selección es diferente si el experimento se realiza con o sin reemplazo. De aquí se puede decir que cuando los cubitos son extraídos c o n r e e m p la z amie n t o , los sucesos son independientes, ya que se tiene el mismo espacio muestral; y cuando se extraen sin re em p la z amie n t o , los sucesos no son independientes, (son eventos condicionados); es decir, la primera extracción modifica el espacio muestral y, por tanto, la probabilidad del segundo evento.

Ejemplo 3.12. Se lanzan dos dados no cargados (los resultados de cada cara son equiprobables), ¿cuál es la probabilidad de obtener 6 en ambos dados?

Solución:

Se sabe que se pueden tener 6 resultados en el lanzamiento del primer dado y que luego debe verse los resultados obtenidos en el segundo dado, así:

Dado 1 Dado 21, 2, 3, 4, 5, 6 1, 2, 3, 4, 5, 6

Al anotar todos los resultados posibles al lanzar dos dados se obtiene la siguiente tabla:

Resultados obtenidos al lanzar dos dados(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

En la tabla se presentan los 36 resultados posibles, los cuales forman el espacio muestral. De estos resultados solamente uno tiene un 6 en el primero y en el segundo dado (6 en ambos dados), por tanto, la probabilidad pedida es 1/36.

7

Otra forma de resolver este problema es la siguiente:

Sea A: obtener 6 en el primer dado y B: obtener 6 en el segundo dado:

P(A)=1/6 y P(B)=1/6

Se tiene que en cada dado la probabilidad de obtener un 6 es 1/6, ya que no se modifica el espacio muestral en ninguno de los casos, lo cual indica que son eventos independientes, por tanto, la probabilidad pedida es:

�(� ∩ �) = �(�)�(�) =

1 1 1∙ =6 6 36En ambas soluciones se ha obtenido la misma respuesta y se comprueba con ello que ambos eventos sonindependientes.

Ejemplo 3.13. Se lanza una moneda y un dado. Calcular la probabilidad de obtener cara y 3.

Solución:

Se procede de forma similar al ejemplo anterior, en la siguiente tabla se muestra el espacio muestral que se obtiene al realizar el lanzamiento de la moneda y el dado.

Resultados obtenidos al lanzar una moneda y un dado

MonedaDado

1 2 3 4 5 6Cara (C,1) (C,2) (C,3) (C,4) (C,5) (C,6)Cruz (+,1) (+,2) (+,3) (+,4) (+,5) (+,6)

Se tienen 12 resultados posibles, de los cuales uno corresponde a una cara y un tres, por tanto, la probabilidad pedida es 1/12.

Nuevamente, la probabilidad buscada puede obtenerse de la siguiente forma. Sea A: obtener cara en el lanzamiento de la moneda, B: Obtener 3 en el lanzamiento del dado, entonces:

P(A)=1/2 y P(B)=1/6

Se tiene que la probabilidad de obtener cara al lanzar la moneda es 1/2 y la probabilidad de obtener 3 al lanzar el dado es 1/6. Al observar por separado el lanzamiento de la moneda y el del dado, puede notarse que no importa cuál sea el resultado obtenido en la moneda, el resultado del dado no es afectado por este y los eventos son independientes, en consecuencia:

1 1 1�(� ∩ �) = �(�)�(�) = × =2 6 12

En ambas soluciones se ha obtenido la misma respuesta ya que los sucesos A y B son independientes.

7

Eventos independientes: Sean A y B dos sucesos independientes del mismo espacio muestral S, esto es que la ocurrencia de A no influye en la ocurrencia de B (o viceversa), entonces:

�(� ∩ �) = �(�)�(�)

Si A y B son sucesos independientes, entonces a partir de la definición anterior se tienen:

�(�/�) = 𝑃 ( � ∩ � ) = 𝑃 ( � ) 𝑃( � ) = �(�) o �(�/�) = 𝑃 ( � ∩ � ) = 𝑃 ( � ) 𝑃( � ) = �(�)𝑃(�) 𝑃

(�)𝑃(�) 𝑃(�)

5. Teorema de la probabilidad total

En ocasiones se tiene conocimiento de la ocurrencia de algunos sucesos �� que son distintas causas de la ocurrencia de otro suceso � y se desea conocer la probabilidad de ocurrencia del suceso �. En este caso es necesario calcular la probabilidad de que el suceso � ocurra debido a cada uno de los sucesos �� .Ejemplo 3.14. Nuevamente considerar los datos del Viceministerio de Transporte (sobre accidentes de tránsito, Semana Santa 2017, ejemplo 3.10), los cuales se presentan en la siguiente tabla.

PRINCIPALES CAUSAS DE ACCIDENTES DE TRÁNSITO DEL 10 AL 16 DE ABRIL DE 2017

N° CAUSAS DÍASLUN 10 MAR 11 MIE 12 JUE 13 VIE 14 SÁB 15 DOM 16 TOTAL

1 Distracción del conductor 11 13 11 15 5 6 7 682 Invadir carril 8 15 14 9 4 8 5 633 No guardar distancia de seguridad 9 11 9 5 2 8 5 494 No respetar señal de prioridad 5 9 11 3 2 4 4 385 Circular en reversa 6 6 7 7 2 4 2 346 Velocidad excesiva o inadecuada 6 5 4 3 5 4 0 277 Falla mecánica 3 0 1 0 1 2 2 9

TOTAL 48 59 57 42 21 36 25 288

Con base en la información presentada por el VMT, se desea implementar un plan de prevención que permita reducir el número de accidentes y se ha decidido analizar los casos por invadir el carril, siendo esta la segunda causa de accidentes. Calcular la probabilidad de tener un accidente por invadir el carril contrario.

Solución:

Se observa que durante el periodo de vacaciones ocurrieron 63 accidentes debido a la invasión de carril, y el

total de accidentes fue 288, usando la regla de Laplace, la probabilidad pedida es 63/288 ≅ 0.22 ≅ 22%.Otra forma de resolver este problema es encontrando las probabilidades de tener un accidente por

7

invadirel carril contrario para cada uno de los días y la probabilidad de obtener un accidente cualquiera en ese día. Para ello, se requiere definir los siguientes sucesos.

Sea:

L: Tener un accidente el lunes. M: Tener un accidente el martes.

7

Mi: Tener un accidente el miércoles. J: Tener un accidente el jueves.V: Tener un accidente el viernes.S: Tener un accidente el sábado. D: Tener un accidente el domingo.

Ahora, se representa con I el hecho de tener un accidente por invadir el carril

contrario: I: Tener un accidente por invadir el carril contrario.IL: Tener un accidente el lunes por invadir el carril contrario.IM: Tener un accidente el martes por invadir el carril contrario. IMi: Tener un accidente el miércoles por invadir el carril contrario. IJ: Tener un accidente el jueves por invadir el carril contrario.IV: Tener un accidente el viernes por invadir el carril contrario. IS: Tener un accidente el sábado por invadir el carril contrario. ID: Tener un accidente el domingo por invadir el carril contrario.

Observando la tabla, se tiene el número de accidentes debido a invadir el carril contrario y el total de accidentes para cada uno de los días, esto se representa en la siguiente figura:

Accidentes diarios y por invasión de carril

Cada una de las partes de la figura representa un día de la semana identificado por una letra con su respectivo número de accidentes. Además, la parte delimitada por la elipse representa el hecho de tener un accidente por invadir el carril con su respectivo número de accidentes para cada día, por ejemplo, el día lunes se registró un total de 48 accidentes y, de estos, 8 fueron por invadir el carril.

Luego el cálculo de las probabilidades se facilita. Para el día lunes la probabilidad de tener un accidente

es �(�) = 48/288 y la probabilidad de que este sea por invadir el carril es �(��) = 8/48.Para el resto de días se hace el cálculo de la misma manera, así las respectivas probabilidades son:

7

�(�) = 48/288, �(�) = 59/288, �(��) = 57/288, �(�) = 42/288,

�(𝑉) = 21/288,

�(�) = 36/288, �(�) = 25/288.�(��) = 8/48, �(��) = 15/59, �(��) = 14/57, �(��) = 9/42, �(��) = 4/21, �(��) = 8/36,

�(��) = 5/25.

Una vez identificadas las probabilidades, se ubican en un diagrama de árbol, el cual ayudará a facilitar el cálculo de la probabilidad pedida.

Ahora, se aplica el principio del producto para calcular la probabilidad de tener un accidente por invadir el carril en cada uno de los días y luego se usa el principio de la suma para encontrar la probabilidad pedida.

La probabilidad de tener un accidente por invadir el carril el lunes es: (48/288) x (8/48) = 8/288. Esto es, la probabilidad de tener un accidente el lunes multiplicado por la probabilidad de tener un accidente por invadir el carril el lunes.

La probabilidad de tener un accidente por invadir el carril el martes es: (59/288) x (15/59) = 15/288. Esto es, la probabilidad de tener un accidente el martes por la probabilidad de tener un accidente por invadir el carril el martes.

De esta misma forma se calculan las probabilidades de los días restantes de la semana y luego se

suman. Así, la probabilidad buscada es:

�

(�) =

48∗2888 59+∗48 288

15 57+∗59 28814 42+∗57 288

9 21+∗42 2884 36+∗21 288

8 25 5+ ∗=36 288 2563288 ≅ 0.22

Se ha obtenido la misma respuesta que al aplicar la regla de Laplace.

En general se tiene la siguiente representación que se conoce como teorema de la probabilidad total.

76

Teorema de la probabilidad total: Si A1, A2, ..., An son sucesos incompatibles dos a dos y cuya unión es todo el espacio muestral, entonces la probabilidad de cualquier otro suceso B es:

�

�(�)=∑�(��).�(�/��)�=1

Los sucesos �� pueden interpretarse como las distintas causas (o circunstancias) por las que puede ocurrir el suceso �. Entonces el teorema de la probabilidad total viene a decir que si el suceso � puede ocurrir por alguna de las causas �� ; la probabilidad de que ocurra es la suma de las probabilidades de las causas,

�(�� ), por la probabilidad del suceso � condicionado a la causa,

�(��).6. Teorema de Bayes

En algunos casos se tiene el conocimiento de la ocurrencia de un suceso �, el cual tiene distintas causas de ocurrencia �� , y se desea conocer la probabilidad de la ocurrencia de una de las causas � � específica, sabiendo que ha ocurrido el suceso �. En este caso, también es necesario conocer la probabilidad de ocurrencia de � debido a cada uno de los sucesos �� .Ejemplo 3.15. Continuando con el plan de reducción de accidentes del Viceministerio de Transporte. Se sabe que ocurrió un accidente por invadir el carril contrario. ¿Cuál es la probabilidad de que haya sido el martes?

Solución:

Sea:

I: Tener un accidente por invadir el carril contrario. M: Tener un accidente el martes.

� ∩ �: Tener un accidente el martes y que sea por invadir el carril contrario.

�/�: Tener un accidente el martes dado que este ha sido por invadir el carril contrario.Se debe encontrar la probabilidad de que una persona haya tenido un accidente el martes dado que ha

sido por invadir el carril contrario, �(�/�).

77

.De la probabilidad condicional se tiene que �(�/�) = 𝑃(�∩𝐼) Entonces, debe calcularse cada una de

estas 𝑃(𝐼)probabilidades y reemplazarse para encontrar la probabilidad pedida.

Se puede observar el diagrama de árbol en el cual cada rama tiene asignada la probabilidad de cada evento que representan y al final de las ramas tiene el producto de las probabilidades. Este producto es la probabilidad de tener un accidente un día y que el accidente sea por invadir el carril, así, por ejemplo, la probabilidad de tener un accidente el martes ya que sea por invadir el carril es

�(� ∩ �) = 59/288 ∙ 15/59 = 15/288

En el ejemplo de la probabilidad total se vio que la probabilidad de tener un accidente por invadir el carril es:

�(�) = 63/288Así la probabilidad buscada es: �(�/�) = 15/288 = 15/63

63/288Se observa que primero se obtiene la probabilidad condicional y luego la probabilidad total,posteriormente se hace el cociente de dichas probabilidades, dando como resultado el Teorema de Bayes.

Teorema de Bayes: Si A1, A2, ..., An son sucesos incompatibles dos a dos y cuya unión es todo el espacio muestral, y B es otro evento cualquiera, entonces:

�(�� /�) = ∑��(��). �(�/��)�(� ). �(�/� )

�=1 � �

78

Sitio web: Aprender a investigar.Enlace: h tt p s : / / g o o . g l/ a c U 9Um

Resumen: Se encuentra, la serie. APRENDER A INVESTIGAR. Elaborados por: Gallardo de Parada, Yolanda y Moreno Garzón, Adonay. Módulo 3. RECOLECCIÓN DE LA INFORMACIÓN. Instituto Colombiano para el fomento de la Educación Superior.

Sitio Web: Banco Central de Reserva de El Salvador. Índice de Precios al Consumidor.Enlace: h tt p : / / w ww. b cr. go b .sv / b crs i t e /?cd r =1 23

Resumen: Se encuentra el Índice de Precios al Consumidor (IPC) Base dic. 2009 e Inflación. Índice diciembre 2009=100

Sitio Web: Consejo Salvadoreño del Café.Enlace: h tt p : / / w ww.c s c. go b .sv / e stad i stic a s/

Resumen: El Departamento de Estudios Económicos y Estadísticas Cafetaleras presenta diferentes estadísticas sobre la actividad cafetalera tanto nacional como internacional.

Sitio web: Estadística aplicada.Enlace: h tt p s : / / g o o . g l / 2 61 Xng

Resumen: Contiene las notas de clase de un curso de Estadística Aplicada. Escrito por el profesor Norberto Guarín Salazar, estadístico Universidad de Medellín. Universidad Nacional de Colombia.

Sitio Web: MINSAL. Boletín Epidemiológico.Enlace: h tt p s : / / g o o . g l / P 4 G FPc

Resumen: Información de la semana 16 correspondiente al periodo del 16 al 22 de abril de 2017, que lleva la dirección de vigilancia sanitaria del MINSAL.

Sitio Web: Ministerio de Educación. Estadísticas Educativas.Enlace: h tt p s : / / w ww . mi ne d . g o b .sv / i n d e x. php /esta d i s tica s - ed u cat i vas

Resumen: El Ministerio de Educación presenta información sobre el estado actual de la educación en El Salvador.

79

Sitio Web: Representaciones gráficas del INE de España.Enlace: w ww. in e. e s / ex p l i c a/ d o c s / p a s o s _ ti p o s _gr a fi c o s. p d f

Resumen: El Instituto Nacional de Estadística España hace análisis de los diferentes tipos de gráficos.

Sitio Web: Taller de Estadística y Probabilidad: Juegos y trabajos para afianzar conceptos.Enlace: h tt p s :/ / g o o . g l/ z M r 6Kr

Resumen: Se encuentra en manuscrito elaborado por Nuñez Cabello, Raul (2007) sobre Taller de Estadística y Probabilidad: Juegos y trabajos para afianzar conceptos.

Bibliografía básica

ARMANDO, SOTO NEGRÍN (1999). Principios de Estadística. Editorial Panapo de Venezuela.BATANERO, CARMEN (2001). Didáctica de la Estadística. Departamento de Didáctica de la Matemática

Universidad de Granada, España.BATANERO, CARMEN Y DÍAZ GODINO, J. (2004). Didáctica de la Estadística y Probabilidad para Maestros.

Universidad de Granada, España.CHISTENSEN, H. (1990). Estadística paso a paso. México: Trillas.CORONADO PADILLA, JORGE (2007). Escalas de Medición. Vol. 2. Bogotá: Corporación Universitaria, Unitec. DÍAZ GODINO, J.; BATANERO, M. C. Y CAÑIZARES, M. J. (1987). Azar y Probabilidad. Madrid: Síntesis.ERNESTO, RIVAS GONZÁLEZ (2000). Estadística General. Caracas: Ediciones de la Biblioteca. MARTÍN PLIEGO, F. J. (2010). Fundamentos de probabilidad. Madrid: Ediciones Paraninfo.ORLANDONI MERLI, GIAMPAOLO (2010). Escalas de medición en estadística. Telos, vol. 12, núm. 2. Universidad

Privada Dr. Rafael Belloso Chacín, Maracaibo, Venezuela.RODRÍGUEZ OJEDA, LUIS (2007). Probabilidad y Estadística Básica para Ingenieros. Ecuador: Instituto de

Ciencias Matemáticas, Escuela Superior Politécnica del Litoral.SOTO, A. (2005). Principios de Estadística. Caracas: Panapo de Venezuela.

80

Documents

La estadística y sus aplicacionesminedupedia.mined.gob.sv/lib/exe/fetch.php?media=files:d... · Web viewPoblación y muestra, selección aleatoria de una muestra 12