Tutoriales de programación - página 12

 

Describir datos cualitativamente


Describir datos cualitativamente

Hola a todos, hoy discutiremos la descripción cualitativa de las formas de los conjuntos de datos, enfocándonos en construir vocabulario para comunicar nuestras observaciones de manera efectiva. Exploraremos varias representaciones gráficas, como histogramas, polígonos de frecuencia y diagramas de tallo, y analizaremos sus características. Vamos a sumergirnos en algunos ejemplos:

Primero, examinemos un histograma. En este caso, el gráfico exhibe una forma simétrica, con la mitad izquierda parecida a la mitad derecha. Aunque los datos reales rara vez exhiben una simetría perfecta, nos enfocamos en describir la forma general en lugar de señalar valores específicos. Otro tipo de distribución simétrica es un gráfico uniforme, donde los valores de los datos se distribuyen uniformemente entre los contenedores. Esto da como resultado una forma plana horizontal, lo que indica la misma probabilidad de que los valores caigan en cada contenedor.

Ahora, exploremos conjuntos de datos que no son simétricos. En lugar de histogramas, consideraremos diagramas de tallo para variar. En este ejemplo de diagrama de tallo, podemos observar una forma asimétrica. Es evidente que la distribución no es la misma a ambos lados del centro, que se encuentra alrededor de 92. Además, podemos discernir la dirección de la asimetría. En este caso, hay una cola más larga hacia números más altos, lejos del centro. Esto indica una distribución asimétrica a la derecha.

Por otro lado, aquí hay un diagrama de tallo que está sesgado a la izquierda. Notamos una cola más larga en el lado de los valores más pequeños, mientras que los datos están más concentrados en los valores más grandes. Es importante describir con precisión la dirección de la asimetría para proporcionar una comprensión integral del conjunto de datos.

Por último, consideremos un conjunto de datos que inicialmente puede parecer sesgado hacia la derecha debido a un solo valor atípico grande alrededor de 160 o 170. Sin embargo, si ignoramos este valor atípico, la distribución muestra una forma bastante simétrica, que podría parecerse a una curva de campana. Es crucial identificar valores atípicos, ya que pueden representar errores, casos excepcionales o fenómenos que requieren un análisis por separado. Al describir la forma general de los datos, se deben reconocer los valores atípicos pero no considerarlos demasiado.

Al desarrollar un vocabulario para describir formas de conjuntos de datos, podemos comunicar de manera efectiva las características clave y los patrones observados en los datos. Comprender la forma de un conjunto de datos ayuda a interpretar sus propiedades y nos permite obtener información significativa.

Describing Data Qualitatively
Describing Data Qualitatively
  • 2020.07.12
  • www.youtube.com
It's time to build some vocabulary for describing single-variable data sets, and to look at some example histograms and stem plots. Yay! If this vid helps yo...
 

Comprender la media, la mediana y la moda


Comprender la media, la mediana y la moda

Hola a todos, hoy discutiremos los conceptos de media, mediana y moda, enfocándonos en sus interpretaciones como medidas de tendencia central. Cada medida tiene su propia utilidad y entenderlas es crucial. Repasemos rápidamente sus definiciones.

La media representa el promedio numérico de un conjunto de datos. Se calcula sumando todos los valores del conjunto y dividiendo el total por el número de valores. La media se denota comúnmente con una barra X o una X con una línea encima, especialmente cuando se trata de muestras.

La mediana es el valor que divide los datos exactamente por la mitad. Para encontrar la mediana, ordena los datos de menor a mayor. Si hay un número impar de valores, la mediana es el valor medio. Para un número par de valores, promedie los dos valores medios para encontrar la mediana. La mediana a menudo se denota con una M mayúscula.

La moda es simplemente el valor más común en el conjunto de datos. Una distribución puede tener múltiples modas si dos o más valores tienen la misma frecuencia, pero si todos los datos tienen la misma frecuencia, decimos que la distribución no tiene moda.

Consideremos un ejemplo. Supongamos que tenemos un conjunto de datos con 16 valores. La media se calcula sumando todos los valores y dividiendo por 16. En este caso, la media es 67,9375. La mediana, dado que tenemos un número par de valores, se encuentra tomando el promedio de los dos valores centrales, lo que da como resultado 65.5. La moda, el valor más común, es 65.

Cada medida de tendencia central también tiene una interpretación gráfica. En un histograma, la moda es el punto más alto del histograma y representa el valor más frecuente. La mediana es el valor que divide el histograma por la mitad, dividiendo el área por igual. La media es el valor que permitiría equilibrar el histograma.

Considere el ejemplo de un histograma. La moda se puede determinar identificando el valor de x donde el histograma es más alto, que es un poco mayor que 3 en este caso. La mediana es el valor que divide el área del histograma por la mitad, que es alrededor de 4,5. La media es el valor que equilibraría el histograma, ligeramente inferior a 5.

¿Por qué necesitamos tres medidas de tendencia central? Cada medida tiene sus ventajas y desventajas. La media se usa comúnmente en el análisis estadístico y es intuitiva. Sin embargo, está muy influenciado por valores atípicos y puede no ser adecuado para distribuciones sesgadas.

La mediana es fácil de calcular y comprender, y no es sensible a los valores atípicos. Sin embargo, no utiliza toda la información del conjunto de datos y puede presentar desafíos en la inferencia estadística.

La moda es una medida universal de tendencia central, incluso para variables categóricas. Sin embargo, el valor más común no representa necesariamente la mitad de la distribución, lo que lo hace menos confiable como medida del centro.

Considere un pequeño conjunto de datos de puntajes de exámenes, incluido un valor atípico. En este caso, la media de 79 no describe con precisión el desempeño típico de un estudiante. La mediana de 94 es una medida más descriptiva. Eliminar el valor atípico revela la diferencia más claramente, ya que la media cambia significativamente mientras que la mediana permanece sin cambios.

Comprender las distinciones entre la media, la mediana y la moda nos permite interpretar y comunicar de manera efectiva las tendencias centrales de un conjunto de datos, considerando sus fortalezas y limitaciones en diferentes escenarios.

Understanding Mean, Median, and Mode
Understanding Mean, Median, and Mode
  • 2020.07.13
  • www.youtube.com
How can we measure the center of a data set? What are the strengths and weaknesses of each measure? How can we understand each graphically? If this vid helps...
 

Percentiles y Cuantiles en R


Percentiles y Cuantiles en R

Hoy hablaremos de percentiles y cuantiles en R. Comencemos por revisar sus significados.

Los percentiles son una forma de medir la posición relativa de un valor dentro de un conjunto de datos. En general, el p-ésimo percentil de un conjunto de datos es un valor mayor que el p por ciento de los datos. Por ejemplo, el percentil 50 es la mediana, el percentil 25 es el primer cuartil y el percentil 75 es el tercer cuartil. Representa el valor que se encuentra por encima del 75 por ciento de los datos.

Existen diferentes métodos para calcular los percentiles y no existe un enfoque universalmente aceptado. Sin embargo, la buena noticia es que todos los métodos arrojan resultados muy similares. Para calcular los percentiles, lo mejor es confiar en la tecnología, como R, que ofrece cálculos eficientes y precisos.

Los cuantiles, por otro lado, son esencialmente lo mismo que los percentiles. Sin embargo, el término "cuantiles" se usa a menudo cuando se hace referencia a valores decimales, mientras que los "percentiles" se asocian con valores enteros. Por ejemplo, puede tener el percentil 15 pero el cuantil 0.15. La ventaja de los cuantiles es que permiten una mayor precisión al expresar valores con tantos decimales como sea necesario.

Ahora, cambiemos a R y exploremos cómo calcular percentiles y cuantiles utilizando el conjunto de datos "fiel", que contiene información sobre la duración de la erupción y el tiempo de espera del géiser Old Faithful en los Estados Unidos, medido en minutos.

Para calcular percentiles y cuantiles en R, podemos usar la función "cuantil". Requiere dos argumentos. Primero especificamos la variable que nos interesa, que en este caso es "fiel$esperando". A continuación indicamos el cuantil deseado, escrito en forma decimal. Por ejemplo, para calcular el percentil 35 (0,35 cuantil), escribimos 0,35 como argumento cuantil. Al ejecutar el comando, obtenemos el resultado, como 65 en este caso. Esto implica que aproximadamente el 35% de todas las erupciones tienen un tiempo de espera menor o igual a 65.

En R, es posible calcular múltiples cuantiles simultáneamente proporcionando un vector de cuantiles. Por ejemplo, usando la función "c()", podemos especificar cuantiles 0.35, 0.70 y 0.95. El resultado será un vector que contiene los cuantiles respectivos: 65, 81 y 89.

Otro comando útil es "resumen", que proporciona un resumen de la variable. Al pasar la variable "fieles$esperando" al comando, obtenemos el primer cuartil (percentil 25), la mediana (percentil 50), el tercer cuartil (percentil 75), así como los valores mínimo, máximo y medio.

Ahora, abordemos la pregunta opuesta. Si tenemos un valor dentro del conjunto de datos y queremos determinar su percentil, podemos usar el comando "ecdf". Al especificar la variable de interés, como "fiel $ en espera", y proporcionar un valor específico del conjunto de datos, como 79, el comando devolverá el percentil de ese valor. En este ejemplo, el resultado es 0,6617647, lo que indica que un tiempo de espera de 79 corresponde aproximadamente al percentil 66.

Comprender los percentiles y los cuantiles nos permite evaluar la posición relativa de los valores dentro de un conjunto de datos, lo que brinda información valiosa sobre la distribución y las características de los datos.

Percentiles and Quantiles in R
Percentiles and Quantiles in R
  • 2020.07.18
  • www.youtube.com
Computing percentiles and quantiles by hand is for suckers! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more #rstats ...
 

Varianza muestral y desviación estándar


Varianza muestral y desviación estándar

Hola a todos, hoy vamos a profundizar en el concepto de varianza muestral y desviación estándar. Estas dos medidas nos ayudan a comprender el alcance de la variabilidad o la dispersión en un conjunto de datos. Proporcionan información sobre hasta qué punto los valores en el conjunto de datos se desvían de la media, en promedio.

Echemos un vistazo a las fórmulas. En las fórmulas, "n" representa el tamaño total de la muestra, "X_i" denota los valores en el conjunto de datos (por ejemplo, X_1, X_2, X_3, etc.) y "X bar" (X con una línea encima) representa la media muestral. Si bien normalmente usamos tecnología como R para calcular estas medidas, es crucial comprender los conceptos subyacentes, especialmente porque ya no realizamos estos cálculos manualmente.

El componente clave en ambas medidas es el término "X_i menos X barra", que representa la desviación de cada valor (X_i) de la media de la muestra. En otras palabras, cuantifica cuánto difiere cada valor, positiva o negativamente, del promedio. Idealmente, queremos determinar el promedio de estas desviaciones, pero tomar un promedio simple arrojaría cero ya que las desviaciones positivas y negativas se anulan entre sí. Para abordar esto, elevamos al cuadrado cada desviación (X_i menos X barra) antes de calcular el promedio. Esto da como resultado la fórmula para la varianza de la muestra, que representa el promedio de las desviaciones al cuadrado de la media.

Sin embargo, es posible que haya notado que dividimos por (n-1) en lugar de n en la fórmula de la varianza. Hay varias razones para esto, pero aquí hay una sencilla: al calcular la media de la muestra (barra X), solo necesitamos (n-1) de los valores X_i. Esto se debe a que la barra X se calcula como la suma de todos los X_i dividida por n. Por lo tanto, podemos resolver cualquier valor de X_i una vez que tengamos la barra X. Dividir por (n-1) explica esto y asegura que calculemos el promedio de (n-1) desviaciones distintas, no todas las n de ellas. De esta forma, obtenemos la varianza de la muestra como una medida significativa de la variabilidad.

Otro problema es que la varianza no está en la misma escala que los datos originales, lo que la hace abstracta. Para abordar esto, tomamos la raíz cuadrada de la varianza de la muestra, lo que da como resultado la fórmula para la desviación estándar de la muestra. Si bien la desviación estándar requiere más cálculos y puede ser teóricamente desafiante, es más fácil de interpretar y visualizar que la varianza. Tanto la varianza como la desviación estándar tienen sus usos en diferentes contextos.

Consideremos un ejemplo con un conjunto de datos de solo cuatro valores. Para calcular la varianza de la muestra y la desviación estándar, primero calculamos la media de la muestra sumando los cuatro valores y dividiendo por cuatro, obteniendo una media de 121. Usando la fórmula de la varianza, elevamos al cuadrado las desviaciones (X_i menos X barra) para cada valor y promediar las desviaciones al cuadrado, dividiendo por tres (uno menos que el número de valores). Esto produce una variación de 220. Sin embargo, este valor carece de interpretabilidad inmediata. Para abordar esto, tomamos la raíz cuadrada de la varianza, lo que da como resultado una desviación estándar de 14,8. Este valor tiene más sentido como medida de dispersión en el conjunto de datos.

En términos de tecnología, podemos usar comandos como "var" y "sd" en R para calcular la varianza y la desviación estándar, respectivamente. Se recomienda encarecidamente aprovechar la tecnología para estos cálculos, ya que ahorra tiempo y proporciona resultados precisos. Calcular la varianza y la desviación estándar manualmente ya no es necesario en la mayoría de los casos.

Además, es importante tener en cuenta que, en la mayoría de los casos, alrededor de dos tercios de los valores de los datos estarán dentro de una desviación estándar de la media. Para una distribución en forma de campana (distribución normal), aproximadamente el 68 % de los datos se encuentran dentro de una desviación estándar, alrededor del 95 % se encuentran dentro de dos desviaciones estándar y casi todos (99,7 %) se encuentran dentro de tres desviaciones estándar de la media. Esto se conoce como regla empírica o regla 68-95-99.7.

Para ilustrar esto, consideremos un conjunto de datos de 200 valores elegidos al azar de números enteros entre 0 y 100. La media de este conjunto de datos es 49,9 y la desviación estándar es 27,3. Aplicando la regla empírica, si vamos una desviación estándar por encima y por debajo de la media, captaríamos el 68% de los valores, lo que equivale a 136 valores. Si la distribución sigue una forma de campana (distribución normal), podemos hacer estimaciones aún más precisas. En este caso, aproximadamente el 95 % de los valores (190 de 200) estarían dentro de dos desviaciones estándar de la media, y casi todos los valores (199 de 200) estarían dentro de tres desviaciones estándar de la media.

Concluyamos con un ejemplo más usando la regla empírica. Supongamos que tenemos puntajes de una prueba estandarizada que siguen aproximadamente una distribución en forma de campana. La puntuación media es 1060 y la desviación estándar es 195. Aplicando la regla empírica, podemos estimar que alrededor del 68% de las puntuaciones estarían entre 865 y 1255 (una desviación estándar por debajo y por encima de la media). Aproximadamente el 95% de las puntuaciones estarían entre 670 y 1450 (dos desviaciones estándar por debajo y por encima de la media). Finalmente, alrededor del 99,7% de las puntuaciones estarían dentro del rango de 475 y 1645 (tres desviaciones estándar por debajo y por encima de la media).

Comprender la varianza y la desviación estándar nos ayuda a comprender la dispersión y la variabilidad dentro de un conjunto de datos. Si bien la tecnología facilita su cálculo, es crucial comprender los conceptos subyacentes para interpretar y analizar los datos de manera efectiva. Al utilizar estas medidas, podemos obtener información valiosa y tomar decisiones informadas en función de las características de los datos.

Sample Variance and Standard Deviation
Sample Variance and Standard Deviation
  • 2020.07.15
  • www.youtube.com
Let's measure the spread of data sets! Variance and standard deviation are hugely important in statistics; they're also easy to misunderstand. If this vid he...
 

Puntuaciones Z


Puntuaciones Z

Hola a todos, en la discusión de hoy, exploraremos las puntuaciones z, también conocidas como puntuaciones estándar. Este método nos permite medir la posición relativa de los valores dentro de un conjunto de datos.

Una puntuación z representa el número de desviaciones estándar por las que un valor se desvía de la media. Por ejemplo, si tenemos un conjunto de datos con una media de 50 y una desviación estándar de 8, un valor de 62 tendría una puntuación z de 1,5. Esto significa que el valor de 62 está 1,5 desviaciones estándar por encima de la media.

Los puntajes Z son particularmente útiles para evaluar posiciones relativas en conjuntos de datos con distribuciones simétricas, especialmente aquellos que siguen una distribución normal o en forma de campana. Sin embargo, cuando se trata de datos sesgados o conjuntos de datos que contienen valores atípicos, es posible que la media y la desviación estándar no representen con precisión el centro y la dispersión de los datos. En consecuencia, la utilidad de las puntuaciones z disminuye en tales casos.

La fórmula para calcular una puntuación z es: z = (x - μ) / σ, donde x es el valor en el conjunto de datos, μ es la media y σ es la desviación estándar. La media a veces se representa con la barra x y la desviación estándar con s, pero la fórmula sigue siendo la misma.

Los puntajes Z son particularmente valiosos cuando se comparan las posiciones relativas de los valores en diferentes conjuntos de datos. Consideremos un ejemplo para ilustrar esto. La estatura promedio de los hombres adultos en los Estados Unidos es de 69,4 pulgadas, con una desviación estándar de 3,0 pulgadas. Por otro lado, la estatura promedio de las mujeres adultas en los Estados Unidos es de 64,2 pulgadas, con una desviación estándar de 2,7 pulgadas. Ahora, podemos comparar la rareza relativa de un hombre de 64,2 pulgadas de altura y una mujer de 69,4 pulgadas de altura.

Para calcular el puntaje z para el hombre, usamos la fórmula (64.2 - 69.4) / 3.0. La puntuación z resultante es -1,73, lo que indica que la altura del hombre está 1,73 desviaciones estándar por debajo de la altura media de los hombres. Para la mujer, la puntuación z es (69,4 - 64,2) / 2,7, lo que da como resultado una puntuación z de 1,93. Esto significa que la altura de la mujer está 1,93 desviaciones estándar por encima de la altura media de las mujeres. Comparando los valores absolutos de los dos puntajes z, podemos concluir que la altura de la mujer es más inusual en relación con la altura promedio de las mujeres.

Es importante tener en cuenta que las puntuaciones z por sí solas no proporcionan una distinción definitiva entre valores "habituales" e "inusuales". Una convención común es considerar los valores a más de dos desviaciones estándar de la media como inusuales y los valores a más de tres desviaciones estándar como muy inusuales. Sin embargo, esto es solo una regla general, y la decisión depende en última instancia del contexto y la distribución específica de los datos.

Para demostrar esto, consideremos el caso de un hombre de 76 pulgadas de alto. Utilizando la misma fórmula y la media y la desviación estándar dadas para los hombres, calculamos una puntuación z de 2,2. Dado que este valor es mayor que 2 en valor absoluto, consideraríamos la altura del hombre como inusual según la convención.

La regla empírica proporciona una guía cuando se trata de distribuciones aproximadamente en forma de campana. Alrededor del 68 % de los valores se encuentran dentro de una desviación estándar de la media (puntajes z entre -1 y 1), aproximadamente el 95 % se encuentran dentro de dos desviaciones estándar (puntajes z entre -2 y 2) y alrededor del 99,7 % se encuentran dentro de tres desviaciones estándar (puntajes z entre -3 y 3).

En conclusión, las puntuaciones z ofrecen una forma útil de evaluar la posición relativa de los valores dentro de un conjunto de datos. Son particularmente valiosos para comparar valores entre diferentes conjuntos de datos y determinar la rareza o inusualidad de un valor específico. Sin embargo, es fundamental tener en cuenta la forma de la distribución, los valores atípicos y el contexto de los datos al interpretar las puntuaciones z.

Concluyamos con un breve ejemplo. Supongamos que tenemos un conjunto de datos de alturas de mujeres adultas en los Estados Unidos, que sigue aproximadamente una distribución en forma de campana. La altura media es de 64,2 pulgadas, con una desviación estándar de 2,7 pulgadas.

Usando la regla empírica, podemos estimar los rangos de altura dentro de los cuales se encuentra un determinado porcentaje de mujeres. Dentro de una desviación estándar de la media, se encontrará aproximadamente el 68% de las alturas de las mujeres. Al restarle 2,7 a 64,2 obtenemos 61,5 pulgadas y al sumar 2,7 obtenemos 66,9 pulgadas. Por lo tanto, podemos estimar que alrededor del 68% de las alturas de las mujeres caerán entre 61,5 y 66,9 pulgadas.

Ampliando a dos desviaciones estándar, encontramos que aproximadamente el 95% de las alturas de las mujeres se encuentran dentro de este rango. Restando 2,7 dos veces de la media, obtenemos 58,8 pulgadas y sumando 2,7 dos veces obtenemos 69,6 pulgadas. Por lo tanto, se puede esperar que aproximadamente el 95 % de las mujeres midan entre 58,8 y 69,6 pulgadas.

Finalmente, dentro de tres desviaciones estándar, que cubre aproximadamente el 99,7 % de los datos, restamos 2,7 tres veces de la media para obtener 56,1 pulgadas y sumamos 2,7 tres veces para obtener 71,7 pulgadas. Por lo tanto, podemos estimar que alrededor del 99,7 % de las alturas de las mujeres caerán entre 56,1 y 71,7 pulgadas.

Comprender los puntajes z y su interpretación nos permite evaluar la posición relativa y la rareza de los valores dentro de un conjunto de datos, lo que brinda información valiosa en varios campos, como estadísticas, investigación y análisis de datos.

Recuerde, las puntuaciones z proporcionan una medida estandarizada de la posición relativa, teniendo en cuenta la media y la desviación estándar del conjunto de datos. Son una herramienta poderosa para comprender la distribución y comparar valores en diferentes conjuntos de datos.

Z-Scores
Z-Scores
  • 2020.07.19
  • www.youtube.com
Let's understand z-scores! This is a simple way of describing position within a data set, most appropriate to symmetric (particularly bell-shaped) distributi...
 

El resumen de cinco números y la prueba 1.5 x IQR para valores atípicos


El resumen de cinco números y la prueba 1.5 x IQR para valores atípicos

¡Hola a todos! Hoy profundizaremos en los conceptos del resumen de cinco números y la prueba de 1.5 veces IQR para valores atípicos. Comencemos definiendo los cuartiles de un conjunto de datos. Los cuartiles son valores que dividen un conjunto de datos en cuatro partes iguales. El primer cuartil (Q1) se encuentra por encima de aproximadamente el 25 % de los datos, el segundo cuartil (Q2) se encuentra por encima de aproximadamente la mitad de los datos (también conocido como la mediana) y el tercer cuartil (Q3) se encuentra por encima de aproximadamente el 75 % de los datos. datos.

Es importante tener en cuenta que la división en cuatro partes iguales puede no ser exacta si el conjunto de datos no se divide uniformemente. Los cuartiles primero y tercero se pueden encontrar determinando primero la mediana. Para encontrar Q1 y Q3, dividimos el conjunto de datos en una mitad superior y una mitad inferior y calculamos las medianas de esas dos mitades. La mediana de la mitad superior es Q3, mientras que la mediana de la mitad inferior es Q1.

Trabajemos con un ejemplo para ilustrar esto. Considere el siguiente conjunto de datos con 17 valores, enumerados de menor a mayor. La mediana, o Q2, será el valor del medio, que en este caso es el noveno valor (dado que 17 es un número impar de valores). Por lo tanto, la mediana es 42. Para encontrar Q1, consideramos los ocho valores más pequeños que la mediana. Ordenándolos, encontramos 16, 18, 20 y 22. Dado que este es un número par de valores, tomamos el promedio de los dos valores medios, lo que nos da 18. De manera similar, para Q3, consideramos los ocho valores mayores que la mediana, que son 45, 48, 50 y 55. Nuevamente, tomando el promedio de los dos valores medios, obtenemos Q3 como 52.

Por lo tanto, para este ejemplo, los cuartiles son Q1 = 18, Q2 = 42 y Q3 = 52. El resumen de cinco números de un conjunto de datos consta de estos cuartiles junto con los valores mínimo y máximo del conjunto de datos. En nuestro caso, el resumen de cinco números es 5, 18, 42, 52 y 93, donde 5 representa el valor mínimo y 93 representa el máximo.

Otra medida útil es el rango intercuartil (IQR), que cuantifica la dispersión de la mitad media de los datos. Se calcula como la diferencia entre Q3 y Q1. En nuestro ejemplo, el IQR es 52 - 18 = 34. El IQR se enfoca en el rango de valores dentro del 50% medio del conjunto de datos y se ve menos afectado por los valores extremos.

Ahora, consideremos otro ejemplo. Supongamos que tenemos los puntajes de los exámenes de 22 estudiantes que se enumeran a continuación. Queremos describir la distribución de puntajes utilizando el resumen de cinco números y el IQR. Primero, debemos ser cautelosos al usar la media como medida central, ya que podría estar influenciada por valores extremos. En este caso, la media es 75,3, pero dado que algunos alumnos obtuvieron una puntuación excepcionalmente baja, es posible que la media no represente con precisión el rendimiento típico de los alumnos. De manera similar, el rango, que es la diferencia entre los valores mínimo y máximo (2 y 100, respectivamente), puede resultar engañoso debido a los valores extremos.

Para obtener una descripción más precisa, calculamos el resumen de cinco números. Ordenando las puntuaciones, encontramos el valor mínimo como 2 y el valor máximo como 100. La mediana (Q2) es el valor en el medio, que en este caso es 80. La mitad inferior del conjunto de datos consiste en los ocho valores menores que la mediana, con 76 y 83 como los dos valores centrales. Tomando su promedio, encontramos que Q1 es 79. De manera similar, para la mitad superior del conjunto de datos, tenemos la mediana como 83, lo que da como resultado que Q3 sea 83.

Por lo tanto, el resumen de cinco números para este conjunto de datos es 2, 79, 80, 83 y 100. A partir de este resumen, observamos que la mitad central de los puntajes se encuentra entre 79 y 83, lo que indica que los puntajes están estrechamente agrupados alrededor del mediana.

Para identificar valores atípicos en el conjunto de datos, podemos emplear la prueba IQR de 1,5 veces. El IQR, como se calculó anteriormente, es 83 - 79 = 4. Multiplicar el IQR por 1,5 nos da 6. Restamos 6 de Q1 y sumamos 6 a Q3 para establecer el rango dentro del cual los valores no se consideran atípicos. En este caso, cualquier valor por debajo de 73 o por encima de 89 debe tratarse como un valor atípico de acuerdo con esta regla.

Al aplicar esta prueba al conjunto de datos, encontramos que 2 y 100 deben considerarse valores atípicos. Como profesor, es recomendable ignorar estas puntuaciones extremas o darles menos peso al determinar la curva del examen.

Al utilizar el resumen de cinco números, IQR y la prueba IQR de 1,5 veces, obtenemos una mejor comprensión de la distribución de puntajes y podemos identificar posibles valores atípicos que podrían afectar el análisis general.

The Five-Number Summary and the 1.5 x IQR Test for Outliers
The Five-Number Summary and the 1.5 x IQR Test for Outliers
  • 2020.07.15
  • www.youtube.com
The Five-Number Summary and the 1.5 x IQR Test for Outliers. If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more statist...
 

diagramas de caja


diagramas de caja

Hoy hablaremos de diagramas de caja, también conocidos como diagramas de caja y bigotes. Un diagrama de caja es una representación gráfica de un conjunto de datos de una sola variable basado en el resumen de cinco números. Vamos a sumergirnos en un ejemplo para entenderlos mejor.

Supongamos que tenemos un conjunto de datos para el que queremos construir un resumen de cinco números y un diagrama de caja. El conjunto de datos es el siguiente: 34, 42, 48, 51,5 y 58. Primero, organizamos los números en orden ascendente para encontrar los valores mínimo (34) y máximo (58). Como hay un número impar de valores, la mediana es el valor del medio, que en este caso es 48.

A continuación, dividimos el conjunto de datos en dos mitades: la mitad inferior y la mitad superior. La mediana de la mitad inferior es 42 y la mediana de la mitad superior es 51,5. Estos valores se conocen como primer cuartil (Q1) y tercer cuartil (Q3), respectivamente.

Usando el resumen de cinco números, podemos construir el diagrama de caja. El diagrama de caja consta de una caja que representa el rango entre Q1 y Q3. La parte inferior de la caja corresponde a Q1, la parte superior de la caja corresponde a Q3 y la línea horizontal dentro de la caja representa la mediana. Los "brazos" del diagrama de caja se extienden desde la caja hasta los valores mínimo y máximo (34 y 58, respectivamente).

El propósito del diagrama de caja es visualizar la distribución de los datos. El cuadro representa el 50% medio del conjunto de datos, mientras que los brazos abarcan los valores restantes. En el ejemplo dado, dado que no hay valores extremos, no se muestran valores atípicos en el diagrama de caja.

Consideremos otro ejemplo en el que queremos determinar el resumen de cinco números, probar los valores atípicos usando la prueba IQR de 1,5 veces y construir un diagrama de caja. El conjunto de datos es el siguiente: 62, 64, 75, 81,5 y 110.

Calculando el rango intercuartílico (RIC) restando Q1 de Q3, encontramos que es 17,5. Para realizar la prueba de 1,5 veces IQR, multiplicamos el IQR por 1,5. Restando 1,5 veces el IQR de Q1 (64 - 1,5 * 17,5), obtenemos 37,5. Sumando 1,5 veces el IQR a Q3 (81,5 + 1,5 * 17,5), obtenemos 107,75. Cualquier valor por debajo de 37,5 o por encima de 107,75 debe considerarse un valor atípico.

En este caso, el valor 110 supera el límite superior y se clasifica como un valor atípico. Al construir el diagrama de caja, dibujamos los brazos del diagrama de caja solo hasta los valores más extremos que no son valores atípicos. El valor atípico de 110 se indica mediante un punto separado, y el brazo superior se extiende solo hasta 90, que representa el valor más alto dentro del rango no atípico.

Los diagramas de caja son particularmente útiles cuando se comparan datos entre grupos, como al graficar una variable categórica y otra cuantitativa. Este tipo de diagrama, a menudo denominado diagrama de caja de lado a lado, proporciona una comparación visual clara de diferentes grupos. Como ejemplo, podemos considerar el famoso conjunto de datos del iris, donde comparamos el ancho de los pétalos de tres especies: setosa, versicolor y virginica. Al examinar el diagrama de caja, podemos observar que la especie setosa generalmente tiene pétalos más angostos en comparación con las otras dos especies. Además, podemos discernir las diferencias en la distribución entre los anchos de los pétalos dentro de cada grupo.

En resumen, los diagramas de caja brindan una visualización concisa del resumen de cinco números y permiten una fácil comparación entre diferentes grupos. Muestran los valores mínimo, primer cuartil (Q1), mediana, tercer cuartil (Q3) y máximo de un conjunto de datos. El cuadro representa el 50% medio de los datos, con la parte inferior del cuadro en Q1 y la parte superior del cuadro en Q3. La línea dentro de la caja representa la mediana.

Los diagramas de caja también tienen la capacidad de mostrar valores atípicos, que son valores que se encuentran fuera del rango determinado por la prueba IQR de 1,5 veces. Para determinar valores atípicos, calculamos el IQR (Q3 - Q1) y lo multiplicamos por 1,5. Luego restamos 1,5 veces el IQR de Q1 y sumamos 1,5 veces el IQR a Q3. Cualquier valor por debajo del límite inferior o por encima del límite superior se considera atípico.

Al construir un diagrama de caja con valores atípicos, los brazos del diagrama se extienden solo hasta los valores más extremos que no son valores atípicos. Los valores atípicos se representan como puntos individuales fuera de los brazos del diagrama de caja. Esto garantiza que el diagrama de caja represente con precisión la distribución de los datos no atípicos y evita interpretaciones engañosas.

Los diagramas de caja son particularmente útiles cuando se comparan datos entre diferentes grupos o categorías. Al trazar múltiples diagramas de caja uno al lado del otro, se vuelve más fácil comparar las distribuciones y comprender las diferencias en las variables que se analizan.

Por ejemplo, utilizando el conjunto de datos del iris, podemos crear un diagrama de caja de lado a lado para comparar el ancho de los pétalos de las especies setosa, versicolor y virginica. Esto nos permite observar visualmente las diferencias en el ancho de los pétalos entre las especies y la distribución de valores dentro de cada grupo.

En resumen, los diagramas de caja brindan un resumen visual del resumen de cinco números, lo que facilita la comprensión de la distribución de datos y la comparación de diferentes grupos. Proporcionan información sobre la tendencia central, la dispersión y la presencia de valores atípicos en un conjunto de datos, lo que los convierte en una herramienta valiosa para el análisis y la visualización de datos.

Boxplots
Boxplots
  • 2020.07.16
  • www.youtube.com
What is a boxplot? How can you construct one? Why would you want to? If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more...
 

Diagramas de caja en R


Diagramas de caja en R

¡Hola a todos! Hoy vamos a aprender cómo crear hermosos diagramas de caja en R usando el comando qplot. Existen múltiples formas de crear diagramas de caja en R, pero las más atractivas visualmente a menudo provienen del paquete ggplot2, que forma parte de la familia de paquetes tidyverse. Entonces, ¡vamos a sumergirnos en eso!

Si no ha usado estas funciones antes, deberá instalar el paquete tidyverse en su máquina usando el comando install.packages. Este paso es rápido si aún no lo has hecho. Una vez instalado, debe cargar el paquete en la memoria mediante el comando library(tidyverse) al comienzo de cada sesión para acceder a sus funciones.

En este tutorial, nos centraremos en usar el comando qplot del paquete ggplot2. Ahora, comencemos con dos ejemplos de creación de diagramas de caja.

Primero, ingresemos manualmente algunos datos. Crearemos un vector llamado "puntuaciones" con una longitud de 21, que podría representar las puntuaciones de los estudiantes en un examen de matemáticas en una clase de tamaño 21.

Para crear un diagrama de caja de las puntuaciones, usamos el comando qplot. La sintaxis básica sigue siendo la misma: especifique las variables para los ejes x e y, y use el argumento geom para indicar que queremos un diagrama de caja. En este caso, trazaremos las puntuaciones en el eje x.

Para hacer que nuestro diagrama de caja sea más atractivo visualmente, podemos realizar algunas mejoras. En primer lugar, podemos eliminar los números sin sentido en el eje y usando y = "". Luego, si queremos un diagrama de caja vertical, podemos cambiar los ejes usando y para las puntuaciones y eliminando la etiqueta del eje x. También podemos agregar color a las líneas y al interior del cuadro usando los argumentos color y fill, respectivamente. Finalmente, podemos personalizar las etiquetas y agregar un título al gráfico usando ylab y argumentos principales.

Ahora, pasemos al segundo ejemplo usando un conjunto de datos integrado llamado pollitos. Este conjunto de datos contiene 71 observaciones con dos variables: pesos de diferentes pollitos y los alimentos que se les dieron. Crearemos un diagrama de caja de lado a lado para comparar las distribuciones de los pesos de los pollitos en diferentes tipos de alimentos.

Similar al ejemplo anterior, usamos el comando qplot y especificamos el conjunto de datos usando data = chickweights. Luego indicamos que queremos un diagrama de caja vertical con los pesos en el eje y y los feeds en el eje x. Para diferenciar los diagramas de caja por tipo de fuente, podemos usar el argumento de relleno y asignarlo a la variable de fuente.

Una vez más, hay muchas otras opciones disponibles para la personalización, incluidos estilos de fuente, tamaños de etiquetas y tamaños de puntos. Puede explorar más buscando en línea.

Con solo algunas modificaciones, podemos crear diagramas de caja de apariencia profesional en R. Estos ejemplos demuestran el poder y la flexibilidad del paquete ggplot2 para la visualización de datos.

Boxplots in R
Boxplots in R
  • 2020.07.17
  • www.youtube.com
In this vid, we use the qplot() command in the {ggplot2} package to produce gorgeous boxplots in R. Note: since I recorded this vid, the qplot() command has ...
 

Experimentos de probabilidad, resultados, eventos y espacios de muestras


Experimentos de probabilidad, resultados, eventos y espacios de muestras

¡Hola a todos! Hoy profundizaremos en los fundamentos de la probabilidad. Exploraremos temas como espacios de muestra, resultados, eventos y más. Un experimento de probabilidad, también conocido como experimento aleatorio, es una prueba en la que el resultado no se puede predecir con certeza. Sin embargo, los ensayos repetidos pueden revelar ciertas tendencias. Echemos un vistazo a algunos ejemplos.

  1. Lanza una moneda y registra si cae en cara o cruz.
  2. Utilice un marcador aleatorio para ponerse en contacto con 10 votantes y preguntar por quién tienen la intención de votar.
  3. Tira dos dados y anota la suma de los números.
  4. Tira dos dados y cuenta el número de veces que aparece un seis.

Observe que en los dos últimos ejemplos, aunque la acción es la misma (lanzar dos dados), los datos registrados son ligeramente diferentes. Por lo tanto, los consideramos como experimentos de probabilidad separados. Ahora, analicemos un poco de vocabulario.

El resultado de una prueba específica en un experimento de probabilidad se llama resultado. La colección de todos los resultados posibles en un experimento de probabilidad se denomina espacio muestral (indicado por S mayúscula). Un subconjunto del espacio muestral se llama evento.

Para ilustrar esto, consideremos un ejemplo. Supongamos que lanzamos dos monedas y registramos los resultados. El espacio muestral consta de cuatro resultados: cara-cara, cara-cruz, cruz-cara y cruz-cruz. Si definimos el evento E como "ambos lanzamientos son iguales", entonces tenemos dos resultados dentro de ese evento: cara-cara y cruz-cruz. Este evento es un subconjunto del espacio muestral.

Generalmente, un evento representa algo que puede ocurrir durante un experimento de probabilidad, pero puede haber varias formas de que suceda. En el ejemplo anterior, el evento "ambos lanzamientos son iguales" puede ocurrir de dos maneras diferentes.

Si un evento solo puede ocurrir de una manera, lo que significa que consta de un solo resultado, lo llamamos un evento simple. El complemento de un evento E, denotado como E' o, a veces, con una barra sobre E, es el conjunto de todos los resultados en el espacio muestral que no están en E. Cuando ocurre E, no ocurre E' y viceversa.

Por ejemplo, supongamos que seleccionamos al azar un número entero del 1 al 9 usando una rueda giratoria. Sea E el evento "el resultado es un número primo". El espacio muestral son los números enteros del 1 al 9, y E es el conjunto de números primos menores que 10: {2, 3, 5, 7}. El complemento de E (E') es el evento de que E no ocurra, que consiste en los números menores de 10 que no son primos: {1, 4, 6, 8, 9}.

Dos eventos son disjuntos si no tienen resultados en común, lo que significa que no pueden ocurrir simultáneamente en una prueba del experimento de probabilidad. Por ejemplo, considere lanzar cuatro monedas y registrar los resultados. Sea E el evento "los dos primeros lanzamientos son cara" y sea F el evento "hay al menos tres cruces". Estos dos eventos se pueden representar de la siguiente manera:

E: {HHHH, HHHH...} F: {TTTTT, TTTTH, TTTHT, TTTTH...}

Observe que no hay resultados compartidos entre los conjuntos E y F. Por lo tanto, estos eventos son disjuntos.

Hay diferentes formas de describir la probabilidad de un evento, y dos enfoques comunes son la probabilidad empírica (o probabilidad estadística) y la probabilidad clásica (o probabilidad teórica).

La probabilidad empírica se basa en la observación. Realizamos un experimento de probabilidad varias veces, contamos cuántas veces ocurre el evento y lo dividimos por el número total de intentos. Corresponde a la proporción de veces que el evento ha ocurrido en el pasado. Por ejemplo, si lanzamos una moneda 100 veces y sale cara 53 veces, la probabilidad empírica de que salga cara es 53/100 o 53%.

La probabilidad clásica, por otro lado, se aplica cuando todos los resultados en un espacio muestral son igualmente probables. Contamos el número de resultados en el evento y lo dividimos por el número total de resultados en el espacio muestral. Matemáticamente, se expresa como la cardinalidad (número de elementos) del evento E dividido por la cardinalidad del espacio muestral S. Por ejemplo, si tiramos un dado justo, hay seis resultados igualmente probables, y si estamos interesados en el evento simple E de obtener un cinco, la probabilidad clásica es 1/6.

Consideremos otro ejemplo. Si lanzamos una moneda al aire tres veces, hay ocho resultados igualmente probables: HHH, HHT, HTH, HTT, THH, THT, TTH, TTT. Sea E el evento de obtener exactamente dos caras. Dentro del espacio muestral, hay tres resultados (HHH, HHT y HTH) en el evento E. Por lo tanto, la probabilidad clásica del evento E es 3/8.

Ahora, exploremos una pregunta de probabilidad utilizando la distribución de frecuencias de una clase de introducción a la estadística en una gran universidad. La distribución muestra el número de estudiantes en cada nivel de clase: 67 estudiantes de primer año, 72 de segundo año, y así sucesivamente. Si seleccionamos al azar a una persona de esta clase, ¿cuál es la probabilidad de que sea estudiante de segundo año? Esta es una pregunta de probabilidad clásica.

En la distribución de frecuencia dada, hay 222 resultados totales (estudiantes en la clase), y de ellos, 72 resultados corresponden a estudiantes de segundo año. Por lo tanto, la probabilidad de seleccionar al azar a un estudiante de segundo año es 72/222, aproximadamente 32,4 %.

Ahora, cambiemos nuestro enfoque a una pregunta ligeramente diferente usando la misma distribución de frecuencia. ¿Cuál es la probabilidad de que la próxima persona que se inscriba en el curso sea junior o senior? Esta vez, estamos interesados en la probabilidad empírica ya que no tenemos certeza sobre el registro futuro.

Miramos los datos que tenemos sobre los estudiantes que ya se han registrado. Entre ellos, hay 29 juniors y 54 seniors. Para calcular la probabilidad empírica, dividimos el número de alumnos que encajan en el evento (junior o senior) por el número total de alumnos matriculados. Por tanto, la probabilidad es (29 + 54)/222, aproximadamente un 37,7%.

Es importante tener en cuenta que ya sea que estemos tratando con probabilidad empírica o clásica, ciertos hechos son ciertos. La probabilidad de cualquier evento se encuentra entre 0 y 1. Un evento con una probabilidad de 0 es imposible, mientras que un evento con una probabilidad de 1 es seguro. Si el espacio muestral se denota como S, la probabilidad de que ocurra S siempre es 1.

Si tenemos eventos disjuntos E y F (sin resultados en común), la probabilidad de que ocurra al menos uno de ellos es la suma de sus probabilidades individuales. Sin embargo, la probabilidad de que E y F ocurran simultáneamente es 0, ya que son mutuamente excluyentes.

Además, si tenemos eventos complementarios (eventos que cubren todos los resultados posibles), la suma de sus probabilidades es siempre 1. Si ocurre el evento E, la probabilidad de que no ocurra su complemento (E') es 1 menos la probabilidad de que ocurra E.

En el lenguaje cotidiano, a menudo usamos la probabilidad de manera informal en función de la intuición y la experiencia personal. Esto se conoce como probabilidad subjetiva. Sin embargo, en estadística, confiamos en la probabilidad empírica y clásica para cálculos rigurosos. La probabilidad subjetiva carece de precisión matemática y no es el foco del análisis estadístico.

Probability Experiments, Outcomes, Events, and Samples Spaces
Probability Experiments, Outcomes, Events, and Samples Spaces
  • 2020.07.25
  • www.youtube.com
We'll also learn about empirical vs. classical probability, as well as disjoint events. All the good stuff.If this vid helps you, please help me a tiny bit b...
 

La regla de la suma para probabilidades


La regla de la suma para probabilidades

Hola a todos, hoy hablaremos sobre la regla de la suma de probabilidades. Esta regla nos permite calcular las probabilidades de uniones de eventos. Comencemos con una versión simplificada de la regla.

Supongamos que tenemos dos eventos, A y B, que son disjuntos, lo que significa que no tienen resultados en común. En este caso, la probabilidad de que ocurra cualquiera de los dos eventos es simplemente la suma de sus probabilidades individuales. Esto se puede escribir como:

PAG(A ∪ B) = PAG(A) + PAG(B)

Aquí, A ∪ B representa el conjunto de todos los resultados que están en A o en B, lo que significa esencialmente "A o B". Es importante recordar que los eventos separados no pueden ocurrir a la vez, ya que no tienen resultados en común. A veces, estos eventos se denominan mutuamente excluyentes.

Para ilustrar esta versión de la regla de la suma, consideremos un ejemplo. Supongamos que lanzamos un dado justo dos veces y definimos el evento A como que la primera tirada es un seis y el evento B como la suma de las tiradas que es tres. Estos eventos son mutuamente excluyentes porque si la primera tirada es un seis, la suma no puede ser tres. Ahora, para calcular la probabilidad de A o B (la primera tirada es un seis o la suma es tres), necesitamos las probabilidades individuales de estos eventos.

La probabilidad de que la primera tirada sea un seis es 1/6 ya que hay seis resultados posibles y solo uno de ellos es un seis. La probabilidad de que la suma de las tiradas sea tres es 2/36, considerando que hay 36 resultados posibles en total para dos tiradas de dados, y dos resultados dan como resultado una suma de tres (1+2 y 2+1). Sumando estas probabilidades, obtenemos una probabilidad total de 2/9.

Pasemos a otro ejemplo, tomado del libro de texto "Estadística elemental" de Larson y Farber. En una encuesta a propietarios de viviendas, se les preguntó sobre el tiempo que transcurre entre las limpiezas de la casa. Los resultados se resumen en un gráfico circular, que muestra diferentes intervalos de tiempo. Queremos encontrar la probabilidad de que un propietario seleccionado al azar deje pasar más de dos semanas entre limpiezas.

En este caso, estamos interesados en la probabilidad de seleccionar un propietario del segmento azul o amarillo del gráfico circular. Dado que estos segmentos son mutuamente excluyentes (no puede limpiar su casa cada tres y cuatro semanas o más), podemos agregar las probabilidades de estos eventos. La probabilidad de limpiar la casa cada tres semanas es del 10 % y la probabilidad de limpiarla cuatro semanas o más es del 22 %. La suma de estas probabilidades nos da una probabilidad total del 32%.

Ahora, consideremos un caso más general donde dos eventos, A y B, no son disjuntos. En este escenario, la regla de la suma se vuelve un poco más compleja. La probabilidad de A o B viene dada por:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Aquí, A ∩ B representa los resultados que están tanto en A como en B. Es importante restar la probabilidad de A ∩ B porque cuando A y B se superponen, los resultados en A ∩ B se cuentan dos veces (una vez en A y otra vez en B ).

Para ilustrar esta versión de la regla de la suma, usemos un ejemplo de una encuesta sobre hábitos de fumar y uso del cinturón de seguridad. La encuesta preguntó a 242 encuestados sobre sus hábitos y una tabla resume los resultados. Queremos encontrar la probabilidad de que un encuestado seleccionado al azar no fume ni use cinturón de seguridad.

Sea A el evento de no fumar y B el evento de no usar el cinturón de seguridad. Estamos interesados en la probabilidad de A o B (A ∪ B). Para calcular esto, necesitamos las probabilidades individuales de A, B y A ∩ B. La probabilidad de no fumar es 169 de 242, ya que hay 169 personas que no fuman en la muestra de 242 personas. La probabilidad de no usar el cinturón de seguridad es 114 de 242. Ahora, también necesitamos la probabilidad de A ∩ B, que representa a las personas que no fuman y no usan el cinturón de seguridad. De la tabla, vemos que hay 81 de tales individuos.

Usando la regla de la suma para eventos que no son disjuntos, podemos calcular la probabilidad de A o B de la siguiente manera:

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Sustituyendo los valores, obtenemos:

PAG(A ∪ B) = 169/242 + 114/242 - 81/242

Simplificando la expresión, encontramos que:

PAG(A ∪ B) = 202/242

Ahora, calculemos la probabilidad de A o B directamente sumando las probabilidades individuales. En este caso, podemos usar la regla de la suma para eventos disjuntos ya que los eventos en cada celda de la tabla son mutuamente excluyentes. Sumando las probabilidades de las cinco celdas que representan A o B, obtenemos:

P(A ∪ B) = 88/242 + 81/242 + 9/242 + ... (probabilidades restantes)

Después de realizar la suma, llegamos nuevamente a la probabilidad de 202/242.

Por lo tanto, ambos métodos arrojan la misma probabilidad de A o B, que es 202/242.

The Addition Rule for Probabilities
The Addition Rule for Probabilities
  • 2021.02.17
  • www.youtube.com
How can we compute P(A or B)? With the addition rule, of course! If this vid helps you, please help me a tiny bit by mashing that 'like' button. For more sta...
Razón de la queja: