Header Ads Widget

Ticker

6/recent/ticker-posts

Tutorial de estadísticas de Python

 

Python tiene un módulo de estadísticas que simplifica el cálculo de estadísticas comunes como la media, el modo, la desviación estándar y otras. Estadísticas como estas pueden brindarle información interesante sobre los datos con los que podría estar trabajando. Esto podría ser una colección de varios grados, una muestra de precios de un artículo en muchos minoristas, precios de acciones de varias empresas públicas y muchos más. Las estadísticas permiten que las personas y las organizaciones tomen decisiones en función de lo que proporcionan los datos. En este tutorial, veremos algunas de las funciones estadísticas básicas que podemos usar en Python.

Para comenzar a trabajar con estadísticas en Python, lo primero que debe hacer es importar el módulo de estadísticas así.

Ahora necesitamos algunos datos para trabajar. Un conjunto de datos familiar y fácil de entender sería el de las calificaciones en la escuela. Configuraremos una lista de calificaciones para que podamos probar todos estos métodos estadísticos en los datos. Todas las calificaciones ahora se almacenan en una gradesvariable.

Definiciones estadísticas

Antes de avanzar demasiado, examinemos las definiciones de estas estadísticas con las que queremos trabajar.

  • Media : el promedio de un conjunto de números. Sume todos los números del conjunto y luego divida ese total por el número de números del conjunto para encontrar la media.
  • Mediana : el número medio, o punto medio de los datos, cuando los números se enumeran en orden ascendente. Para encontrar la mediana, coloque los números en orden de valor y encuentre el número del medio.
  • Modo : el modo es el valor que ocurre con mayor frecuencia. Si no se repite ningún número en la lista, entonces no hay modo para la lista.

En Python, ¡no tenemos que calcular manualmente ninguno de estos! Simplemente usamos las funciones proporcionadas por el módulo de estadísticas y estamos listos para comenzar.

Media

Así es como calculamos la media (promedio) de todas las calificaciones en nuestra lista.

La media de todas las notas es 87,22222222222223

Mediana

Para calcular la mediana, o el punto medio de las calificaciones, usaremos este código aquí.

La mediana de todos los grados es 88

Vemos que la mediana de nuestras calificaciones es 88. Al observar la lista original, no es fácil decidir cómo se obtuvo ese resultado. Recuerde que la mediana se ve en el medio de los datos cuando se ordena la lista. Ordenemos nuestras calificaciones y echemos un vistazo a la salida.

[75, 77, 80, 85, 88, 90, 93, 97, 100]

El resultado anterior nos muestra que cuando gradesse ordena, 88 está de hecho justo en el medio de los datos. ¡Entonces la función mediana está funcionando perfectamente!

Modo

Para demostrar la función de modo, primero, actualizaremos la lista de calificaciones. Recuerde, la moda se encuentra buscando el valor que ocurre con mayor frecuencia en un conjunto de datos. Nuestra lista de calificaciones original tenía todos los valores únicos. Cambiaremos eso aquí para que podamos probar el modo.

Ahora podemos hacer el cálculo del modo así.

La moda de todos los grados es 75

Vemos que la moda de todas las calificaciones es 75. Si observa la lista actualizada de calificaciones, puede ver fácilmente que 75 ocurre tres veces, mientras que todas las demás aparecen solo una o dos veces. Entonces esto es exacto, 75 es la moda de nuestras calificaciones.

Diferencia

La varianza de los datos es otro método estadístico al que podemos echar un vistazo. La varianza en las estadísticas se refiere al promedio de las diferencias al cuadrado de la media. En otras palabras, ¿qué tan variados son los datos? ¿Varía mucho, en el sentido de que tenemos un grado de digamos 20, otro de 99 y otro de 50? ¿Los grados son muy variados o están todos bastante cerca? Antes incluso de ejecutar el código para esto, podemos concluir que nuestras calificaciones son bastante similares. Probemos la función de varianza en nuestra lista actual de calificaciones, y luego cambiaremos las calificaciones para obtener un resultado diferente. Además, para comprender mejor cuál es el valor que calculamos, un valor de varianza de cero significa que todos los valores de los datos son idénticos. Todas las variaciones distintas de cero son positivas.

Las calificaciones tienen una variación de 83.15151515151516

Ok, ese es un resultado interesante. Cambiemos las calificaciones al mismo valor para ver qué sucede luego.

Las calificaciones tienen una varianza de 0

Efectivamente, eso nos da una varianza de cero, ya que todas las calificaciones son iguales. No varían mucho en absoluto. Ahora agregaremos solo una calificación adicional con un valor diferente. Veamos qué pasa.

Las calificaciones tienen una variación de 14.285714285714285

Con solo ese cambio en los datos, podemos ver que la varianza aumenta con bastante rapidez. Haremos un ejemplo más de varianza.

Las calificaciones tienen una variación de 257,35714285714283

Eso nos da una idea bastante clara de cómo funciona la varianza en Python.

Desviación Estándar

La desviación estándar se usa para mostrar cuánta variación de la media existe. Puede pensar en ello como una desviación típica de la media. Una desviación estándar baja significa que los valores tienden a estar cerca de la media. Una desviación estándar alta significa que los valores se distribuyen en un rango mayor.

grados con una desviación estándar baja

Las calificaciones tienen una desviación estándar de 2.9154759474226504

grados con una desviación estándar alta

Las calificaciones tienen una desviación estándar de 31,716377022424414

Dato curioso para los fanáticos de las matemáticas. La desviación estándar es en realidad la raíz cuadrada de la varianza. No tuvimos que hacer eso manualmente ya que la función stdev () se encargó de eso por nosotros. Sin embargo, podemos probar esto con el siguiente código. Usaremos las mismas calificaciones que usamos anteriormente, pero cambiaremos la función para obtener la desviación estándar.

Las calificaciones tienen una desviación estándar de 31,716377022424414

¡Ah-ja! El resultado es exactamente el mismo. Podemos calcular la desviación estándar mirando la raíz cuadrada de la varianza, o podemos tomar la ruta más fácil y hacer uso de la función stdev () en Python.

Recursos estadísticos adicionales

  • Python statistics.stdev () Ejemplos  (programcreek)
  • Funciones de estadística matemática  (python)
  • Tutorial de Python del módulo de estadísticas  (programación de python)
  • Media, varianza y desviación estándar en Python  (código fuente)
  • Cómo calcular la media, el modo, la varianza, la desviación estándar  (stackoverflow)
  • Media, mediana y moda con Python  (acadgild)
  • Cómo encontrar la media, la mediana, la moda, el rango y la desviación estándar  (ciencia de hoy)

Resumen del tutorial de estadísticas de Python

Así que es una buena descripción general de las estadísticas en Python para principiantes. Python tiene muchos módulos, bibliotecas y paquetes para realizar una computación científica y estadística muy intensiva. Los conceptos cubiertos aquí serán un buen trampolín para un estudio más profundo de las estadísticas en Python.


Publicar un comentario

0 Comentarios