jueves, 7 de mayo de 2020

EJEMPLO PRÁCTICO

INTRODUCCIÓN

A partir de los métodos estadísticos el hombre ha buscado la obtención de información confiable para la toma de decisiones y observar el comportamiento de los datos analizados. Después de varias décadas a partir de la aparición de la estadística en el siglo XIX formalmente, ya que este término fue implementado en los años 1749 por Gottfried Achenwall, se implementaron software que se encargan del manejo y análisis de los datos facilitando esta labor teniendo la capacidad de comparación de una a varias variables y el cálculo de medidas de centramiento, dispersión y forma, como lo es STATGRAPHICS, capaz de crear distintos tipos de gráficas y análisis estadísticos en general.

Así es como a continuación se analizarán datos de la variable “DISPLACE” con relación a “CYLINDERS” en “ORIGIN” de los datos “CARDATA2” con “SATAGRAPHICS CENTURION XVI.I”.


 

OBJETIVOS

ü Aprender a implementar las herramientas ofrecidas por el software Statgraphics en el análisis estadístico de datos.

   ü  Interpretar el resumen estadístico generado por el software.

   ü  Homogenizar los datos de la variable displace.

   ü  Interpretar la comparación de varias muestras.

   ü  Interpretar el sesgo, la curtosis y el coeficiente de variación.

 


ANÁLISIS DE UNA VARIABLE – DISPLACE


    Datos/Variable: displace in^3

    88 valores con rango desde 62.0 a 351.0 in^3

 

Resumen Estadístico para displace in^3

 

Recuento

88

Promedio

160.42 in^3

Mediana

143.0  in^3

Varianza

4374.32 in^3

Desviación Estándar

66.1386 in^3

Coeficiente de Variación

41.2283 %

Mínimo

62.0  in^3

Máximo

351.0  in^3

Rango

289.0  in^3

Cuartil Inferior

116,0 in^3

Cuartil Superior

182,0 in^3

Rango Intercuartílico

66.0  in^3

Sesgo Estandarizado

4.10113

Curtosis Estandarizada

0.89067

 

Esta tabla muestra los estadísticos de resumen para displace. Aquí el sesgo estandarizado y la curtosis estandarizada, pueden utilizarse para determinar si la muestra proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de la normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. Si una de estas dos o las dos no entra en el rango, entonces los datos corresponden a una distribución no paramétrica.  En este caso, el valor de la curtosis estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de sesgo estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. Por tanto, la distribución de datos es no paramétrica.

El coeficiente de variación o desviación relativa es superior al 15%, lo que nos indica que el conjunto de datos analizados tiene un comportamiento heterogéneo




En el diagrama de caja y bigote se observa el valor minino; el primer cuartil (Q1) el cual corresponde al 25%; el segundo cuartil (Q2) que corresponde al 50% y además es el valor central o la mediana; tercer cuartil (Q3) igual al 75%; el cuarto cuartil (Q4), es el valor máximo que se encuentra entre 0 y 1.5 veces el rango intercuartílico (Q3-Q1) a partir de las aristas del rectángulo; y el punto máximo de los datos analizados. Cabe resaltar que desde Q4 hasta el punto máximo se encuentran valores atípicos, los cuales pueden estar entre 1.5 y 3 veces el rango intercuartílico a partir de las aristas del rectángulo.  

 

En los datos de displace como vimos hay un coeficiente de variación alto. Esta variable se puede distribuir en 4 cilindros, 6 cilindros y 8 cilindros, con esto conseguiremos homogenizar un poco más los datos.

A continuación, mostramos los resultados obtenidos de esta acción:



ANÁLISIS DE UNA VARIABLE - DISPLACE_4 CILINDROS

     

        Datos/Variable: displ_4c in^3

  49 valores con rango desde 80.0 a 183.0 in^3

 

Resumen Estadístico para displ_4c in^3


Recuento

49

Promedio

122.367 in^3

Mediana

122.0 in^3

Varianza

614.862 in^3

Desviación Estándar

24.7964 in^3

Coeficiente de Variación

20.2639 %

Mínimo

80.0 in^3

Máximo

183.0 in^3

Rango

103.0 in^3

Rango Intercuartílico

41,0 in^3

Cuartil Inferior

99.0 in^3

Cuartil Superior

140.0 in^3

Sesgo Estandarizado

1.06407

Curtosis Estandarizada

-0.272135




En la tabla se muestra los estadísticos de resumen para displ_4c. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada. En este caso, el valor del sesgo estandarizado se encuentra dentro del rango esperado para datos provenientes una distribución normal.  El valor de curtosis estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal. Por tanto, los datos corresponden a una distribución paramétrica.

 


ANÁLISIS DE UNA VARIABLE - DISPL_6C

    Datos/Variable: displ_6c in^3

    26 valores con rango desde 81.0  a 263.0 in^3


Resumen Estadístico para displ_6c in^3

 

Recuento

26

Promedio

185.385 in^3

Mediana

181.0 in^3

Varianza

1598.25 in^3

Desviación Estándar

39.9781 in^3

Coeficiente de Variación

21.5649 %

Mínimo

81.0 in^3

Máximo

263.0 in^3

Rango

182.0 in^3

Rango intercuartílico

68,0 in^3

Cuartil Inferior

164.0 in^3

Cuartil Superior

232.0 in^3

Sesgo Estandarizado

-0.629292

Curtosis Estandarizada

0.72978

 

Esta tabla muestra los estadísticos de resumen para displ_6c. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada. En este caso, el valor del sesgo estandarizado se encuentra dentro del rango esperado para datos provenientes una distribución normal.  El valor de curtosis estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal. Por tanto, los datos corresponden a una distribución paramétrica.

 

 

ANÁLISIS DE UNA VARIABLE - DISPL_8C

    Datos/Variable: displ_8c in^3

    10 valores con rango desde 274.0 a 351.0 in^3

 

Resumen Estadístico para displ_8c in^3

 

Recuento

10

Promedio

302,3 in^3

Mediana

306,0 in^3

Varianza

571,789 in^3

Desviación Estándar

23,9121 in^3

Coeficiente de Variación

7,91006 %

Mínimo

274,0 in^3

Máximo

351,0 in^3

Rango

77,0 in^3

Cuartil Inferior

274,0 in^3

Cuartil Superior

308,0 in^3

Rango Intercuartílico

34,0 in^3

Sesgo Estandarizado

0,690264

Curtosis Estandarizada

0,4866

 

Esta tabla muestra los estadísticos de resumen para displ_8c.  De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la muestra proviene de una distribución normal. En este caso, el valor del sesgo estandarizado se encuentra dentro del rango esperado para datos provenientes una distribución normal.  El valor de curtosis estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal. Por tanto, los datos corresponden a una distribución paramétrica.




Observando los datos obtenidos al separar la variable displace en 4 cilindros, 6 cilindros y 8 cilindros concluimos que las medidas de centramiento, dispersión y de forma se redujeron, al igual que el coeficiente de variación, el cual disminuyó en cada caso como era de esperarse.

Para poder lograr una mayor homogenización estas últimas 3 variables mencionadas se subdividieron respecto a su país de origen. Los resultados obtenidos son los siguientes:

 

COMPARACIÓN DE VARIAS MUESTRAS

Muestra 1: displ4cEU  in^3

Muestra 2: displ4cJAP  in^3

Muestra 3: displ4cUSA  in^3

 

Muestra 1: 7 valores en el rango de 110.0  a 141.0 in^3

Muestra 2: 22 valores en el rango de 80.0  a 147.0 in^3

Muestra 3: 20 valores en el rango de 82.0  a 183.0 in^3

 

 

Resumen Estadístico    


 

 

Recuento

Promedio

Mediana

Varianza

Desviación Estándar

Coeficiente de Variación

displ4cUSA

20

137,05 in^3

136,0 in^3

626,576 in^3

25,0315 in^3

18,2645 %

displ4cEU

7

120,571 in^3

122,0 in^3

109,952 in^3

10,4858 in^3

8,69677 %

displ4cJAP

22

109,591 in^3

103,0 in^3

429,682 in^3

20,7288 in^3

18,9147 %

Total

49

122,367 in^3

122,0 in^3

614,862 in^3

24,7964 in^3

20,2639 %


 

Mínimo

Máximo

Rango

Cuartil Inferior

Cuartil Superior

Rango Intercuartílico

displ4cUSA

82,0 in^3

183,0 in^3

101,0 in^3

122,0 in^3

154,0 in^3

32,0 in^3

displ4cEU

110,0 in^3

141,0 in^3

31,0 in^3

110,0 in^3

122,0 in^3

12,0 in^3

displ4cJAP

80,0 in^3

147,0 in^3

67,0 in^3

98,0 in^3

123,0 in^3

25,0 in^3

Total

80,0 in^3

183,0 in^3

103,0 in^3

99,0 in^3

140,0 in^3

41,0 in^3


 

Sesgo Estandarizado

Curtosis Estandarizada

displ4cUSA

-0,213635

0,26213

displ4cEU

1,33907

1,23876

displ4cJAP

1,06159

-0,672754

Total

1,06407

-0,272135



Análisis estadístico

Al separar la variable de desplazamiento teniendo en cuenta solo los autos de 4 cilindros se logró una mayor homogenización de los datos, ya que el coeficiente de variación disminuyo de 41.2283 % (Displace) a 20.263 % para el desplazamiento de autos de 4 cilindros. Al subagrupar los datos correspondientes a 4 cilindros teniendo en cuenta el país de origen se observa que para las variables displ4cUSA Y displ4cJAP sus coeficientes de variación solo disminuyeron de 20.263 % a 18.2645 % y 18.9147 % respectivamente. La variable displ4cEU presenta la mayor homogenización con un coeficiente de 8.69677 %, aunque solo representa aproximadamente el 10 % de los datos de la variable displ4c.

La variable desplazamiento para autos de 4 cilindros tiene un comportamiento normal, al igual que sus subdivisiones teniendo en cuenta el país de origen. Este comportamiento se estable por el rango de la curtosis y el sesgo estandarizado, las cuales se encuentran entre -2 y 2 para todas las variables.




Si analizamos el diagrama de caja y bigote vemos cierta simetría entre las cajas y los bigotes de los gráficos correspondientes a cada variable.
Debido a la alta homogeneidad de la variable displ4cEU
, su diagrama de caja y bigote solo presenta la caja y tiene un valor atípico, ademas se solapa completamente con la variable displ4cJAP, es decir que el desplazamiento correspondiente a los autos de 4 cilindros fabricados en Europa y Japón tienen un desplazamiento sin diferencias considerables. En los cuales el 50% de los autos europeos tiene un desplazamiento que oscila entre 110.0 in^3 y 122.03 in^3 y el 100 % de los automoviles japoneses oscila dentro de este rango. Los autos de 4 cilindros de USA tienen el mayor desplazamiento, en el cual el 50% de estos oscila entre 122.0 in^3 y 154.0 in^3, con un valor máximo de 183.0 in^3.

 

 

COMPARACIÓN DE VARIAS MUESTRAS

 

Muestra 1: displ6cUSA  in^3

Muestra 2: displ6cJAP  in^3

Muestra 3: displ6cEU  in^3

Muestra 1: 12 valores en el rango de 164.0 a 263.0 in^3

Muestra 2: 8 valores en el rango de 81.0 a 182.0 in^3

Muestra 3: 6 valores en el rango de 141.0 a 210.0 in^3

 

 

Resumen Estadístico

 

 

 

Recuento

Promedio

Mediana

Varianza

Desviación Estándar

Coeficiente de Variación

displ6cUSA

12

210.083 in^3

232.0 in^3

1166.45in^3

34.1533 in^3

16.257 %

displ6cJAP

8

161.625 in^3

181.0 in^3

1480.55 in^3

38.478 in^3

23.8069 %

displ6cEU

6

167.667 in^3

160.0 in^3

608.267 in^3

24.6631 in^3

14.7096 %

Total

26

185.385 in^3

181.0 in^3

1598.25 in^3

39.9781 in^3

21.5649 %

 

 

Mínimo

Máximo

Rango

Cuartil Inferior

Cuartil Superior

Rango Intercuartílico

displ6cUSA

164.0 in^3

263.0 in^3

99.0 in^3

174.0 in^3

232.5 in^3

58.5 in^3

displ6cJAP

81.0 in^3

182.0 in^3

101.0in^3

152.0 in^3

182.0 in^3

30.0 in^3

displ6cEU

141.0 in^3

210.0 in^3

69.0 in^3

153.0 in^3

182.0 in^3

29.0 in^3

Total

81.0 in^3

263.0 in^3

182.0 in^3

164.0 in^3

232.0 in^3

68.0 in^3

 

Sesgo Estandarizado

Curtosis Estandarizada

displ6cUSA

-0.222586

-1.21655

displ6cJAP

-2.06367

1.27262

displ6cEU

1.1157

0.481751

Total

-0.629292

0.72978

  

 

Análisis estadístico

Este análisis está hecho en base a 26 datos distribuidos de la siguiente manera: 12 automóviles fabricados en Estados Unidos, 8 en Japón y 6 en Europa.

Observamos que el mayor número de datos analizados en esta variable corresponden a autos fabricados en Estados Unidos. El promedio y la mediana son relativamente similares con valores 210.083  y 232.0 in^3 respectivamente, lo que nos indica cierta homogeneidad de los datos. El coeficiente de variabilidad el cual es de 16.257 % tiene una disminución notable con respecto a la variable de 6 cilindros en general, cuyo coeficiente es de 21.5649 %. Aunque para autos fabricados en Japón se tenga menos del 50 % de los datos analizados, esta variable presenta el mayor coeficiente de variación, siendo este de 23.8069 %. Inclusive mayor que la variable general de desplazamiento de 6 cilindros mencionado anterior mente. Los datos correspondientes a los autos de 6 cilindros fabricados en Europa logran entrar en el rango de homogéneos con un coeficiente de variación de 14.7096 %, aunque cabe resaltar que solo se analizaron 6 datos.


De este diagrama es destacan los siguientes puntos:

    ·         Para el desplazamiento de los autos de 6 cilindros fabricados en Japón, la disgregación que presenta es tal que en el diagrama de caja y bigote de esta variable muestra solo un bigote, por lo tanto, a analizar el sesgo de dichos datos se obtiene una cola negativa y un comportamiento asimétrico.

    ·      Los autos de 6 cilindros con mayor desplazamiento son fabricados en estados unidos, con un 50 % cuyo desplazamiento oscila entre los 174in^3 y 232.5in^3, con un valor máximo de 263.01 in^3. Estos datos con respecto a Europa y Japón, representa diferencias, aunque no tan grandes, son considerables. Por otro lado, de la comparación de solo los de Europa y Japón, en los cuales las cajas de sus gráficos respectivos se solapan casi en un 99 %, con un 50 % que oscila desde 152 in^3 para Japón y 153 in^3 para Europa hasta 182 in^3. Aunque Europa tiene un máximo desplazamiento de 210 in^3. esto nos señala que no hay diferencias considerables entre estos datos.

 

 

COMPARACIÓN DE VARIAS MUESTRAS

 

Muestra 1: displ8cUSA  in^3

Muestra 2: displ8cJAP  in^3

Muestra 3: displ8cEU  in^3

 

Muestra 1: 10 valores en el rango de 164.0 a 263.0 in^3

Muestra 2: 0 valores

Muestra 3: 0 valores

 

Para realizar una comparación entre variables es necesario que cada variable tenga datos.

Partiendo de esto la variable de desplazamiento de 8 cilindros de Estados Unidos, Europa y Japón no puede compararse, debido a que, en esta variable ni Europa, ni Japón poseen datos algunos. Por tanto, los datos de la variable displ8c no puede homogenizarse más.

La gráfica que corresponde a esta es la misma de la variable displ8c.



Presenta sesgo y curtosis estandarizada dentro del rango para una distribución paramétrica. El coeficiente de variación es de 7.91006 % lo que nos indica que estos datos son homogéneos.



CONCLUSION

Aprendimos a implementar las herramientas ofrecidas por el software Statgraphics en el análisis estadístico de datos.

Se interpretaron el resumen estadístico generado por el software, la comparación de varias muestras, el sesgo y la curtosis estandarizada y el coeficiente de variación.

 

BIBLIOGRAFIA

Uso y manejo de software STATGRAPHICS - “Procesos estadísticos de datos cuantitativos” (Pag.30)

Probabilidad y estadística aplicadas a la ingeniería 9na edición Douglas C. Montgomery y George C. Runger. Capítulo 1: 1-3 pag.16 y 1-4 pag. 23.


No hay comentarios.:

Publicar un comentario