INTRODUCCIÓN
A partir de los métodos estadísticos el hombre ha buscado la obtención de
información confiable para la toma de decisiones y observar el comportamiento
de los datos analizados. Después de varias décadas a partir de la aparición de
la estadística en el siglo XIX formalmente, ya que este término fue implementado
en los años 1749 por Gottfried Achenwall, se implementaron software que se
encargan del manejo y análisis de los datos facilitando esta labor teniendo la
capacidad de comparación de una a varias variables y el cálculo de medidas de centramiento,
dispersión y forma, como lo es STATGRAPHICS, capaz de crear distintos tipos de
gráficas y análisis estadísticos en general.
Así es como a continuación se analizarán datos de la variable “DISPLACE”
con relación a “CYLINDERS” en “ORIGIN” de los datos “CARDATA2” con
“SATAGRAPHICS CENTURION XVI.I”.
OBJETIVOS
ü Aprender a implementar las herramientas ofrecidas por el software Statgraphics
en el análisis estadístico de datos.
ü Interpretar el resumen estadístico
generado por el software.
ü Homogenizar los datos de la variable
displace.
ü Interpretar la comparación de varias
muestras.
ü Interpretar el sesgo, la curtosis y el
coeficiente de variación.
ANÁLISIS DE UNA VARIABLE – DISPLACE
Datos/Variable: displace in^3
88 valores con rango desde 62.0 a 351.0 in^3
Resumen Estadístico para displace in^3
|
Recuento |
88 |
|
Promedio |
160.42 in^3 |
|
Mediana |
143.0 in^3 |
|
Varianza |
4374.32 in^3 |
|
Desviación Estándar |
66.1386 in^3 |
|
Coeficiente de Variación |
41.2283 % |
|
Mínimo |
62.0 in^3 |
|
Máximo |
351.0 in^3 |
|
Rango |
289.0 in^3 |
|
Cuartil Inferior |
116,0 in^3 |
|
Cuartil Superior |
182,0 in^3 |
|
Rango Intercuartílico |
66.0 in^3 |
|
Sesgo Estandarizado |
4.10113 |
|
Curtosis Estandarizada |
0.89067 |
Esta tabla muestra los estadísticos de
resumen para displace. Aquí el sesgo estandarizado y la curtosis estandarizada,
pueden utilizarse para determinar si la muestra proviene de una distribución
normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican
desviaciones significativas de la normalidad, lo que tendería a invalidar
cualquier prueba estadística con referencia a la desviación estándar. Si una de
estas dos o las dos no entra en el rango, entonces los datos corresponden a una
distribución no paramétrica. En este
caso, el valor de la curtosis estandarizada se encuentra dentro del rango
esperado para datos provenientes de una distribución normal. El valor de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes
de una distribución normal. Por tanto, la distribución de datos es no
paramétrica.
El coeficiente de variación o desviación relativa es superior al 15%, lo que nos indica que el conjunto de datos analizados tiene un comportamiento heterogéneo
En el diagrama de caja y bigote se observa el valor minino; el primer cuartil (Q1) el cual corresponde al 25%; el segundo cuartil (Q2) que corresponde al 50% y además es el valor central o la mediana; tercer cuartil (Q3) igual al 75%; el cuarto cuartil (Q4), es el valor máximo que se encuentra entre 0 y 1.5 veces el rango intercuartílico (Q3-Q1) a partir de las aristas del rectángulo; y el punto máximo de los datos analizados. Cabe resaltar que desde Q4 hasta el punto máximo se encuentran valores atípicos, los cuales pueden estar entre 1.5 y 3 veces el rango intercuartílico a partir de las aristas del rectángulo.
En los datos de displace como vimos hay un
coeficiente de variación alto. Esta variable se puede distribuir en 4
cilindros, 6 cilindros y 8 cilindros, con esto conseguiremos homogenizar un
poco más los datos.
A continuación, mostramos los resultados
obtenidos de esta acción:
ANÁLISIS DE UNA
VARIABLE - DISPLACE_4 CILINDROS
Datos/Variable: displ_4c in^3
49 valores con rango desde 80.0 a 183.0 in^3
Resumen Estadístico para displ_4c in^3
|
Recuento |
49 |
|
Promedio |
122.367 in^3 |
|
Mediana |
122.0 in^3 |
|
Varianza |
614.862 in^3 |
|
Desviación Estándar |
24.7964 in^3 |
|
Coeficiente de Variación |
20.2639 % |
|
Mínimo |
80.0 in^3 |
|
Máximo |
183.0 in^3 |
|
Rango |
103.0 in^3 |
|
Rango Intercuartílico |
41,0 in^3 |
|
Cuartil Inferior |
99.0 in^3 |
|
Cuartil Superior |
140.0 in^3 |
|
Sesgo Estandarizado |
1.06407 |
|
Curtosis Estandarizada |
-0.272135 |
En la tabla se muestra los estadísticos de
resumen para displ_4c. De particular interés aquí son el sesgo estandarizado y
la curtosis estandarizada. En este caso, el valor del sesgo estandarizado se
encuentra dentro del rango esperado para datos provenientes una distribución
normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de
una distribución normal. Por tanto, los datos corresponden a una distribución paramétrica.
ANÁLISIS DE UNA
VARIABLE - DISPL_6C
Datos/Variable: displ_6c in^3
26 valores con rango desde 81.0 a 263.0 in^3
Resumen Estadístico para displ_6c in^3
|
Recuento |
26 |
|
Promedio |
185.385 in^3 |
|
Mediana |
181.0 in^3 |
|
Varianza |
1598.25 in^3 |
|
Desviación Estándar |
39.9781 in^3 |
|
Coeficiente de Variación |
21.5649 % |
|
Mínimo |
81.0 in^3 |
|
Máximo |
263.0 in^3 |
|
Rango |
182.0 in^3 |
|
Rango intercuartílico |
68,0 in^3 |
|
Cuartil Inferior |
164.0 in^3 |
|
Cuartil Superior |
232.0 in^3 |
|
Sesgo Estandarizado |
-0.629292 |
|
Curtosis Estandarizada |
0.72978 |
Esta tabla muestra los estadísticos de
resumen para displ_6c. De particular interés aquí son el sesgo estandarizado y
la curtosis estandarizada. En este caso, el valor del sesgo estandarizado se
encuentra dentro del rango esperado para datos provenientes una distribución
normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de
una distribución normal. Por tanto, los datos corresponden a una distribución
paramétrica.
ANÁLISIS DE UNA
VARIABLE - DISPL_8C
Datos/Variable: displ_8c in^3
10 valores con rango desde 274.0 a 351.0 in^3
Resumen Estadístico para displ_8c in^3
|
Recuento |
10 |
|
Promedio |
302,3 in^3 |
|
Mediana |
306,0 in^3 |
|
Varianza |
571,789 in^3 |
|
Desviación Estándar |
23,9121 in^3 |
|
Coeficiente de Variación |
7,91006 %
|
|
Mínimo |
274,0 in^3 |
|
Máximo |
351,0 in^3 |
|
Rango |
77,0 in^3 |
|
Cuartil Inferior |
274,0 in^3 |
|
Cuartil Superior |
308,0 in^3 |
|
Rango Intercuartílico |
34,0 in^3 |
|
Sesgo Estandarizado |
0,690264 |
|
Curtosis Estandarizada |
0,4866 |
Esta tabla muestra los estadísticos de
resumen para displ_8c. De particular
interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales
pueden utilizarse para determinar si la muestra proviene de una distribución
normal. En este caso, el valor del sesgo estandarizado se encuentra dentro del
rango esperado para datos provenientes una distribución normal. El valor de curtosis estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución
normal. Por tanto, los datos corresponden a una distribución paramétrica.
Observando los datos
obtenidos al separar la variable displace en 4 cilindros, 6 cilindros y 8
cilindros concluimos que las medidas de centramiento, dispersión y de forma se
redujeron, al igual que el coeficiente de variación, el cual disminuyó en cada
caso como era de esperarse.
Para poder lograr una mayor
homogenización estas últimas 3 variables mencionadas se subdividieron respecto
a su país de origen. Los resultados obtenidos son los siguientes:
COMPARACIÓN DE VARIAS MUESTRAS
Muestra 1: displ4cEU in^3
Muestra 2: displ4cJAP in^3
Muestra 3: displ4cUSA in^3
Muestra 1: 7 valores en el rango de 110.0 a 141.0 in^3
Muestra 2: 22 valores en el rango de 80.0 a 147.0 in^3
Muestra 3: 20 valores en el rango de 82.0 a 183.0 in^3
Resumen Estadístico
|
|
Recuento |
Promedio |
Mediana |
Varianza |
Desviación Estándar |
Coeficiente de Variación |
|
displ4cUSA |
20 |
137,05 in^3 |
136,0 in^3 |
626,576 in^3 |
25,0315 in^3 |
18,2645 % |
|
displ4cEU |
7 |
120,571 in^3 |
122,0 in^3 |
109,952 in^3 |
10,4858 in^3 |
8,69677 % |
|
displ4cJAP |
22 |
109,591 in^3 |
103,0 in^3 |
429,682 in^3 |
20,7288 in^3 |
18,9147 % |
|
Total |
49 |
122,367 in^3 |
122,0 in^3 |
614,862 in^3 |
24,7964 in^3 |
20,2639 % |
|
|
Mínimo |
Máximo |
Rango |
Cuartil Inferior |
Cuartil Superior |
Rango Intercuartílico |
|
displ4cUSA |
82,0 in^3 |
183,0 in^3 |
101,0 in^3 |
122,0 in^3 |
154,0 in^3 |
32,0 in^3 |
|
displ4cEU |
110,0 in^3 |
141,0 in^3 |
31,0 in^3 |
110,0 in^3 |
122,0 in^3 |
12,0 in^3 |
|
displ4cJAP |
80,0 in^3 |
147,0 in^3 |
67,0 in^3 |
98,0 in^3 |
123,0 in^3 |
25,0 in^3 |
|
Total |
80,0 in^3 |
183,0 in^3 |
103,0 in^3 |
99,0 in^3 |
140,0 in^3 |
41,0 in^3 |
|
|
Sesgo Estandarizado |
Curtosis Estandarizada |
|
displ4cUSA |
-0,213635 |
0,26213 |
|
displ4cEU |
1,33907 |
1,23876 |
|
displ4cJAP |
1,06159 |
-0,672754 |
|
Total |
1,06407 |
-0,272135 |
Al separar la variable de desplazamiento teniendo en
cuenta solo los autos de 4 cilindros se logró una mayor homogenización de los
datos, ya que el coeficiente de variación disminuyo de 41.2283 % (Displace) a
20.263 % para el desplazamiento de autos de 4 cilindros. Al subagrupar los
datos correspondientes a 4 cilindros teniendo en cuenta el país de origen se
observa que para las variables displ4cUSA Y displ4cJAP
sus coeficientes de variación solo disminuyeron de 20.263 % a 18.2645 % y
18.9147 % respectivamente. La variable displ4cEU presenta la mayor
homogenización con un coeficiente de 8.69677 %, aunque solo representa
aproximadamente el 10 % de los datos de la variable displ4c.
La variable desplazamiento para autos de 4
cilindros tiene un comportamiento normal, al igual que sus subdivisiones teniendo
en cuenta el país de origen. Este comportamiento se estable por el rango de la
curtosis y el sesgo estandarizado, las cuales se encuentran entre -2 y 2 para
todas las variables.
Si analizamos el diagrama de caja y bigote vemos
cierta simetría entre las cajas y los bigotes de los gráficos correspondientes a
cada variable.
Debido a la alta homogeneidad de la variable displ4cEU, su diagrama de caja y bigote
solo presenta la caja y tiene un valor atípico, ademas se solapa completamente
con la variable displ4cJAP,
es decir que el desplazamiento correspondiente a los autos de 4 cilindros
fabricados en Europa y Japón tienen un desplazamiento sin diferencias
considerables. En los cuales el 50% de los autos europeos tiene un
desplazamiento que oscila entre 110.0 in^3 y
122.03 in^3 y
el 100 % de los automoviles japoneses oscila dentro de este rango. Los autos de
4 cilindros de USA tienen el mayor desplazamiento, en el cual el 50% de estos
oscila entre 122.0 in^3 y 154.0 in^3, con un valor máximo de 183.0 in^3.
COMPARACIÓN DE VARIAS MUESTRAS
Muestra 1: displ6cUSA in^3
Muestra 2: displ6cJAP in^3
Muestra 3: displ6cEU in^3
Muestra 1: 12 valores en el rango de 164.0 a 263.0 in^3
Muestra 2: 8 valores en el rango de 81.0 a 182.0 in^3
Muestra 3: 6 valores en el rango de 141.0 a 210.0 in^3
Resumen Estadístico
|
|
Recuento |
Promedio |
Mediana |
Varianza |
Desviación Estándar |
Coeficiente de Variación |
|
displ6cUSA |
12 |
210.083 in^3 |
232.0 in^3 |
1166.45in^3 |
34.1533 in^3 |
16.257 % |
|
displ6cJAP |
8 |
161.625 in^3 |
181.0 in^3 |
1480.55 in^3 |
38.478 in^3 |
23.8069 % |
|
displ6cEU |
6 |
167.667 in^3 |
160.0 in^3 |
608.267 in^3 |
24.6631 in^3 |
14.7096 % |
|
Total |
26 |
185.385 in^3 |
181.0 in^3 |
1598.25 in^3 |
39.9781 in^3 |
21.5649 % |
|
|
Mínimo |
Máximo |
Rango |
Cuartil Inferior |
Cuartil Superior |
Rango Intercuartílico |
|
displ6cUSA |
164.0 in^3 |
263.0 in^3 |
99.0 in^3 |
174.0 in^3 |
232.5 in^3 |
58.5 in^3 |
|
displ6cJAP |
81.0 in^3 |
182.0 in^3 |
101.0in^3 |
152.0 in^3 |
182.0 in^3 |
30.0 in^3 |
|
displ6cEU |
141.0 in^3 |
210.0 in^3 |
69.0 in^3 |
153.0 in^3 |
182.0 in^3 |
29.0 in^3 |
|
Total |
81.0 in^3 |
263.0 in^3 |
182.0 in^3 |
164.0 in^3 |
232.0 in^3 |
68.0 in^3 |
|
|
Sesgo Estandarizado |
Curtosis Estandarizada |
|
displ6cUSA |
-0.222586 |
-1.21655 |
|
displ6cJAP |
-2.06367 |
1.27262 |
|
displ6cEU |
1.1157 |
0.481751 |
|
Total |
-0.629292 |
0.72978 |
Análisis estadístico
Este análisis está
hecho en base a 26 datos distribuidos de la siguiente manera: 12 automóviles
fabricados en Estados Unidos, 8 en Japón y 6 en Europa.
Observamos que el mayor
número de datos analizados en esta variable corresponden a autos fabricados en
Estados Unidos. El promedio y la mediana son relativamente similares con
valores 210.083 y 232.0 in^3 respectivamente, lo que nos indica cierta homogeneidad
de los datos. El coeficiente de variabilidad el cual es de 16.257 % tiene una
disminución notable con respecto a la variable de 6 cilindros en general, cuyo
coeficiente es de 21.5649 %. Aunque para autos fabricados en Japón se tenga
menos del 50 % de los datos analizados, esta variable presenta el mayor
coeficiente de variación, siendo este de 23.8069 %. Inclusive mayor que la
variable general de desplazamiento de 6 cilindros mencionado anterior mente. Los
datos correspondientes a los autos de 6 cilindros fabricados en Europa logran
entrar en el rango de homogéneos con un coeficiente de variación de 14.7096 %,
aunque cabe resaltar que solo se analizaron 6 datos.
De este diagrama es destacan los siguientes puntos:
·
Para
el desplazamiento de los autos de 6 cilindros fabricados en Japón, la
disgregación que presenta es tal que en el diagrama de caja y bigote de esta
variable muestra solo un bigote, por lo tanto, a analizar el sesgo de dichos
datos se obtiene una cola negativa y un comportamiento asimétrico.
· Los
autos de 6 cilindros con mayor desplazamiento son fabricados en estados unidos,
con un 50 % cuyo desplazamiento oscila entre los 174in^3 y 232.5in^3, con un valor máximo de 263.01 in^3. Estos datos con respecto a Europa y Japón,
representa diferencias, aunque no tan grandes, son considerables. Por otro
lado, de la comparación de solo los de Europa y Japón, en los cuales las cajas
de sus gráficos respectivos se solapan casi en un 99 %, con un 50 % que oscila
desde 152 in^3 para Japón y
153 in^3 para Europa
hasta 182 in^3. Aunque Europa tiene un máximo desplazamiento de 210 in^3. esto nos señala que no hay diferencias considerables
entre estos datos.
COMPARACIÓN DE VARIAS MUESTRAS
Muestra 1: displ8cUSA in^3
Muestra 2: displ8cJAP in^3
Muestra 3: displ8cEU in^3
Muestra 1: 10 valores en el rango de 164.0 a 263.0 in^3
Muestra 2: 0 valores
Muestra 3: 0 valores
Para realizar una comparación entre variables es
necesario que cada variable tenga datos.
Partiendo de esto la variable de desplazamiento de 8
cilindros de Estados Unidos, Europa y Japón no puede compararse, debido a que,
en esta variable ni Europa, ni Japón poseen datos algunos. Por tanto, los datos
de la variable displ8c no puede homogenizarse más.
La gráfica que corresponde a esta es la misma de la
variable displ8c.
Presenta sesgo y curtosis estandarizada dentro del rango para una distribución paramétrica. El coeficiente de variación es de 7.91006 % lo que nos indica que estos datos son homogéneos.
CONCLUSION
Aprendimos
a implementar las herramientas ofrecidas por el software Statgraphics en el
análisis estadístico de datos.
Se
interpretaron el resumen estadístico generado por el software, la comparación
de varias muestras, el sesgo y la curtosis estandarizada y el coeficiente de
variación.
BIBLIOGRAFIA
Uso
y manejo de software STATGRAPHICS - “Procesos
estadísticos de datos cuantitativos” (Pag.30)
Probabilidad y estadística aplicadas a la ingeniería 9na edición
Douglas C. Montgomery y George C. Runger. Capítulo 1: 1-3 pag.16 y 1-4 pag. 23.






