Asignatura: Estadística y Probabilidad
Curso: 6° Informática
Profesor: Miguel A.Lavenás
|
Editado por
Miguel A. Lavenás
|
Estadística y Probabilidad
|
Bloque
1: Estadística Descriptiva
Introducción
La Estadística, nace
de las necesidades reales del hombre. La variada y cuantiosa información relacionada
con éste y que es necesaria para la toma de decisiones, hace que la estadística
sea hoy, una importante herramienta de trabajo.
Entre las tareas principales de la
Estadística, está el de reunir la información integrada por un conjunto de
datos, con el propósito de obtener conclusiones válidas del comportamiento de
éstos, como también hacer una inferencia sobre comportamientos futuros.
En cuanto al uso y la aplicación, puede
decirse que abarca todo el ámbito humano encontrándose en las relaciones
comerciales, financieras, políticas, sociales, etc. siendo fundamental en el
campo de la investigación y en la toma de decisiones.
Es así también como en
el área de las empresas de servicio y manufactura es posible realizar un
análisis profundo del proceso estadístico al control de la productividad y de
la calidad.
Estadística
Es el conjunto de
métodos y procedimientos que implican recopilación, presentación, ordenación y
análisis de datos, con el fin que a partir de ellos puedan inferirse
conclusiones.
Pueden distinguirse dos ramas diferentes en
Estadística:
Estadística
Descriptiva, la cual es la que se utiliza en la
descripción y análisis de conjuntos de datos o población.
Inferencia Estadística,
la cual hace posible la estimación de una característica de una población, o la
toma de una decisión con respecto a una población, con base únicamente en
resultados muéstrales.
Conceptos
de elementos utilizados en el análisis estadístico
1) Población o Universo:
Conjunto completo de individuos, objetos, o medidas los cuales poseen una característica común
observable y que serán considerados en un estudio.
2) Muestra:
Es un subconjunto o una porción de la población.
3)
Variable: Característica o fenómeno de una población o muestra que será
estudiada, la cual puede tomar diferentes valores.
4) Datos:
Números o medidas que han sido recopiladas como resultado de la observación.
5) Estadístico:
Es una medida, un valor que se calcula para describir una característica a
partir de una sola muestra.
6) Parámetro: Es una característica
cuantificable de una población.
Recopilación
de Información
La Estadística Descriptiva tiene como
función el manejo de los datos recopilados en cuanto se refiere a su ordenación
y presentación, para poner en evidencia ciertas características en la forma que
sea más objetiva y útil.
Una población
o universo objeto de una investigación estadística puede ser finita
si sus elementos se pueden contar. Por ejemplo, número de alumnos de un curso.
Una población o universo es infinita cuando no es finita. En
Estadística, el sentido del término población infinita se refiere a una
población con un número tan grande de elementos que no le es posible al
investigador someter a medida cada uno de ellos.
Cuando se miden cualitativamente las
características de una población, resultan categorías que deben ser exhaustivas,
es decir, que se pueda clasificar a toda la población, y también deben ser
mutuamente excluyentes, es decir, un mismo elemento no puede pertenecer
simultáneamente a dos o más categorías. Por ejemplo, sexo de una persona:
masculino o femenino.
Una muestra
debe cumplir ciertas condiciones, de aquí surge el concepto de muestra
aleatoria que es aquella obtenida de modo que cada elemento de la
población tiene una oportunidad igual e independiente de ser elegido.
La es
toda operación orientada a la recopilación de información sobre investigación
estadística una población.
La investigación puede ser tan simple como la
recopilación de datos estadísticos obtenidos de informaciones provenientes de
fuentes oficiales a nivel institucional o de publicaciones de organismos
altamente especializados en estas materias, o tan complejas que requiera de la
colaboración de especialistas en diferentes materias, como ocurre en los censos
de población de un país.
Se denomina
variable a fenómenos o características que son medidas en algún
tipo de investigación estadística.
Variables
Es muy probable que un
especialista en Estadística que realiza una encuesta desee desarrollar un
instrumento que le permita hacer varias preguntas y manejar diversos fenómenos
o características. A estos fenómenos o características se les denomina.
Según la forma en que se expresen las variables, se
dividen en:
1)
Variable Cualitativa:
son aquellas que pueden expresarse sólo
en forma de atributo.
Ejemplo:
1)
Estado civil :
·
Soltero
·
Casado
·
Viudo
·
separado
2)
Satisfacción con un producto:
·
Muy insatisfecho
·
Regularmente insatisfecho
·
Neutral
·
Satisfecho
·
Muy satisfecho
3)
Tamaño de un tablero :
·
Grande
·
Mediano
·
Pequeño
2)
Variables Cuantitativas,
son aquellas variables que pueden expresarse en forma numérica. Se dividen en
discretas y continuas.
2.1) Variables Cuantitativas
Discretas, son respuestas numéricas que surgen de un proceso
de conteo, siendo siempre un número entero.
Ejemplos:
1) Número de asignaturas inscritas en
el primer semestre.
2) Número de integrantes del grupo
familiar.
3) Número de salas de clases de una Escuela.
2.2) Variables Cuantitativas
Continuas, son respuestas numéricas que surgen de un proceso
de medición, las cuales pueden tomar valores entre dos números enteros.
Ejemplos:
1) Estatura
2) Temperatura
3) Peso
Tabulación
de los datos
En
los experimentos estadísticos los datos recolectados pueden corresponder a una población
o muestra. En ambos casos los procedimientos de resumen de datos
son análogos y designaremos por:
N = Tamaño de la población estudiada
n
= Tamaño de la muestra (parte de la población)
Con
el objeto de realizar un mejor estudio de los datos es necesario organizar
éstos, mediante el uso de distribuciones de frecuencia.
Una
distribución
de frecuencia es una tabla resumen en la que se disponen los datos
divididos en grupos ordenados numéricamente y que se denominan clases
o categorías.
a) Tabulación de datos
cualitativos
La construcción de una distribución de
frecuencia de atributos o distribución de frecuencia de variable cualitativa es
simple, basta enumerar los diversos atributos con su respectiva frecuencia de
ocurrencia.
Frecuencia
absoluta: (fa), indica el número de veces que se repite un
atributo. Frecuencia absoluta
Ejemplo:
Considérese
una muestra de 400 trabajadores de cierta empresa de la región los cuales han
sido encuestados sobre su actual estado civil. La información es tabulada de la
siguiente manera:
Estado
civil
|
fi
|
Soltero
|
75
|
Casado
|
200
|
Viudo
|
50
|
Separado
|
75
|
Total
|
400
|
n
= 400 (tamaño de la muestra)
m = 4 (número de clases)
b) Tabulación de variable
cuantitativa
Distinguiremos dos casos:
b.1) Tabulación de variable
discreta (que toma un conjunto pequeño de datos distintos)
Las
tablas de frecuencia de variable discreta llevan cinco columnas donde los
elementos que participan son los siguientes:
a) Frecuencia absoluta: (fa)
indica el número de veces que se repite una variable
b) Tamaño de la muestra: (n)
indica la cantidad de elementos que conforman la muestra, se obtiene
sumando todas las frecuencias absolutas.
c)
Frecuencia relativa: (fr) es
la proporción de datos que se encuentra en una clase, se obtiene dividiendo la frecuencia absoluta de la clase
por el tamaño de la muestra.
d)
Frecuencia absoluta acumulada: (Fa) indica la cantidad de datos que se encuentran
hasta cierta clase.
e)
Frecuencia relativa acumulada: (Fr)
es la proporción de datos acumulados que se encuentran hasta cierta clase.
Ejercicio
Una
empresa que tiene 50 trabajadores se
propone reestructurar las remuneraciones, se estudia los años de servicio de
los trabajadores determinándose los siguientes resultados:
4
|
5
|
4
|
6
|
7
|
9
|
7
|
7
|
5
|
8
|
8
|
7
|
6
|
7
|
7
|
4
|
6
|
8
|
8
|
9
|
6
|
8
|
9
|
5
|
6
|
5
|
4
|
7
|
9
|
6
|
7
|
6
|
5
|
4
|
4
|
6
|
8
|
8
|
7
|
4
|
8
|
9
|
5
|
5
|
4
|
6
|
7
|
9
|
5
|
4
|
N = 50
(tamaño de la población)
Se
pide:
1)
Tabular la información.
2)
¿Qué cantidad de trabajadores tiene 8 años
de servicio?
3)
¿Qué porcentaje de trabajadores tiene 6
años de servicio?
4)
Si aquellos trabajadores que tengan al
menos siete años de servicio reciben un aumento del 8%. ¿Qué porcentaje de los
trabajadores recibió dicho aumento?
5)
Si todos los trabajadores que tengan como
máximo de cinco años de servicio reciben una bonificación de $ 20.000. ¿Qué
cantidad de trabajadores recibió dicha bonificación?
6)
Si la empresa decide otorgar una
bonificación especial de $ 13.200 por cada año de servicio. ¿Cuánto será el
dinero necesario para cumplir dicha bonificación?
Solución:
1)
Años de servicio
|
fi
|
hi
|
Fi
|
Hi
|
4
|
9
|
0,18
|
9
|
0,18
|
5
|
8
|
0,16
|
17
|
0,34
|
6
|
9
|
0,18
|
26
|
0,52
|
7
|
10
|
0,2
|
36
|
0,72
|
8
|
8
|
0,16
|
44
|
0,88
|
9
|
6
|
0,12
|
50
|
1,00
|
Total
|
50
|
1,00
|
|
|
2)
Ocho trabajadores tienen 8 años de
servicio
3)
El 18% de los trabajadores tiene 6 años
de servicio.
4)
El 48% de los trabajadores recibió el
aumento de sueldo.
5)
17 trabajadores recibieron la
bonificación.
6)
$4.197.600 se necesitan para la bonificación por año de servicio.
b.2) Tabulación de variable continua
o discreta
Para
tabular una variable continua o discreta (que tome un gran número de datos
distintos) se necesitan los siguientes elementos:
a) Rango o recorrido variable:
Es la diferencia entre el valor máximo y valor mínimo que toma la variable.
R = x máx – x mín
b)
Número de intervalos o clases: (m) Es el número de grupos en que es posible dividir los valores de la variable.
El
número de clases no debe ser ni muy grande ni muy pequeño, un número pequeño de
clases puede ocultar la naturaleza general de los datos y un número muy grande
puede ser demasiado detallado como para revelar alguna información útil.
d)
Límites de un intervalo: Son los valores
extremos de una clase. El menor valor es considerado como el límite
inferior y el valor que se obtiene sumando al límite inferior la
amplitud del intervalo es el límite superior de la segunda clase.
e)
Marca de clase: (xi)
Es el punto medio de un intervalo.
Ejemplo:
Los
siguientes datos corresponden a las notas obtenidas por alumnos en un curso
de Estadística:
100
|
87
|
54
|
82
|
93
|
47
|
40
|
53
|
88
|
58
|
84
|
65
|
57
|
66
|
25
|
70
|
85
|
36
|
61
|
34
|
33
|
33
|
100
|
69
|
77
|
88
|
63
|
17
|
42
|
55
|
98
|
70
|
68
|
70
|
65
|
70
|
84
|
52
|
60
|
54
|
57
|
47
|
57
|
86
|
25
|
66
|
40
|
100
|
32
|
39
|
90
|
83
|
64
|
95
|
85
|
100
|
67
|
60
|
42
|
65
|
82
|
85
|
62
|
72
|
65
|
76
|
23
|
96
|
30
|
45
|
77
|
55
|
100
|
80
|
55
|
52
|
85
|
68
|
53
|
82
|
55
|
51
|
47
|
47
|
64
|
75
|
65
|
60
|
45
|
75
|
62
|
93
|
98
|
58
|
95
|
83
|
33
|
70
|
51
|
60
|
1.
Obténgase una distribución de
datos en intervalos de amplitud 10, siendo el primer
intervalo [17 – 27)
intervalo [17 – 27)
2.
¿En
qué clase se concentra el mayor número de notas?
3.
¿Cuál es la frecuencia absoluta del
cuarto intervalo?
4.
¿Qué porcentaje de los alumnos tienen
una nota inferior a 57?
5.
¿Cuántos alumnos tienen una nota
superior a 46?
6.
Interprete la frecuencia acumulada del
sexto intervalo.
7.
Interprete la frecuencia relativa
acumulada del quinto intervalo.
Los corchetes expresan
que el valor extremo se incluye en el intervalo y los paréntesis dan
a entender que el valor extremo del intervalo no se incluye en el.
|
Solución
Notas
|
xi
|
fi
|
hi
|
Fi
|
Hi
|
[17
– 27)
|
22
|
4
|
0,04
|
4
|
0,04
|
[27
– 37)
|
32
|
7
|
0,07
|
11
|
0,11
|
[37
– 47)
|
42
|
7
|
0,07
|
18
|
0,18
|
[47
– 57)
|
52
|
16
|
0,16
|
34
|
0,34
|
[57
– 67)
|
62
|
22
|
0,22
|
56
|
0,56
|
[67
– 77)
|
72
|
13
|
0,13
|
69
|
0,69
|
[77
– 87)
|
82
|
15
|
0,15
|
84
|
0,84
|
[87
– 97)
|
92
|
9
|
0,09
|
93
|
0,93
|
[97
– 107]
|
102
|
7
|
0,07
|
100
|
1,00
|
Total
|
|
100
|
|
|
|
1)
El mayor número de notas se concentra
en el quinto intervalo, que corresponde al intervalo entre 57 – 66.
2)
La frecuencia absoluta del cuarto
intervalo es 16. Esto nos indica que son 16 los alumnos que tienen una nota
entre 47 – 56.
3)
El 34% de los alumnos tiene una nota
inferior a 57.
4)
El 82% de los alumnos tiene una nota
superior a 46.
5)
Existen 69 alumnos con nota inferior a
77.
6)
El 56% de los alumnos tiene una nota
inferior a 67.
Ejercicios
1) Los
siguientes datos corresponden al sueldo (en miles de pesos) de 40 trabajadores
de una empresa:
119
|
135
|
138
|
144
|
146
|
150
|
156
|
164
|
125
|
135
|
140
|
144
|
147
|
150
|
157
|
165
|
126
|
135
|
140
|
145
|
147
|
152
|
158
|
168
|
128
|
136
|
142
|
145
|
148
|
153
|
161
|
173
|
132
|
138
|
142
|
146
|
149
|
154
|
163
|
176
|
1.
a) Obténgase una distribución de datos en intervalos de amplitud 10, siendo
el primer
intervalo [119 – 129).
intervalo [119 – 129).
b)
¿En qué clase se encuentra el mayor número de trabajadores?
c)
¿Qué porcentaje de trabajadores gana entre $ 139.000 y $ 168.000?
d)
¿Cuántos trabajadores ganan a lo menos $ 159.000?
e)
¿Cuántos trabajadores ganan a lo más $ 148.000?
2)
En una industria es necesario realizar un estudio respecto al peso de engranajes
de gran tamaño. Los siguientes datos corresponden al peso, en kilógramos,
de 30 de estas piezas, que poseen las
mismas dimensiones, pero distinta aleación.
58
|
52
|
50
|
40
|
50
|
38
|
52
|
50
|
45
|
52
|
36
|
45
|
55
|
42
|
42
|
52
|
50
|
45
|
42
|
38
|
42
|
38
|
40
|
46
|
45
|
45
|
55
|
42
|
45
|
40
|
a)
Construir una tabla de frecuencias de amplitud 5 comenzando desde 36.
b)
¿Cuántos engranajes pesan entre 46 y 55 Kg.?.
c)
¿Qué porcentaje representa a aquellos engranajes cuyo peso es inferior a 51
Kg.?.
d)
¿Cuál es la frecuencia relativa para aquel intervalo cuya marca de clase es
48?.
e)
¿Qué porcentaje representa a aquellas piezas que pesan más de 50 Kg.?
3)
En una industria automotriz es necesario realizar un estudio debido a una
partida defectuosa de discos de embrague. Para ello se ha recopilado la
siguiente información referente a la duración en horas de
50 de ellos.
285
|
300
|
286
|
302
|
313
|
314
|
289
|
292
|
321
|
327
|
293
|
289
|
292
|
289
|
308
|
326
|
303
|
287
|
293
|
322
|
304
|
329
|
295
|
307
|
297
|
302
|
294
|
301
|
285
|
313
|
308
|
307
|
304
|
291
|
288
|
297
|
316
|
322
|
317
|
308
|
321
|
324
|
323
|
316
|
292
|
286
|
299
|
294
|
328
|
296
|
a)
Construir una tabla de frecuencia de amplitud cinco comenzando desde 285.
b)
¿Cuántos discos duraron entre 290 y 299 horas?.
c)
¿Cuántos discos no alcanzaron a durar 300 horas?.
d)
¿Qué porcentaje representan los discos que duraron entre 310 y 314 horas?.
e)
¿Qué porcentaje representan los discos que duraron menos de 305 horas?.
f)
¿Cuántos discos duraron más de 309 horas?.
g)
¿Cuántos discos duraron menos de 305 horas?.
h)
¿Qué porcentaje representan los discos que duraron entre 285 y 294 horas?.
i)
¿Cuál es el intervalo de mayor frecuencia absoluta?
4)
En un conjunto habitacional se pretende hacer un estudio del número de personas
que consumen productos enlatados. Los datos que han sido obtenidos de 50
bloques del conjunto habitacional son:
63
|
69
|
83
|
85
|
93
|
73
|
81
|
94
|
104
|
125
|
64
|
132
|
115
|
120
|
127
|
130
|
105
|
114
|
123
|
121
|
128
|
90
|
75
|
137
|
131
|
73
|
62
|
100
|
109
|
117
|
124
|
103
|
133
|
138
|
133
|
110
|
60
|
91
|
87
|
136
|
137
|
134
|
129
|
96
|
99
|
72
|
104
|
97
|
84
|
98
|
a)
Construir una tabla de frecuencia de amplitud 10 partiendo desde 60.
b)
¿Cuántas personas consumen entre 100 y 129 productos enlatados ?.
c)
¿Qué porcentaje representa a las personas que consumen menos de 90 productos
enlatados?.
d)
¿Qué cantidad de personas consumen más de 80 productos enlatados?
5)
Las ganancias por acción de 40 compañías de la industria de la construcción
son:
4,6
|
0,3
|
1,1
|
5,7
|
0,1
|
1,3
|
2,5
|
1,6
|
1,3
|
2,1
|
2,1
|
1,4
|
7,3
|
5,4
|
3,5
|
1,9
|
6,0
|
0,8
|
1,9
|
2,1
|
3,2
|
0,2
|
7,1
|
2,8
|
9,6
|
3,7
|
5,1
|
3,6
|
4,9
|
2,3
|
1,8
|
0,4
|
4,2
|
2,1
|
0,9
|
3,2
|
3,7
|
1,1
|
0,5
|
1,9
|
a)
Construya una distribución de frecuencias que comience en 0,1 y tenga una
amplitud de 2,0
b)
¿Cuál es la frecuencia absoluta del tercer intervalo?
c)
¿Qué porcentaje de las compañías tienen a lo más una ganancia de 6,0?
d)
¿Cuántas compañías tienen una ganancia a lo menos 4,1?
e)
Interprete la frecuencia acumulada del segundo intervalo.
Representación Gráfica
Su
objetivo es captar la información obtenida
en los datos en forma rápida por cualquier persona, así cada
representación debe llevar un título adecuado.
Las normas en la construcción de un gráfico
estadístico son similares a los de
gráficos de funciones, las variables independientes, se ubican en las abscisas
y las dependientes en las ordenadas.
Tipos de gráficos
|
|
|
|
|
|
xi destinos para el
viaje de estudios
|
frecuencia absoluta
|
Porcentaje
|
|
|
Bariloche
|
5
|
13%
|
|
|
Córdoba
|
3
|
8%
|
|
|
Cataratas
|
10
|
26%
|
|
|
Puerto Madryn
|
12
|
32%
|
|
|
Mendoza
|
8
|
21%
|
|
|
Total de alumnos
|
38
|
|
|
a)
Gráfico
circular: se usan para mostrar el comportamiento de las frecuencias
relativas, absolutas o porcentuales de las variables. Dichas frecuencias son
representadas por medio de sectores circulares, proporcionales a las
frecuencias.
La
siguiente tabla muestra el resultado de una encuesta a 38 alumnos de un curso acerca
del destino del viaje de estudios.
Si
el objetivo es mostrar y comparar los porcentajes obtenidos para los distintos
destinos, se deberá utilizar un gráfico
circular, el cual muestra la cantidad de datos que pertenecen a una misma
categoría como una parte proporcional de un círculo.
El
ángulo central correspondiente a cada
sector circular es:
Ángulo
central
|
=
|
Frecuencia
absoluta . 360º
|
Total
de observaciones
|
c)
Pictograma: es un gráfico cuyo uso es similar al
de sector circular, pero la frecuencia es representada por medio de una figura o dibujo que identifique a la variable
en estudio. Este gráfico se utiliza para mostrar producciones en una serie
cronológica.
Por
ejemplo, Alumnos de la Escuela Técnica “Dr. Juan Ramón Vidal”:
f)
Polígono de frecuencia: este gráfico sirve para mostrar
la tendencia de la variable, se puede determinar a partir de un histograma
uniendo los puntos medios superiores de cada rectángulo del histograma.
También, se determina el polígono uniendo los puntos formado por la marca de clase con la frecuencia absoluta del intervalo respectivo.
Ejercicio
Para
un estudio de evaluación del uso que le dan a las computadoras portátiles los
alumnos de la escuela Técnica, se realiza una encuesta y se les pregunta a un
grupo de 24 alumnos de 5º Año cuantos programas utilizaron la semana anterior.
La
siguiente tabla muestra los resultados obtenidos en la encuesta:
Alumno
|
Programas
|
Alumno
|
Programas
|
Alumno
|
Programas
|
A1
|
6
|
A9
|
2
|
A17
|
3
|
A2
|
3
|
A10
|
4
|
A18
|
1
|
A3
|
1
|
A11
|
2
|
A19
|
0
|
A4
|
1
|
A12
|
2
|
A20
|
4
|
A5
|
1
|
A13
|
1
|
A21
|
2
|
A6
|
5
|
A14
|
3
|
A22
|
4
|
A7
|
3
|
A15
|
1
|
A23
|
3
|
A8
|
1
|
A16
|
1
|
A24
|
5
|
La
numeración A1, A2, etc., indica el orden en que se anotaron las respuestas, por
ejemplo, el alumno Nº6 utilizó 5 programas distintos.
¿Cuántos
alumnos usaron al menos 5 programas?
¿Qué
porcentaje de alumnos usaron hasta 3 programas? ¿Y entre dos y cuatro
programas?
xi
|
fa
|
fr
|
f%
|
0
|
1
|
|
4,17
|
1
|
8
|
|
33,33
|
2
|
4
|
|
16,67
|
3
|
5
|
|
20,83
|
4
|
3
|
|
12,5
|
5
|
2
|
|
8,33
|
6
|
1
|
|
4,17
|
Total
|
24
|
|
100
|
Respuestas:
Podemos
observar que al menos 3 alumnos utilizaron 5 programas distintos.
El
75% de los alumnos usaron hasta 3 programas distintos,
Entre
2 y 4 programas distintos un 50%.
Problemas
de aplicación
1.
En una
clase de 30 alumnos, 12 juegan al básquet, 3 practican la natación, 4 juegan al
fútbol y el resto no practica ningún deporte. Represente por medio de un
gráfico circular.
2.
Un
estudio hecho a un conjunto de 20 alumnos de una clase, para determinar su
grupo sanguíneo ha dado el siguiente resultado:
Grupo
sanguíneo
|
fa
|
A
|
6
|
B
|
4
|
AB
|
1
|
0
|
9
|
Total
|
20
|
Graficar utilizando gráfico
de barras
3.
El peso
de 65 personas adultas viene dado por la siguiente tabla:
Pesos
|
xi
|
fa
|
[50
– 60)
|
55
|
8
|
[60
– 70)
|
65
|
10
|
[70
– 80)
|
75
|
16
|
[80
– 90)
|
85
|
14
|
[90
– 100)
|
95
|
10
|
[100
– 110)
|
105
|
5
|
[110
– 120)
|
115
|
2
|
Total
|
|
65
|
Graficar
por medio de histograma