Conceptos básicos para el muestreo

Población: Es un conjunto de elementos bien determinados y con características comunes, que los hace formar parte del mismo. Ejemplo: Mujeres solteras que trabajan en la industria farmacéutica en el turno matutino. 

Población finita: Es aquel conjunto en el que el número de sus elementos está definido o determinado. Ejemplo: Los empleados que recibieron crédito hipotecario el mes pasado.

Población infinita: Es aquel conjunto en el que el número de sus elementos es indefinido o indeterminado. Ejemplo: Número de personas que caminan por las calles de la Ciudad de México.

Muestra: Fracción o parte de la población. Ésta debe ser representativa conjunto de donde ha sido extraída. Para ostentar el carácter de representatividad, la muestra deberá evidenciar tanto las coincidencias como las discrepancias existentes en la población. 

Parámetro: Es todo valor o característica que ha sido calculado, observado o extraído de la población. 

Estimador: También llamado estadístico, es todo valor o característica que ha sido calculado, observado o extraído de una muestra. El próposito del estimador es dar a conocer los parámetros sin observar a la totalidad de los elementos de la población. 

Para determinar si un valor o característica es un parámetro o un estimador, deberá observarse su origen, si éste es la población será un parámetro, pero si surge de la muestra, entonces será un estimador 

Hacer estimaciones refiere que el investigador parte de conocer los resultados obtenidos de una muestra y referirlos confiablemente como los valores o características que posee la población. La estimación es la obtención de un valor o característica de la población, teniendo como origen una muestra. En el caso de las variables numéricas, la estimación puede ser puntual o por intervalos. Puntual es cuando se obtiene un sólo valor y por intervalos, cuando se conoce un rango en el cual se desplaza el parámetro o valor poblacional.

Etapas para el diseño de muestras

1. Métodos de muestreo: Con reemplazo y sin reemplazo

Consiste en determinar cómo serán seleccionados los elementos que habrán de integrar la muestra y se clasifica en muestreo con reemplazo y sin reemplazo. El primero indica que los elementos de la población pueden pertenecer más de una vez a la muestra; quiere decir que si un individuo ya fue seleccionado, se le extraen los datos requeridos por la investigación y se integra nuevamente a su universo sin perder la oportunidad de volver a ser seleccionado para su estudio en la misma muestra. Por su parte, el muestreo sin reemplazo indica que si un elemento de la población ha sido extraído para la muestra, no volverá  a tener la oportunidad de pertenecer nuevamente a ella. 

2. Tipos de muestreo probabilístico.

La etapa para determinar el tipo de muestreo a utilizar en una investigación o estudio reviste singular importancia, debido a que es a tráves de este procedimiento que se determina quién pasará a formar parte de la muestra, de tal manera que conserve la forma de su población, según lo comentado en párrafos anteriores. 

El tipo de muestreo se clasifica en probabilístico y no probabilístico. El primero de ellos es aquel en el que todos los elementos de la población tienen una probabilidad conocida de formar parte de la muestra. En el segundo se desconoce o es indeterminable esa probabilidad, restándoleciertos efectos de representatividad. 

Para realizar la extracción de una muestra probabilística, es indispensable conocer el tamaño de la población, y que cada uno de los elementos que la conforman se encuentre identificado y localizable, así como poseer una herramienta que permita realizar la selección con la ausencia de emociones, sentimientos, gustos y otros aspectos de carácter personal en el investigador, dejando la absoluta responsabilidad de la selección a la metodología empleada. A continuación se presenta la clasificación del muestreo probabilístico: 

  • Muestreo aleatorio o al azar: Se caracteriza porque es aquel en el que todos los elementos de la población tienen la misma probabilidad de ser seleccionados para la muestra. Para la selección se sugiere observar, que la probabilidad sea finita y que cada uno de sus elementos estén identificados, habitualmente por un número. 
  • Muestreo sistemático: Aún formando parte del muestreo probabilístico, la oportunidad de que los elementos de la población tengan la misma probabilidad de ser seleccionados resulta relativa debido a que una vez seleccionado el primer elemento para la muestra, podría decirse que automáticamente ya se conoce quiénes son los elementos que estarán en la muestra. 
Este tipo de muestreo consiste en dividir el tamaño de la población entre el tamaño de la muestra, lo que significa que la población es dividida en tantas partes como el tamaño de la muestra sea y de cada una de esas partes se extraerá un elemento que habrá de integrar a la muestra.

Por ejemplo, si se tiene una población de 500 elementos y se determinó seleccionar a 50 de ellos para obtener el tamaño de la muestra, se divide 500 entre 50, dando como resultado \(k=10\), lo que indica que la población ha sido fragmentada en 50 partes y de cada una de ellas se tomará un elemento para la muestra, con lo que al final se tendrá el total de los elementos requeridos para el análisis muestral. 

Una vez identificados los 50 grupos de 10 elementos cada de uno de ellos, según el ejemplo; se extrae aleatoriamente del primero de los grupos formados un elemento para la muestra. Supóngase que los elementos están identificados con la numeración del 1 al 500, por lo tanto el primero de esos grupos incluye a los elementos enumerados del 1 al 50, el segundo incluirá a aquellos cuyo números estén del 51 al 100, el tercero del 101 al 150 y así sucesivamente hasta el grupo 50 que contiene a los elementos identificados del 451 al 500. Para la primera selección se toma alguno de los instrumentos señalados anteriormente y se busca un número entre 1 y 50, rango del primer grupo. Supongáse que el primer número que aparece en la calculadora o en la tabla de dígitos aleatorios es el 25, lo que indica que el primer elemento de la muestra  será el 25, se encuentra en el primer grupo, y a partir de él cuéntense 50 elementos y extráigase el segundo, en este caso será el 75; después de éste cuente otros 50 y seleccione al siguiente, será entonces el 125, y así sucesivamente.

Este tipo de muestreo tiene la ventaja de garantizar la forma de la población, ya que recorre todos los sectores de la misma, esto es, observa desde el primero hasta el último. 

La desventaja en este tipo de muestreo, está en los casos en que se dan periodicidades en la distribución de la población, ya que al elegir a los miembros de la muestra con una periodicidad constante (k) se puede introducir una homogeneidad que no se da en la población. Supóngase que se está seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si se utiliza el muestreo aleatorio sistemático con k=10 siempre serán seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.
  • Muestreo estratificado: Consiste en considerar características heterogéneas, llamadas estractos o subconjuntos, en la población y que al mismo tiempo son distinguidas por la homogeneidad respecto a alguna característica como la profesión, el sexo, el estado civil, la gerencia a la que se pertenece, entre otras.
Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el sistemático; para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige conocimiento detallado de la población: Sexo, edades, entidad federativa, campus. 

Este tipo de muestreo tiene la ventaja de que permite establecer controles cualitativos para garantizar la representatividad, por lo menos en forma, proporcional de la muestra según la distribución poblacional.  

  • Muestreo polietápico (varias etapas): Cuando una población presenta tanto detalle de heterogeneidad en sus sectores o estractos que la conforman, es recomendable pasar a un segundo plano o hasta el que sea necesario de clasificación o estratificación y al final realizar la selección aleatoria o sistemática, con las recomendaciones anteriores. Ejemplo: Se desea extraer una muestra cuyo interés radica en observar a los empleados de una compañía considerando la división a la que pertenece, su género, categoría y turno de trabajo, luego entonces se recomienda estratificar primeramente por división y dentro de cada división hacerlo por género; a partir de esta última variable estratificar por categoría y en ella por turno. En este último nivel de estratificación, se hará la selección aleatoria o sistemática, con la intención de garantizar la representatividad proporcional de la muestra, ya que ésta ofrece mejores condiciones para el análisis.

Como puede deducirse, este tipo de muestreo aparenta ser complicado; sin embargo, ofrece grandes ventajas cuando se dispone de un mayor tiempo y sobre todo si la población evidencia distintos niveles de heterogeneidad o cuando se requiere observar con mayor detalle la distribución poblacional.

El seguir o utilizar alguno o algunos de ellos en un proceso de investigación, dependerá principalmente de las características poblacionales así como del objetivo y alcances del estudio.

Tipos de muestreo no probabilístico

Circunstancialmente, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso y el investigador se asiste con recursos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos, debido a que generalmente son seleccionados de acuerdo a criterios, en muchas ocasiones poco ortodoxos.

  • Muestreo por cuotas: Se realiza generalmente sobre la base del conocimiento, a veces parcial, de los estratos de la población o de los individuos más representativos o para los fines de la investigación. Tiene semejanza con el muestreo aleatorio estratificado, pero sin el carácter de aleatoriedad de aquél. 
En este tipo de muestreo se fijan cuotas que consisten en un número de individuos que reúnen determinadas condiciones, por ejemplo: 20 individuos de 15 a 20 años, de sexo femenino que estudien en escuela pública. Una vez determinada la cuota se eligen los primeros en la población que se encuentren y que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión.
  • Muestreo intencional: Consiste en que el investigador selecciona directa e intencionalmente los individuos de la población. El caso más frecuente de este procedimiento es el utilizar como muestra los individuos a los que se tiene fácil acceso, por ejemplo, las personas que se encuentran descansando en un parque o esperando en la fila del supermercado.
  • Bola de nieve: Consiste en entrevistar a individuos, los cuales conducen a otros, y así sucesivamente hasta conseguir la muestra requerida. Este tipo de muestreo se emplea cuando se hacen estudios con poblaciones difíciles de acceder a ellas como son las de determinados tipos de enfermos. 
  • Muestreo discrecional: A criterio del investigador los elementos son seleccionados si cree que pueden aportar datos o información al estudio, recuérdense las entrevistas de los reporteros de televisión.

 Determinación del tamaño de la muestra

Antes de determinar el tamaño de una muestra, se recomienda considerar el principio del Teorema de Gorco: "Si la población es grande, naturalmente la muestra tiende a ser relativamente pequeña; y si la población es pequeña, entonces la tendencia de la muestra es a ser proporcionalmente grande". A partir de este criterio de observación, se presentan los tres elementos básicos para la determinación del tamaño de una muestra en la investigación social, tanto para poblaciones finitas como para poblaciones infinitas.

Esos tres elementos son el nivel de confianza, el margen de error y la dispersión en la población, considerada por diversos autores como la variabilidad o varianza. Se refiere como dispersión en la población considerando que en la investigación social, principalmente inciden o se presentan fenómenos de carácter cualitativo donde se aprecia la proporción o porcentaje d elementos que poseen las características o se ven inmersos en los aspectos principales de la investigación. 

Para el cálculo del tamaño de una muestra deberá considerarse el tipo de población de donde será extraída, y así seguir alguna de las siguientes fórmulas básicas: 

Para la población infinita 

\(n: \frac{pqz^2}{E^2}\)

Para la población finita 

\(n:\frac{Npqz^2}{E^2(N-1)+pqz^2}\)

Donde: 

z: Representa el nivel de confianza. 

E: Indica el margen de error o nivel de precisión 

p: Es la proporción o porcentaje de elementos en la población que tienen la característica en estudio. 

q: Indica el complemento de \(p: q=1-p\)

N: Tamaño de la población 

  • Nivel de confianza 

De manera sencilla, se desea determinar cuántos de cada 100 elementos que se tomen como muestra, deberán poseer las características de la población. En otros términos es la probabilidad de que la estimación efectuada se acerque a la realidad. Obviando el detalle de acceso a la tabla de áreas bajo la curva normal, en la cual se obtienen los coeficientes que representan el nivel de confianza en el cálculo del tamaño de la muestra y considerando que comúnmente en ciencias sociales los niveles mayormente utilizados son del 90%, 95% Y 99%, éstos son Z=1.64, Z=1.96 y Z=2.57 respectivamente. Más adelante se aplicarán en un ejemplo.

  • Margen de error

También llamado error muestral o nivel de precisión, es la diferencia máxima que el investigador está dispuesto a aceptar entre un estadístico y su parámetro. En una investigación siempre se considera la omisión de errores en el proceso, pero la naturaleza de la investigación indicará hasta qué grado es posible su presencia y su tolerancia. Un estadístico será más preciso en la medida que su error sea más pequeño o su precisión sea mayor.
  • Dispersión de la población o variabilidad 

Un factor importante para determinar el tamaño de una muestra es conocer cómo se encuentra distribuida la población en relación con la variable principal de la investigación. Este factor puede ser observado en términos relativos o porcentuales y aplicarse de cualquier manera en la fórmula para su cálculo, siempre y cuando se apliquenen el mismo sentido: Relativo o porcentual: Siempre proporciones o siempre porcentajes. Si la característica principal del estudio la posee el 70% de la población, a este valor le llamaremos variabilidad o dispersión en la población, y al porcentaje de sujetos que no tienen esa característica 30%, la identificaremos como el complemento a la variabilidad como \(p\) y \(q\) respectivamente. Ambos tienen que sumar 100%. 

En caso de que se desconozca esa característica, deberá asignarse la máxima variabilidad correspondiendo el 50% p y el 50% restante a q. 

Con el conocimiento adquirido hasta el momento, ya es posible determinar el tamaño de una muestra, presentando a continuación algunos ejemplos: 

Ejemplo 1

De qué tamaño será una muestra si se tiene una población de 500 individuos objetos de estudio, requiriéndose para ello un nivel de confianza del 90% con un margen de error muestral del 8% y se sabe que el 70% de la población posee la característica en estudio, que puede ser el alto nivel de desempeño, contra el 30% con un bajo nivel de desempeño. Los valores a sustituir en la fórmula 2 son: z= 1.64 para el 90% de confianza, E= 8 como el porcentaje del error muestral, p=70 como valor de la variabilidad, q=30 como complemento de la variabilidad y N=500 como tamaño de la muestra.

Al sustituir los datos en la fórmula 2 y realizar las operaciones tendremos lo siguiente: 

\(n=\frac{(500)(70)(30)(1.64)^2}{(8)^2(500-1)+(70)(30)(1.64)^2}\)

\(n=75\)

 Ejemplo 2

Para realizar una encuesta telefónica de opinión entre jóvenes mayores de 18 años en la Ciudad de México, se requiere una muestra con el 95% de confianza, un margen de error muestral del 5% y dadas las características de la población, considerada para este caso como infinita, se tomarála máxima variabilidad.

Bajo el mismo principio de asignación de valores que en el ejemplo 1, al sustituir los datos en la formula 1 y realizar las operaciones correspondientes, deberá tomarse una muestra de:

\(n: \frac{(1.96)^2(50)(50)}{15}\)

\(n:384\) 

 Ejercicio de aplicación.

Los datos que se presentan a continuación, corresponden a la evaluación del desempeño anual de un grupo de 320 trabajadores de la industria de la panadería. Ese puntaje se obtuvo a través de aplicar un instrumento para conocer la opinión de jefes inmediatos, subordinados, compañeros en línea y autoevaluación de cada uno de los trabajadores.

Para determinar el programa de estímulos y compensaciones para el próximo ejercicio, la empresa y el sindicato acuerdan en analizar inicialmente el puntaje obtenido por los trabajadores durante el último año y posteriormente tomar las medidas que beneficien las relaciones contractuales y plan de beneficios para los trabajadores. 

Por razones de tiempo, se decide diseñar una muestra de la tabla de resultados de la evaluación del desempeño de los trabajadores y presentar el informe correspondiente a ambas instancias. 

Para ello, se le solicita a usted como consultor en investigación y desarrollo, determinar el tamaño de la muestra que será analizada y seleccionarla sistemáticamente. 

Los datos de los trabajadores son los siguientes y los identificaremos como sigue: 

Cada línea contiene 10 datos, cada uno de ellos es el puntaje obtenido por un trabajador, significa que tenemos 10 trabajadores por reglón de la tabla. La primera línea contiene a los trabajadores cuyo número de identificación es, por favor vea la siguiente tabla, 1 ( 60) y 10 el último ( 98 ). La segunda línea contiene a los trabajadores identificados con los números del 11 ( 90 ) al 20 ( 74 ) y así sucesivamente hasta el trabajador con el número de identificación 320, cuyo puntaje es 100.

60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 93 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 93 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100

Se requiere que la muestra ofrezca el 95% de confianza ( Z = 1.96 ) con un margen de error del 7% (E = 7). Observaciones de años anteriores indican que el 80% de los trabajadores son categorizados como de alto desempeño, por lo tanto tomaremos la variabilidad del 80% ( P = 80 ) Y su complemento de 20% ( q = 20 ).

Sustituyendo en la fórmula 2 para poblaciones finitas tenemos: 

\(n=\frac{(320)(80)(20)(1.96)^2}{(7)^2(320-1)+(80)(20)(1.96)^2}\)

\(n=90\)

Lo que indica que se deberá tomar una muestra de 90 trabajadores y seleccionarlos sistemáticamente. Para la selección sistemática, dividiremos el total de la población N= 320 entre el tamaño de la muestra n=90. 

\(K=\frac{320}{90}=3.55\)

(Por criterio de trabajo, redondear a 4)

Esto significa que el primer elemento de la muestra será extraído aleatoriamente de los primeros cuatro de la población. Para seleccionar el segundo, contaremos cuatro elementos y el cuarto será el que debe ser extraído y así sucesivamente de cuatro en cuatro hasta recorrer toda la población o conjunto de trabajadores, en este ejemplo.

Al utilizar la tabla de dígitos aleatorios del anexo 1, observamos que el primer dígito que aparece entre 1 y cuatro es precisamente el 4. Observe los datos de la tabla 1 del ejercicio y el cuarto trabajador tiene una evaluación de 95 puntos. A partir de éste, cada cuatro seleccionará al siguiente para la muestra, hasta el final del conjunto.

En la siguiente tabla se han marcado los elementos que forman parte de la muestra y deberán ser analizados para el informe que se presentará a la empresa y al sindicato conjuntamente.

60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 93 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 39 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100
60 47 82 95 88 72 67 66 68 98
90 77 86 58 64 95 74 72 88 74
77 93 90 63 98 88 49 42 98 70
39 76 84 91 51 75 50 69 56 100

Los datos marcados con color, son los correspondientes a la muestra seleccionada sistemáticamente. Debido a que se redondeó de 3.55 a 4, el total de datos de la muestra fue finalmente 63. La diferencia es llamada error de redondeo por muestreo sistemático.