Encuestas

¿Muestreos no aleatorios para salvar al sector de las encuestas?

8 Dic, 2015 - - @bpberta

Una de las etapas más cruciales para la investigación social basada en datos provenientes de encuestas es la definición de la muestra de entrevistados por ésta. Escoger a un grupo de individuos que representan de forma fidedigna al grupo que queremos conocer y del que queremos obtener información es un paso básico para poder extrapolar conclusiones fiables de los datos. Y por esto, los que nos dedicamos a estos, tendemos a prestar mucha atención a cuál ha sido el proceso de muestreo.

En este sentido generalmente se ha asumido que la mejor forma de escoger a los individuos de una muestra era a través de una muestra probabilística aleatoria. Es decir, escoger a los individuos a entrevistar a través de un proceso tipo lotería en el que todos tienen las mismas probabilidades de ser escogidos, sin que haya ningún criterio en juego. Si la muestra es suficientemente grande, y no se ha establecido ningún criterio a la hora de escoger a sus integrantes, lo lógico es que acabemos con un grupo que se parece a la población en general. Además, como conocemos las leyes de la probabilidad, este tipo de muestras nos permite saber cuál es la probabilidad de que la muestra no represente bien al universo y actuar en consecuencia.

Sin embargo este tipo de muestras son cada vez más difíciles y caras de conseguir.  En primer lugar porque cada vez es más difícil disponer de buenos listados que contengan a todo los individuos del universo para poder seleccionar los individuos sin riesgos a dejar gente fuera. Un ejemplo muy claro de este problema aparece en las encuestas telefónicas que padecen muchos problemas por la desaparición paulatina de los teléfonos fijos entre ciertos sectores de la población. En segundo lugar, incluso en los casos en que los miembros del universo sí son conocidos y podemos seleccionar una primera muestra perfectamente, cada vez más nos encontramos con los problemas generados por la caída en los ratios de respuesta. Los índices de no-respuesta (individuos que debían ser entrevistados y o bien no han podido ser contactados o bien no han querido responder) no han parado de crecer en los últimos años. Estos altos índices de no-respuesta ponen en peligro la representatividad de la muestra ya que hay motivos para sospechar que no son aleatorios (ciertos grupos son más propenso a no contestar que otros). Por lo tanto, aún y si la muestra inicial hubiera sido representativa, la no-respuesta de ciertos sectores pone en riesgo la representatividad del conjunto de la población de los datos recogidos al final.

Todos estos problemas implican unos altos costes a la hora de desarrollar encuestas de forma ágil y eficiente,  que se ha traducido en un creciente interés por encontrar nuevos modos de hacer las muestras. En este sentido, ciertos sectores han empezado a desarrollar sistemas de muestro más baratos y fáciles como el de la bola de nieve. El muestro por el método de la bola de nieve consiste en que el investigador se ponga en contacto con alguno (o algunos) individuos del universo que quiere conocer que ya conoce o a los que tiene acceso. Les contacta, les hace las preguntas de la encuesta, y una vez terminada esta les pide que les pongan en contacto con otra gente de este mismo universo para que también puedan contestar a las preguntas. Asumiendo que los miembros del universo van a conocerse entre ellos, la muestra debería crecer y llegar a un número suficiente de sus miembros sin necesidad de tener la lista completa del universo a conocer o tener que perseguir a los individuos seleccionados. Por lo tanto de forma más cómoda y barata.

El problema de este tipo de muestras es que no es aleatoria y por lo tanto los riesgos de que no sea representativa son muy altos. La encuesta podría no llegar jamás a ciertos sectores del universo que queremos conocer, ya que no se relacionan con los individuos con los que nos hemos puesto en contacto. Incluso, habiendo llegado a todos los sectores de interés, podría ser que no todos los miembros del grupo tuvieran el mismo interés en colaborar respondiendo la encuesta. Por lo tanto, es muy fácil que los datos que obtengamos estén infra-representando a ciertos sectores de nuestro universo y sobre-representando a otros que han tenido un mayor interés por colaborar. Haciendo que no podamos estar seguros de la distribución real del conjunto de la población.

Para solucionar este problema, algunos proyectos están investigando modos de solucionar estas desviaciones utilizando datos del contexto social u otra información disponible. El objetivo de estos proyectos es identificar a qué sectores de la población se ha sobre-representado o infra-representado en la muestra para poder así corregirla. Entre ellos hay el proyecto impulsado por el grupo “Procesos Electorales y Opinión Pública” de la Universidad de Valencia, que intenta predecir el comportamiento de los Españoles en las próximas elecciones del próximo día 20 (anteriormente han hecho pruebas con otras elecciones también) a través de una encuesta online que se puede contestar aquí  (os animamos a que la contestéis y difundáis si tenéis un minuto).

Las encuestas electorales son un gran campo para el desarrollo y test de estas medidas porque tienen un resultado final claro con el que identificar hasta qué punto la encuesta no ha representado bien al universo al que quería representar. Sólo se tiene que comparar el resultado real de las elecciones con la previsión hecho con la encuesta. Solucionar los problemas de muestreo de las encuestas políticas y sociales actuales no va a ser una tarea fácil, pero es un campo importante a desarrollar si queremos seguir haciendo investigación social fiable y de calidad a través de encuestas.