Post AXd0hPHBCEZRTVZfSS by Picanumeros@mathstodon.xyz
 (DIR) More posts by Picanumeros@mathstodon.xyz
 (DIR) Post #AXd0h3RMNhdrkiAUGu by Picanumeros@mathstodon.xyz
       2023-07-12T18:55:12Z
       
       0 likes, 1 repeats
       
       Bueno pues por lo que veo parece que sí que hay un interés en Mastodon por las #encuestas electorales (y un interés sano, además!), así que procedo a describir un poco el bicheo que hice ayer con la #encuesta de 40db 🥳 Los datos de la encuesta de 40db (que los publica El País cada día) están disponibles para descargar en cada una de los artículos de dicha web sobre la encuesta del día. Ahora están haciendo un tracking diario, que consiste en que cada día hacen 500 entrevistas y publican el resultado correspondientes a las 2000 hechas en los últimos 4 días. Así hasta el día de las #elecciones
       
 (DIR) Post #AXd0h5sNKERLJ4p5eq by Picanumeros@mathstodon.xyz
       2023-07-12T19:01:54Z
       
       0 likes, 0 repeats
       
       El fichero que da El País es un .zip que contiene:- Cuestionario que se le ha pasado a la gente.- Metodología seguida (vendría a ser como una ficha técnica pero más extendida).- Informe con todos los resultados obtenidos de la encuesta.- Fichero con todas las tablas para consultar los resultados más detalladamente.- Y lo más importante: fichero con los datos brutos (microdatos) para cada una de las 2.000 personas que ha respondido.Este nivel de transparencia es MUY raro en las encuestas llevadas a cabo por organismos privados. Se me ocurren algunos precedentes, como el GESOP (durante un tiempo) o Metroscopia (alguna que otra vez), pero tristemente no es nada habitual que liberen estos datos. En organismos públicos esto sí es más común (el CIS tiene disponibles, tras un plazo de 15 días, todos los microdatos de todos sus estudios, y el CEO de Catalunya tiene un repositorio en GitHub donde permite consultar y reproducir todo el proceso de estimación).
       
 (DIR) Post #AXd0h82NI1cw0fW6WO by Picanumeros@mathstodon.xyz
       2023-07-12T19:03:51Z
       
       0 likes, 0 repeats
       
       El fichero de datos está en tres formatos diferentes: .sav (para abrirlo en SPSS), .xlsx (en Excel y sus versiones Open Source) y .dta (usado mayormente en Stata). El formato es correcto y la información dentro del mismo está bien. Quizá me falla un poco la codificación de algunas variables, pero le doy el visto bueno.Ahora vamos al turrón: la metodología.
       
 (DIR) Post #AXd0hAwSUTg31BlvDU by Picanumeros@mathstodon.xyz
       2023-07-12T19:07:17Z
       
       0 likes, 0 repeats
       
       Aparte de la combinación de encuestas que os he comentado en el primer toot, lo primero que llama la atención es la descripción del trabajo de campo.Se trata de una encuesta realizada de manera online a las personas que forman parte de lo que se conoce como PANEL.Un panel vendría a ser un "repositorio" de personas al cual podemos acudir cada vez que queramos realizar una encuesta. Cada persona tiene asociada cierta información básica (edad, género, etc.) que sirve para segmentar y cubrir las cuotas de cada estrato poblacional para así asegurar que la muestra represente bien a la población objeto de estudio (en este caso, la población española llamada a votar).¿Cómo de fiable es esta forma de sacar la muestra?
       
 (DIR) Post #AXd0hDciWKfVKpYhMW by Picanumeros@mathstodon.xyz
       2023-07-12T19:10:37Z
       
       0 likes, 0 repeats
       
       Pues bien: aunque Internet llegue a casi todas partes, no todo el mundo participa de igual manera en internet. La gente más joven y/o políticamente activa podría ser más proclive a querer rellenar estas encuestas, además de gente que se inscriba a los paneles sólo por la pasta que les dan por encuesta rellenada (los llamados "profesionales").Por este motivo, muchas veces los propios paneles se confeccionan de forma probabilística: se elabora un listado de personas a la que podamos mandar encuestas, pero estas personas tienen que representar bien a la población, o al menos tenemos que saber de alguna forma qué probabilidad tienen de pertenecer al panel.Si no conocemos dicha probabilidad, tenemos un panel no probabilístico, y aquí es donde entra lo chusquero: en este tipo de paneles no hay control ni diseño sobre quién va a entrar en él, por lo que el panel final puede contener algunos sesgos promovidos por la autoselección (lo que comentaba de, p. ej., gente más activa apuntándose, o gente más de izquierdas/derechas, etc.).
       
 (DIR) Post #AXd0hG0Bg2dAiCYTDs by Picanumeros@mathstodon.xyz
       2023-07-12T19:15:15Z
       
       0 likes, 0 repeats
       
       El sesgo que comento en el toot anterior no es baladí: aunque después recojamos la muestra de forma representativa (como ya comentaba, intentando llenar cuotas), puede ser que el sesgo esté condicionado por temas que no tengan nada que ver con esas variables que conforman las cuotas (p. ej. que la actividad política no tenga nada que ver con el género, ni la edad, ni la combinación de ambos), así que estaríamos en las mismas. Es decir, con una muestra muy mala a priori.El documento de 40db menciona que el panel lo proporciona una empresa llamada CINT; en su web no menciona explícitamente cómo confeccionan sus paneles, así que poco más puedo añadir salvo que vayamos con un poco de cuidado.
       
 (DIR) Post #AXd0hIJ36suHrHOYts by Picanumeros@mathstodon.xyz
       2023-07-12T19:18:37Z
       
       0 likes, 0 repeats
       
       El documento habla también de una depuración, basada en el tiempo que se tarda en contestar el cuestionario (bien aquí, porque si se tarda poco posiblemente sea porque la persona entrevistada esté a otra cosa; es lo que denominamos sesgo de aquiesencia) o en haber dado respuestas inconsistentes (ojalá saber los criterios seguidos aquí, porque el cuestionario tampoco parece incluir preguntas de control).
       
 (DIR) Post #AXd0hKsZXmVhq21xY0 by Picanumeros@mathstodon.xyz
       2023-07-12T19:22:02Z
       
       0 likes, 0 repeats
       
       Por último, se menciona una ponderación basada en las variables sociodemográficas. La ponderación es importante: si la muestra está desequilibrada (o como os gusta decir: no es representativa), una forma de arreglarlo es dar más peso a la gente que ha aparecido menos de la cuenta en la muestra, y menos peso a la que ha aparecido en la muestra en mayor cantidad de lo que debería.El tema es: ¿es suficiente con esta ponderación?Está demostrado que la ponderación es más efectiva cuando se resuelven desequilibrios que puedan afectar a la variable objetivo. Por ejemplo, si sabemos que el voto está directamente relacionado con la edad de una persona, entonces ponderar según la edad resolvería el sesgo. Sin embargo, si el voto está relacionado con (por ejemplo) si la persona es zurda o diestra, ponderar por edad no arregla nada.
       
 (DIR) Post #AXd0hN8b9AWAqJXmnw by Picanumeros@mathstodon.xyz
       2023-07-12T19:27:16Z
       
       0 likes, 0 repeats
       
       ¿Están las variables sociodemográficas relacionadas con el voto?Pues en cierto modo sí, pero hay unas que lo están todavía más: las variables POLÍTICAS. El recuerdo de voto ("¿qué votó usted en noviembre del '19?") está presente en el cuestionario, y dado que conocemos los resultados de esas elecciones, se podría equilibrar de cara a esa variable, y los efectos serían mucho más positivos.Echando un vistazo por encima a las muestras, parece que en general están un poco sesgadas a favor de la izquierda. Por ejemplo, en la de ayer sale que el 32,9% de las personas entrevistadas que votaron (y que recuerdan qué votaron) lo hicieron al PSOE... cuando el porcentaje real fue del 28%. Vox queda infrarrepresentado en la muestra también (9,3% frente al 15,08% real que obtuvieron).No pasa nada, ocurre en todas las encuestas. Pero hay que tenerlo en cuenta para corregirlo.
       
 (DIR) Post #AXd0hPHBCEZRTVZfSS by Picanumeros@mathstodon.xyz
       2023-07-12T19:29:03Z
       
       0 likes, 0 repeats
       
       Así que en definitiva, me parece una encuesta buena (la gente de 40db es suuuper profesional y saben bastante bien lo que hacen), aunque como en toda encuesta hay diversos matices a corregir y debemos estar atentos a ellos.Menuda turrísima os he soltado. Igual os esperabais algo más liviano 😂  Pido disculpas a todo el mundo. Espero que al menos esto haya servido 😅
       
 (DIR) Post #AXd0rZtaZHd5J4OEnA by ecotejados@xarxamontgri.masto.host
       2023-07-12T19:45:04Z
       
       0 likes, 0 repeats
       
       @Picanumeros falta una foto de dicha encuesta, para no entrar a su web, por lo demás muchas gracias por explicarlo tan exhaustivamente 😍
       
 (DIR) Post #AXe0CmyZE2Fd9xEF9s by Picanumeros@mathstodon.xyz
       2023-07-13T07:12:36Z
       
       0 likes, 0 repeats
       
       @ecotejados Nah, no hace falta, los resultados de la encuesta son lo de menos. Lo que me interesa es la alquimia que lleva detrás ⚗️ Pero vaya, que según la última la cosa va: Sumar 33, PSOE 114, PP 131, Vox 41, Otros 31.