¿Mujeres fueron más propensas a votar por Noboa?

5 minute read

Published:


TL;DR: Las afirmaciones del expresidente Rafael Correa sobre una aparente preferencia de las mujeres por Daniel Noboa no están respaldadas estadísticamente. Aunque hay diferencias en las proporciones de votos por género, su relevancia práctica es mínima. La relación entre género y elección de candidato es débil.


En un [tweet] publicado el día de hoy, el expresidente Rafael Correa insinuó que las mujeres mostraron una mayor inclinación que los hombres a votar por Daniel Noboa en detrimento de Luisa González. Como prueba de su afirmación, el expresidente compartió la siguiente tabla:


GéneroDaniel Noboa (ADN)Luisa González (RC5)Total
Hombres2,483,4722,447,1534,930,625
Mujeres2,757,2022,423,4115,180,613
Total5,240,6744,870,56410,111,238

Basándose en estos datos, Correa, quien tiene un PhD en Economía, pudo haber inferido alguna correlación estadística que indicara diferencias significativas en las proporciones de votos. Un enfoque común para hacerlo es el test de Chi-Cuadrado. El propósito del test de Chi-Cuadrado es comparar los valores observados con los esperados. Si hay una diferencia significativa entre estos dos sets de valores, podríamos concluir que existe una asociación entre el género y la elección del candidato. La métrica de este test es la siguiente:

$\chi^2 = \sum \frac{\left(Observado - Esperado\right)^2}{Esperado}$

El valor "Esperado" en el test de Chi-Cuadrado representa el número de votos que se anticiparía para una combinación específica de género y candidato si no hubiera ninguna diferencia entre las proporciones de votos de hombres y mujeres para cada candidato. Es decir, si el género no tuviera ningún efecto sobre la elección del candidato. Por ejemplo, para calcular el número esperado de votos de mujeres para Daniel Noboa, tomaríamos el total de votos de mujeres, multiplicaríamos por el total de votos para Daniel Noboa, y luego dividiríamos por el total de votos en la muestra. Esto nos daría una estimación de cuántos votos recibiría Daniel Noboa de las mujeres si las proporciones de votos estuvieran distribuidas uniformemente entre los géneros. Aquí la tabla y los resultados del Chi-Cuadrado:


GéneroCandidatoObservadoEsperado
HombresRC52,447,1532,374,663.8
HombresADN2,483,4722,555,961.2
MujeresRC52,423,4112,495,900.2
MujeresADN2,757,2022,684,712.8
Chi-square χ2 = 113,703.1


En situaciones típicas con un grado de libertad (como en este caso, 2 géneros - 1 x 2 candidatos - 1 = 1 df), un valor Chi-cuadrado mucho más pequeño ya sería suficiente para rechazar la hipótesis nula de independencia. Es decir, estos resultados sugieren una clara diferencia en las preferencias de voto entre hombres y mujeres para los candidatos Daniel Noboa y Luisa González. Sin embargo, es esencial abordar estas diferencias con una mirada crítica y considerar la magnitud y relevancia práctica de estas diferencias, no solo su significancia estadística. Aquí es donde entran en juego aspectos como el tamaño del efecto y métodos alternativos de análisis.

El valor de chi-cuadrado señala la existencia de una diferencia, pero el tamaño del efecto nos indica su magnitud en un contexto real. Incluso con diferencias pequeñas, el valor de chi-cuadrado puede resultar significativo si el tamaño de la muestra es grande, como en este caso, donde supera los diez millones de votos. Una medida útil en esta situación es el coeficiente Phi ($ \varphi $), diseñado específicamente para evaluar el tamaño del efecto en tablas 2x2. Se calcula como:


$ \begin{align} \varphi &= \sqrt{\frac{\chi^2}{\text{ Total de votos }}}\notag\\\notag\\ &=\sqrt{\frac{113,703.1}{10,111,238}}\notag\\\notag\\ &\approx 0.10604\notag \end{align} $


El valor obtenido para el coeficiente Phi, aproximadamente 0.106, sugiere que la relación, aunque estadísticamente significativa, es débil en términos prácticos. Aunque las mujeres muestran una leve preferencia hacia Daniel Noboa en comparación con Luisa González, la magnitud de esta diferencia es relativamente pequeña.

Este análisis nos lleva a reflexionar sobre un aspecto esencial de las pruebas estadísticas en grandes conjuntos de datos: la capacidad de detectar diferencias muy sutiles. En otras palabras, una diferencia menor puede ser declarada significativa debido al tamaño amplio de la muestra. Para abordar este asunto, podemos recurrir a la regresión logística, que no solo examina la independencia, sino que también modela la relación entre las variables. La representación funcional es:


$ \begin{align} \log\left(\frac{\Pr(\text{Voto por Daniel Noboa})}{1-\Pr(\text{Voto por Daniel Noboa})}\right) = \beta_0 + \beta_1 \times \text{Genero}\notag \end{align} $


Esta ecuación intenta estimar la probabilidad de que alguien elija a Noboa sobre González basándose en su género. A continuación, el código en R para replicación y transparencia:


# Para 'vote': 0 representa voto para RC5 y 1 representa voto para ADN
# Para 'gender': 0 representa hombres y 1 representa mujeres

# Creando el conjunto de datos para regresión ponderada
data_weighted <- data.frame(vote = c(0, 0, 1, 1),
                            gender = c(0, 1, 0, 1),
                            weight = c(2447153, 2423411, 2483472, 2757202))

# Ejecutando la regresión logística ponderada
model_weighted <- glm(vote ~ gender, weights = weight, family =quasibinomial(), data = data_weighted)

# Mostrar resultados
summary(model_weighted)
  
  

Con ello, los detalles de este análisis se encuentran en la siguiente tabla:

Resumen de la regresión logística ponderada
VariableEstimadoError EstándarValor tPr(>|t|)
(Intercepción)0.014732.025250.0070.995
Género0.114312.832210.0400.971

Los resultados de la regresión indican que, aunque se pueden identificar variaciones en las elecciones asociadas al género, estas no son estadísticamente significativas al tener en cuenta la ponderación de la muestra. Esta percepción armoniza con el coeficiente Phi, subrayando que la discrepancia notada quizás no tenga una relevancia contundente en contextos prácticos.

En resumen, es esencial reconocer que aunque las herramientas estadísticas puedan identificar diferencias y correlaciones en los datos, siempre debemos equilibrar esta significancia estadística con su real repercusión y aplicabilidad en escenarios concretos. Derivado de este análisis, se puede inferir que las tendencias de voto relacionadas con el género posiblemente no sean tan decisivas como se podría anticipar basándonos simplemente en un examen inicial de diferencias en proporciones.