Elecciones presidenciales de Colombia y la ley de Benford

¿Es posible detectar fraude en unas elecciones sólo con conocer sus resultados? Cuando la transparencia de las mismas entidades encargadas de la organización y los gobiernos son cuestionados, puede ser posible buscar una respuesta en los los resultados, los números, y evaluar si existe la posibilidad de que hayan sido alterados.

Por ejemplo, tan pronto se conocieron los datos de las pasadas elecciones presidenciales en Irán algunos trataron de verificar esto utilizando la ley de Benford, segun la cual la distribución del primer dígito de una lista de números no es uniforme. Si los datos no se ajustaban a lo predicho por esta ley, los resultados de las elecciones podrían haber sido manipulados.

¿Por qué no hacer algo parecido con las elecciones de Colombia? Quise verificar esto con los datos de las elecciones presidenciales de Colombia de 2006 y ver qué podía hacer con ellos. Esto fue lo que encontré.

Ley de Benford

La ley de Benford sugiere una distribución logarítmica para los primeros dígitos de una lista de números, en donde el número 1 aparece con mayor frecuencia y esta disminuye para los demás dígitos siguiendo el mismo orden. Según esta ley la probabilidad de que el primer dígito de un número sea 1 es 1/3, mientras que es 1/20 para los dígitos 8 y 9. Esta es la gráfica de la distribución:

Distribución de la ley de Benford

La ley de Benford ha sido utilizada para detectar posibles casos de fraude en listas de números como declaraciones de impuestos, registros de gastos y presupuestos. Para esto, se calcula la distribución de los primeros dígitos de la lista (es decir, cuántos comienzan por 1, cuántos por 2, etc) y se compara con la de la ley. Si los valores observados difieren de los esperados según Benford, puede existir una anomalía en la serie de datos.

Resultados

Utilizando los datos de las elecciones presidenciales de Colombia de 2006, calculé la distribución del primer dígitode la lista de votos por cada candidato en todos los municipios. El programa utilizado para los cálculos y los datos están disponibles libremente; más adelante los describo e incluyo enlaces para descargarlos.

La siguiente gráfica muestra la distribución el primer dígito de los votos de cada candidato.

Distribución del primer dígitode los votos de los candidatos.

La gráfica no es suficiente para decir con certeza si los datos cumplen con la ley de Benford o no. Para determinar si hay una diferencia significativa entre lo observado y lo esperado se aplica la prueba chi-cuadrado (χ²) para la bondad de ajuste. Cuando el estadístico χ² supera el valor crítico según el nivel de significación elegido, se puede decir que los datos no se ajustan a la distribución esperada.

La siguiente tabla muestra el valor de χ² para los votos de cada candidato en todos los municipios del país. El valor crítico utilizado es 15.507, que corresponde al obtenido en la tabla para 8 grados de libertad (los 9 dígitos de los números) con un nivel de significación de 0.05.

Candidato χ²
ALVARO LEYVA DURAN 24.404255
ALVARO URIBE VELEZ 11.947144
ANTANAS MOCKUS SIVICKAS 7.882058
CARLOS ARTURO RINCON BARRETO 19.353083
CARLOS GAVIRIA DIAZ 8.152414
ENRIQUE PAREJO GONZALEZ 31.339148
HORACIO SERPA URIBE 5.860907

El estadístico χ² no sobrepasa el valor crítico definido, excepto para los tres candidatos que obtuvieron la menor votación. No creo que en este caso la diferencia revele la posibilidad de fraude; sino que pueda estar relacionada con la cantidad de votos que obtuvieron estos candidatos.

Candidato Votos
ALVARO URIBE VELEZ 7043294
CARLOS GAVIRIA DIAZ 2521652
HORACIO SERPA URIBE 1345087
ANTANAS MOCKUS SIVICKAS 139902
ENRIQUE PAREJO GONZALEZ 40503
ALVARO LEYVA DURAN 17179
CARLOS ARTURO RINCON BARRETO 13770

Algo similar ocurre con los datos de los votos de cada candidato por departamento. En algunos casos la distribución del primer dígitono se ajusta a la predicha por la ley de Benford y el valor de χ² supera el límite definido. Esto ocurre tanto para los candidatos que obtuvieron una amplia mayoría en el departamento, pero también con los que apenas obtuvieron un pequeño porcentaje del total de los votos.

Los resultados de la prueba chi-cuadrado y el total de votos de cada candidato por departamento están disponibles en las siguientes tablas:

¿Qué se puede concluir de esto? Muy poco, o nada. Aunque la aplicación de ley de Benford para buscar evidencia de fraude ha sido muy discutida, creo que el problema fundamental de este análisis está en los datos. Al tratarse de totales para cada municipio se pierde toda la información detallada de cada puesto de votación, que es el lugar en donde probablemente se puedan alterar los resultados.

A pesar de esto, creo que es útil describir los datos utilizados y, especialmente, la forma de conseguirlos. Es muy importante que esta información esté disponible y que se pueda consultar facilmente. Este punto lo amplio más adelante.

Los datos

La Registraduría publica los resultados de las elecciones presidenciales y legislativas desde 1992, presentando una versión resumida, en donde solo están los totales a nivel nacional y departamental. Aunque estos datos son importantes, son muy pocos como para analizar la distribución de los dígitos. Sin embargo, para las elecciones presidenciales de 2006 se pueden consultar los resultados de cada municipio. Esto ya es mucho más interesante para hacer cualquier análisis.

El sitio web de la Registraduría no ofrece una forma sencilla para descargar esta información, asi que tuve que hacerlo yo miso. Con un programa exporté los datos de las páginas y creé dos series de datos: una con la cantidad de votos de cada candidato y otra con el resumen de los resultados, en donde se incluye el total de votos válidos, en blanco, nulos, entre otros datos. Ambas series presentan los datos de cada municipio de Colombia.

No obstante, los datos de los resultados de cada mesa de votación están disponibles en el sitio web, pero en un formato que es prácticamente imposible de procesar automáticamente. En el sitio web se encuentran los formularios E-14 de todo el país, estos contienen las actas de escrutinio en donde se registra el conteo de los votos de cada urna. Estos formularios se pueden descargar como un archivo gráfico en formato JPEG (por ejemplo).

Procesar automáticamente estos archivos para reconocer los caracteres y así poder analizar los datos es, en mi opinión, una tarea inalcanzable. De hacerse, sería muy probable que los resultados fueran incorrectos. Contacté a la Registraduría con el fin de obtener estos datos en un formato más apropiado, sin embargo no obtuve ninguna respuesta.

La series de datos están disponibles libremente y se pueden descargar en diferentes formatos, incluyendo CSV y HTML. Esta es su estructura:

Votos por candidatos

Columnas:

dpto_id
dpto_nombre
mpio_id
mpio_nombre
candidato
partido
votos
porcentaje

Resumen de resultados

Columnas:

dpto_id
dpto_nombre
mpio_id
mpio_nombre
Dato
Valor
Porcentaje