Elecciones presidenciales de Colombia y la ley de Benford
Wed 23 September 2009
¿Es posible detectar fraude en unas elecciones sólo con conocer sus resultados? Cuando la transparencia de las mismas entidades encargadas de la organización y los gobiernos son cuestionados, puede ser posible buscar una respuesta en los los resultados, los números, y evaluar si existe la posibilidad de que hayan sido alterados.
Por ejemplo, tan pronto se conocieron los datos de las pasadas elecciones presidenciales en Irán algunos trataron de verificar esto utilizando la ley de Benford, segun la cual la distribución del primer dígito de una lista de números no es uniforme. Si los datos no se ajustaban a lo predicho por esta ley, los resultados de las elecciones podrían haber sido manipulados.
¿Por qué no hacer algo parecido con las elecciones de Colombia? Quise verificar esto con los datos de las elecciones presidenciales de Colombia de 2006 y ver qué podía hacer con ellos. Esto fue lo que encontré.
Ley de Benford
La ley de Benford sugiere una distribución logarítmica para los primeros dígitos de una lista de números, en donde el número 1 aparece con mayor frecuencia y esta disminuye para los demás dígitos siguiendo el mismo orden. Según esta ley la probabilidad de que el primer dígito de un número sea 1 es 1/3, mientras que es 1/20 para los dígitos 8 y 9. Esta es la gráfica de la distribución:
La ley de Benford ha sido utilizada para detectar posibles casos de fraude en listas de números como declaraciones de impuestos, registros de gastos y presupuestos. Para esto, se calcula la distribución de los primeros dígitos de la lista (es decir, cuántos comienzan por 1, cuántos por 2, etc) y se compara con la de la ley. Si los valores observados difieren de los esperados según Benford, puede existir una anomalía en la serie de datos.
Resultados
Utilizando los datos de las elecciones presidenciales de Colombia de 2006, calculé la distribución del primer dígitode la lista de votos por cada candidato en todos los municipios. El programa utilizado para los cálculos y los datos están disponibles libremente; más adelante los describo e incluyo enlaces para descargarlos.
La siguiente gráfica muestra la distribución el primer dígito de los votos de cada candidato.
La gráfica no es suficiente para decir con certeza si los datos cumplen con la ley de Benford o no. Para determinar si hay una diferencia significativa entre lo observado y lo esperado se aplica la prueba chi-cuadrado (χ²) para la bondad de ajuste. Cuando el estadístico χ² supera el valor crítico según el nivel de significación elegido, se puede decir que los datos no se ajustan a la distribución esperada.
La siguiente tabla muestra el valor de χ² para los votos de cada candidato en todos los municipios del país. El valor crítico utilizado es 15.507, que corresponde al obtenido en la tabla para 8 grados de libertad (los 9 dígitos de los números) con un nivel de significación de 0.05.
Candidato | χ² |
---|---|
ALVARO LEYVA DURAN | 24.404255 |
ALVARO URIBE VELEZ | 11.947144 |
ANTANAS MOCKUS SIVICKAS | 7.882058 |
CARLOS ARTURO RINCON BARRETO | 19.353083 |
CARLOS GAVIRIA DIAZ | 8.152414 |
ENRIQUE PAREJO GONZALEZ | 31.339148 |
HORACIO SERPA URIBE | 5.860907 |
El estadístico χ² no sobrepasa el valor crítico definido, excepto para los tres candidatos que obtuvieron la menor votación. No creo que en este caso la diferencia revele la posibilidad de fraude; sino que pueda estar relacionada con la cantidad de votos que obtuvieron estos candidatos.
Candidato | Votos |
---|---|
ALVARO URIBE VELEZ | 7043294 |
CARLOS GAVIRIA DIAZ | 2521652 |
HORACIO SERPA URIBE | 1345087 |
ANTANAS MOCKUS SIVICKAS | 139902 |
ENRIQUE PAREJO GONZALEZ | 40503 |
ALVARO LEYVA DURAN | 17179 |
CARLOS ARTURO RINCON BARRETO | 13770 |
Algo similar ocurre con los datos de los votos de cada candidato por departamento. En algunos casos la distribución del primer dígitono se ajusta a la predicha por la ley de Benford y el valor de χ² supera el límite definido. Esto ocurre tanto para los candidatos que obtuvieron una amplia mayoría en el departamento, pero también con los que apenas obtuvieron un pequeño porcentaje del total de los votos.
Los resultados de la prueba chi-cuadrado y el total de votos de cada candidato por departamento están disponibles en las siguientes tablas:
¿Qué se puede concluir de esto? Muy poco, o nada. Aunque la aplicación de ley de Benford para buscar evidencia de fraude ha sido muy discutida, creo que el problema fundamental de este análisis está en los datos. Al tratarse de totales para cada municipio se pierde toda la información detallada de cada puesto de votación, que es el lugar en donde probablemente se puedan alterar los resultados.
A pesar de esto, creo que es útil describir los datos utilizados y, especialmente, la forma de conseguirlos. Es muy importante que esta información esté disponible y que se pueda consultar facilmente. Este punto lo amplio más adelante.
Los datos
La Registraduría publica los resultados de las elecciones presidenciales y legislativas desde 1992, presentando una versión resumida, en donde solo están los totales a nivel nacional y departamental. Aunque estos datos son importantes, son muy pocos como para analizar la distribución de los dígitos. Sin embargo, para las elecciones presidenciales de 2006 se pueden consultar los resultados de cada municipio. Esto ya es mucho más interesante para hacer cualquier análisis.
El sitio web de la Registraduría no ofrece una forma sencilla para descargar esta información, asi que tuve que hacerlo yo miso. Con un programa exporté los datos de las páginas y creé dos series de datos: una con la cantidad de votos de cada candidato y otra con el resumen de los resultados, en donde se incluye el total de votos válidos, en blanco, nulos, entre otros datos. Ambas series presentan los datos de cada municipio de Colombia.
No obstante, los datos de los resultados de cada mesa de votación sí están disponibles en el sitio web, pero en un formato que es prácticamente imposible de procesar automáticamente. En el sitio web se encuentran los formularios E-14 de todo el país, estos contienen las actas de escrutinio en donde se registra el conteo de los votos de cada urna. Estos formularios se pueden descargar como un archivo gráfico en formato JPEG (por ejemplo).
Procesar automáticamente estos archivos para reconocer los caracteres y así poder analizar los datos es, en mi opinión, una tarea inalcanzable. De hacerse, sería muy probable que los resultados fueran incorrectos. Contacté a la Registraduría con el fin de obtener estos datos en un formato más apropiado, sin embargo no obtuve ninguna respuesta.
La series de datos están disponibles libremente y se pueden descargar en diferentes formatos, incluyendo CSV y HTML. Esta es su estructura:
Votos por candidatos
Columnas:
dpto_id dpto_nombre mpio_id mpio_nombre candidato partido votos porcentaje
Resumen de resultados
Columnas:
dpto_id dpto_nombre mpio_id mpio_nombre Dato Valor Porcentaje
Epílogo
Hay una gran cantidad de enlaces al respecto. Aquí señalo los que me parecen más útiles.
John Graham-Cumming publicó en su blog una serie de entradas en donde analiza los datos de Irán, comenta los resultados de otros estudios y, finalmente, cuestiona la aplicación de la ley de Benford para los resultados de elecciones. En la última entrada del blog incluye un enlace a un documento del Centro Carter que no considera válida la aplicación de esta ley para el referendo presidencial de Venezuela de 2004.
Adicionalmente está benfordonline.net, que incluye una lista de las publicaciones acerca de las aplicaciones y estudios de la ley de Benford. Simon Singh produjo un programa radial sobre las particularidades de los números y en un episodio se refiere al número más popular: el uno. Y por último: una entrada en un blog que recopila la discusión en los blogs y otros medios sobre las elecciones presidenciales de Irán.
Conocí la ley de Benford y sus aplicaciones en el caso de las elecciones presidenciales de Irán en junio de 2009. En varios blogs discutían este caso analizando los datos pero, especialmente, discutiendo sobre la validez de su aplicación.
A pesar de creer que cualquier resultado de este análisis no permitiría probar algo con certeza, quise hacer lo mismo con el simple propósito de saber un poco más, aprender a analizar datos y recordar las clases de estadística. Después de esta aclaración, léase disculpa, no creo que sea necesario explicar por qué no incluí un análisis más completo.
No creo que haya perdido mi tiempo haciendo esto. Realmente la principal motivación era poder publicar y hace disponibles los datos para que otros los pudieran consultar y utilizar. Creo que es información valiosa que, aún cuando está disponible en Internet, no es fácil acceder a ella. Por ejemplo, estos datos podrían utilizarse para estudiar fenómenos como la baja participación electoral en Colombia y comparar las tendencias en las diferentes regiones. Si algún día veo que alguien utiliza los datos para eso, me daré por bien servido.
Y ya que estamos soñando, a mi me encantaría que el periodismo se preocupara más por publicar los datos que obtienen. La opinión puede ser noticia, pero son los hechos lo que realmente importa. Sueño con ver otros gobiernos y más periodistas publicando datos. ¿Tendré que esperar mucho tiempo para ver esto?