¿Es posible detectar fraude en unas elecciones sólo con conocer sus resultados? Cuando la transparencia de las mismas entidades encargadas de la organización y los gobiernos son cuestionados, puede ser posible buscar una respuesta en los los resultados, los números, y evaluar si existe la posibilidad de que hayan sido alterados.
Por ejemplo, tan pronto se conocieron los datos de las pasadas elecciones presidenciales en Irán algunos trataron de verificar esto utilizando la ley de
Benford, segun la cual la
distribución del primer dígito de una lista de números no es uniforme. Si
los datos no se ajustaban a lo predicho por esta ley, los resultados de las elecciones podrían haber sido manipulados.
¿Por qué no hacer algo parecido con las elecciones de Colombia? Quise verificar
esto con los datos de las elecciones presidenciales de Colombia de 2006 y ver qué podía hacer con ellos. Esto fue lo que encontré.
Ley de Benford
La ley de Benford sugiere una distribución logarítmica para los primeros dígitos de una lista de números, en donde el número 1 aparece con mayor frecuencia y esta disminuye para los demás dígitos siguiendo el mismo orden. Según esta ley la probabilidad de que el primer dígito de un número sea 1 es 1/3, mientras que es 1/20 para los dígitos 8 y 9. Esta es la gráfica de la distribución:
La ley de Benford ha sido utilizada para detectar posibles casos de fraude en listas de números como declaraciones de impuestos, registros de gastos y presupuestos. Para esto, se calcula la distribución de los primeros dígitos de la lista (es decir, cuántos comienzan por 1, cuántos por 2, etc) y se compara con la de la ley. Si los valores observados difieren de los esperados según Benford, puede existir una anomalía en la serie de datos.
Resultados
Utilizando los datos de las elecciones presidenciales de Colombia de 2006, calculé la distribución del primer dígitode la lista de votos por cada candidato en todos los municipios. El programa utilizado para los cálculos y los datos están disponibles libremente; más adelante los describo e incluyo enlaces para descargarlos.
La siguiente gráfica muestra la distribución el primer dígito de los votos de cada candidato.
La gráfica no es suficiente para decir con certeza si los datos cumplen con la ley de Benford o no. Para determinar si hay una diferencia significativa entre lo observado y lo esperado se aplica la prueba chi-cuadrado (χ²) para la bondad de ajuste. Cuando el estadístico χ² supera el valor crítico según el nivel de significación elegido, se puede decir que los datos no se ajustan a la distribución esperada.
La siguiente tabla muestra el valor de χ² para los votos de cada candidato en todos los municipios del país. El valor crítico utilizado es 15.507, que corresponde al obtenido en la tabla para 8 grados de libertad (los 9 dígitos de los números) con un nivel de significación de 0.05.
| Candidato |
χ² |
| ALVARO LEYVA DURAN |
24.404255 |
| ALVARO URIBE VELEZ |
11.947144 |
| ANTANAS MOCKUS SIVICKAS |
7.882058 |
| CARLOS ARTURO RINCON BARRETO |
19.353083 |
| CARLOS GAVIRIA DIAZ |
8.152414 |
| ENRIQUE PAREJO GONZALEZ |
31.339148 |
| HORACIO SERPA URIBE |
5.860907 |
El estadístico χ² no sobrepasa el valor crítico definido, excepto para los tres candidatos que obtuvieron la menor votación. No creo que en este caso la diferencia revele la posibilidad de fraude; sino que pueda estar relacionada con la cantidad de votos que obtuvieron estos candidatos.
| Candidato |
Votos |
| ALVARO URIBE VELEZ |
7043294 |
| CARLOS GAVIRIA DIAZ |
2521652 |
| HORACIO SERPA URIBE |
1345087 |
| ANTANAS MOCKUS SIVICKAS |
139902 |
| ENRIQUE PAREJO GONZALEZ |
40503 |
| ALVARO LEYVA DURAN |
17179 |
| CARLOS ARTURO RINCON BARRETO |
13770 |
Algo similar ocurre con los datos de los votos de cada candidato por departamento.
En algunos casos la distribución del primer dígitono se ajusta a la predicha
por la ley de Benford y el valor de χ² supera el límite definido. Esto ocurre tanto
para los candidatos que obtuvieron una amplia mayoría en el departamento, pero
también con los que apenas obtuvieron un pequeño porcentaje del total de los votos.
Los resultados de la prueba chi-cuadrado y el total de votos de cada candidato por departamento
están disponibles en las siguientes tablas:
¿Qué se puede concluir de esto? Muy poco, o nada. Aunque la aplicación de ley
de Benford para buscar evidencia de fraude ha sido muy discutida, creo que el
problema fundamental de este análisis está en los datos. Al tratarse de totales
para cada municipio se pierde toda la información detallada de cada puesto de
votación, que es el lugar en donde probablemente se puedan alterar los resultados.
A pesar de esto, creo que es útil describir los datos utilizados y, especialmente,
la forma de conseguirlos. Es muy importante que esta información esté
disponible y que se pueda consultar facilmente. Este punto lo amplio más
adelante.
Los datos
La Registraduría publica los resultados de
las elecciones presidenciales y legislativas desde 1992, presentando una
versión resumida, en donde solo están los totales a nivel nacional y
departamental. Aunque estos datos son importantes, son muy pocos como para
analizar la distribución de los dígitos. Sin embargo, para las elecciones
presidenciales de 2006 se pueden consultar los resultados de cada municipio.
Esto ya es mucho más interesante para hacer cualquier análisis.
El sitio web de la Registraduría no ofrece una forma sencilla para descargar
esta información, asi que tuve que hacerlo yo miso. Con un programa exporté
los datos de las páginas y creé dos series de datos: una con la cantidad de
votos de cada candidato y otra con el resumen de los resultados, en donde se
incluye el total de votos válidos, en blanco, nulos, entre otros datos. Ambas
series presentan los datos de cada municipio de Colombia.
No obstante, los datos de los resultados de cada mesa de votación sí están
disponibles en el sitio web, pero en un formato que es prácticamente imposible
de procesar automáticamente. En el sitio web se encuentran los formularios E-14
de todo el país, estos contienen las actas de escrutinio en donde se registra el
conteo de los votos de cada urna. Estos formularios se pueden descargar como un
archivo gráfico en formato JPEG (por ejemplo).
Procesar automáticamente estos archivos para reconocer los caracteres y así poder
analizar los datos es, en mi opinión, una tarea inalcanzable. De hacerse, sería
muy probable que los resultados fueran incorrectos. Contacté a la Registraduría
con el fin de obtener estos datos en un formato más apropiado, sin embargo no
obtuve ninguna respuesta.
La series de datos están disponibles libremente y se pueden descargar en
diferentes formatos, incluyendo CSV y HTML. Esta es su estructura:
Votos por candidatos
Columnas:
dpto_id
dpto_nombre
mpio_id
mpio_nombre
candidato
partido
votos
porcentaje
Resumen de resultados
Columnas:
dpto_id
dpto_nombre
mpio_id
mpio_nombre
Dato
Valor
Porcentaje
Epílogo
Hay una gran cantidad de enlaces al respecto. Aquí señalo los que me parecen
más útiles.
John Graham-Cumming publicó en su blog una serie
de entradas en donde analiza los datos de Irán, comenta los resultados de otros estudios
y, finalmente, cuestiona la aplicación de la ley de Benford para los
resultados de elecciones.
En la última entrada del blog incluye un enlace a un documento del Centro Carter que no considera válida la aplicación de esta ley para el referendo presidencial de Venezuela de 2004.
Adicionalmente está benfordonline.net,
que incluye una lista de las publicaciones acerca de las aplicaciones y
estudios de la ley de Benford. Simon Singh produjo un programa radial sobre las
particularidades de los números y en un episodio se refiere al número más popular:
el uno. Y por último: una
entrada en un blog que recopila la discusión en los blogs y otros medios
sobre las elecciones presidenciales de Irán.
Conocí la ley de Benford y sus aplicaciones en el caso de las elecciones
presidenciales de Irán en junio de 2009. En varios blogs discutían este
caso analizando los datos pero, especialmente, discutiendo sobre la validez
de su aplicación.
A pesar de creer que cualquier resultado de este análisis no permitiría probar
algo con certeza, quise hacer lo mismo con el simple propósito de saber un
poco más, aprender a analizar datos y recordar las clases de estadística.
Después de esta aclaración, léase disculpa, no creo que sea necesario
explicar por qué no incluí un análisis más completo.
No creo que haya perdido mi tiempo haciendo esto. Realmente la principal
motivación era poder publicar y hace disponibles los datos para que otros
los pudieran consultar y utilizar. Creo que es información valiosa que, aún
cuando está disponible en Internet, no es fácil acceder a ella. Por ejemplo,
estos datos podrían utilizarse para estudiar fenómenos como la baja
participación electoral en Colombia y comparar las tendencias en las diferentes
regiones. Si algún día veo que alguien utiliza los datos para eso, me daré
por bien servido.
Y ya que estamos soñando, a mi me encantaría que el periodismo se preocupara
más por publicar los datos que obtienen. La opinión puede ser noticia, pero
son los hechos lo que realmente importa. Sueño con ver otros gobiernos y
más periodistas publicando datos. ¿Tendré que esperar mucho tiempo para ver esto?