Arpad Elo y el sistema de puntuación Elo
Por Daniel Ross
Universidad Indiana de Pensilvania
Matemáticas 563 – Estadística Matemática I
Otoño 2007
Pregunte por su 'Elo' a cualquier miembro de la Federación de Ajedrez de
Estados Unidos (USCF) y probablemente obtendrán una respuesta inmediata y
precisa. Luego pregunte a ese mismo miembro de la USCF de donde procede la
palabra "Elo". Algo del estilo "No me acuerdo...
alguien me dijo alguna vez de que eran esas siglas, pero no soy capaz de
recordarlo" es más probable que la respuesta correcta. Aunque el sistema de
puntuación en ajedrez más ampliamente usado en todo el mundo lleva su nombre,
pocos tienen más que una vaga idea de como funciona el sistema y aún menos son
conocedores de la existencia del propio estadístico Dr. Arpad Elo.
Físico de formación y húngaro de nacimiento, Elo fue un ferviente ajedrecista
aficionado la mayor parte de su vida. Con un rendimiento de maestro, Elo ganó el
campeonato de
Wisconsin ocho veces entre los años 1935 y 1961. En 1959, cuando ya había
servido en la USCF durante veinte años, Elo fue designado presidente del comité
de puntuación de la USCF; El año siguiente la USCF adoptó el nuevo y
revolucionario sistema de puntuación que había concebido. Una década más tarde,
en 1970, la federación mundial de ajedrez, más conocida como FIDE (Fédération Internationale des Échecs),
también puso en práctica el sistema Elo para registrar la fuerza relativa de los
maestros de todo el mundo. Hoy en día, casi medio siglo después de su comienzo,
el sistema Elo se asemeja muchísimo a su forma original. Además, el sistema Elo
ha sido aplicado a muchas otras formas de competición por parejas, como el
scrabble, los juegos de rol de participación masiva por Internet (MMORPGs)
como World of Warcraft
y diversos deportes profesionales y universitarios.
Arpad
Emrick Elo (en húngaro: Árpád Imre Élö) nació en 1903 en Hungría,
pero emigró a Estados Unidos con sus padres cuando era niño, en 1913.
Llegó a ser profesor de física en la Universidad Marquette de Milwaukee (Wisconsin)
Fue también un maestro de ajedrez que ganó el campeonato estatal de
Wisconsin ocho veces. Murió en Brookfield (Wisconsin) en 1992.Arpad
Elo es famoso por su sistema de puntuar juegos de dos contendientes, como el
ajedrez.
Desarrolló su formula y un sistema de puntuación para el ajedrez que fue
aprobado y adoptado en una reunión de la Federación Estadounidense de
Ajedrez celebrada en San Luis en 1960. En 1970, la FIDE acordó adoptar el
sistema de puntuación Elo. Desde entonces hasta mediados de los años 1980,
el propio Elo hacía los cálculos de las puntuaciones. En aquel momento, la
tarea de cálculo era relativamente fácil pues menos de 2000 jugadores tenían
puntuación FIDE.
La FIDE designó a otros para la tarea de gestionar y calcular las
puntuaciones, excluyendo a Elo. La FIDE también añadió a su manual nuevas
reglas de "Cualificación para puntuación" otorgando puntuaciones
arbitrarias (normalmente en el tramo de 2200, que es el límite inferior para
un Maestro de Ajedrez) a jugadores que puntuasen al menos el 50% en las
partidas jugadas en unas determinadas competiciones de ajedrez, como las
denominadas Olimpiadas de Ajedrez. Elo y otros se opusieron a estas nuevas
reglas en tanto que arbitrarias y motivadas políticamente.
Fuente:
Wikipedia. |
Aunque su sistema de puntuación sigue siendo la más importante de sus
contribuciones, el
Dr. Elo también realizó valiosas observaciones relacionadas con el desarrollo de
los ajedrecistas en función de datos demográficos como la edad, el lugar de
nacimiento y el género. Además, Elo aplicó su sistema de puntuación a resultados
de torneos históricos, remontándose a comienzos del siglo XIX. Con ello hizo
posible, por primera vez, comparar la fuerza relativa de cualesquiera dos
ajedrecistas de fuerza significativa a lo largo de siglo y medio. Aunque
refutadas con vehemencia, estas puntuaciones aún son consideradas por algunos la
forma más exacta de puntuar ajedrecistas anteriores a cualquier sistema formal
de puntuación.
Al ser nombrado presidente del comité de puntuaciones de la USCF en 1959, a Arpad Elo
se le asignó la sobrecogedora tarea de poner a punto el sistema de puntuación
entonces vigente. Desarrollado por Kenneth Harkness a comienzos de los años 1950,
el sistema (ahora conocido habitualmente como "sistema Harkness"), fue
adoptado en principio por los miembros de la comunidad ajedrecística, quienes
por primera vez tenían una forma de cuantificar sus habilidades.
Al cabo de pocos años, sin embargo, resultó evidente que el sistema Harkness
(Que podía resumirse en una sola tabla. Véase el apéndice A)
era insuficiente por su simplicidad. Aunque las puntuaciones Harkness a menudo
eran consideradas justas en los casos habituales, determinadas circunstancias
extremas daban resultados estadísticamente inexactos. En aras de la tradición y,
lo que es más importante, y de los miembros de la USCF, Elo mantuvo intactas dos
partes importantes del sistema Harkness: la escala de puntuación y las
categorías de clase en dicha escala.
La escala de puntuaciones, que tiene un límite mínimo en 0, sitúa el corte
para los candidatos a maestros (también conocidos como expertos) en 2000. Aunque
el máximo de la escala no está técnicamente limitado, sería inaudito que un
jugador excediera la puntuación de 3000. Debido a que la magnitud de esas cifras
es arbitraria, Elo
pensó que sería lo mejor dejar que la gente mantuviera sus puntuaciones en aquel
momento tanto por el bien de la comunidad ajedrecística (que podía seguir
ignorando los cambios en el sistema de cálculo)
como de la USCF (que en caso contrarío debería recalcular la puntuación de todos
y cada uno de sus miembros) El concepto más importante y que fácilmente se pasa
por alto que Elo adoptó del sistema Harkness fue el concepto de "categoría" del
jugador que se define como un salto de 200 puntos en la clasificación (Véase el
apéndice B) Por medio de la observación de los
resultados de torneos anteriores, Elo encontró que una categoría representaba
con precisión la desviación estándar (σ) en términos de fuerza de
rendimiento para un jugador dado a lo largo de una serie de partidas.
Empleando los resultados del pasado y las puntuaciones Harkness, Elo observó
que la distribución de los rendimientos individuales se parecía a una
distribución normal con una σ de una categoría
(200 puntos) Empleando una media (μ) de cero(1)
nos da la siguiente función de densidad de probabilidad (pdf):

Dado que hay dos participantes en una partida de ajedrez, y cada uno tiene
una desviación en el rendimiento de una categoría (σ1 y σ2),
la desviación estándar empleada en la función de densidad de probabilidad (pdf)
se obtiene como sigue:

La función de distribución acumulada (cdf) densidad de probabilidad (pdf)
empleando esta σ' es característica del sistema Elo en cuanto al cálculo de
rendimientos previstos (antes de un torneo), de las puntuaciones del rendimiento (durante
un torneo) y de la actualización de las puntuaciones (tras un torneo). Por
ejemplo, considere la gráfica siguiente:

Hemos representado la función de distribución acumulada (cdf) de una
distribución normal con μ = 0 y σ' =
282.84 ELO. Los puntos corresponden a un jugador determinado que gana una sola
partida contra un individuo situado en una categoría superior (24%), media
categoría superior (36%) y en la misma categoría (50%) Adviertan que las tablas
cuentan como media victoria para cada participante y es lo más probable en el
caso de que compitan dos jugadores de igual fuerza.
Empleando esta gráfica podemos cuantificar los resultados esperados y
los rendimientos reales que, combinados, se emplean para calcular las
nuevas puntuaciones tras un torneo. Resulta más instructivo y posiblemente más
interesante si se demuestra con un ejemplo; considere el más cercano Campeonato
del Mundo FIDE en México D.F. Jugaron ocho ajedrecistas y se enfrentaron con
cada uno de los demás en dos ocasiones
(una vez con blancas y otra con negras) con los siguientes resultados previstos:

La puntuación actual (Rc) de cada jugador es conocida al comienzo
del torneo como los resultados acumulados de sus rendimientos anteriores. La
puntuación promedio (Ra) para la competición de cada participante así
como la diferencia entre Ra y su puntuación actual (Dc)
es trivial, pero necesaria para los cálculos subsiguientes. El porcentaje
esperado de victorias (Pe) en el transcurso del torneo para cada
individuo proviene de la distribución normal acumulada Pe = P [ X ≤ Dc].
Puede obtenerse por aproximación en el gráfico anterior o calcularse con la
siguiente fórmula:

Cuando se puso en práctica el sistema Elo, se podía encontrar en una tabla
una cercana aproximación a esta cifra. Ese número entonces se multiplicaba por
el número total de partidas (catorce en nuestro ejemplo) y así se calculaba el
número de victorias previstas (We) Para obtener un resultado más
preciso, se puede calcular Pe para cada partida y luego sumarlos
todos. Este método, aunque se considera más preciso, cuando se puso en práctica
el sistema Elo implicaba mucho más tiempo de cálculo (en especial, en torneos
largos) para quienes tenían que determinar las puntuaciones a mano, pero aquí se
ofrece como We’.
Ahora que conocemos los resultados esperados, se pueden comparar con los
resultados finales reales del torneo:

Aquí se muestra el número observado de victorias (Wo) junto con el
porcentaje de las mismas (Po) que es sencillamente el número de
victorias dividido entre el número de partidas jugadas. La puntuación del
rendimiento (Rp) se calcula tomando el porcentaje de victorias
observado y en resumidas cuentas invirtiendo el proceso de encontrar el
porcentaje de victorias esperado. En otras palabras, buscamos el Do
que satisface la ecuación Po = [ X ≤ Do
] para la la función de distribución acumulada (cdf) de la distribución
normal indicada más arriba; Ese número luego se suma a Ra para
obtener Rp.
Tiene mucho interés para los participantes involucrados (y para la comunidad
ajedrecística) cuando se desvió Rp de su puntuación actual (ΔRp),
que representa mejor su rendimiento en función de su habilidad que
Wo. Por ejemplo: Vladimir Kramnik y Boris Gelfand puede que hayan
empatado en el segundo puesto, pero la puntuación de Kramnik (2769) al llegar al
torneo indicaba que se esperaba que rindiese más que Gelfand (2733) Por eso, a
pesar de tener el mismo número de puntos, el ΔRp de Kramnik (+31)
fue significativamente menor que el de Gelfand (+72)
También se ofrece la diferencia entre Wo y We/We’ (ΔW/ΔW’)
Los promedios de los valores absolutos de ΔW y ΔW’ para el torneo son
de 0.79 y 0.71, respectivamente; Como se esperaba , We’ fue
ligeramente menor y por ende más cercano a los resultados reales.
Encontrar una aproximación del error probable de ΔW se hace como sigue:
tome la mitad del mayor ΔRc entre cualquiera dos individuos del
grupo y obtenga Pe; pongamos que Qe = 1 - Pe; defina
la varianza como σ2 = N * Qe * Pe; la raíz
cuadrada de ese número (la desviación estándar) dividida entre 0.67449(2)
es el error probable. En nuestro error el error probable es ±1.26 victorias.
La tolerancia estadística espera que la mitad de los contendientes caigan fuera
de ese margen, aunque solo uno lo hace. Existen dos razones probables para este
número anormalmente bajo: una muestra pequeña y el que exista menor desviación
en los rendimientos en los niveles más altos de juego.
Por último tenemos la puntuación nueva (Rn) de cada participante,
que se calcula multiplicando ΔW por un coeficiente K, conocido como factor K,
y sumándolo a Rc. Factores K mayores aumentan la variabilidad de las
puntuaciones, por lo que la mayor parte de las federaciones (incluso la USCF y
la FIDE) emplean un factor K proporcionalmente mayor para jugadores con menos de
25 partidas jugadas, ya que la confianza en su puntuación es menor que en el
caso de un jugador asentado.
En este caso se empleó para calcular Rn un factor K de 10 (que es
relativamente bajo) ya que es el que la FIDE emplea actualmente para jugadores
con puntuación igual o superior a 2400. Cuando se puso en funcionamiento,
la USCF empleaba un factor K de 32, pero se ha cambiado por un sistema dinámico
que da a los jugadores con menor puntuación o con menos partidas jugadas un
número más grande que en el caso de jugadores experimentados o con una alta
puntuación.
Junto a las virtudes del sistema Elo hay varios inconvenientes bien
documentados.
El primer punto débil del sistema Elo, y quizás el más evidente, es que no se da
ninguna ventaja a las blancas. Esa ventaja es evidente incluso en mi categoría (B)
de juego: mi Po es 0.708 con blancas y 0.556 con negras. Aunque Elo
alegaba que dicha diferencia se compensaba, ya que la mayor parte de los
jugadores disputaban la mitad de sus partidas con blancas y la otra mitad con
negras (Discrepo sobre esto), el hecho es que cuando las puntuaciones se
calculaban a mano este tipo de sofisticaciones en el sistema consumían demasiado
tiempo. Otra debilidad discutible del sistema Elo es el concepto de inflación de
la puntuación. Por ejemplo, Bobby Fischer (considerado por muchos como el mejor
ajedrecista de todos los tiempos) tuvo una puntuación máxima de 2780 lo que lo
colocaría en la actualidad en el cuarto lugar del mundo. Otros alegan, sin
embargo, que eso indica exactamente lo que implica: es decir, que debido al
mayor conocimiento del juego, incluyendo el uso de ordenadores en la
preparación. los jugadores punteros de hoy en día son mejores que los de hace
diez, veinte o cincuenta años. De cualquier modo, este aspecto está relacionado
con una tercera debilidad del sistema Elo:
las puntuaciones están en relación con su competición, lo que deja abierta la
posibilidad de puntuaciones anormalmente altas (o bajas) dentro de un grupo
controlado de jugadores. El conocimiento de esto permitió a Claude Bloodgood,
que era solo un jugador con nivel de maestro, alcanzar una puntuación de 2702 (que
era la segunda más alta de la USCF en aquel momento) a base de organizar y
participar en cientos de torneos carcelarios que contaban con rivales en su
mayor parte débiles.
De forma similar, la federación de Myanmar (Camboya) pasó de cuatro jugadores
con puntuación en enero de 1997
a tener seis entre los cien mejores en enero de 2000 con la organización de
torneos cerrados. Aunque dicho comportamiento pudiera parecer infantil, tengan
en cuenta que los torneos más grandes del mundo pagan unas cantidades
desorbitadas por participar a los jugadores con las puntuaciones más altas por
lo que alientan a los jugadores a lograr la puntuación más alta posible. Hasta
ahora ni la USCF ni la FIDE han abordado ninguna de las debilidades mencionadas
del sistema Elo, excepto caso por caso.
Más allá de dichas debilidades están las posibles explotaciones, la más común
de las cuales es el hecho de que solo los jugadores activos tengan una
puntuación activa. A menudo un joven ajedrecista prometedor deja de jugar
torneos durante un amplio periodo de tiempo, pero sigue mejorando su capacidad.
Esta persona podría circunstancialmente apuntarse en un gran torneo con
importantes bolsas de premios para cada categoría,
por lo que aumenta sus opciones de ganar gran cantidad de dinero, jugando contra
rivales que teóricamente tienen menor capacidad. Otra forma de sacar partido
bastante común (que se da sobre todo en el juego por Internet) es el
emparejamiento selectivo. Un jugador con puntuación más alta solo retará o
aceptará retos de oponentes apreciablemente más débiles. Debido a que las
variantes del sistema Elo en Internet permiten una ganancia mínima de un punto
para el jugador que vence, una derrota excepcional se compensa con un gran
número de victorias relativamente fáciles.
A pesar de esos puntos débiles, se han realizado muy pocos cambios en el
sistema Elo durante los últimos 47 años. Como ya se mencionó, debido a los
avances informáticos, la USCF ahora emplea un factor K dinámico que es mayor
para los jugadores con menos experiencia y menos puntuación. El empleo de
ordenadores también permite que cada partida se puntúe de forma individual e
independientemente de los torneos en que se jueguen.
Esto resulta claro para los miembros de la USCF ya que las puntuaciones
oficiales ya no se publican cada trimestre,
sino que se tabulan continuamente (sin necesidad de redondeo al punto más
próximo) lo que redunda en favor de la exactitud. El último cambio realizado por
la USCF (que también fue posible por el uso de ordenadores cada vez mayor) es la
transición de una distribución normal a una distribución logística. Con la
observación de gran cantidad de resultados, la USCF determinó que una
distribución logística ofrece unas extrapolaciones más precisas. La FIDE aún
emplea la distribución normal que Elo puso en práctica al principio.
A pesar de todo, los principios generales del sistema Elo han resistido la
prueba del tiempo, lo que es aún más impresionante cuando se tiene en cuenta que
el Dr. Elo carecía de la potencia de procesamiento de los ordenadores actuales.
Me parece decepcionante que tanta gente pueda usar algo sin apreciarlo incluso a
un nivel básico. Así que la próxima vez que un ajedrecista le pregunte a que
corresponden las siglas “ELO”, al menos hágale saber que en realidad se trata
del apellido de alguien.
Apéndice A: El Sistema Harkness

Apéndice B: Clases de la USCF y distribución de clases entre los miembros
activos(3)

Bibliografía
- Elo, Arpad. The Rating of Chess Players Past and Present. New York: Arco,
1978.
- Harkness, Kenneth. The Official Blue Book and Encyclopedia of Chess. New
York: McKay, 1956.
- Crowther, Mark. "FIDE Ratings Crisis." This Week in Chess. 24 January,
2000.
- Crowther, Mark. "Claude F. Bloodgood III July 14th 1924 - August 4th
2001." This Week in Chess. 20 August, 2001.
- Sonas, Jeff.
"The Sonas Rating Formula – Better Than Elo?" Chessbase. 22 October, 2002.
- Marin,
Mihail. "Anand's Triumph in the Final Round." Chessbase. 30 September,
2007.
-
"Elo Rating System." Wikipedia, The Free Encyclopedia. 4 October, 2007,
15:44 UTC. Wikimedia Foundation, Inc. 9 October 2007.
1. Una μ de cero indica la diferencia en la puntuación actual de un
individuo y su rendimiento esperado que obviamente es más probable en cero.
Pudiera resultar más intuitivo emplear la puntuación actual de un
individuo como μ; esto simplemente desplazaría la distribución μ puntos. Cuando
se introdujo el sistema Elo, todas las puntuaciones se calculaban a manos. Al
tener un solo modelo para describir a todos los jugadores, era posible para
quienes calculaban las puntuaciones buscar los valores en una tabla o en una
gráfica, ahorrando tiempo.
2. Esto se deriva de la definición de error probable; la ratio de la
desviación estándar que contiene el 75% de la distribución acumulada de una
función. Por ejemplo, para conseguir un Pe de 75% con un σ de
282.84, se necesitaría un Dc de 0.67449 * 282.84 = 190.77.
3. Datos disponibles para los miembros de la USCF en
https://secure.uschess.org/MembersOnly/download.php
 |
Dan Ross tiene 28 años y vive en Johnstown (Pensilvania,
EE.UU.) Es ingeniero informático a tiempo completo y graduado a tiempo
parcial (Universidad Indiana de Pensilvania, Matemáticas Aplicadas)
Dan disfruta jugando al hockey sobre hielo (aunque no especialmente bien) y
al ajedrez.
"El ajedrez, para mi, es un pasatiempo", escribe, "no un
trabajo (en parte por elección, pero sobre todo porque no soy lo
suficientemente bueno: 1605-P21 USCF) Prefiero disfrutar de mis partidas;
circunstancialmente prefiriendo una jugada más interesante a otra mejor. Con
blancas tiendo a jugar el Gambito de Rey o la Apertura Italiana;
con negras he estado experimentando con la Pirc y con la Holandesa (con
resultados diversos) Mi mejor resultado hasta ahora en un torneo de la USCF
fue en el XIL Gateway
Open de Pittsburgh (Pensilvania) con 3.5/4.0 en la categoría de hasta 1600,
con un segundo lugar. |