Sábado, 2 de abril de 2011
El sistema de puntuación Elo: corrección de las tablas de expectativas
Por
Jeff Sonas
En los últimos años he participado en diversas reuniones de la FIDE de
expertos en puntuación para analizar diversas cosas sobre el sistema de
puntuación de la FIDE. Uno de los enormes beneficios de esta participación fue
que la FIDE me envió todos sus registros históricos de resultados de partidas y
torneos. No creo que mucha gente tenga acceso a todos estos datos, en especial
porque se necesitó mucha labor de procesamiento para que pudieran ser útiles
para el análisis, así que pensé que debería compartir algunos hallazgos
interesantes. Este será el primero de una serie de artículos sobre la puntuación
FIDE.
En primer lugar vamos a repasar algunos de los aspectos básicos. La mayor
parte de ustedes probablemente sabrán que el sistema Elo conlleva calcular la
diferencia de puntuación entre dos jugadores en una partida y luego consultar
dicho número en la Tabla de Expectativa Elo (disponible en la página web
de la FIDE) para determinar la puntuación esperada de cada jugador en la
partida. Luego para cada jugador, se compara el resultado real de la partida con
el resultado esperado y se multiplica esa diferencia por el factor K (que puede
ser 10, 15 o 25) El resultado le dice cuánto cambiará su puntuación por efecto
de la partida la próxima vez que se recalcule, lo que sucede cada dos meses. Si
se rinde mejor de lo esperado, su puntuación aumentará y si lo hace peor de lo
esperado, su puntuación disminuirá. Este es el aspecto gráfico de la Tabla de
Expectativa Elo:
Así que, por ejemplo, si tiene 200 puntos más que su rival, en el gráfico (o
en la web de la FIDE) puede ver que debería puntuar el 76%. Se aprecia la
característica curva en S que se hace más plana en torno al 100% y al 0%, lo que
indica que incluso con una ventaja de puntuación Elo de 500 o 600 puntos, no
tiene garantizado ganar siempre; si se juegan diez o 20 partidas existiría
alguna probabilidad de ceder al menos unas tablas. Sin embargo la curva mostrada
más arriba no indica exactamente cómo funciona el sistema cuando hay grandes
diferencias de puntuación. Hay una regla especial conocida como la regla de los
400 puntos que dice que cualquier diferencia de puntuación mayor de dicha
cantidad será tratada como si fuera de los mencionados 400 puntos a los efectos
del cálculo de puntuación. Así que la curva real debería dibujarse como sigue:
Se puede ver que dentro del entorno de los +/- 400 puntos aún mantiene una
ligera curvatura, pero se nivel a de forma que nunca se tiene una puntuación
prevista demás del 92% ni de menos del 8%. Esta regla especial era la de los 350
puntos, pero el límite de corte se cambió hace un par de años de 350 a 400. De
manera que si se juegan 100 partidas contra alguien que tiene mil puntos menos,
el sistema Elo asumirá que se debe puntuar 92/100, incluso aunque la puntuación
real será sin duda mucho mejor que ese 92%. Y por lo tanto se deberían ganar un
puñado de puntos por ese ejercicio.
Así que esta es la teoría que nos dice cuál es la puntuación porcentual
teórica que se debería obtener según las diferencias de puntuación. ¿Qué sucede
en la realidad? Gracias a los datos partida a partida facilitados por la FIDE,
podemos ahora también realizar un gráfico con ellos. Siempre podíamos haber
hecho esto a partir de los datos de ChessBase o TWIC, pero no disponíamos de
todo el conjunto de partidas evaluadas por la FIDE a lo largo de toda la
vigencia del sistema. Los resultados detallados partida por partida sólo han
estado disponibles para la FIDE en los últimos años, ya que anteriormente los
directores de los torneos sólo solían enviar los totales de cada participante en
vez de los resultados de cada partida individual. Pero gracias a los cambios de
regulación en 2006 y 2008, la FIDE ha estado recopilando los resultados partida
a partida durante los últimos años y ahora podemos comenzar a ver los
resultados. Los análisis que se mostrará a continuación se basan en un conjunto
de 1,54 millones de partidas evaluadas jugadas entre octubre de 2007 y agosto de
2010 y representan virtualmente todo el conjunto de partidas empleadas por la
FIDE para el cálculo de puntuaciones durante dicho periodo.
Como se puede ver, los resultados reales parecen seguir en realidad la misma
forma curvilínea: una línea casi recta cuando los jugadores que se enfrentan
está muy próximos y que se va aplanando cerca del 100% y el 0% de puntuación. No
obstante, aunque la forma General es la misma, ¿cuál es la diferencia entre los
porcentajes teóricos (las líneas blancas de los gráficos anteriores) y los
resultados reales (los puntos negros de este grafico)? Bueno, si se representan
juntos esto es lo que verán:
Quiero llamar aquí la atención de dos aspectos principales. Se puede ver que
en la parte central del gráfico (por ejemplo dentro del recuadro rojo), la línea
blanca es más pronunciada que la tendencia negra. Eso significa que los
favoritos según el escalafón de puntuación no obtienen resultados tan buenos
como su puntuación dice. También, si miramos a los extremos, por ejemplo dentro
del recuadro azul, se puede ver que debido a la regla de los 400 puntos la
puntuación esperada cuando hay mucha diferencia a favor de los favoritos se
iguala en el 92%, pero en realidad los claros favoritos logran puntuaciones
mucho más altas que ese 92%. Vamos a ampliar esa zona enmarcada con un recuadro
azul para ver los datos un poco más cerca:
Por cierto, en esta gráfica (y en las anteriores), hay un punto negro para
cada posible diferencia de puntuación íntegra. Por ejemplo, de todas las
partidas en las que la diferencia de puntuación era exactamente de 400 puntos
(había 836), los jugadores con mayor puntuación lograron el 88.2% y así se
muestra un punto negro para una "Diferencia de puntuación " de 400 y un "%
resultado" de 88.2%. Y de todas las partidas en las que la diferencia de
puntuación era de exactamente 401 puntos (había 789), el jugador con más
puntuación lograba un marcador del 87.4%, de forma que verán un punto negro en
la posición correspondiente del gráfico. De forma que aunque hay solo 376 puntos
en el gráfico, en realidad representan más de 166.000 partidas.
Sería razonable pensar que el ajedrez es lo suficientemente "caótico" para
que haya algún porcentaje máximo esperado (por debajo del 100%) que no se puede
sobrepasar, sea cual sea la diferencia de puntuación. Pero de los datos
anteriores se desprende claramente que si hay tal nivel máximo, está muy por
encima del 92%. Se puede ver una tendencia clara de que no hay nivelación alguna
por debajo de un resultado del 98%. Es un poco difícil decir si de hecho los
datos se nivelan en algún momento, porque hay pocas partidas jugadas para cada
diferencia de puntuación entera. Porque había solo 60 partidas jugadas con una
diferencia de puntuación de exactamente 682, en las que el jugador más fuerte
puntuó el 96.7% y solo 53 partidas jugadas con una diferencia de puntuación
exacta de 700 (el jugador más fuerte logró el 98.1%) y así sucesivamente. Para
visualizar realmente la tendencia, tenemos que agrupar los resultados así que
tenemos menos puntos, pero que representan mayores rangos de diferencias de
puntuación. También sería bueno examinar las diferencias de puntuación de más de
700. Eso conduce al siguiente gráfico, en el que cada punto representa un arco
de 10 puntos Elo (en diferencia de puntuación) en vez de solo 1:
Así que eso me dice que cuando se tiene una ventaja de puntuación de 700, 800
o incluso 900 puntos, se obtienen resultados del 98% al 100%, a pesar de que la
expectativa de puntuación es de solo el 92% según la fórmula de Elo que se
emplea. Así que se tiene una expectativa realista de ganar 5 o 10 puntos en su
Elo cada 10 partidas que se jueguen contra ese tipo de oponente. No veo ninguna
buena razón para mantener más la regla de los 400 puntos y se pueden aprovechar
de ella. Veo algunas pruebas de que en lo más alto, quizás cuando se alcanza una
ventaja de 800 puntos, no es razonable esperar una puntuación superior al 99%.
Así que si necesitamos alguna regla de este tipo, debería ser más la regla de
los 800 puntos que la regla de los 400 puntos…
Volvamos al gráfico general (el que tiene los recuadros rojo y azul) y esta
vez quiero ampliar la zona roja. Aquí tienen una vista ampliada de la zona de
diferencia de puntuación entre +100 y +300:
No importa a que parte del gráfico se mire, parece claro que la curva negra
es un poco demasiado “plana” o también se podría decir que la curva blanca es un
poco demasiado "inclinada". En otras palabras, los favoritos por puntuación no
están logrando marcadores tan altos como deberían para estar a la altura de las
expectativas y mantenerse sin perder puntuación.
Otra manera de verlo es que las puntuaciones de todos los jugadores se han
estirado demasiado alejándolas de la media. Así que alguien cuya puntuación sea
unos 600 puntos más alta que la del jugador medio, en realidad es más probable
que sea 500 puntos más fuerte en términos de fuerza real; de forma que se podría
decir igualmente que alguien que tiene 60 puntos más que el jugador medio, en
realidad es más probable que sea 50 puntos más fuerte. Y en general, para dos
jugadores dados que tengan una diferencia de puntuación X, su diferencia de
fuerza real es más probable que sea 0,83X.
Al examinar el gráfico anterior, por ejemplo, se puede ver que en las
partidas en las que el jugador más fuerte tiene una ventaja de 240 puntos (había
3.180 casos), la fórmula Elo nos dice que debería puntuar el 80%. En vez de eso,
está logrando el 76%, lo que significa que realmente es 200 puntos más fuerte
que su rival (en términos de la tabla Elo) Y lo mismo sucede en otras partes de
la gráfica, con esa proporción 6:5. Cuando el jugador más fuerte tiene una
ventaja de 180 puntos Elo, debería lograr el 73% en las partidas (había
4.642 casos) pero en vez de eso la probabilidad es del 70%, lo que significa que
en realidad solo es 150 puntos más fuerte que sus rivales (en términos de la
tabla Elo)
Así que hay dos características muy evidentes en esos datos; muestran que no
hay un respaldo matemático para la regla de los 400 puntos y muestran que los
jugadores más fuertes no están puntuando tan alto como su ventaja de puntuación
indica (según la tabla Elo). Sin embargo, parece claro que la forma de la
curva Elo sigue sindo buena; las puntuaciones parecen solo un poco desplazadas
en el centro. ¿Así que qué sucedería su tuviésemos que prescindir de la regla de
los 400 puntos y aplicásemos un factor de ajuste de 5/6 a todas las diferencias
de puntuación, de forma que si alguien tiene una ventaja de 60 puntos, solo
“esperásemos” que fuera 50 puntos más fuerte? ¿Coincidirían entonces los datos y
las previsiones?
¡Vaya! ¡De hecho encaja con gran precisión! Se puede ver, por lo tanto, que
la curva “logística” de Elo parece una forma adecuada de modelizar la
relación entre la diferencia de puntuación y la puntuación esperada, siempre que
apliquemos ese 83% como factor de compresión para las diferencias de puntuación
efectivas y en tanto en cuanto descartemos la regla de los 400 puntos.
Ahora, aquellos de ustedes que hayan prestado atención a mis escritos a lo
largo de los años pueden haber notado una clara contradicción entre lo que acabo
de decir y lo que expuse en un relativamente conocido análisis mío de
2002, en el que sugería enérgicamente el empleo de una línea recta (en vez de
una curva) para modelizar la expectativa Elo. Si se tiene una expectativa
lineal, entonces realmente se necesita algo similar a la norma de los 400
puntos, pues de otro modo la línea se prolonga indefinidamente, tanto por debajo
del 0% como por encima del 100%. Allá por 2002 sugería una regla de los 425
puntos, de forma que la expectativa se nivelaría en el 99,67% (o 0,33%).
¡Ahora soy nueve años más viejo y espero que al menos unos meses más sabio!
En cualquier caso, solo me he dado cuenta hace poco que aquellas conclusiones de
2002 eran resultado directo de que mi conjunto de datos se concentraba solo en
los jugadores más fuertes, en vez de incluir todo el rango de jugadores con
puntuación. Incluso hoy, con los más recientes datos de la FIDE, podía limitar
mi análisis de forma similar y llegar a conclusiones parecidas. Por ejemplo,
veamos lo que sale si solo se consideran partidas disputadas entre 2007 y 2010
en las que ambos jugadores tengan por encima de 2200 puntos (y adviertan que eso
significa descartar más del 80% de las partidas disponibles):
¡De nuevo se observa esa línea recta, sin ninguna curvatura a la vista! Sin
embargo, finalmente me he dado cuenta de que este es un enfoque demasiado
artificial. No existe un ámbito en el que solo estén los jugadores más fuertes.
Los jugadores fuertes no siempre lo fueron; fueron ascendiendo a través de los
distintos niveles y casi todos ellos tuvieron en algún momento una puntuación
inferior a 2200. Muchos de los actuales jugadores débiles serán jugadores
fuertes en cinco o diez años. Cualquier simulación del ámbito de puntuación que
haga, empleando datos históricos, debe incluir todo el entorno o me arriesgo a
meterme en problemas importantes con los datos.
De hecho, ahora me doy cuenta de que cometí un error similar cuando diseñé la
primera competición Kaggle para determinar una sistema de puntuación que sea
el mejor a la hora de predecir los resultados futuros. En esa competición limité
los datos a solo 8.000 jugadores de alto nivel y me he dado cuenta de que este
era un enfoque demasiado artificial. Así que en la
competición actual
he incluido a todos los jugadores.
De cualquier forma, parece probable que me haya ido un poco por la tangente
en los últimos párrafos, así que permítanme volver a mi asunto principal: las
puntuaciones FIDE en general. Tengo mucho más que decir sobre las puntuaciones y
la actual puesta en práctica del sistema de puntuación Elo por parte de la FIDE.
¡En concreto, hay muchos aspectos interesantes que he descubierto sobre
jugadores de distintas edades, los diferentes factores K, la fórmula empleada
para calcular la puntuación inicial de un jugador e incluso la inflación de la
puntuación! De todo ello merece la pena hablar y espero poder hacerlo en un
futuro próximo. En la segunda parte de esta serie, añadiré los factores K de los
jugadores a la masa analítica, con algunos hallazgos sorprendentes…
Copyright Jeff Sonas / ChessBase
Artículos anteriores de Jeff Sonas en ChessBase
|
The eloitte/FIDE Chess Rating Challenge
20.02.2011 –– Statician Jeff Sonas and Kaggle,
a site specializing in data modeling with regular prediction
competitions, have launched a new online contest to develop a more
accurate chess rating system. Professional services firm Deloitte
provides a $10,000 prize to the winner, and FIDE will also bring a top
finisher to Athens, Greece to present their rating system.
Report and California pictorial. |
|
Competición 'Elo versus el Resto del Mundo'
El sistema de valoración por puntos Elo ha dado un buen servicio durante
ya más de medio siglo. No obstante, quizás se podría inventar un método
todavía más preciso a la hora de medir la fuerza de juego y para estimar
los resultados. Kaggle, un portal que facilita previsiones de datos para
competiciones, ofrece unas 65.000 partidas a los especialistas en
estadística, que deben usar para pronosticar los resultados de otras
7.800 partidas. La competición no es solo por amor al arte o a la
ciencia: hay premios sustanciosos para los inventores de
los mejores sistemas nuevos al respecto... |
|
Impresiones de
la Conferencia de la FIDE sobre el Elo 2010
En la Conferencia de la FIDE sobre el Elo que se desarrolló la semana
pasada en Atenas (Grecia) se pasó bastante tiempo analizando el problema
de la inflación de las puntuaciones. Se mantenían básicamente dos
opiniones diferentes, una del estadístico de ajedrez estadounidense Jeff
Sonas y otra representada por el GM polaco Bartlomiej Macieja. La
materia no es fácil de comprender, pero nuestro colega Michalis
Kaloumenos ha hecho un esfuerzo importante para que no sea tan ardua.
Alimento para el cerebro...
|
|
Rating inflation – its causes and possible cures
27.07.2009 – Thirty years ago there was one
player in the world rated over 2700. Fifteen years ago there were six.
Today there are thirty-three. What is the cause of this "rating
inflation". A general improvement of chess skills? A larger number of
players in the rating pool? The way the initial ratings are conducted?
In this clearly written article statistician Jeff Sonas addresses these
questions.
Must read! |
|
Nunn sobre el
factor K: ¡Demuéstrenmelo!
Con el debate sobre la decisión de la FIDE de cambiar o no cambiar el
factor K empleado para el cálculo de la puntuación de los ajedrecistas
en plena ebullición, el gran maestro y doctor inglés John Nunn aporta
algunas visiones interesantes del asunto: "No parece que haya pruebas
reales de que K=20 vaya a ofrecer un sistema de puntuación más preciso,
mientras que hay determinados riesgos y desventajas". Cuestiona los
argumentos expresados por Jeff Sonas y Bartlomiej Macieja, añadiendo
algunos otros aspectos a considerar, fundamentalmente el incremento de
la tentación para hacer trampas con la puntuación Elo. Les ofrecemos,
traducidos al castellano,
su planteamiento y explicaciones...
|
|
FIDE: Apoyamos
el aumento del factor K
Hace unos días publicamos una carta del GM Bartlomiej Macieja pidiendo a
la FIDE que no retrasase la decisión de incrementar el factor K en el
cálculo de las puntuaciones Elo. Ahora hemos recibido una respuesta de
Georgios Makropoulos, Presidente Ejecutivo de la FIDE, e Ignatius Leong,
Secretario General de la FIDE, al apasionado llamamiento del
ajedrecista. Además, con el objeto de ilustrar más el tema para nuestros
lectores, les ofrecemos una carta del estadístico experto en ajedrez
Jeff Sonas.
Todo ello traducido al castellano...
|
|
Making sense of the FIDE cycle
10.12.2005 ont>– Why, many of our readers have
asked, are eight players who got knocked out in round four of the World
Cup in Khanty-Mansiysk still playing in the tournament? What, they want
to know, is the point? Has it something to do with the 2007 FIDE world
championship cycle? It most certainly does. Jeff Sonas explains in
meticulous detail.
Please concentrate. |
|
The Greatest Chess Player of All Time – Part IV
25.05.2005 – So tell us already, who was the
greatest chess performance of all time? After analysing and dissecting
many different aspects of this question, Jeff Sonas wraps it up in the
final installment of this series, awarding his all-time chess "Oscar"
nomination to the overall
greatest of all time. |
|
The Greatest Chess Player of All Time – Part III
06.05.2005 – What was the greatest chess
performance of all time? Jeff Sonas has analysed the duration different
players have stayed at the top of the ratings list, at the highest
individual rating spikes and best tournament performances. Today he
looks at the most impressive over-all tournament performances in history,
and comes up with some
very impressive statistics. |
|
The Greatest Chess Player of All Time – Part I
24.04.2005 – L– Last month Garry Kasparov retired
from professional chess. Was he the greatest, most dominant chess player
of all time? That is a question that can be interpreted in many
different ways, and most answers will be extremely subjective. Jeff
Sonas has conducted extensive historical research and applied ruthlesss
statistics to seek a
solution to an age-old debate. |
|
Cómo (no) jugar
contra los ordenadores
¿Hay alguna forma en la que los jugadores de ajedrez humanos puedan
resistir las acometidas de unos oponentes cibernéticos cada vez más
fuertes? Sólo modificando su estilo de juego, sugiere el estadístico
Jeff Sonas, que ilustra una conexión fascinante entre la agresión
ajedrecística y el fallo contra los ordenadores. Quizá haya aún una
opción para la humanidad.
Más
|
|
Fuerza física y
pericia ajedrecística
¿Cómo pueden los humanos confiar en aguantar el tipo en esa batalla
cuesta arriba contra los programas de ajedrez? Jugando encuentros más
cortos, dejando de sacrificar material y no teniendo miedo de la Defensa
Siciliana. Al menos eso dice el estadístico Jeff Sonas, que también
cuestiona las altas puntuaciones de los ordenadores en la lista sueca
SSDF.
Aquí están sus pruebas.
|
|
Are ss computers improving faster than
grandmasters?
17.10.2003 – T– The battle between humans and
machines over the chessbaord appears to be dead-even – in spite of giant
leaps in computer technology. "Don't forget that human players are
improving too," says statistician Jeff Sonas, who doesn't think it is
inevitable that computers will surpass humans. Here is his
statistical evidence. |
|
Hombre vs. Máquina: ¿quién va ganando?
Cada año los ordenadores son más potentes en sus capacidades
ajedrecísticas, haciendo frente a los adversarios más fuertes. De este
modo, muy pronto alcanzarán a los humanos. ¿Sí? No necesariamente, dice
el estadístico Jeff Sonas, que no cree que los ordenadores vayan,
inevitablemente a sobrepasar a los humanos. En una serie de artículos
Jeff muestra las
pruebas empíricas que defienden su punto de vista. |
|
Does Kasparov play 2800 Elo against a computer?
26.08.2003 ont>– On August 24 the well-known
statistician Jeff Sonas presented an article entitled "How
strong are the top chess programs?" In In it he looked at the
performance of top programs against humans, and attempted to estimate an
Elo rating on the basis of these games. One of the programs, Brutus, is
the work of another statistician, Dr Chrilly Donninger, who
replies to Jeff Sonas. |
|
Ordenadores vs.
ordenadores y humanos
La
lista SSDF clasifica los programas de ajedrez según su fuerza,
tomando como base 90.000 partidas. Pero se trata de partidas jugadas
entre ordenadores. ¿Es posible relacionar esos datos con los de la
fuerza de juego de los seres humanos? El estadístico Jeff Sonas ha hecho
unos números teniendo en cuenta los torneos más recientes, para evaluar
la
fuerza real de juego de los programas.
|
|
¿Qué Sonas
tienes?
Cada tres meses la FIDE publica la clasificación de jugadores calculada
según la fórmula desarrollada hace tiempo por el profesor Arpad Elo.
Dicha fórmula ha servido bastante bien al mundo del ajedrez durante
largo tiempo. Sin embargo, el estadístico Jeff Sonas cree que ha llegado
el momento de realizar importantes cambios en el sistema. Nos presenta
su propuesta en un
amplio, documentado e ilustrado artículo.
|
|
¿Cuál fue el
torneo más fuerte de todos los tiempos?
El Memorial Tal de este año en Moscú se ha presentado como si
realmente fuese el torneo más fuerte de la historia, pero todo depende
de cómo se evalúe la categoría de un torneo. Si se corrige la inflación
de la valoración de fuerza de juego de la FIDE y, sobre todo, si se
considera la clasificación mundial de los participantes, otros torneos
superan con creces al de Moscú. Muy posiblemente el AVRO 1938 ha sido el
más fuerte o al menos uno de los de mayor nivel de todos los tiempos, ya
que los 8 jugadores que lo disputaron, precisamente eran los 8 primeros
del mundo. Jeff Sonas nos explica
su postura...
|