El sistema Elo: corrección de las tablas de expectativas

Sábado, 2 de abril de 2011

El sistema de puntuación Elo: corrección de las tablas de expectativas

Por Jeff Sonas

En los últimos años he participado en diversas reuniones de la FIDE de expertos en puntuación para analizar diversas cosas sobre el sistema de puntuación de la FIDE. Uno de los enormes beneficios de esta participación fue que la FIDE me envió todos sus registros históricos de resultados de partidas y torneos. No creo que mucha gente tenga acceso a todos estos datos, en especial porque se necesitó mucha labor de procesamiento para que pudieran ser útiles para el análisis, así que pensé que debería compartir algunos hallazgos interesantes. Este será el primero de una serie de artículos sobre la puntuación FIDE.

En primer lugar vamos a repasar algunos de los aspectos básicos. La mayor parte de ustedes probablemente sabrán que el sistema Elo conlleva calcular la diferencia de puntuación entre dos jugadores en una partida y luego consultar dicho número en la Tabla de Expectativa Elo (disponible en la página web de la FIDE) para determinar la puntuación esperada de cada jugador en la partida. Luego para cada jugador, se compara el resultado real de la partida con el resultado esperado y se multiplica esa diferencia por el factor K (que puede ser 10, 15 o 25) El resultado le dice cuánto cambiará su puntuación por efecto de la partida la próxima vez que se recalcule, lo que sucede cada dos meses. Si se rinde mejor de lo esperado, su puntuación aumentará y si lo hace peor de lo esperado, su puntuación disminuirá. Este es el aspecto gráfico de la Tabla de Expectativa Elo:

Así que, por ejemplo, si tiene 200 puntos más que su rival, en el gráfico (o en la web de la FIDE) puede ver que debería puntuar el 76%. Se aprecia la característica curva en S que se hace más plana en torno al 100% y al 0%, lo que indica que incluso con una ventaja de puntuación Elo de 500 o 600 puntos, no tiene garantizado ganar siempre; si se juegan diez o 20 partidas existiría alguna probabilidad de ceder al menos unas tablas. Sin embargo la curva mostrada más arriba no indica exactamente cómo funciona el sistema cuando hay grandes diferencias de puntuación. Hay una regla especial conocida como la regla de los 400 puntos que dice que cualquier diferencia de puntuación mayor de dicha cantidad será tratada como si fuera de los mencionados 400 puntos a los efectos del cálculo de puntuación. Así que la curva real debería dibujarse como sigue:

Se puede ver que dentro del entorno de los +/- 400 puntos aún mantiene una ligera curvatura, pero se nivel a de forma que nunca se tiene una puntuación prevista demás del 92% ni de menos del 8%. Esta regla especial era la de los 350 puntos, pero el límite de corte se cambió hace un par de años de 350 a 400. De manera que si se juegan 100 partidas contra alguien que tiene mil puntos menos, el sistema Elo asumirá que se debe puntuar 92/100, incluso aunque la puntuación real será sin duda mucho mejor que ese 92%. Y por lo tanto se deberían ganar un puñado de puntos por ese ejercicio.

Así que esta es la teoría que nos dice cuál es la puntuación porcentual teórica que se debería obtener según las diferencias de puntuación. ¿Qué sucede en la realidad? Gracias a los datos partida a partida facilitados por la FIDE, podemos ahora también realizar un gráfico con ellos. Siempre podíamos haber hecho esto a partir de los datos de ChessBase o TWIC, pero no disponíamos de todo el conjunto de partidas evaluadas por la FIDE a lo largo de toda la vigencia del sistema. Los resultados detallados partida por partida sólo han estado disponibles para la FIDE en los últimos años, ya que anteriormente los directores de los torneos sólo solían enviar los totales de cada participante en vez de los resultados de cada partida individual. Pero gracias a los cambios de regulación en 2006 y 2008, la FIDE ha estado recopilando los resultados partida a partida durante los últimos años y ahora podemos comenzar a ver los resultados. Los análisis que se mostrará a continuación se basan en un conjunto de 1,54 millones de partidas evaluadas jugadas entre octubre de 2007 y agosto de 2010 y representan virtualmente todo el conjunto de partidas empleadas por la FIDE para el cálculo de puntuaciones durante dicho periodo.

Como se puede ver, los resultados reales parecen seguir en realidad la misma forma curvilínea: una línea casi recta cuando los jugadores que se enfrentan está muy próximos y que se va aplanando cerca del 100% y el 0% de puntuación. No obstante, aunque la forma General es la misma, ¿cuál es la diferencia entre los porcentajes teóricos (las líneas blancas de los gráficos anteriores) y los resultados reales (los puntos negros de este grafico)? Bueno, si se representan juntos esto es lo que verán:

Quiero llamar aquí la atención de dos aspectos principales. Se puede ver que en la parte central del gráfico (por ejemplo dentro del recuadro rojo), la línea blanca es más pronunciada que la tendencia negra. Eso significa que los favoritos según el escalafón de puntuación no obtienen resultados tan buenos como su puntuación dice. También, si miramos a los extremos, por ejemplo dentro del recuadro azul, se puede ver que debido a la regla de los 400 puntos la puntuación esperada cuando hay mucha diferencia a favor de los favoritos se iguala en el 92%, pero en realidad los claros favoritos logran puntuaciones mucho más altas que ese 92%. Vamos a ampliar esa zona enmarcada con un recuadro azul para ver los datos un poco más cerca:

Por cierto, en esta gráfica (y en las anteriores), hay un punto negro para cada posible diferencia de puntuación íntegra. Por ejemplo, de todas las partidas en las que la diferencia de puntuación era exactamente de 400 puntos (había 836), los jugadores con mayor puntuación lograron el 88.2% y así se muestra un punto negro para una "Diferencia de puntuación " de 400 y un "% resultado" de 88.2%. Y de todas las partidas en las que la diferencia de puntuación era de exactamente 401 puntos (había 789), el jugador con más puntuación lograba un marcador del 87.4%, de forma que verán un punto negro en la posición correspondiente del gráfico. De forma que aunque hay solo 376 puntos en el gráfico, en realidad representan más de 166.000 partidas.

Sería razonable pensar que el ajedrez es lo suficientemente "caótico" para que haya algún porcentaje máximo esperado (por debajo del 100%) que no se puede sobrepasar, sea cual sea la diferencia de puntuación. Pero de los datos anteriores se desprende claramente que si hay tal nivel máximo, está muy por encima del 92%. Se puede ver una tendencia clara de que no hay nivelación alguna por debajo de un resultado del 98%. Es un poco difícil decir si de hecho los datos se nivelan en algún momento, porque hay pocas partidas jugadas para cada diferencia de puntuación entera. Porque había solo 60 partidas jugadas con una diferencia de puntuación de exactamente 682, en las que el jugador más fuerte puntuó el 96.7% y solo 53 partidas jugadas con una diferencia de puntuación exacta de 700 (el jugador más fuerte logró el 98.1%) y así sucesivamente. Para visualizar realmente la tendencia, tenemos que agrupar los resultados así que tenemos menos puntos, pero que representan mayores rangos de diferencias de puntuación. También sería bueno examinar las diferencias de puntuación de más de 700. Eso conduce al siguiente gráfico, en el que cada punto representa un arco de 10 puntos Elo (en diferencia de puntuación) en vez de solo 1:

Así que eso me dice que cuando se tiene una ventaja de puntuación de 700, 800 o incluso 900 puntos, se obtienen resultados del 98% al 100%, a pesar de que la expectativa de puntuación es de solo el 92% según la fórmula de Elo que se emplea. Así que se tiene una expectativa realista de ganar 5 o 10 puntos en su Elo cada 10 partidas que se jueguen contra ese tipo de oponente. No veo ninguna buena razón para mantener más la regla de los 400 puntos y se pueden aprovechar de ella. Veo algunas pruebas de que en lo más alto, quizás cuando se alcanza una ventaja de 800 puntos, no es razonable esperar una puntuación superior al 99%. Así que si necesitamos alguna regla de este tipo, debería ser más la regla de los 800 puntos que la regla de los 400 puntos…

Volvamos al gráfico general (el que tiene los recuadros rojo y azul) y esta vez quiero ampliar la zona roja. Aquí tienen una vista ampliada de la zona de diferencia de puntuación entre +100 y +300:

No importa a que parte del gráfico se mire, parece claro que la curva negra es un poco demasiado “plana” o también se podría decir que la curva blanca es un poco demasiado "inclinada". En otras palabras, los favoritos por puntuación no están logrando marcadores tan altos como deberían para estar a la altura de las expectativas y mantenerse sin perder puntuación.

Otra manera de verlo es que las puntuaciones de todos los jugadores se han estirado demasiado alejándolas de la media. Así que alguien cuya puntuación sea unos 600 puntos más alta que la del jugador medio, en realidad es más probable que sea 500 puntos más fuerte en términos de fuerza real; de forma que se podría decir igualmente que alguien que tiene 60 puntos más que el jugador medio, en realidad es más probable que sea 50 puntos más fuerte. Y en general, para dos jugadores dados que tengan una diferencia de puntuación X, su diferencia de fuerza real es más probable que sea 0,83X.

Al examinar el gráfico anterior, por ejemplo, se puede ver que en las partidas en las que el jugador más fuerte tiene una ventaja de 240 puntos (había 3.180 casos), la fórmula Elo nos dice que debería puntuar el 80%. En vez de eso, está logrando el 76%, lo que significa que realmente es 200 puntos más fuerte que su rival (en términos de la tabla Elo) Y lo mismo sucede en otras partes de la gráfica, con esa proporción 6:5. Cuando el jugador más fuerte tiene una ventaja de 180 puntos Elo, debería lograr el 73% en las partidas (había 4.642 casos) pero en vez de eso la probabilidad es del 70%, lo que significa que en realidad solo es 150 puntos más fuerte que sus rivales (en términos de la tabla Elo)

Así que hay dos características muy evidentes en esos datos; muestran que no hay un respaldo matemático para la regla de los 400 puntos y muestran que los jugadores más fuertes no están puntuando tan alto como su ventaja de puntuación indica (según la tabla Elo). Sin embargo, parece claro que la forma de la curva Elo sigue sindo buena; las puntuaciones parecen solo un poco desplazadas en el centro. ¿Así que qué sucedería su tuviésemos que prescindir de la regla de los 400 puntos y aplicásemos un factor de ajuste de 5/6 a todas las diferencias de puntuación, de forma que si alguien tiene una ventaja de 60 puntos, solo “esperásemos” que fuera 50 puntos más fuerte? ¿Coincidirían entonces los datos y las previsiones?

¡Vaya! ¡De hecho encaja con gran precisión! Se puede ver, por lo tanto, que la curva “logística” de Elo parece una forma adecuada de modelizar la relación entre la diferencia de puntuación y la puntuación esperada, siempre que apliquemos ese 83% como factor de compresión para las diferencias de puntuación efectivas y en tanto en cuanto descartemos la regla de los 400 puntos.

Ahora, aquellos de ustedes que hayan prestado atención a mis escritos a lo largo de los años pueden haber notado una clara contradicción entre lo que acabo de decir y lo que expuse en un relativamente conocido análisis mío de 2002, en el que sugería enérgicamente el empleo de una línea recta (en vez de una curva) para modelizar la expectativa Elo. Si se tiene una expectativa lineal, entonces realmente se necesita algo similar a la norma de los 400 puntos, pues de otro modo la línea se prolonga indefinidamente, tanto por debajo del 0% como por encima del 100%. Allá por 2002 sugería una regla de los 425 puntos, de forma que la expectativa se nivelaría en el 99,67% (o 0,33%).

¡Ahora soy nueve años más viejo y espero que al menos unos meses más sabio! En cualquier caso, solo me he dado cuenta hace poco que aquellas conclusiones de 2002 eran resultado directo de que mi conjunto de datos se concentraba solo en los jugadores más fuertes, en vez de incluir todo el rango de jugadores con puntuación. Incluso hoy, con los más recientes datos de la FIDE, podía limitar mi análisis de forma similar y llegar a conclusiones parecidas. Por ejemplo, veamos lo que sale si solo se consideran partidas disputadas entre 2007 y 2010 en las que ambos jugadores tengan por encima de 2200 puntos (y adviertan que eso significa descartar más del 80% de las partidas disponibles):

¡De nuevo se observa esa línea recta, sin ninguna curvatura a la vista! Sin embargo, finalmente me he dado cuenta de que este es un enfoque demasiado artificial. No existe un ámbito en el que solo estén los jugadores más fuertes. Los jugadores fuertes no siempre lo fueron; fueron ascendiendo a través de los distintos niveles y casi todos ellos tuvieron en algún momento una puntuación inferior a 2200. Muchos de los actuales jugadores débiles serán jugadores fuertes en cinco o diez años. Cualquier simulación del ámbito de puntuación que haga, empleando datos históricos, debe incluir todo el entorno o me arriesgo a meterme en problemas importantes con los datos.

De hecho, ahora me doy cuenta de que cometí un error similar cuando diseñé la primera competición Kaggle para determinar una sistema de puntuación que sea el mejor a la hora de predecir los resultados futuros. En esa competición limité los datos a solo 8.000 jugadores de alto nivel y me he dado cuenta de que este era un enfoque demasiado artificial. Así que en la competición actual he incluido a todos los jugadores.

De cualquier forma, parece probable que me haya ido un poco por la tangente en los últimos párrafos, así que permítanme volver a mi asunto principal: las puntuaciones FIDE en general. Tengo mucho más que decir sobre las puntuaciones y la actual puesta en práctica del sistema de puntuación Elo por parte de la FIDE. ¡En concreto, hay muchos aspectos interesantes que he descubierto sobre jugadores de distintas edades, los diferentes factores K, la fórmula empleada para calcular la puntuación inicial de un jugador e incluso la inflación de la puntuación! De todo ello merece la pena hablar y espero poder hacerlo en un futuro próximo. En la segunda parte de esta serie, añadiré los factores K de los jugadores a la masa analítica, con algunos hallazgos sorprendentes…

Copyright Jeff Sonas / ChessBase

Artículos anteriores de Jeff Sonas en ChessBase

The eloitte/FIDE Chess Rating Challenge
20.02.2011 –– Statician Jeff Sonas and Kaggle, a site specializing in data modeling with regular prediction competitions, have launched a new online contest to develop a more accurate chess rating system. Professional services firm Deloitte provides a $10,000 prize to the winner, and FIDE will also bring a top finisher to Athens, Greece to present their rating system. Report and California pictorial.

Competición 'Elo versus el Resto del Mundo'
El sistema de valoración por puntos Elo ha dado un buen servicio durante ya más de medio siglo. No obstante, quizás se podría inventar un método todavía más preciso a la hora de medir la fuerza de juego y para estimar los resultados. Kaggle, un portal que facilita previsiones de datos para competiciones, ofrece unas 65.000 partidas a los especialistas en estadística, que deben usar para pronosticar los resultados de otras 7.800 partidas. La competición no es solo por amor al arte o a la ciencia: hay premios sustanciosos para los inventores de los mejores sistemas nuevos al respecto...

Impresiones de la Conferencia de la FIDE sobre el Elo 2010
En la Conferencia de la FIDE sobre el Elo que se desarrolló la semana pasada en Atenas (Grecia) se pasó bastante tiempo analizando el problema de la inflación de las puntuaciones. Se mantenían básicamente dos opiniones diferentes, una del estadístico de ajedrez estadounidense Jeff Sonas y otra representada por el GM polaco Bartlomiej Macieja. La materia no es fácil de comprender, pero nuestro colega Michalis Kaloumenos ha hecho un esfuerzo importante para que no sea tan ardua. Alimento para el cerebro...

Rating inflation – its causes and possible cures
27.07.2009 – Thirty years ago there was one player in the world rated over 2700. Fifteen years ago there were six. Today there are thirty-three. What is the cause of this "rating inflation". A general improvement of chess skills? A larger number of players in the rating pool? The way the initial ratings are conducted? In this clearly written article statistician Jeff Sonas addresses these questions. Must read!

Nunn sobre el factor K: ¡Demuéstrenmelo!
Con el debate sobre la decisión de la FIDE de cambiar o no cambiar el factor K empleado para el cálculo de la puntuación de los ajedrecistas en plena ebullición, el gran maestro y doctor inglés John Nunn aporta algunas visiones interesantes del asunto: "No parece que haya pruebas reales de que K=20 vaya a ofrecer un sistema de puntuación más preciso, mientras que hay determinados riesgos y desventajas". Cuestiona los argumentos expresados por Jeff Sonas y Bartlomiej Macieja, añadiendo algunos otros aspectos a considerar, fundamentalmente el incremento de la tentación para hacer trampas con la puntuación Elo. Les ofrecemos, traducidos al castellano, su planteamiento y explicaciones...

FIDE: Apoyamos el aumento del factor K
Hace unos días publicamos una carta del GM Bartlomiej Macieja pidiendo a la FIDE que no retrasase la decisión de incrementar el factor K en el cálculo de las puntuaciones Elo. Ahora hemos recibido una respuesta de Georgios Makropoulos, Presidente Ejecutivo de la FIDE, e Ignatius Leong, Secretario General de la FIDE, al apasionado llamamiento del ajedrecista. Además, con el objeto de ilustrar más el tema para nuestros lectores, les ofrecemos una carta del estadístico experto en ajedrez Jeff Sonas. Todo ello traducido al castellano...

Making sense of the FIDE cycle
10.12.2005 ont>– Why, many of our readers have asked, are eight players who got knocked out in round four of the World Cup in Khanty-Mansiysk still playing in the tournament? What, they want to know, is the point? Has it something to do with the 2007 FIDE world championship cycle? It most certainly does. Jeff Sonas explains in meticulous detail. Please concentrate.

The Greatest Chess Player of All Time – Part IV
25.05.2005 – So tell us already, who was the greatest chess performance of all time? After analysing and dissecting many different aspects of this question, Jeff Sonas wraps it up in the final installment of this series, awarding his all-time chess "Oscar" nomination to the overall greatest of all time.

The Greatest Chess Player of All Time – Part III
06.05.2005 – What was the greatest chess performance of all time? Jeff Sonas has analysed the duration different players have stayed at the top of the ratings list, at the highest individual rating spikes and best tournament performances. Today he looks at the most impressive over-all tournament performances in history, and comes up with some very impressive statistics.

The Greatest Chess Player of All Time – Part I
24.04.2005 – L– Last month Garry Kasparov retired from professional chess. Was he the greatest, most dominant chess player of all time? That is a question that can be interpreted in many different ways, and most answers will be extremely subjective. Jeff Sonas has conducted extensive historical research and applied ruthlesss statistics to seek a solution to an age-old debate.

Cómo (no) jugar contra los ordenadores
¿Hay alguna forma en la que los jugadores de ajedrez humanos puedan resistir las acometidas de unos oponentes cibernéticos cada vez más fuertes? Sólo modificando su estilo de juego, sugiere el estadístico Jeff Sonas, que ilustra una conexión fascinante entre la agresión ajedrecística y el fallo contra los ordenadores. Quizá haya aún una opción para la humanidad. Más

Fuerza física y pericia ajedrecística
¿Cómo pueden los humanos confiar en aguantar el tipo en esa batalla cuesta arriba contra los programas de ajedrez? Jugando encuentros más cortos, dejando de sacrificar material y no teniendo miedo de la Defensa Siciliana. Al menos eso dice el estadístico Jeff Sonas, que también cuestiona las altas puntuaciones de los ordenadores en la lista sueca SSDF. Aquí están sus pruebas.

Are ss computers improving faster than grandmasters?
17.10.2003 – T– The battle between humans and machines over the chessbaord appears to be dead-even – in spite of giant leaps in computer technology. "Don't forget that human players are improving too," says statistician Jeff Sonas, who doesn't think it is inevitable that computers will surpass humans. Here is his statistical evidence.

Hombre vs. Máquina: ¿quién va ganando?
Cada año los ordenadores son más potentes en sus capacidades ajedrecísticas, haciendo frente a los adversarios más fuertes. De este modo, muy pronto alcanzarán a los humanos. ¿Sí? No necesariamente, dice el estadístico Jeff Sonas, que no cree que los ordenadores vayan, inevitablemente a sobrepasar a los humanos. En una serie de artículos Jeff muestra las pruebas empíricas que defienden su punto de vista.

Does Kasparov play 2800 Elo against a computer?
26.08.2003 ont>– On August 24 the well-known statistician Jeff Sonas presented an article entitled "How strong are the top chess programs?" In In it he looked at the performance of top programs against humans, and attempted to estimate an Elo rating on the basis of these games. One of the programs, Brutus, is the work of another statistician, Dr Chrilly Donninger, who replies to Jeff Sonas.

Ordenadores vs. ordenadores y humanos
La lista SSDF clasifica los programas de ajedrez según su fuerza, tomando como base 90.000 partidas. Pero se trata de partidas jugadas entre ordenadores. ¿Es posible relacionar esos datos con los de la fuerza de juego de los seres humanos? El estadístico Jeff Sonas ha hecho unos números teniendo en cuenta los torneos más recientes, para evaluar la fuerza real de juego de los programas.

¿Qué Sonas tienes?
Cada tres meses la FIDE publica la clasificación de jugadores calculada según la fórmula desarrollada hace tiempo por el profesor Arpad Elo. Dicha fórmula ha servido bastante bien al mundo del ajedrez durante largo tiempo. Sin embargo, el estadístico Jeff Sonas cree que ha llegado el momento de realizar importantes cambios en el sistema. Nos presenta su propuesta en un amplio, documentado e ilustrado artículo.

¿Cuál fue el torneo más fuerte de todos los tiempos?
El Memorial Tal de este año en Moscú se ha presentado como si realmente fuese el torneo más fuerte de la historia, pero todo depende de cómo se evalúe la categoría de un torneo. Si se corrige la inflación de la valoración de fuerza de juego de la FIDE y, sobre todo, si se considera la clasificación mundial de los participantes, otros torneos superan con creces al de Moscú. Muy posiblemente el AVRO 1938 ha sido el más fuerte o al menos uno de los de mayor nivel de todos los tiempos, ya que los 8 jugadores que lo disputaron, precisamente eran los 8 primeros del mundo. Jeff Sonas nos explica su postura...

SHOP

SHOP

El sistema Elo: corrección de las tablas de expectativas

ONLINE SHOP

Middlegame Secrets Vol.4 - The Secret Lives of Knights

El sistema de puntuación Elo: corrección de las tablas de expectativas

Por Jeff Sonas

Artículos anteriores de Jeff Sonas en ChessBase

Comentar

ChessBase 18 Premium-Package

The Art of Initiative - The key to Opening Success

Countering the Ruy Lopez with the fighting Modern Steinitz

ChessBase Magazine Extra 223

Reti Opening Powerbook 2025

Reti Opening Powerbase 2025

The Surprising Black Knights' Tango - Unleash Winning Strategies as Black!

Catalan Powerbook 2025

Pop-up for detailed settings