Bases de datos del ajedrez y su aplicación en estudios cognitivos (II)

por Uvencio Blanco Hernández
18/03/2022 – En nuestra entrega anterior (I), presentamos la síntesis de algunos de los contenidos más importantes de la investigación de Nemanja Vaci & Merim Bilalić titulada “Las bases de datos de ajedrez como vehículo de investigación en psicología: Modelando grandes datos” (2017). En esta oportunidad mostraremos otros contenidos interesantes relacionados con la base de alemana y de la FIDE, y su valor -como herramienta- en estudios cognitivos. Por su importancia, sugerimos el estudio detenido de esta investigación en su presentación original en inglés, de la cual hemos intentado una traducción libre. La segunda parte del artículo por Dr. Uvencio Blanco sobre las bases de datos... | Imagen: Mega Database 2022 de ChessBase

ChessBase 16 - Mega package Edition 2022 ChessBase 16 - Mega package Edition 2022

Ideas nuevas, análisis precisos, y entrenamiento a medida. ChessBase es la base de datos de ajedrez particular de referencia en todo el mundo. Aprenda, disfrute y mejore su juego. Cualquier ajedrecista con ambiciones, desde el Campeón del Mundo hasta los jugadores de club o los amigos ajedrecistas aficionados, trabajan con esta herramienta.

Más...

¿Cómo utiliza la ciencia cognitiva la función de calificación de la base de datos?

Los psicólogos cognitivos han estado utilizando la función de calificación de dos maneras. La primera, consiste en enfrentar a dos grupos de habilidades extremas, expertos y novatos, entre sí para investigar los procesos cognitivos. Aquí destacaremos:

El uso del grupo de novatos de control no solo permite un mayor poder estadístico para detectar los efectos de interés (Campitelli & Speelman, 2013; Preacher, Rucker, MacCallum, & Nicewander, 2005)
Pero también permite sacar conclusiones sobre la naturaleza de los procesos cognitivos de los expertos (Campitelli & Speelman, 2013; Kuhn, 1970; Wason, 1960).

La segunda, explota toda la gama de habilidades para cuantificar los efectos de interés. Este enfoque se ha utilizado para demostrar la fuerza del efecto Einstellung (conjunto mental), es decir, cuánto peor se desempeñan los expertos cuando la primera solución que se les ocurre es subóptima (Luchins, 1942). En este caso, el rendimiento de los expertos se vuelve similar al de los practicantes promedio, jugadores tres desviaciones estándar por debajo de su habilidad nominal (ver Bilalić et al. 2008a, 2008b, 2010).

Del mismo modo, cuando los expertos son sacados de sus áreas de especialización, su desempeño se vuelve comparable al de los practicantes casi dos desviaciones estándar por debajo de su nivel de habilidad (Bilalić, McLeod y Gobet, 2009; Joseph y Patel, 1990; Voss, Tyler y Yengo, 1983; para las consecuencias en la vida real de este efecto de especialización, véase Schraagen, 1993).

Características de la base de datos alemana

El conjunto de datos de ajedrecistas alemanes representa una de las bases de datos nacionales de ajedrez más grandes del mundo, y podría decirse que es la mejor organizada.

El conjunto de datos relativos a jugadores de ajedrez alemanes, recopila registros para un número similar de jugadores (131.147 jugadores únicos con un total de 2.108.908 observaciones), pero no está plagado de limitaciones metodológicas de la base de datos de la FIDE.

ChessBase 16 - Mega package Edition 2022

Ideas nuevas, análisis precisos, y entrenamiento a medida. ChessBase es la base de datos de ajedrez particular de referencia en todo el mundo. Aprenda, disfrute y mejore su juego. Cualquier ajedrecista con ambiciones, desde el Campeón del Mundo hasta los jugadores de club o los amigos ajedrecistas aficionados, trabajan con esta herramienta.

Más...

Variables consideradas en la base alemana

En esta base la variable ID identifica a los jugadores individuales en el conjunto de datos. Sobre la base de esta variable, podemos ver que la base de datos contiene los registros de 131.147 jugadores. Esta variable de identificación puede ser importante cuando se trata de modelado multinivel, en el que las curvas de crecimiento se ajustan para cada jugador en el conjunto de datos.

La variable Género registra si el individuo es una jugadora femenina o masculina. La base de datos recopila registros de 7.789 jugadoras y 123.358 jugadores (aproximadamente el 6 % de las jugadoras registradas son mujeres). La variable Género se puede utilizar para investigar las diferencias en los puntajes de calificación y el desempeño entre los géneros, pero también para investigar las posibles razones detrás de las fuertes diferencias en los recuentos de participación.

La variable País identifica los antecedentes y la elegibilidad del jugador:

D indica un fondo alemán (120.680 jugadores);

G, jugadores con los mismos derechos que los jugadores nacionales (24);

E, extranjeros de Europa (1.480); A, extranjeros de fuera de Europa (7.511); y S, jugadores a los que se les bloquea la participación (95).

Las variables Nacimiento y Año del Torneo codifican el año de nacimiento del jugador y el año del torneo. Sobre la base de estas dos variables, calculamos las edades de los jugadores para torneos específicos. En el caso del análisis tutorial, utilizamos estas variables para investigar los efectos de la cohorte de nacimiento (ver los materiales complementarios), pero también las funciones de desarrollo de habilidades. Las siguientes variables registran el rendimiento de los jugadores en los torneos.

Por ejemplo, la variable Rendimiento se calcula como las calificaciones promedio de DWZ (Deutsche Wertungszahl; ver más abajo) de los oponentes más el número de puntos ganados, que también se mide en el conjunto de datos.

La variable Juegos registra el número de juegos jugados en un torneo en particular.

La columna Clasificación enumera los puntos DWZ actuales de los jugadores, y el rendimiento esperado calcula la suma de todas las probabilidades esperadas para una victoria o un empate (consulte la siguiente sección). En otras palabras, para cada juego individual, la probabilidad esperada de una victoria o un empate cambia para cada jugador, y el rendimiento esperado es solo una suma de todas estas probabilidades. El estado del jugador indica si este jugador está activo o inactivo, y la variable Stale indica la diferencia de años entre dos torneos consecutivos para jugadores individuales.

Base de datos FIDE

Según estos cognitivistas, “Una de las bases de datos más antiguas es la base de datos de la Federación Internacional de Ajedrez (FIDE), que ha estado recopilando los datos de los jugadores de élite desde la introducción del sistema de clasificación Elo en los años setenta.

La base de datos de la FIDE recopila una cantidad imponente de información, incluidos los puntajes de calificación de los jugadores de ajedrez en los torneos de la FIDE, el número de juegos jugados por período de clasificación y la edad y el género de los jugadores en todo el mundo (véase Howard, 2006a).

¿Cuál es la utilidad de la base FIDE?

Dado que se basa en datos recopilados en las últimas décadas, permite a los investigadores investigar el desarrollo a lo largo de una vida. La base de datos de la FIDE ha sido una herramienta útil en la última década (Howard, 2004, 2006b; Roring & Charness, 2007), lo cual no es sorprendente, dada la gran cantidad de datos que proporciona.

Desafortunadamente, sufre de una serie de problemas metodológicos (Vaci, Gula, & Bilalić, 2014, 2015). Uno de los principales problemas es que, durante la mayor parte de su rango de tiempo, la base de datos de la FIDE proporciona registros solo para los mejores practicantes y excluye a los jugadores más débiles. El umbral para la inclusión de jugadores en la base de datos de la FIDE se estableció históricamente bastante alto, en 2200 puntos Elo, que incluye solo jugadores de nivel maestro.

El umbral de entrada se movió a 2000 puntos Elo en los años noventa, y se ha movido hacia abajo varias veces desde entonces, pero solo recientemente se han mantenido registros de todos los jugadores, sin importar cuán débiles sean, en la base de datos. Este umbral no solo mantuvo a la mayoría de los jugadores fuera de la base de datos de la FIDE, sino que su constante disminución produjo fuertes efectos de cohorte y período, ya que los puntajes Elo iniciales para los jugadores mayores son mucho más altos que los de los más jóvenes.

La base de datos de la FIDE también restringe la actividad registrada en los torneos (Vaci et al., 2015). Los torneos solo se registran en la base de datos de la FIDE si han sido registrados como eventos de la FIDE, lo que conlleva costos considerables que un buen número de federaciones nacionales no pueden pagar. En consecuencia, solo se captura una fracción de los juegos jugados por cualquier jugador.

Por otro lado, la base de datos FIDE ofrece otras posibilidades que no están cubiertas por la base de datos alemana. Como ya hemos explicado, la base de datos de la FIDE recopila registros solo de los mejores jugadores. Por lo tanto, se puede utilizar junto con la base de datos alemana para investigar las diferencias y los cambios en las calificaciones de los mejores profesionales.

Debido a que los torneos de la FIDE requieren ciertas tarifas de los organizadores, a menudo solo los mejores jugadores participan en esos torneos. Sin embargo, los registros alemanes y de la FIDE se superponen; es decir, recopilan registros de varios de los mismos jugadores. Utilizando la información biográfica de los jugadores, calculamos la superposición de los dos conjuntos de datos (ver Vaci et al., 2015): Aproximadamente 13,488 jugadores están en ambos conjuntos de datos. La diferencia más interesante entre ellos es que la edad de los jugadores en la FIDE difiere de la de la base de datos alemana (edad media de 39 vs. 33.5, respectivamente).

No es sorprendente que los jugadores comiencen a jugar torneos de la FIDE más adelante en la vida, probablemente cuando alcanzan un nivel particular de experiencia, ya que la base de datos de la FIDE requería un alto nivel de habilidad en el pasado. La información en la base de datos de la FIDE y esta diferencia también puede darnos información sobre el proceso de adquisición de habilidades, ya que después de alcanzar un nivel particular de experiencia en torneos nacionales, los jugadores comienzan a participar en torneos internacionales.

Diferencias entre la base de datos alemana y FIDE

La diferencia entre la base de datos FIDE y la base de datos alemana que presentaremos aquí se aprecia mejor si consideramos las características de esas bases de datos (Vaci et al., 2015). Por ejemplo, la base de datos FIDE tiene múltiples valores faltantes para el número de juegos jugados por año (aproximadamente el 40 % de la base de datos), lo que no es el caso en la base de datos alemana, que tiene aproximadamente el 2 % de los valores faltantes para la variable de actividad.

Así mismo, a diferencia de la base de datos de la FIDE, la base de datos alemana recopila registros de todos los torneos organizados en Alemania, incluidos los campeonatos de clubes que no son puramente competitivos. La base de datos proporcionada (ver los materiales complementarios) tiene registros de 1980 a 2007, pero el lector interesado puede encontrar registros más recientes en el sitio web de la Federación Alemana de Ajedrez (www.schachbund.de). El sitio web también describe cómo se pueden compilar y descargar nuevos puntos de datos.

En comparación con la base de datos alemana, la base de datos de la FIDE es una base de datos verdaderamente internacional, ya que todos los mejores jugadores de todo el mundo han sido incluidos. Chassy y Gobet (2015) explotaron esta característica de la base de datos de la FIDE y proporcionaron una visión profunda del nivel de tranquilidad (como lo indica el número de sorteos y las horas en que se realizaron esos sorteos) en diferentes culturas. Del mismo modo, Gobet y Chassy (2008) utilizaron la base de datos de la FIDE para investigar los efectos estacionales en el nacimiento de los mejores jugadores del mundo, mostrando que la mayoría de los mejores jugadores del hemisferio norte nacieron a fines del invierno y principios de la primavera. Finalmente, los cambios ambientales (apoyo a nivel nacional, la introducción de software de ajedrez) no se pueden estudiar con la base de datos alemana, ya que esta base de datos recopila registros principalmente de jugadores nacionales.

Conclusiones

Seguidamente presentaremos las conclusiones más destacables de este estudio. La base de datos alemana: ofrece uno de los mejores conjuntos de datos longitudinales disponibles para su uso en la investigación psicológica. 

No adolece de los problemas metodológicos inherentes a otras bases de datos disponibles públicamente, como la FIDE (Howard, 2008). 

Abre nuevas posibilidades para la investigación de los múltiples factores que subyacen a la experiencia y la adquisición de habilidades con un enfoque de archivo. Por ejemplo, los investigadores pueden examinar las tasas de deserción y los factores que influyen en los jugadores para que dejen de participar en los torneos. La información sobre los jugadores también se puede utilizar para investigar temas como las diferencias de género.

Es una clara mejora en el conjunto de datos de la FIDE empleado anteriormente. Dicho esto, es importante tener en cuenta algunas restricciones de la base de datos alemana que pueden no estar presentes para la base de datos de la FIDE. 

Está restringida a jugadores de Alemania, a diferencia de la base de datos de la FIDE, que incluye jugadores internacionales. Esto impide los estudios interculturales, como el inteligente estudio llevado a cabo por Chassy y Gobet (2015), que utilizaron la base de datos de la FIDE para investigar las diferencias culturales en la toma de riesgos entre diferentes países y religiones (véase también Gobet y Chassy, 2008). 

Ofrece uno de los mejores conjuntos de datos longitudinales disponibles para su uso en la investigación psicológica. 

Complementa el enfoque de experiencia experimental que prevalece actualmente al abrir nuevas posibilidades para la investigación de los múltiples factores subyacentes a la experiencia y la adquisición de habilidades con el enfoque de archivo.

En cuanto a la base de datos de la FIDE, la misma adolece de una serie de problemas metodológicos y, por lo tanto, puede no ser de mucha utilidad para abordar varios de los temas que describimos anteriormente. Sin embargo, su alcance internacional lo hace adecuado para investigar las diferencias culturales. En otras palabras, ambas bases de datos tienen sus ventajas, y la elección de la base de datos no depende de la preferencia general, sino más bien de qué base de datos puede proporcionar mejores recursos para responder a la pregunta en cuestión.


Nota de la redacción: 

La base de datos más selecta y más útil para todos los ajedrecistas es nuestra Mega Database 2022 de ChessBase:

Mega Database 2022

The ChessBase Mega Database 2022 is the premiere chess database with over 9.2 million games from 1560 to 2021 in high quality. Packing more than 100,000 annotated games, Mega 2022 contains the world‘s largest collection of high-class analysed games. Train like a pro! Prepare for your opponents with ChessBase and the Mega Database 2022. Let grandmasters explain how to best handle your favorite variations, improve your repertoire and much more.

Más...

En combinación con el programa ChessBase 16: 

ChessBase 16 - Mega package Edition 2022

Ideas nuevas, análisis precisos, y entrenamiento a medida. ChessBase es la base de datos de ajedrez particular de referencia en todo el mundo. Aprenda, disfrute y mejore su juego. Cualquier ajedrecista con ambiciones, desde el Campeón del Mundo hasta los jugadores de club o los amigos ajedrecistas aficionados, trabajan con esta herramienta.

Más...

Fuentes y enlaces


Uvencio Blanco Hernández, Venezuela. Comisión Ajedrez y Educación FIDE. Escritor, Investigador, Conferencista, Árbitro Internacional, Organizador Internacional, Entrenador, Profesor de Ajedrez ECU y Lead School Instructor FIDE.