Una evaluación objetiva de las pruebas escritas finales¶

En busca del alumno control¶

Andrés Romeu
Departamento de Fundamentos del Análisis Económico
Universidad de Murcia

(1) Prueba tipo test como Instrumento de evaluación¶

Ventajas:

Permiten abarcar más temario
Sencillas de corregir
Miden conocimientos con precisión

Desventajas:

Para el alumno: fomentan competitividad, frustración y estrés (Schwarzer at al. 1987, Cassady and Jhonson, 2002).
Para el profesor:
- mide dimensión conocimientos, no habilidades, actitudes, etc... (Fernandoz-Marcha, 2009)
- Diseño: tres dimensiones, precisión, discriminación y dificultad

Nuestro objetivo: herramienta para modular la dificultad de las pruebas.

¿Cómo saber si una prueba es más o menos difícil?

Experiencia del docente: ¿es suficiente?
Crear comisiones o paneles de docentes: siempre recomendable.
Elaboraciones estadísticas sobre calificaciones:
- Son ex-post
- No hay grupo de control

Proponemos una herramienta de cuantificación:

Objetiva: no depende de factores no controlables.
Precisa: reducido el nivel de error en la medida.
Funcional: fácil de usar e interpretar.

Nuestra propuesta: usar la IA como alumno de control.

ChatGPT (GPT-3.5.)¶

Modelo de lenguaje natural basado en la arquitectura GPT-3.5 desarrollado por OpenAI.
Red neuronal entrenada con bases de datos de texto de Internet (570 GB): fase entrenamiento /= fase aprendizaje.
Accesible mediante interface API (automatización de preguntas y respuestas)

Acceso API¶

Utilizamos funciones R (paquete HTTR) para formular preguntas a GPT-3.5.
Las preguntas vienen con unformato preestablecido
Se exige repuesta entre opción (a) o (b).
Mediante REGEX, recuperamos la respuesta del servidor.
Si la respuesta no responde al formato se da por missing.

(2) Introducción a la Economía II¶

Batería de +500 preguntas. Experimentamos

Hipótesis de Capacidad: instrumentos
- Indice de acierto (acertadas/totales)
- Tiempo de respuesta del servidor
Hipótesis de Condicionamiento: Sensibilidad a condicionamiento/contextualización de las respuestas.
Hipótesis de Experiencia: Mejora capacidad con experiéncia?

Accedemos mediante API para lanzar 100 preguntas obtenidas aleatoriamente con reemplazamiento.
Usamos una primera ronda de 100 preguntas, seguida por una ronda de 500 y una última ronda de 100. Solo guardamos la primera y la última.
Usamos dos tratamientos distintos: en el segundo le pedimos antes de empezar que responda basándose en los contenidos del manual de Introducción a la Economía de Mankiw y Taylor (el empleado en clase).

Proporción de aciertos por ronda y tratamiento:

A xtable: 3 × 3
	Trat.A	Trat.B	H0:p1=p2
	<dbl>	<dbl>	<dbl>
Ronda 1	0.875000	0.8775510	0.9980620
Ronda 2	0.877551	0.8200000	0.4063183
H0:p1=p2	1.000000	0.3518452	NA

Tiempo de respuesta medio:

A xtable: 3 × 3
	Trat.A	Trat.B	H0:m1<=m2
	<dbl>	<dbl>	<dbl>
Ronda 1	0.99392358	1.0109118	0.059079569
Ronda 2	0.88758955	1.0084565	0.001001911
H0:m1>=m2	0.01380742	0.2314017	NA

Probit model de aciertos sobre sesión y tiempo de respuesta:

Call:
glm(formula = encert ~ sesnom * temps, family = binomial(link = "probit"))

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.2332   0.4762   0.5143   0.5663   0.6542  

Coefficients:
               Estimate Std. Error z value Pr(>|z|)  
(Intercept)     0.80689    0.48701   1.657   0.0976 .
sesnomA2        0.12626    0.71099   0.178   0.8591  
sesnomB1        0.06667    0.76608   0.087   0.9307  
sesnomB2       -0.01648    0.65880  -0.025   0.9800  
temps           0.35157    0.47760   0.736   0.4617  
sesnomA2:temps -0.08996    0.73987  -0.122   0.9032  
sesnomB1:temps -0.06333    0.74441  -0.085   0.9322  
sesnomB2:temps -0.22681    0.63592  -0.357   0.7213  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 314.28  on 391  degrees of freedom
Residual deviance: 311.16  on 384  degrees of freedom
  (8 observations deleted due to missingness)
AIC: 327.16

Number of Fisher Scoring iterations: 5

Conclusiones¶

Capacidad: chatGPT propociona niveles de acierto por encima del 85%, equivalente a un NOTABLE.
Direccionamiento: No parece tener un efecto importante sobre los niveles de acierto, ni en longitud de la interacción ni en tratamiento. La red está bien entrenada.
Profundidad: El tiempo de respuesta sí que parece mejorarse con la interacción y con el tratamiento, aunque a nivel agregado (probit) es poco significativo. Hipótesis: la red está entrenada para no demorarse mucho en la respuesta.

(3) Un ejemplo de uso: cursos 2019 - 2023¶

Medimos dificultad a través de índice de respuesta (no usamos tiempo de respuesta).
Sin condicionamiento previo (misma clave API).
Muestra: exámenes finales de los años 2019-2023, tres convocatorias.

Índice de aciertos por ronda y tratamiento:

A xtable: 4 × 5
	MAY	JUL	ENE	H0:p_i=p	Humanos
	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>
19-20	0.8000000	0.9000000	0.8000000	0.716521439	0.623
20-21	0.8000000	0.8666667	0.8666667	0.716521439	0.586
21-22	0.8333333	0.8333333	0.7931034	1.000000000	0.596
H0:pi=p	0.9300451	0.7494156	0.7165214	0.001429285	NA

Comentarios finales¶

chatGPT puede servir de guía para cuantificar la dificultad del exámen. Por ejemplo, tasas de acierto significativamente diferentes de las de exámenes anteriores.
Elimina el sesgo de muestra cuando usamos resultados de aprobados/suspendidos como guía.
Es un instrumento que concebimos como complemento, no sustituto, de las reuniones preparatorias.
chatGPT puede servir para conocer también si la redacción de los enunciados genera ambigüedades.
Por hacer: mayor introspección sobre cuáles son los tipos de pregunta que suele fallar más. De concepto? De cálculo?