Ventajas:
Desventajas:
Nuestro objetivo: herramienta para modular la dificultad de las pruebas.
¿Cómo saber si una prueba es más o menos difícil?
Proponemos una herramienta de cuantificación:
Nuestra propuesta: usar la IA como alumno de control.
Batería de +500 preguntas. Experimentamos
Proporción de aciertos por ronda y tratamiento:
Trat.A | Trat.B | H0:p1=p2 | |
---|---|---|---|
<dbl> | <dbl> | <dbl> | |
Ronda 1 | 0.875000 | 0.8775510 | 0.9980620 |
Ronda 2 | 0.877551 | 0.8200000 | 0.4063183 |
H0:p1=p2 | 1.000000 | 0.3518452 | NA |
Tiempo de respuesta medio:
Trat.A | Trat.B | H0:m1<=m2 | |
---|---|---|---|
<dbl> | <dbl> | <dbl> | |
Ronda 1 | 0.99392358 | 1.0109118 | 0.059079569 |
Ronda 2 | 0.88758955 | 1.0084565 | 0.001001911 |
H0:m1>=m2 | 0.01380742 | 0.2314017 | NA |
Probit model de aciertos sobre sesión y tiempo de respuesta:
Call: glm(formula = encert ~ sesnom * temps, family = binomial(link = "probit")) Deviance Residuals: Min 1Q Median 3Q Max -2.2332 0.4762 0.5143 0.5663 0.6542 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.80689 0.48701 1.657 0.0976 . sesnomA2 0.12626 0.71099 0.178 0.8591 sesnomB1 0.06667 0.76608 0.087 0.9307 sesnomB2 -0.01648 0.65880 -0.025 0.9800 temps 0.35157 0.47760 0.736 0.4617 sesnomA2:temps -0.08996 0.73987 -0.122 0.9032 sesnomB1:temps -0.06333 0.74441 -0.085 0.9322 sesnomB2:temps -0.22681 0.63592 -0.357 0.7213 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 314.28 on 391 degrees of freedom Residual deviance: 311.16 on 384 degrees of freedom (8 observations deleted due to missingness) AIC: 327.16 Number of Fisher Scoring iterations: 5
Índice de aciertos por ronda y tratamiento:
MAY | JUL | ENE | H0:p_i=p | Humanos | |
---|---|---|---|---|---|
<dbl> | <dbl> | <dbl> | <dbl> | <dbl> | |
19-20 | 0.8000000 | 0.9000000 | 0.8000000 | 0.716521439 | 0.623 |
20-21 | 0.8000000 | 0.8666667 | 0.8666667 | 0.716521439 | 0.586 |
21-22 | 0.8333333 | 0.8333333 | 0.7931034 | 1.000000000 | 0.596 |
H0:pi=p | 0.9300451 | 0.7494156 | 0.7165214 | 0.001429285 | NA |