Evaluación de Textos Narrativos Basada en Rúbricas con Colaboración Humano-IA: Enfoque Especializado de Modelo
Contenido principal del artículo
Resumen
Este estudio analiza si los textos narrativos pueden ser evaluados con precisión, si es posible mantener calificaciones estables a lo largo del tiempo, y si puede proporcionarse retroalimentación formativa efectiva para estos textos gracias a la colaboración humano-IA. Para ello, se utilizaron dos modelos: la versión estándar de ChatGPT y la Herramienta de Evaluación de Textos (TAT), un modelo GPT específicamente entrenado mediante un proceso de seis pasos diseñado para esta investigación. Se evaluaron 114 textos narrativos en tres ocasiones según los criterios establecidos en una rúbrica, utilizando tanto el modelo estándar como el modelo especialmente entrenado. Se analizaron los niveles de concordancia entre las calificaciones otorgadas por TAT y por ChatGPT estándar con respecto a las calificaciones reales, así como la estabilidad de estas calificaciones a lo largo del tiempo. Los resultados mostraron que, en comparación con el desempeño del ChatGPT estándar, las calificaciones de TAT presentaron altos niveles de concordancia con las calificaciones reales y mantuvieron su estabilidad a lo largo del tiempo en todas las categorías de la rúbrica, superando de forma constante el umbral mínimo e indicando con frecuencia una alta fiabilidad. Además, se observó que la mayor parte de la retroalimentación generada por TAT cumplía con los criterios de retroalimentación efectiva. La evidencia estadística presentada en este estudio demuestra
que los modelos de lenguaje a gran escala, cuando son entrenados específicamente, pueden desempeñarse de manera excelente tanto en la evaluación de textos mediante una rúbrica como en la provisión de retroalimentación formativa. Esto es particularmente alentador para
lograr una educación más equitativa, en particular en aulas numerosas y en contextos donde los evaluadores se encuentran sobrecargados.
Palabras clave: evaluación educativa, colaboración humano-IA, entrenamiento de modelos GPT.