Cómo citar este artículo:
González-Mayorga,
H., Rodríguez-Esteban, A., & Vidal, J. (2024). El uso del modelo GPT de OpenAI para el análisis de textos abiertos en investigación
educativa [Using OpenAI’s
GPT Model to Analyse Open Texts in Educational Research]. Pixel-Bit. Revista de Medios y
Educación, 69, 227-253. https://doi.org/10.12795/pixelbit.102032
RESUMEN
La
atribución de significado a los segmentos de información propia del análisis de
textos abiertos en investigación cualitativa implica una considerable inversión
de tiempo. Las herramientas de Procesamiento de Lenguaje Natural pueden
convertirse en un recurso para el investigador cualitativo, en cuanto que sus
algoritmos permiten interpretar los textos y codificar cualitativamente de
forma mucho más rápida. Esta tarea, sin embargo, requiere probar previamente el
nivel de comprensión verbal de estas herramientas. La aparición del modelo
GPT-3 de OpenAI
supuso un salto cualitativo respecto a modelos de Procesamiento de Lenguaje
Natural anteriores. El objetivo fue analizar la capacidad de comprensión verbal
de esta herramienta. Se aplicaron las pruebas del índice de comprensión verbal
de la batería para la medición del cociente intelectual WAIS-IV. Los resultados
de las pruebas de fiabilidad fueron satisfactorios. Respecto al nivel de
comprensión verbal, las respuestas situaron a GPT-3 en un percentil superior al
99, comparado con los estándares humanos. Estos resultados demuestran que es
posible utilizar este modelo como herramienta para el análisis de textos
abiertos, abriendo enormes posibilidades para la investigación cualitativa,
aunque su uso debe basarse en una utilización precisa y diseñada ad hoc para
cada proceso de análisis.
ABSTRACT
Assigning meaning to
segments of information through analysis of open texts in qualitative research
requires considerable investment of time. Natural Language Processing tools can
be a valuable resource for qualitative researchers, as their algorithms allow
for faster, qualitative interpretation of texts. However, this requires testing
these tools’ levels of verbal comprehension beforehand. The introduction of
OpenAI's GPT-3 model has marked a qualitative leap forward compared to previous
Natural Language Processing models. The study objective was to analyse this
tool’s verbal comprehension ability. The tests from the verbal comprehension
index of the WAIS-IV IQ battery were applied. The results of the reliability
tests were satisfactory. The responses put GPT-3 higher than the 99th
percentile of human standards of verbal comprehension. These results
demonstrate that it is possible to use this model as a tool to analyse open
texts, opening up enormous possibilities for qualitative research, although its use must
be based on precise, specific utilization for each analysis process.
PALABRAS CLAVES· KEYWORDS
Inteligencia artificial,
procesamiento del lenguaje natural, GPT-3, análisis textual, investigación
cualitativa.
Artificial intelligence, natural language processing,
GPT-3, text analysis, qualitative research
1. Introducción
“We can only see a short distance ahead, but we can
see plenty there that needs to be done.” (Turing,
1950, p. 460).
La investigación cualitativa
supone un acercamiento a los fenómenos sociales desde el interior, analizando
las propias experiencias de los individuos y sus interacciones sociales (Aspers & Corte, 2019; Cohen et al., 2018; Hammersley, 2013). El análisis de contenido, en cuanto
método habitualmente aplicado a datos cualitativos, suele requerir de un
proceso previo de categorización de estos datos conforme a patrones y
tendencias que se descubren tras la lectura repetida de los mismos (Grodal et al., 2021). Este proceso se lleva a cabo a través
de la codificación, entendida como método de organización de los datos a través
de la asignación de etiquetas descriptivas a bloques de información que emplea
técnicas como la vinculación, la agrupación o la agregación para apoyar la
extracción y formulación de significado (Longo, 2020, Williams & Moser, 2019). Tal y como señalan Grodal
et al. (2021), a medida que el investigador codifica y categoriza, eleva el
nivel conceptual del análisis desde la mera descripción hacia un nivel teórico,
más abstracto. La capacidad del investigador para interpretar los datos y
presentar los hallazgos con claridad hace que un estudio de investigación
cualitativa sea útil. Analizar datos cualitativos supone, por tanto, un proceso
complejo que conlleva mucho tiempo, siendo este uno de los motivos por el que
los investigadores trabajan normalmente con muestras reducidas (Flick, 2018; Longo, 2020). Sin embargo, los investigadores
han llamado la atención sobre la importancia de la cantidad y la calidad de los
datos señalando que el volumen de información manejado es clave para respaldar
las categorías o temas, comprender su riqueza y complejidad y fortalecer la
confiabilidad de los hallazgos (Williams & Morrow,
2009).
Una línea mayoritaria de
investigación cualitativa se aplica al análisis de textos abiertos. Hoy en día,
una importante proporción de la interacción social humana es generada y
transmitida a través de textos en redes de información digital (Cope & Kalantzis, 2015; Mills, 2019). Los datos basados en texto
se acumulan en un gran volumen conformando una importante fuente de información
para los investigadores cualitativos (Golder & Macy, 2011; Shlomo &
Goldstein, 2015). Sin embargo, se convierte en algo imposible para estos
profesionales, recopilar y analizar, de forma manual, los cientos de miles de
registros que pueden generarse en estas fuentes (Longo, 2020). Las aplicaciones
de software de análisis de datos cualitativos asistido por ordenador se han
convertido en una herramienta sustancial del proceso de investigación. La
mayoría de estas herramientas tienen funciones que permiten al investigador
operar con la información, ayudando en la identificación de códigos, dividiendo
los datos, almacenando fragmentos de datos por código y organizando estos
códigos en una estructura, reduciendo enormemente la cantidad de tiempo que
debe invertir el investigador. Además, recientemente han incorporado utilidades
para el análisis, basadas en la ocurrencia de palabras (Silver & Lewins, 2014). Sin embargo, estas aplicaciones no son
herramientas analíticas. La mayoría de ellas requieren, en la actualidad, que
los datos se ingresen en un paquete de procesamiento de texto que el analista
todavía tiene que leer y codificar. Esta tarea sigue siendo una de las fases
del análisis de datos cualitativos que consume más tiempo (Bail,
2014). Los elementos de ahorro de tiempo de estas herramientas ocurren en una
etapa posterior de la búsqueda y recuperación de datos (Cypress,
2019).
Las técnicas de análisis
temático asistido por Inteligencia Artificial (Towler et al., 2022),
especialmente aquellas basadas en Procesamiento de Lenguaje Natural (Guetterman et al., 2018), están suponiendo un gran avance
al permitir examinar frases, buscar grupos de significado más allá de las
palabras, adaptarse para tener en cuenta la jerga y la gramática informal, y
determinar el sentimiento (Carriere et al., 2021;
Chang et al., 2021; Rezaeenour et al., 2022). Las
utilidades en las que más se está desarrollando el Procesamiento de Lenguaje
Natural en la actualidad son la Desambiguación del Sentido de las Palabras
(Word-Sense Disambiguation),
la Teoría de la Argumentación del Texto (Text Argumentation
Theory), el Análisis de Sentimientos (Sentiment Analysis), el Modelado
de Temas (Topic Modelling)
y el Resumen Automático de Textos (Automatic Textual Summarization) (Oussalah, 2022).
De especial interés, dado el objetivo de la presente investigación, son los dos
últimos. El Modelado de Temas (Topic Modelling) es una técnica de aprendizaje automático no
supervisado que es capaz de detectar patrones de palabras y frases dentro de un
conjunto de textos y agruparlas automáticamente. Los temas y los parámetros de
la mezcla son desconocidos y se infieren únicamente a partir de los datos,
donde cada tema está representado por sus palabras más probables. El segundo de
ellos, Resumen Automático de Textos (Automatic
Textual Summarization), tiene como objetivo resumir
el contenido principal de un documento bajo dos procedimientos de síntesis: a)
la síntesis extractiva, que utiliza por una selección de frases del documento
original considerando la similitud de las frases, la ubicación o la presencia
de las palabras clave seleccionadas; y b) la síntesis abstractiva, en la que
las frases del resumen pueden ser diferentes a las de los documentos
originales.
Como se señaló en las líneas
anteriores, el análisis de textos abiertos en la investigación cualitativa es
un proceso creativo. El investigador explora y reflexiona sobre el significado
de los datos (Grodal et al., 2021). Las técnicas de
Resumen Automático de Textos, especialmente las que se desarrollan bajo
procedimientos de síntesis abstractiva (Oussalah,
2022), parecen cumplir una función similar. ¿Replican, en este sentido, la
tarea ‘típicamente’ humana de atribuir significado a datos objetivos? Realizar
esta tarea supondría ‘comprender’ a nivel lingüístico y semántico el lenguaje
generado por humanos.
Son escasos los estudios de
índole metodológico que han comparado los resultados de los procesos de
categorización realizados por humanos y la codificación y categorización
automática basada en Procesamiento de Lenguaje Natural. Guetterman
et al. (2018) diseñaron un estudio comparando los resultados obtenidos por
máquinas y humanos, llegando a la conclusión de que, aunque los métodos basados
en Procesamiento de Lenguaje Natural identificaron los temas principales de los
textos que habían sido encontrados con el análisis cualitativo tradicional,
fueron menos eficaces a la hora de identificar los matices. Towler et al.
(2022) llevaron a cabo un proceso de análisis temático no supervisado asistido
por ordenador con respuestas de texto libre de los usuarios de la intervención
de control de infecciones COVID-19 que permitió identificar temas latentes en
los textos. Los resultados fueron comparados con un proceso de codificación
humana-manual y se observó una gran coincidencia en los temas principales con
ligeras diferencias en algunos matices realizados por la codificación manual.
De entre los llamados
modelos de lenguaje extenso, entrenados previamente con grandes cantidades de
texto sin etiquetar con un objetivo de modelado de lenguaje, destacan los
modelos Generative Pre-trained Transformer.
La tercera versión de estos modelos (GPT-3), presentada en mayo de 2020 en su
versión beta y en julio de ese año en su versión final, fue particularmente
popular debido a su flexibilidad y facilidad de uso desde la API de OpenAI (Brown et al., 2020; Si et al., 2022). Los modelos
GPT son capaces de resumir textos, responder a preguntas, escribir ensayos,
traducir idiomas e incluso generar código como Python o HTML, lo que ha
supuesto un gran avance en las técnicas Procesamiento de Lenguaje Natural al
incorporar la Inteligencia Artificial Generativa al análisis del lenguaje
natural y ser capaz de crear contenido, en este caso de tipo textual, a través
de la aplicación de algoritmos de aprendizaje automático (Bajaj et al., 2022).
Utilizan un modelo de lenguaje generativo y autorregresivo de tipo no
supervisado, que toma una entrada y, utilizando el campo de la semántica para
entender el texto, intenta ofrecer una respuesta de texto coherente y con
sentido (Bajaj et al., 2022; Binz & Schulz,
2023). Esta herramienta es 10 veces mayor que otros modelos lingüísticos
previos. El término preentrenado indica que estos
modelos ya han sido alimentados con todos los datos necesarios para llevar a
cabo su tarea generativa (Binz & Schulz, 2023).
En concreto, GPT-3 se ha alimentado con unos 570 GB de información textual
recopilada rastreando Internet, WebText2. A finales del año 2022, OpenAI lanzó una herramienta específica de este modelo: ChatGPT (https://openai.com/blog/chatgpt/), que incorpora una sencilla interfaz web
que sigue el modelo imperativo, donde el usuario ingresa una solicitud y el chatbot devuelve resultados, todo en un contexto
multilingüe (García-Peñalvo, 2023).
Tal y como apuntan Xie et al. (2022), en la actualidad no existe una métrica
establecida para medir la calidad de los resultados generados por los diversos
métodos de interpretación del lenguaje natural existentes. Este es el hecho que
motiva la presente investigación, que tiene como objetivo analizar la capacidad
de comprensión verbal (escrita) de estas máquinas y su uso para tareas de
análisis de textos abiertos en investigación cualitativa.
2. Metodología
De forma similar a lo
realizado en experimentos previos (Dobrev, 2019),
hemos utilizado una prueba psicológica de comprensión verbal para humanos con
el fin de determinar el nivel del modelo text-davinci-003 de GPT-3 (a partir de
aquí, nos referiremos a él como GPT-3) comparado con un estándar en humanos.
Tal y como señala Dobrev (2019), todo lo que se
necesita para identificar los programas informáticos que son IA es someterlos a
una prueba y otorgarles esta denominación a aquellos que la superan. Es importante
que aclaremos que no nos planteamos aquí la pregunta de Turing: ¿pueden pensar
las máquinas? (Turing, 1950). Nuestra pregunta es diferente: ¿puede una máquina
entender una pregunta expresada con lenguaje natural humano? Utilizaremos la
estrategia de Turing afirmando que, si la respuesta de la máquina a nuestra
pregunta es similar a la de un ser humano, entonces podremos afirmar que la
máquina tiene la función de la comprensión verbal similar a la función
cognitiva de los humanos. En el presente estudio cuestionamos a la máquina con
un conjunto de preguntas preestablecidas que conforman el índice de Comprensión
Verbal de la conocida batería para la medición del cociente intelectual (CI):
WAIS-IV. La utilización de instrumentos de medición de la inteligencia o, más
concretamente, de medición CI para evaluar el rendimiento de las máquinas de IA
no es nueva (Dowe & Hernández-Orallo,
2012). En el año 1998 se publicó el primer artículo que introdujo el test de CI para evaluar la IA (Hernández-Orallo & Minaya-Collado, 1998). Detterman
(2011) propuso poner a prueba los programas informáticos mediante test de
inteligencia para personas. Wang et al. (2016) se plantearon cómo crear un
programa que pueda resolver test de inteligencia diseñados para humanos.
Recientemente, Binz & Schulz (2023) simularon el
comportamiento de la mente humana en GPT-3 con distintas tareas propias de la
psicología cognitiva: a) experimentos basados en tareas, y b) experimentos
basados en viñetas. En el segundo caso, se demostró que GPT-3 pudo resolver
problemas desafiantes basados en viñetas, aunque su comportamiento dependía en
gran medida de cómo se presenten las viñetas.
2.1. Instrumento de
evaluación: WAIS-IV
La Escala de Inteligencia de
Wechsler para Adultos (WAIS) es un instrumento estandarizado diseñado para
medir el cociente intelectual de personas de edades comprendidas entre los 16 y
los 89 años. La cuarta y, hasta la fecha, última edición del instrumento
(WAIS-IV) está compuesta de quince pruebas (diez principales y cinco
opcionales) mediante las cuales se pueden calcular, además del cociente
intelectual, cuatro índices: comprensión verbal, razonamiento perceptivo,
memoria de trabajo y velocidad de procesamiento. Para el presente trabajo se ha
empleado el índice de comprensión verbal (ICV) de la versión española del
WAIS-IV (Wechsler, 2012a, 2012b), el cual está formado por tres pruebas
principales: la prueba de semejanzas (S), la prueba de vocabulario (V) y la
prueba de información (I); y una opcional, la prueba de comprensión (CO). Las respuestas a los ítems de las pruebas de
semejanzas, vocabulario y comprensión se valoran con 2 puntos, 1 punto o 0
puntos, en función de las respuestas del individuo; mientras que las respuestas
en la prueba de conocimientos son valoradas con una puntación de 1 o 0. En
algunas respuestas imprecisas o poco claras, cabe la posibilidad de solicitar
más información al sujeto para poder considerarla correcta o incorrecta de una
forma más precisa (Wechsler, 2012a). Se han seguido las normas de aplicación de
cada una de las cuatro pruebas respecto al punto de comienzo, regla de retorno
y regla de terminación.
Una vez puntuados los ítems
aplicados, se ha calculado la puntuación directa (PD) de cada prueba y las
correspondientes puntuaciones escalares (PE) para cada rango de edad de acuerdo
con el manual de aplicación y corrección (Wechsler, 2012a, pp. 192-201). Con
ellas, se obtiene en valor del ICV (Wechsler, 2012a, p. 203). Además, este
baremo proporciona información sobre el percentil en el que se sitúa el sujeto.
En el presente trabajo se ha
calculado el ICV con todas las combinaciones posibles de las pruebas para cada
uno de los rangos de edad.
2.2. Instrumento de
análisis: el modelo text-davinci-003 de GPT-3
Se utiliza OpenAI Playground, una interfaz
basada en web de GPT-3. Se ha elegido el ajuste preestablecido de «Preguntas y
respuestas» (Q&A preset). Este sistema mantiene
el contexto de la conversación, lo que hace que esta interfaz sea mucho más
conversacional que otras (Bajaj et al., 2022).
El prompt
se ha definido con el texto literal que recoge el WAIS para cada una de las
pruebas. No se proporciona entrenamiento adicional, al margen de los ítems de
entrenamiento que describe el WAIS. El modelo permite decidir sobre varios
parámetros. Respecto los parámetros de response duration,
best of, frequency penalty y presence penalty, se han
utilizado los valores por defecto (Bajaj et al., 2022; Binz
& Schulz, 2023).
Los dos más relevantes para
el objetivo del estudio son temperature y Top_P. Ambos están relacionados con la creatividad de la
respuesta. Sus valores posibles oscilan entre 0 y 1. Dado que nuestro objetivo
es utilizar la máquina como herramienta de diagnóstico, es imprescindible que
la máquina sea fiable, es decir, que de un resultado idéntico cada vez que se
realice la misma pregunta. Por ello, se decidió optar por la estrategia más
conservadora fijando ambos parámetros en 0, limitando todo lo que la máquina
permite su posible creatividad (Binz & Schulz,
2023).
2.3. Procedimiento
El procedimiento de análisis
se llevó a cabo en dos fases.
En la primera fase, se
escribió en el playground la consigna que establece
el manual de aplicación del WAIS-IV para la prueba de semejanzas (S) («Ahora le
voy a decir dos palabras y a preguntarle en qué se parecen») seguida de la
pregunta correspondiente al ítem de ejemplo: «¿En qué se parecen dos y siete?».
Seguidamente, se introdujo un salto de línea o intro.
Finalmente, se hizo clic en el botón submit,
obteniendo el resultado correspondiente al primer ítem. Según las instrucciones
del WAIS-IV, en función de las respuestas obtenidas, se deben realizar
preguntas de aclaración o profundización (P) mediante la consigna «¿Puede
decirme algo más?» para otorgar la puntuación correspondiente. Es importante
señalar que el modelo text-davinci-003 contesta a la segunda pregunta teniendo
en cuenta el contexto de la primera y su propia respuesta, por lo que el
procedimiento es idéntico al previsto en la prueba para humanos.
Para describir la fiabilidad
de las respuestas, se replicó tres veces la misma acción, analizando el grado
de variación en las respuestas. Asimismo, se comprobó que los resultados eran
idénticos si esta prueba se realizaba desde equipos e IPs
diferentes.
En la segunda fase, se
procedió a replicar el proceso de la primera fase con las siguientes
variaciones en el prompt del playground:
·
Dos
saltos de línea después del ítem y de la pregunta de aclaración.
·
Dos
saltos de línea después del ítem y de la pregunta de aclaración y escribiendo
en letras mayúsculas los conceptos clave a comparar.
·
Dos
saltos de línea después del ítem y de la pregunta de aclaración y escribiendo
la totalidad del texto en letras mayúsculas.
Estas pruebas nos han
permitido determinar que el procedimiento que obtuvo una mayor puntuación según
lo establecido en el manual de aplicación y corrección del WAIS fue aplicar dos
saltos de línea después de la pregunta inicial y de la pregunta de aclaración,
escribiendo la totalidad del texto en letras mayúsculas. Con este formato se
realizaron el resto de las pruebas del índice de comprensión verbal del WAIS-IV
de las que se ofrecen los resultados. No obstante, las escasas diferencias
encontradas en las puntuaciones permiten afirmar que escribir las preguntas en
minúsculas e incluir un único salto de línea ofrece resultados de fiabilidad y
validez suficientemente altos.
3. Análisis y resultados
3.1. Fiabilidad
Se puede afirmar que la
fiabilidad del modelo text-davinci-003, utilizando el procedimiento y
parámetros descritos en el apartado anterior es del 100%. Aunque con los
resultados iniciales puedan parecer menores, tal y como se puede comprobar, se
producen pequeñas variaciones de expresión en los resultados que no afectan al
significado.
En el 92.59% de los casos,
la respuesta dada por el modelo fue idéntica para cada opción probada y sus
posteriores réplicas. En las pruebas de información (I) y comprensión (CO), la
fiabilidad fue del 100%. En la prueba de semejanzas, el porcentaje de fiabilidad
fue del 86.66% (13 de 15 ítems aplicados), mientras que en la prueba de
vocabulario (V) se situó en 84.61% (22 de 26 ítems aplicados). En la Figura 1
se presenta un ejemplo de ítem de la prueba de vocabulario (V) en la que,
siguiendo el mismo procedimiento, se obtienen respuestas diferentes. En este
ejemplo, se puedo comprobar cómo son expresiones no idénticas con idéntico
significado, lo que nos lleva a la afirmación sobre la fiabilidad total del
modelo.
Figura 1
Aplicación
y respuesta (y posterior réplica) del ítem 13 de vocabulario
3.2. Nivel de comprensión
verbal
En la Tabla 1 se pueden
observar las PD y las PE obtenidas por el modelo text-davinci-003 en cada una
de las cuatro pruebas del ICV.
Tabla 1
PD y
PE por rangos de edad
Prueba |
PD |
PE por rangos de edad |
|||||||||
16-17 |
18-19 |
20-24 |
25-34 |
35-44 |
45-54 |
55-69 |
70-79 |
80-84 |
85-89 |
||
Semejanzas (S) |
30 |
18 |
18 |
17 |
17 |
17 |
17 |
19 |
19 |
19 |
19 |
Vocabulario (V) |
52 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
Información (I) |
24 |
19 |
19 |
18 |
17 |
16 |
16 |
17 |
19 |
19 |
19 |
Comprensión (CO) |
36 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
La PD obtenida en la prueba
de semejanzas (S) es de 30 puntos sobre 36 posibles. El modelo alcanza la
máxima puntuación (2) en catorce de los dieciocho ítems puntuables, mientras
que en dos ítems la puntuación es de 1 y en dos ítems es de 0. A modo de
ejemplo, se puede observar en la Figura 2 la aplicación del ítem 10 de la
prueba, a cuya respuesta se le otorga la puntuación máxima de 2 puntos.
Figura 2
Aplicación
y respuesta del ítem 10 de semejanzas
En la prueba de vocabulario
(V), obtiene una puntuación de 52 sobre 57 puntos, alcanzando la máxima puntuación
en 27 de los 30 ítems; mientras que en un ítem obtiene una puntuación de 1 y en
dos ítems una puntuación de 0. En la Figura 3 se puede observar el ítem 11, en
el que se obtiene la puntuación intermedia (1) y cuya respuesta requirió de una
pregunta de aclaración.
Figura 3
Aplicación
y respuesta del ítem 11 de vocabulario
En la prueba de información
(I), el modelo obtuvo una puntuación de 24 sobre 26 puntos posibles, fallando
en los ítems 14 («¿Por qué es famoso Fleming?») y 23 («¿Cuál es el órgano del
cuerpo humano más grande?»). Sin embargo, en ambos casos, los autores del
presente trabajo, consideramos que las respuestas deben considerarse válidas,
lo que elevaría la puntuación a 26 sobre 26. En el caso del ítem 14, no se
especifica que la pregunta se refiera a Alexander Fleming, descubridor de la
penicilina, por lo que la respuesta del modelo hace referencia a Ian Fleming,
creador de la saga de novelas de James Bond (ver Figura 4). En el caso del ítem
23, la respuesta del modelo interpretó como “grande” el órgano más pesado del
cuerpo, el hígado, y no el más extenso, la piel, que es la respuesta correcta
según el manual de aplicación y corrección del instrumento. En ambos casos, se
realizó una prueba posterior añadiendo el nombre de Alexander en el ítem 14
(«¿Por qué es famoso Alexander Fleming?») y sustituyendo el adjetivo ‘grande’
por ‘extenso’ en el ítem 23 («¿Cuál es el órgano del cuerpo humano más
extenso?»), obteniendo el modelo la máxima puntuación en ambos casos.
Figura 4
Aplicación
y respuesta del ítem 14 de información
Por último, en la prueba optativa
de comprensión (CO), el modelo alcanzó la máxima puntuación en todos los ítems,
si bien en el ítem 16 (¿Por qué cuesta más un terreno en la ciudad que en el
campo?) se necesitó la pregunta de aclaración para obtener los 2 puntos.
Una vez recogidas las PD y
convertidas a PE, se obtuvo la suma de las PE para cada uno de los rangos de
edad, teniendo en cuenta las cuatro combinaciones de pruebas posibles para
calcular la puntuación compuesta del ICV, así como el percentil en el que se
sitúa el modelo. En la Tabla 2, se puede observar que el ICV del modelo
text-davinci-003 se sitúa entre 143 (puntuación únicamente obtenida en los
rangos de edad de 35-44 años y 45-54 años) y los 150 (máxima puntuación
posible), por lo que el modelo obtiene la clasificación considerada de ‘muy
superior’ (Wechsler, 2012b). En todos los casos, el modelo se sitúa en el
percentil 99.8 o superior, alcanzando un percentil mayor de 99.9 en la
totalidad de las combinaciones de pruebas en los intervalos de edad de 16 a 19
años y de 55 a 89 años, lo que quiere tiene un nivel de comprensión verbal
superior al 99.9% de los humanos. Asimismo, el modelo obtiene las máximas
puntuaciones compuestas de ICV (y, por lo tanto, se sitúa en un percentil
superior a 99.9) en la combinación de las pruebas de semejanzas (S),
vocabulario (V) y comprensión (CO) en todos los rangos de edad.
Tabla 2
Conversión
de la suma de las PE a ICV y sus percentiles
Rangos de edad |
Pruebas |
Suma
PE |
ICV |
Percentiles |
16-17 años 18-19 años |
S, V, I |
56 |
150 |
>99.9 |
S, V, CO |
56 |
150 |
>99.9 |
|
S, I, CO |
56 |
150 |
>99.9 |
|
V, I, CO |
57 |
150 |
>99.9 |
|
20-24 años |
S, V, I |
54 |
147 |
99.9 |
S, V, CO |
55 |
150 |
>99.9 |
|
S, I, CO |
54 |
147 |
99.9 |
|
V, I, CO |
56 |
150 |
>99.9 |
|
25-34 años |
S, V, I |
53 |
145 |
99.9 |
S, V, CO |
55 |
150 |
>99.9 |
|
S, I, CO |
53 |
145 |
99.9 |
|
V, I, CO |
55 |
150 |
>99.9 |
|
35-44 años 45-54 años |
S, V, I |
52 |
143 |
99.8 |
S, V, CO |
55 |
150 |
>99.9 |
|
S, I, CO |
52 |
143 |
99.8 |
|
V, I, CO |
54 |
147 |
99.9 |
|
55-69 años |
S, V, I |
55 |
150 |
>99.9 |
S, V, CO |
57 |
150 |
>99.9 |
|
S, I, CO |
55 |
150 |
>99.9 |
|
V, I, CO |
55 |
150 |
>99.9 |
|
70-79 años 80-84 años 85-89 años |
S, V, I |
57 |
150 |
>99.9 |
S, V, CO |
57 |
150 |
>99.9 |
|
S, I, CO |
57 |
150 |
>99.9 |
|
V, I, CO |
57 |
150 |
>99.9 |
4. Discusión y
conclusiones
Parafraseando a Turing (1950),
el modelo text-davinci-003 del GPT-3 entiende las preguntas expresadas en
lenguaje natural y lo sabemos por el análisis de las respuestas que nos da. De
acuerdo con las pruebas utilizadas, ha demostrado tener un nivel de comprensión
verbal máximo comparado con los estándares humanos. La fiabilidad y validez de
los resultados obtenidos demuestran que es posible utilizar este modelo de IA
como herramienta para el análisis de textos. Es decir, es posible codificar
textos de forma válida y fiable. Sin embargo, su flexibilidad, deseable en su
función más creativa, debe ser limitada al máximo en su función analítica. Para
ello es imprescindible tener en cuenta los siguientes resultados.
En primer lugar, GPT-3
analiza todo el texto que le proporcionas cada vez y mantiene en su memoria el
contexto de toda la sesión de preguntas. Por ello, para el análisis de textos
independientes deben introducirse uno a uno para obtener el resultado sin riesgo
de sesgos de contexto. Si le haces dos preguntas a la vez, la respuesta a cada
una de ellas estará afectada por la otra pregunta que se ha hecho.
En segundo lugar, pequeñas
variaciones en la forma de preguntar provocan diferentes respuestas. Lo hemos
comprobado al usar mayúsculas y minúsculas, o introducir diferentes saltos de
línea después de la pregunta. En los resultados ofrecemos la opción que mejores
puntuaciones han obtenido, pero lo que debe inferirse aquí no es mantener estas
opciones, sino que siempre deben hacerse pruebas hasta encontrar el prompt adecuado al tipo de análisis que quiera hacerse y
mantenerlo en todo el análisis para que ofrezca la fiabilidad y validez
exigible en cada estudio. Se ha comprobado que, si se utiliza un mismo prompt con los parámetros de temperature
y Top P a cero, en línea con lo realizado en estudios similares (Binz & Schultz, 2023), la máquina ofrece una fiabilidad
del 100%.
En tercer lugar, el nivel de
comprensión verbal es superior al de los humanos. Sin embargo, su contexto se
limita a lo aprendido en los entrenamientos y al prompt
que se utilice. Esto puede provocar lo que podemos considerar fallos de
interpretación. Hemos dado el ejemplo de su respuesta a quién es Fleming. Por
ello, es necesario ofrecer un contexto suficiente para que la máquina
identifique el ámbito en el que se debe encontrar su respuesta buscada (Guetterman et al., 2018).
En cuarto lugar, la máquina
ha sido entrenada para tener una funcionalidad de conversación, véase al
respecto el estudio comparativo realizado por Tack y Piech (2022) sobre la habilidad conversacional de esta
máquina en comparación con un maestro, y no para tener conocimiento preciso de
diversos campos. Sin embargo, los textos utilizados han proporcionado
conocimiento suficiente para obtener máximas puntuaciones en las pruebas de
información. Esto implica que su grado de cultura general, por así llamarlo, también
es superior a la mayoría de los humanos. Una vez más, debe insistirse en que
debe ser controlada esta funcionalidad dado que, al igual que con los humanos,
puede ser una posible fuente de sesgo.
En quinto lugar, sabemos que
el nivel de comprensión verbal es diferente en función de la edad. Sin embargo,
hemos comprobado que dicho nivel es máximo para un amplio rango de edad. En
nuestro caso, ofrecemos los datos para edades entre 16 y 89 años (los
establecidos por la prueba utilizada). Esto permite utilizar la máquina
independientemente de la edad de los autores de los textos. Debe ampliarse este
estudio para comprobar si mantiene su nivel de comprensión en textos elaborados
por sujetos hasta los 16 años.
Por último, mencionaremos
que no disponemos de evidencias que permitan realizar afirmaciones sobre los
resultados en otras lenguas, pero es muy plausible la hipótesis de que aquellas
lenguas de las que se hayan utilizado una cantidad similar de textos a la
española tengan resultados similares.
En síntesis, el objetivo de
este estudio es analizar la capacidad de comprensión verbal (escrita) del
modelo text-davinci-003 de GPT-3 y su uso para tareas de análisis de textos
abiertos en investigación cualitativa. Como conclusión, podemos afirmar que el
nivel de compresión verbal establecido en las pruebas utilizadas y su
fiabilidad permite su uso como herramienta para el análisis de textos abiertos
y abre enormes posibilidades a su uso en este tipo de investigación.
Este uso debe basarse en una
utilización precisa y diseñada ad hoc para cada proceso de análisis: hay que
elegir el corpus a analizar y los procedimientos de análisis de la misma manera
que lo hacemos para procedimientos no asistidos por máquinas. Son posibles
estrategias deductivas (con sistemas de categorías previamente definido) o
inductivas (estableciendo categorías sobre las agrupaciones de textos
realizadas por las máquinas), pero todas deben cumplir las mismas garantías
metodológicas que en análisis no asistidos.
El hecho de que la máquina
ofrezca sus respuestas utilizando elementos de contexto hace, al igual que
sucede con un analista humano, que estos elementos actúen como aquellos que
aumenten la precisión y también como elementos que provoquen sesgos. La forma
de preguntar condiciona la respuesta: pero este problema no es específico de
las IA. Por ello, todos los sistemas de control de calidad, fiabilidad y
validez (Williams & Morrow, 2009) de los análisis
habitualmente utilizados en investigación cualitativa deben seguir formando
parte del método de estudios asistidos por las máquinas.
Mientras que, hasta ahora,
en el análisis de textos abiertos se ha trabajado con corpus con unos pocas
decenas o cientos de documentos, actualmente podemos plantearnos miles o
cientos de miles (Longo, 2020; Mills, 2019). Es un salto muy relevante, dado que
una de las principales críticas a los estudios cualitativos siempre ha sido la
calidad de sus muestras reducidas y sus limitaciones para generalizar las
conclusiones.
Las aplicaciones de esta
herramienta de análisis para las ciencias sociales son enormes, desde el
análisis de respuestas abiertas en encuestas o entrevistas, la identificación
de temas tratados en redes sociales o la utilización como un juez más para analizar
la consistencia interna de procesos de codificación.
Somos conscientes de los
riesgos de utilizar estas IA para la toma de decisiones. Por ello, nuestro
enfoque es utilizarlas como una herramienta más de análisis, pero manteniendo
todas las garantías que la investigación en ciencias sociales ha ido depurando
a lo largo de años. Los riesgos no deben frenar su uso, pero deben maximizar
los sistemas de control de calidad de sus resultados. Esta tecnología nos
obliga, como afirmaba Turing, a recorrer múltiples opciones, que deben ser
probadas, no asumidas sin crítica (García-Peñalvo et al., 2023).
Si superamos la fascinación
inicial de lo creativas que son estas máquinas y las cosas tan asombrosas que
nos responden, podremos centrarnos en usar una de sus funcionalidades
específicas (la comprensión de textos) para aumentar nuestra capacidad de análisis
y de explicación de los fenómenos sociales, lo que permitirá encontrar, de
forma más ajustada y rápida, las soluciones útiles que necesitamos.
5. Financiación
Proyecto titulado «El uso de
la IA en el análisis de redes informales sociales para la orientación en
Educación Superior.» (Ref. PID2021-125405NB-I00), dentro de la convocatoria de
Proyectos de Generación de Conocimiento (BOE, 13 de noviembre de 2022) en el
marco del Programa Estatal para Impulsar la Investigación Científico-Técnica y
su Transferencia del Plan Estatal de Investigación Científica, Técnica y de
Innovación 2021-2023 (Identificador de la convocatoria en la Base de Datos
Nacional de Subvenciones ID BDNS: 590214).
Using OpenAI’s GPT Model to Analyse Open Texts in Educational Research
1. Introduction
“We can only see a short
distance ahead, but we can see plenty there that needs to be done.” (Turing, 1950, p. 460).
Qualitative research involves
an approach to social phenomena from the inside, analysing individuals'
experiences and social interactions (Aspers & Corte, 2019; Cohen et al.,
2018; Hammersley, 2013). Content analysis, a method commonly applied to
qualitative data, typically requires preliminary categorisation of data
according to patterns and trends discovered after repeated reading (Grodal et
al., 2021). This process is done via coding—which is a method of organising
data by assigning descriptive labels to blocks of information—using techniques
such as linking, grouping, or aggregating to support the extraction and
formulation of meaning (Longo, 2020; Williams & Moser, 2019). As Grodal et
al. (2021) noted, as the researcher codes and categorizes, they elevate the
conceptual level of the analysis from mere description to a more abstract or
theoretical level. The researcher's ability to interpret the data and present
their findings clearly makes qualitative research helpful. Analysing
qualitative data is a time-consuming, complex process, which is one reason why
researchers usually work with small samples (Flick, 2018; Longo, 2020).
However, researchers have highlighted the importance of the quantity and
quality of data, noting that the volume of information handled is critical to
supporting categories or themes, understanding their richness and complexity,
and strengthening the reliability of the findings (Williams & Morrow,
2009).
One common strategy in
qualitative research is analysing open texts. Nowadays, a significant
proportion of human social interaction is generated and transmitted through
texts in digital information networks (Cope & Kalantzis, 2015; Mills,
2019). Text-based data accumulates in large volumes, forming a significant
source of information for qualitative researchers (Golder & Macy, 2011;
Shlomo & Goldstein, 2015). However, it is impossible for qualitative
researchers to manually collect and analyse the hundreds of thousands of
records that can be produced from these sources (Longo, 2020).
Computer-assisted qualitative data analysis software has become a valuable tool
in the research process. Most of these tools have functions that allow
researchers to operate on information, aiding in identifying codes, dividing
the data, storing data snippets by code, and organising these codes into a
structure, significantly reducing the time researchers need to spend. Moreover,
they have recently incorporated utilities for analysis based on word occurrence
(Silver & Lewins, 2014). However, these applications are not analytical
tools. Most require the data to be entered into a word processing package that
the analyst must still read and code. This task remains one of the most
time-consuming phases of qualitative data analysis (Bail, 2014) and the
time-saving elements these tools offer come later, in data search and retrieval
(Cypress, 2019).
Artificial
Intelligence-assisted thematic analysis techniques (Towler et al., 2022),
especially those based on Natural Language Processing (Guetterman et al.,
2018), are making significant advances by enabling examination of phrases,
searching for meaning groups beyond words, adapting to account for slang and
informal grammar, and determining sentiment (Carriere et al., 2021; Chang et
al., 2021; Rezaeenour et al., 2022). The utilities
where Natural Language Processing is currently most developed are Word-Sense
Disambiguation, Text Argumentation Theory, Sentiment Analysis, Topic Modelling,
and Automatic Textual Summarization (Oussalah, 2022).
Given the goal of our research, the last two are of particular interest. Topic
Modelling is an unsupervised machine learning technique capable of detecting
patterns of words and phrases within a set of texts and automatically grouping
them. The mix's topics and parameters are unknown and inferred solely from the
data, where each topic is represented by its most probable words. The second,
Automatic Textual Summarization, aims to summarise the main content of a
document using two synthesis procedures: a) extractive synthesis, which uses a
selection of phrases from the original document considering the similarity of
the phrases, location, or presence of selected keywords; and b) abstractive
synthesis, where the summary phrases may be different from those in the
original documents.
As mentioned above, analysing
open texts in qualitative research is a creative process. The researcher
explores and reflects on the meaning of the data (Grodal et al., 2021).
Automatic Textual Summarisation techniques fulfil a similar function, especially
those which use abstractive synthesis procedures (Oussalah,
2022). In this sense, do they replicate the 'typically' human task of
attributing meaning to objective data? To perform this task would mean to
'understand' the language generated by humans at a linguistic and semantic
level.
Few methodological studies
have compared the results of human categorisation processes and automatic
coding and categorisation based on Natural Language Processing. Guetterman et
al. (2018) designed a study comparing the results obtained by machines and humans,
concluding that although Natural Language Processing-based methods identified
the main themes of the texts found with traditional qualitative analysis, they
were less effective in identifying nuances. Towler et al. (2022) conducted a
computer-assisted unsupervised thematic analysis process with free-text
responses from users of the COVID-19 infection control intervention, which
allowed identification of latent themes in the texts. The results were compared
with a human-manual coding process, and there was good agreement in the main
themes, with slight differences in some nuances made by manual coding.
Generative Pre-trained
Transformer models stand out among many language models—pre-trained with large
amounts of unlabelled text for language modelling purposes. The third version
of these models (GPT-3), the beta version of which was presented in May 2020
and the final version in July the same year, was prevalent due to its
flexibility and ease of use through OpenAI's API (Brown et al., 2020; Si et
al., 2022). GPT models can summarise texts, answer questions, write essays,
translate languages, and even generate code like Python or HTML. This
represents a significant advance in Natural Language Processing techniques by
incorporating Generative Artificial Intelligence into the analysis of natural
language and being able to create content—in this case textual—through the
application of machine learning algorithms (Bajaj et al., 2022). They use an
unsupervised, generative, autoregressive language model, which takes input and,
using the field of semantics to understand the text, tries to offer a coherent,
meaningful text response (Bajaj et al., 2022; Binz & Schulz, 2023). This
tool is ten times larger than previous linguistic models. The term pre-trained
indicates that these models have already been fed all the necessary data for
their generative task (Binz & Schulz, 2023). Specifically, GPT-3 has been
fed about 570 GB of textual information collected by scanning the Internet,
WebText2. At the end of 2022, OpenAI launched a specific tool for this model:
ChatGPT (https://openai.com/blog/chatgpt/), which incorporates a simple web
interface that follows the imperative model, where the user enters a request,
and the chatbot returns results, all in a multilingual context (García-Peñalvo, 2023).
As Xie et al. (2022) pointed
out, there is currently no established metric to measure the quality of the
results generated by the various existing methods of natural language
interpretation. That was the motivation behind the present study, which aims to
analyse these machines' verbal (written) comprehension capacity and their use
for analysing open texts in qualitative research.
2. Methodology
Similarly to previous experiments (Dobrev, 2019), we used a psychological test of
verbal comprehension for humans in order to determine the level of the GPT-3’s
text-davinci-003 model (from now on referred to as GPT-3) compared to a human
standard. As Dobrev (2019) indicated, all that is needed to identify computer
programs that are AI is to subject them to a test and grant this designation to
those that pass it. It is essential to clarify that we are not posing Turing's
question: can machines think? (Turing, 1950). Our question is different: Can a
machine understand a question expressed in a human's natural language? We will
use Turing's strategy, stating that if the machine's response to our question
is similar to that of a human, then we can say that
the machine has the function of verbal comprehension similar to the cognitive
function of humans. In the present study, we asked the machine the
pre-established questions that make up the Verbal Comprehension Index in the
well-known battery for measuring IQ: WAIS-IV. The use of intelligence
measurement instruments or, more specifically, IQ measurement to assess the
performance of AI machines is not new (Dowe & Hernández-Orallo, 2012): the
first study to use the IQ test to evaluate AI was in 1998 (Hernández-Orallo
& Minaya-Collado, 1998). Detterman (2011) proposed testing computer
programs with intelligence tests for people. Wang et al. (2016) considered how
to create a program that can solve intelligence tests designed for humans.
Recently, Binz & Schulz (2023) simulated the behaviour of the human mind in
GPT-3 with different tasks from cognitive psychology: a) experiments based on
tasks and b) experiments based on vignettes. The second case demonstrated that
GPT-3 could solve challenging problems based on vignettes, although its
behaviour depended greatly on how they were presented.
2.1. Assessment instrument:
WAIS-IV
The Wechsler Adult
Intelligence Scale (WAIS) is a standardised instrument designed to measure the
intelligence quotient of individuals aged 16 to 89 years old. The fourth, and
to date latest, edition of the instrument (WAIS-IV) consists of fifteen tests (ten
primary and five optional) that allows four indices to be calculated in
addition to the intelligence quotient: verbal comprehension, perceptual
reasoning, working memory, and processing speed. For the present study, we used
the Verbal Comprehension Index (VCI) from the Spanish version of the WAIS-IV
(Wechsler, 2012a, 2012b), which is composed of three main tests: the
Similarities test (S), the Vocabulary test (V), and the Information test (I);
and one optional test, the Comprehension test (CO). Responses to the items in
the Similarities, Vocabulary, and Comprehension tests are scored with 2 points,
1 point, or 0 points, depending on the individual's responses, while the
responses in the Information test are scored with 1 or 0. In some imprecise or
unclear responses, subjects can be asked for more information before scoring
their response more accurately (Wechsler, 2012a). The norms of application for
each of the four tests in terms of starting point, return rule, and termination
rule were followed.
Once the items were scored,
the direct score (DS) for each test and the corresponding scaled scores (SS)
for each age range were calculated according to the application and correction
manual (Wechsler, 2012a, pp. 192-201). These scores produce the VCI (Wechsler,
2012a, p. 203). In addition, the scale provides information about the
percentile the subject is in.
In the present study, the VCI
was calculated with all possible combinations of tests for each age range.
2.2. Analysis instrument: the
text-davinci-003 model of GPT-3
The study used OpenAI
Playground, a web-based interface of GPT-3, with the "Questions and
Answers" (Q&A) pre-set setting chosen. This maintains the conversation
context, making this interface more conversational than others (Bajaj et al., 2022).
The prompt was defined with
the literal text that the WAIS provides for each test. No additional training was
provided apart from the training items described by the WAIS. The model allows
decisions on various parameters. The default values were used for the response
duration, best of, frequency penalty, and presence penalty parameters (Bajaj et
al., 2022; Binz & Schulz, 2023).
The most important two
parameters for the study objective are temperature and Top_P.
Both are related to the creativity of the response. Possible values range from
0 to 1. Given that our objective is to use the machine as a diagnostic tool, it
must be reliable, giving an identical result each time
the same question is asked. Therefore, the most conservative strategy was
chosen, setting both parameters to 0, limiting the machine's potential
creativity (Binz & Schulz, 2023).
2.3. Procedure
The analysis procedure had two
phases. In the first phase, the instruction from the WAIS-IV application manual
for the Similarities test (S) ("Now I am going to tell you two words and
ask you how they are similar") was written in the playground, followed by
the question corresponding to the example item: "How are two and seven
similar?". Then, a line break or return was entered. Finally, the submit
button was clicked, producing the result corresponding to the first item.
According to the WAIS-IV instructions, depending on the responses,
clarification or expansion questions must be asked using the instruction
"Can you tell me anything more?" to award the corresponding score. It
is important to note that the text-davinci-003 model answers the second
question considering the context of the first and its response, so the
procedure is identical to that envisaged in the test for humans.
To describe the reliability of
the responses, the same action was replicated three times, analysing the degree
of variation in the responses. We also checked that the results were identical
if the test was done using different computers and IP addresses.
In the second phase, the same
process as the first phase was replicated, with the following variations in the playground prompt:
·
Two line breaks after the item
and the clarification question.
·
Two line breaks after the item
and the clarification question and writing the key concepts to be compared in
capital letters.
·
Two line breaks after the item
and the clarification question and writing the entire text in capital letters.
These tests allowed us to
determine that the procedure that achieved the highest score according to the
WAIS application and correction manual was to apply two line breaks after the
initial question and the clarification question and write the entire text in
capital letters. The rest of the WAIS-IV verbal comprehension index tests were
conducted using this format, producing the results described below. However,
the small differences in the scores mean that we can say that writing the
questions in lowercase and including a single line break offers high
reliability and validity.
3. Analysis and Results
3.1. Reliability
The reliability of the
text-davinci-003 model—using the procedure and parameters described in the
previous section—was 100%. Although the initial results may seem lower, minor
variations in expression did not affect the meaning.
In 92.59% of cases, the
model’s response was identical for each option tested and its subsequent
replicas. The reliability of the information (I) and comprehension (CO) tests
was 100%. In the similarities (S) test, the reliability percentage was 86.66% (13
out of 15 items), while in the Vocabulary (V) test, it was 84.61% (22 out of 26
items applied). Figure 1 presents an example of a vocabulary test item which
produced different responses following the same procedure. In this example,
they are non-identical expressions with identical meanings, leading us to state
the model's complete reliability.
Figure 1
Application and response (and
subsequent replica) to item 13 in the vocabulary test
3.2. Validity: Level of verbal
comprehension
Table 1 shows the DS and SS
obtained by the text-davinci-003 model in the four VCI tests.
Table 1
DS y SS by age ranges
Test |
DS |
SS by
age ranges |
|||||||||
16-17 |
18-19 |
20-24 |
25-34 |
35-44 |
45-54 |
55-69 |
70-79 |
80-84 |
85-89 |
||
Similarities (S) |
30 |
18 |
18 |
17 |
17 |
17 |
17 |
19 |
19 |
19 |
19 |
Vocabulary (V) |
52 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
Information (I) |
24 |
19 |
19 |
18 |
17 |
16 |
16 |
17 |
19 |
19 |
19 |
Comprehension (CO) |
36 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
19 |
The DS in the Similarities (S)
test was 30 points out of 36. The model achieved the maximum score (2) in
fourteen of the eighteen scoreable items, while the score was 1 in two items
and 0 in two. For example, Figure 2 shows the application of item 10, which
achieved the maximum score of 2 points.
Figure 2
Application and response to
item 10 in the similarities test
In the vocabulary (V) test,
the model scored 52 out of 57 points, achieving the maximum in 27 of the 30
items. In one item it scored 1, while in two items it scored 0. Figure 3 shows
item 11, where it had an intermediate score (1) and where the response required
a clarification question.
Figure 3
Application and response to
item 11 in the vocabulary test
In the information (I) test,
the model scored 24 out of 26 possible points, failing in items 14 ("Why
is Fleming famous?") and 23 ("What is the largest organ of the human
body?"). However, in both cases, we believe that the responses should be
considered valid, which would raise the score to 26 out of 26. In the case of
item 14, it is not specified that the question refers to Alexander Fleming,
discoverer of penicillin, and the model's response refers to Ian Fleming,
creator of James Bond (see Figure 4). In the case of item 23, the model's
response interpreted "largest" as the heaviest organ of the body, the
liver, and not the most extensive, the skin, which is the correct answer
according to the instrument application and correction manual. In both cases, a
subsequent test was conducted by adding the name Alexander in item 14
("Why is Alexander Fleming famous?") and replacing the adjective
'large' with 'extensive' in item 23 ("What is the most extensive organ of
the human body?"), with the model scoring the maximum in both cases.
Figure 4
Application and response to item
14 in the information test
Finally, in the optional
comprehension (CO) test, the model achieved the maximum score in all items,
although in item 16 ("Why is land more expensive in the city than in the
country?"), a clarification question was needed to obtain the 2 points.
Once the DS were collected and
converted to SS, the sum of the SS for each age range was calculated,
considering the four possible combinations of tests to calculate the composite
VCI score and the percentile the model was in. Table 2 shows that the VCI of
the text-davinci-003 model ranged between 143 (a score only obtained in age
ranges 35-44 years and 45-54 years old) and 150 (maximum possible score),
meaning that the model was classified as 'very superior' (Wechsler, 2012b). In
all cases, the model was in the 99.8 percentile or higher, reaching higher than
the 99.9 percentile in all test combinations in the age ranges 16 to 19 and 55
to 89 years old. This means it has a higher level of verbal comprehension than
99.9% of humans. Likewise, the model achieved the maximum composite VCI scores
(and, therefore, is in a percentile above 99.9), and a 'very superior'
classification (Wechsler, 2012b). In all cases, the model was placed in the
99.8 percentile or higher, reaching higher than a 99.9 percentile in all combinations
of tests in the age ranges 16 to 19 and 55 to 89 years old, indicating that it
has a higher level of verbal comprehension than 99.9% of humans. Furthermore,
the model achieved the maximum composite VCI scores (and therefore is in a
percentile above 99.9) in the combination of similarities (S), vocabulary (V),
and comprehension (CO) tests across all age ranges.
Table 2
Conversion of the sum from SS to VCI and its percentiles
Age
ranges |
Test |
SS sum |
VCI |
Percentiles |
16-17 years 18-19 years |
S, V, I |
56 |
150 |
>99.9 |
S, V, CO |
56 |
150 |
>99.9 |
|
S, I, CO |
56 |
150 |
>99.9 |
|
V, I, CO |
57 |
150 |
>99.9 |
|
20-24 years |
S, V, I |
54 |
147 |
99.9 |
S, V, CO |
55 |
150 |
>99.9 |
|
S, I, CO |
54 |
147 |
99.9 |
|
V, I, CO |
56 |
150 |
>99.9 |
|
25-34 years |
S, V, I |
53 |
145 |
99.9 |
S, V, CO |
55 |
150 |
>99.9 |
|
S, I, CO |
53 |
145 |
99.9 |
|
V, I, CO |
55 |
150 |
>99.9 |
|
35-44 years 45-54 years |
S, V, I |
52 |
143 |
99.8 |
S, V, CO |
55 |
150 |
>99.9 |
|
S, I, CO |
52 |
143 |
99.8 |
|
V, I, CO |
54 |
147 |
99.9 |
|
55-69 years |
S, V, I |
55 |
150 |
>99.9 |
S, V, CO |
57 |
150 |
>99.9 |
|
S, I, CO |
55 |
150 |
>99.9 |
|
V, I, CO |
55 |
150 |
>99.9 |
|
70-79 years 80-84 years 85-89 years |
S, V, I |
57 |
150 |
>99.9 |
S, V, CO |
57 |
150 |
>99.9 |
|
S, I, CO |
57 |
150 |
>99.9 |
|
V, I, CO |
57 |
150 |
>99.9 |
4. Discussion y conclusions
Paraphrasing Turing (1950), the
text-davinci-003 model of GPT-3 understands questions expressed in natural
language, and we know this by analysing the responses it gave. According to the
tests used in the study, it has demonstrated a very high level of verbal
comprehension compared to human standards. The reliability and validity of the
results demonstrate that it is possible to use this AI model as a tool for text
analysis. That is, it is possible to code texts validly and reliably. However,
its flexibility, desirable in its more creative functions, must be maximally
limited in its analytical function. For this, it is essential to consider the
following results.
Firstly, GPT-3 analyses all
the text provided each time and kept the context of the entire question session
in memory. Therefore, for analysis of independent texts, they must be entered
separately to obtain a result without the risk of context biases. If two
questions are asked simultaneously, the answer to one will be affected by the
other.
Secondly, minor variations in
the way questions are asked cause different responses. We verified this by
using uppercase and lowercase letters or entering different line breaks after
the question. In the results, we offer the option that produced the best
scores, but the takeaway here is not to just use these options, but rather
always conduct tests until the appropriate prompt is found for the type of
analysis to be done and to maintain it throughout the analysis so that it
offers the reliability and validity required in each study. We verified that if
the same prompt is used with the temperature and Top P parameters set to zero,
in line with what similar studies have done (Binz & Schultz, 2023), the
machine offers 100% reliability.
Thirdly, the level of verbal
comprehension is greater than that of humans. However, its context is limited
to what it learned in training and the prompt used. This limitation can lead to
what we might consider interpretation errors. We gave the example of its
response to who Fleming is. Sufficient context is needed for the machine to
identify what field the desired response is in (Guetterman et al., 2018).
In addition, the machine has
been trained for conversational functionality. See the comparative study by
Tack and Piech (2022) on this machine's conversational ability compared to a
teacher and not having precise knowledge of various fields. However, the texts
used provided sufficient knowledge to achieve maximum scores in the information
tests. This good result implies that its degree of general culture is also
greater than most humans. Once again, it must be emphasised that this
functionality must be controlled, as, like humans, it can be a potential source
of bias.
Furthermore, we know that
verbal comprehension levels vary according to age. However, we found that the
model demonstrated the maximum level for a wide age range. Our study provides
data for ages between 16 and 89 years (the range established by the test used).
This means that the machine could be used regardless of the age of the authors
of texts. The study should be extended to verify if it maintains its level of
comprehension in texts written by subjects under 16 years of age.
Finally, we do not have
evidence to make assertions about results in other languages, but it is very
plausible to hypothesise that those languages from which a similar number of
texts to Spanish have been used will have similar results.
In summary, this study aimed
to analyse the (written) verbal comprehension capacity of GPT-3’s
text-davinci-003 model and its use for analysing open texts in qualitative
research. In conclusion, the level of verbal comprehension established in the
tests used and the reliability allow it to be used as a tool for analysing open
texts and opens enormous possibilities for its use in this type of research.
This use must be based on a
precise design that is specific to each analysis process: the corpus to be
analysed and the analysis procedures must be chosen in the same way as for
non-machine-assisted procedures. Deductive strategies (with previously defined
category systems) or inductive strategies (establishing categories on the
groupings of texts made by machines) are possible, but
must all have the same methodological assurances as non-assisted analysis.
The fact that the machine
offers its responses using contextual elements means that these elements—just
as with a human analyst—act as elements that increase precision and as elements
that cause biases. The way questions are asked affects the response, but this
problem is not specific to AI. Therefore, all of the
usual quality control, reliability, and validity systems (Williams &
Morrow, 2009) used in qualitative research must continue to be part of the
method in machine-assisted studies.
While up to now, in analysis
of open texts, work has been done with corpora of a few dozens or hundreds of
documents, we can currently consider thousands or hundreds of thousands (Longo,
2020; Mills, 2019). This capacity is a significant improvement, given that one
of the main criticisms of qualitative studies has always been the quality of
their small samples and their limitations in generalising conclusions.
The applications of this
analysis tool for social sciences are enormous, from analysis of open-ended
responses in surveys or interviews, identification of themes in social
networks, or use as an additional judge to analyse the internal consistency of
coding processes.
We are aware of the risks of
using these AIs for decision-making. Therefore, our approach is to use them as
another analysis tool while maintaining all the safeguards that social science
research has refined over the years. The risks should not prevent them from
being used but should encourage us to maximise the quality control systems for
their results. As Turing stated, this technology forces us to explore multiple
options, which must be tested, not accepted without criticism (García-Peñalvo et al., 2023).
If we overcome the initial
fascination with how creative these machines are and the astonishing responses
they give us, we can focus on using one of their specific functionalities (text
comprehension) to increase our capacity for analysis and explanation of social
phenomena, which will allow us to more accurately and quickly
find the solutions we need.
5. Funding
Project titled "The use
of AI in the analysis of informal social networks for guidance in Higher
Education" (Ref. PID2021-125405NB-I00), within the Subprogram
for Knowledge Generation (BOE, November 13th, 2022) in the
framework of the State Program to Promote Scientific-Technical Research and its
Transfer of the State Plan for Scientific, Technical and Innovation Research
2021-2023 (Call identifier in the National Grant Database ID BDNS: 590214).
References
Aspers, P., & Corte, U. (2019). What is
qualitative in qualitative research. Qualitative Sociology, 42(2),
139–160. https://doi.org/10.1007/s11133-019-9413-7
Bail, C. (2014). The cultural environment: Measuring
culture with big data. Theory and Society, 43(3), 465–482. https://doi.org/10.1007/s11186-014-9216-5
Bajaj, D., Goel, A., Gupta,
S.C., & Batra, H. (2022). MUCE: A multilingual use case
model extractor using GPT-3. International Journal of Information
Technology, 14, 1543–1554. https://doi.org/10.1007/s41870-022-00884-2
Binz, M., & Schulz, E.
(2023). Using cognitive psychology to understand GPT-3. PNAS. Proceedings of
the National Academy of Sciences, 120(6), e2218523120. https://doi.org/10.1073/pnas.2218523120
Brown, T.B., Mann, B., Ryder,
N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry,
G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T.,
Child, R., Ramesh, A., Ziegler, D.M., Wu, J., Winter, C., … Amodei, D. (2020).
Language models are few-shot learners. In H. Larochelle, M.A. Ranzato, R. Hadsell, M.F. Balcan,
& H.T. Lin (Eds.), Advances in Neural Information Processing Systems 33
(NeurIPS 2020). https://bit.ly/3ZmRPQG
Carriere, J., Shafi, H., Brehon, K., Pohar, M.K., Churchill,
K., Ho, C., & Tavakoli, M. (2021). Case report: Utilizing AI and NLP to
assist with healthcare and rehabilitation during the COVID-19 pandemic. Frontiers
in Artificial Intelligence, 4, 613637. https://doi.org/10.3389/frai.2021.613637
Chang, T., DeJonckheere, M., Vydiswaran, V.G.V., Li, J., Buis, L.R., & Guetterman,
T.C. (2021). Accelerating mixed methods research with natural language
processing of big text data. Journal of Mixed Methods Research, 15(3),
398–412. https://doi.org/10.1177/15586898211021196
Cohen, L., Manion, L., &
Morrison, K. (2018). Research methods in education. Routledge. https://doi.org/10.4324/9780203224342
Cope, B., & Kalantzis, M.
(2015). Sources of evidence-of-learning: Learning and assessment in the era of
big data. Open Review of Educational Research, 2(1), 194–217. https://doi.org/10.1080/23265507.2015.1074869
Cypress, B.S. (2019). Data
analysis software in qualitative research. Preconceptions, expectations, and
adoption. Dimensions of Critical Care Nursing, 38(4), 213-220. https://doi.org/10.1097/DCC.0000000000000363
Detterman, D. (2011). A
challenge to Watson. Intelligence, 39(2-3), 77-78. https://doi.org/10.1016/j.intell.2011.02.006
Dobrev, D. (2019). The IQ of
artificial intelligence. Serdica Journal of
Computing, 13(1-2), 41-70. https://doi.org/10.55630/sjc.2019.13.41-70
Dowe, D.L., &
Hernández-Orallo, J. (2012). IQ tests are not for machines, yet. Intelligence, 40(2), 77–81. https://doi.org/10.1016/j.intell.2011.12.001
Flick, U. (2018). Designing
qualitative research. SAGE.
García-Peñalvo,
F.J. (2023). La percepción de la inteligencia artificial en contextos
educativos tras el lanzamiento de ChatGPT: Discrupción o pánico. Education
in the Knowledge Society, 24, e31279. https://doi.org/10.14201/eks.31279
García
Peñalvo, F.J., Llorens-Largo, F., & Vidal, J. (2023). La nueva realidad de
la educación ante los avances de la inteligencia artificial generativa. RIED-Revista
Iberoamericana de Educación a Distancia, 27(1). https://doi.org/10.5944/ried.27.1.37716
Golder, S.A., & Macy, M.W. (2011). Diurnal and
seasonal mood vary with work, sleep, and day length across diverse cultures. Science,
333(6051), 1878–1881. https://doi.org/10.1126/science.1202775
Grodal, S., Anteby, M., &
Holm, A.L. (2021). Achieving rigor in qualitative analysis: The role of active
categorization in theory building. Academy of Management Review, 46(3),
591-612. https://doi.org/10.5465/amr.2018.0482
Guetterman, T.C., Chang, T., DeJonckheere, M., Basu, T., Scruggs, E., & Vydiswaran, V. (2018). Augmenting qualitative text analysis
with natural language processing: Methodological study. Journal of Medical
Internet Research, 20(6), e231. https://doi.org/10.2196/jmir.9702
Hammersley, M. (2013). What
is qualitative research? Bloomsbury Academic.
Hernández-Orallo, J., &
Minaya-Collado, N. (1998). A formal definition of
intelligence based on an intensional variant of
Kolmogorov complexity. In Proceedings of the international symposium of
engineering of intelligent systems (EIS’98) (pp. 146–163). ICSC Press.
https://bit.ly/3JdQTbK
Longo, L. (2020). Empowering
qualitative research methods in education with artificial intelligence. In A.P.
Costa, L.P. Reis, & A. Moreira (Eds.), Computer supported qualitative
research. New trends on qualitative research (WCQR2019). (pp. 1-21).
Springer. https://doi.org/10.1007/978-3-030-31787-4
Mills, K. A. (2019). Big
data for qualitative research. Routledge Focus.
https://doi.org/10.4324/9780429056413
Oussalah, M. (2022). AI explainability.
A bridge between machine vision and natural language processing. In A. Del Bimbo,
R. Cucchiara, S. Sclaroff,
G.M. Farinella, T. Mei, M.
Bertini, H.J. Escalante, & R. Vezzani (Eds.), Pattern recognition. ICPR International workshops and challenges (pp. 257-273). Springer.
https://doi.org/10.1007/978-3-030-68790-8
Rezaeenour, J., Ahmadi, M., Jelodar,
H., & Shahrooei, R. (2022). Systematic review of
content analysis algorithms based on deep neural networks. Multimedia Tools
& Applications. https://doi.org/10.1007/s11042-022-14043-z
Shlomo, N., & Goldstein,
H. (2015). Big data in social research. Journal of the Royal Statistical
Society, 178(4), 787–790. https://doi.org/10.1111/rssa.12144
Si, C., Gan, Z., Yang, Z., Wang, S., Wang, J.,
Boyd-Graber, J., & Wang, L. (2022). Prompting
GPT-3 to be reliable. arXiv.
https://doi.org/10.48550/arXiv.2210.09150
Silver, C., & Lewins, A.
(2014). Using software in qualitative research: A step-by-step guide.
SAGE.
Tack, A. & Piech, C.
(2022). The AI teacher test: Measuring the pedagogical ability of blender
and GPT-3 in educational dialogues. arXiv. https://doi.org/10.48550/arXiv.2205.07540
Towler, L., Bondaronek, P., Papakonstantinou, T., Amlôt,
R., Chadborn, T., Ainsworth, B., & Yardley, L. (2022). Applying
machine-learning to rapidly analyse large qualitative text datasets to inform
the COVID-19 pandemic response: Comparing human and machine-assisted topic
analysis techniques. MedRxiv. https://doi.org/10.1101/2022.05.12.22274993
Turing, A.M.I. (1950).
Computing machinery and intelligence. Mind, 236(LIX), 433–460. https://doi.org/10.1093/mind/LIX.236.433
Wang, H., Tian, F., Gao, B.,
Bian, J., & Liu, T.Y. (2016). Solving verbal comprehension questions in
IQ test by knowledge-powered word embedding. arXiv.
https://doi.org/10.48550/arXiv.1505.07909
Wechsler,
D. (2012a). WAIS-IV. Escala de inteligencia de Wechsler para adultos-IV.
Manual de aplicación y corrección. Pearson.
Wechsler,
D. (2012b). WAIS-IV. Escala de inteligencia de Wechsler para adultos-IV.
Manual técnico y de interpretación. Pearson.
Williams,
E.N., & Morrow, S.L. (2009). Achieving trustworthiness in qualitative research: A
pan-paradigmatic perspective. Psychotherapy Research, 19(4-5), 576-582. https://doi.org/10.1080/10503300802702113
Williams, M., & Moser, T. (2019). The art of coding and
thematic exploration in qualitative research. International Management Review,
15(1), 45-55. https://bit.ly/3mt4BPh
Xie, Y., Vosoughi, S., &
Hassanpour, S. (2022). Interpretation quality score for measuring the quality
of interpretability methods. arXiv.
https://doi.org/10.48550/arXiv.2205.12254