IA y la automatización de la revisión ciega en la academia: Es mejor un rol subsidiario

Joaquim Giannotti,  Profesor Asistente de la Facultad de Ciencias Sociales y Artes de la Universidad Mayor y Heber Leal, Director del Núcleo de Ciencias Sociales y Artes de la Universidad Mayor, escriben columna de opinión en El Desconcierto el 20 de octubre de 2024. 


Si bien es delicado pensar en usar los modelos IA existentes como evaluadores pares ciegos, esta columna no niega la posibilidad legítima de usarla como herramienta personal para ordenar gramaticalmente un texto, buscar síntesis de datos u otras labores.

La piedra angular de la comunicación académica es el proceso de revisión ciega por pares. El procedimiento implica examinar una potencial publicación a través del escrutinio de expertos anónimos del campo disciplinar a quienes se les asigna la tarea de evaluar su calidad, importancia científica, metodología y cumplimiento de ciertos estándares éticos. Sobre la base de dichos informes el editor delibera el destino del artículo.

Nos interrogamos si existe la posibilidad de usar estos generadores de texto para roles “intelectualmente superiores” como el de jueces doble ciego. Pues, dada la presión sobre los académicos e investigadores para producir artículos nuevos e interesantes a un ritmo constante, no sorprende que escritores y editores hayan explorado formas de implementar la tecnología de IA, en particular herramientas de IA generativa y LLM (Large Language Models), como Chat GTP, Bing AI Chat, Copilot y Bard, para optimizar este trabajo.

Con el advenimiento de tecnologías generativas surgen nuevas cuestiones éticas. El uso de herramientas de inteligencia artificial en publicaciones académicas no es una excepción. Para asegurar la credibilidad y autenticidad de los artículos de investigación, editoriales académicas, como Springer, Taylor & Francis y Elsevier (solo por nombrar algunas), introdujeron políticas y directrices explícitas que rigen y restringen el uso de la IA por parte de los investigadores.

Sin embargo, la discusión respecto de si se debiese permitir a los revisores emplear tecnología de inteligencia artificial ha recibido muy poca atención. A excepción de Taylor & Francis, la mayoría de los editores carecen de políticas explícitas para los revisores que emplean herramientas de inteligencia artificial para preparar sus informes.

Pese a que reconocemos ciertos beneficios potenciales que las herramientas de IA aportan al proceso de revisión por pares, nuestra respuesta sobre este asunto es cuestionar la viabilidad de su completa automatización. Se apela, por ejemplo, a la optimización de recursos: que las habilidades de resumen de los modelos de IA ayudan a los revisores a ahorrar tiempo y esfuerzo a la hora de identificar los puntos claves de un artículo.

Además, se señala que las herramientas de IA generativa ayudan a los hablantes no nativos a preparar informes pulidos y bien escritos, ya que sugieren términos apropiados y solucionan errores gramaticales o problemas de legibilidad. A pesar de estas ventajas, los modelos actuales de IA tienen algunas limitaciones importantes, que los hacen inadecuados para reemplazar a los revisores humanos:

Las herramientas de IA carecen de pensamiento crítico: un aspecto crucial del proceso de revisión por pares es proporcionar comentarios críticos sobre el contenido de un manuscrito enviado: a los revisores no se les pide simplemente que comprendan las ideas clave de un artículo, su trabajo es evaluar la calidad, la novedad y el impacto de una investigación original.

Evidentemente se confía en su experiencia y conocimiento del campo, pero las máquinas actuales son incapaces de hacerlo o sufrir algunas limitaciones significativas en sus habilidades críticas (como analizan, por ejemplo, Lodge, Lisec, McGrath y Khosravi 2024) incluso si son buenas para imitar frases utilizadas en informes positivos.

Las herramientas de IA podrían obstaculizan el progreso intelectual: esto dado que se apoyan en bases de datos de investigaciones existentes, los modelos de IA tienden a evaluar negativamente las investigaciones más innovadoras (Buriak, Hersam y Kamat 2023). Es probable que se penalicen los trabajos de vanguardia para los que existe mucha información de fondo, mientras que es más probable que se incentivaran los estudios incrementales.

Las herramientas de inteligencia artificial no son impermeables a los prejuicios y la discriminación: Siguiendo la propuesta de Busker, Choenni y Bargh (2023), consideramos que los modelos de IA son susceptibles de propagar los sesgos presentes en su conjunto de datos. Por ejemplo, el conjunto de datos puede contener sesgos institucionales que favorecen las revisiones positivas de investigaciones de instituciones prestigiosas sobre las menos conocidas. Por supuesto, los revisores humanos son susceptibles a los mismos prejuicios, pero el riesgo es que las herramientas de inteligencia artificial los exacerben.

El uso de herramientas de inteligencia artificial podría violar la confidencialidad: Existen acuerdos de confidencialidad entre el autor y la revista durante el proceso de revisión. Estamos de acuerdo con la idea de Mollaki (2024) que al cargar un manuscrito en modelos de IA generativa, el revisor viola esta confidencialidad ya que el manuscrito se agregará a la base de datos.

Debido a estos defectos, la idea de suplantar a los revisores humanos por revisores artificiales nos parece éticamente temeraria: corre el riesgo de socavar la confianza en la integridad y el valor de las publicaciones académicas. Por ahora, creemos que el papel de los humanos en la supervisión del proceso de revisión por pares es ineludible.

Creemos que la moraleja es que los editores deberían ampliar o introducir políticas explícitas que regulen el uso de la tecnología de inteligencia artificial por parte de los revisores, y que los revisores humanos entre en el juego de la capacitación digital.

Pero, dado que la revisión sigue siendo una actividad poco reconocida, que a menudo se considera un servicio comunitario, es ineludible una discusión complementaria sobre cómo compensar adecuadamente el trabajo de la revisión humana.

Tener a la mano estos modelos IA podría resultar tentador para cualquier investigador o evaluador, pero creemos que asignarle carga profesional “pesada”, como discernir el nivel innovador de un texto académico, la calidad de la investigación, la relevancia epistémica; podría traer consigo problemas para el progreso del conocimiento y su componente crítico; por lo tanto, es un llamado a la reflexión sobre los límites para el uso de estos procesadores de datos.

Si bien es delicado pensar en usar los modelos IA existentes como evaluadores pares ciegos, esta columna no niega la posibilidad legítima de usarla como herramienta personal para ordenar gramaticalmente un texto, buscar síntesis de datos, traducciones rápidas, comparaciones u otras labores subordinadas al discernimiento crítico y ético humano.

En definitiva, aquí abordamos la cuestión respecto de la posibilidad de automatización de los pares ciegos, pero también nos sumergimos dentro del debate respecto de los límites del uso de IA para la redacción académica de uso personal.

Nuestra postura actual es el uso de IA como asistentes, pero cuestionando que se automatice la revisión por pares: los autores podrían ser “ayudados” a mejorar sus propios artículos por estos generadores de texto, pero siempre a modo subsidiario y bajo la responsabilidad de su usuario.

Joaquim Giannotti es PhD y Profesor Asistente de la Facultad de Ciencias Sociales y Artes de la Universidad Mayor.

Heber Leal es PhD y Director del Núcleo de Ciencias Sociales y Artes de la Universidad Mayor.