En el contexto de una sociedad dominada por una incertidumbre desatada y radical como principales rasgos de la “semántica del riesgo” (Ramos-Torre y Callejo 2018), los algoritmos, inteligencias artificiales (IAs) y sistemas de decisión automatizados, juegan un papel destacado en un sinfín de actividades: desde las recomendaciones de búsquedas de todo tipo, las conversaciones con los interfaces conversacionales (chatbots) u otras tomas de decisiones en ámbitos muy diversos entre las que se incluyen los drones utilizados en los campos de batalla o la estimación de conductas delictivas reincidentes. La evaluación algorítmica del riesgo, destinada a facilitar la toma de decisiones, también ha experimentado un creciente protagonismo en muchos sistemas policiales.
El objetivo de este artículo es analizar las principales bondades y críticas de los sistemas algorítmicos de evaluación del riesgo, con especial énfasis en el caso de la violencia de género. Para ello, se hace una revisión temática de la literatura acerca de la evaluación de riesgo basada en IA y aprendizaje automático en el contexto judicial y en particular en el contexto de las violencias de género. Los bloques temáticos seleccionados inicialmente fueron: métodos actuariales y algorítmicos para la evaluación de riesgos: sesgos y beneficios; predicciones algorítmicas de la violencia de género: principales modelos; y propuestas y avances para tomas de decisiones más humanas y socialmente éticas en materia de violencia de género.
Hemos dividido los principales resultados en tres apartados. En el primero presentamos, de forma general, algunas de las principales correspondencias y continuidades entre los procedimientos actuariales previos y la actual lógica algorítmica puesta al servicio de la toma de decisiones policiales y judiciales. También identificamos las principales bondades y críticas esgrimidas por sus defensores y detractores respectivamente. El segundo apartado se detiene en el campo específico de la violencia de género desde el prisma de las lógicas algorítmicas actuariales. Un interés común a gran parte de la literatura analizada en torno a esta temática son los programas informáticos vigentes en numerosos países occidentales destinados a asistir en la toma de decisiones sobre niveles de riesgo o exposición a violencias de género. En este apartado también damos cuenta de los distintos modelos teóricos que subyacen a estos programas en el contexto europeo. El último apartado pone el acento en propuestas de más reciente cuño centradas en una perspectiva humana y en el elemento ético-social como pieza complementaria a las lógicas actuariales algorítmicas.
Las lógicas algorítmicas actuariales: bondades y sesgos en la evaluación del riesgo
La toma de decisiones basadas en métodos actuariales para la evaluación de riesgos se remonta a principios del siglo XX (Harcourt, 2006; Wang et al., 2022). En el ámbito jurídico estos métodos recurren a la teoría de la probabilidad para decidir “a quién buscar, qué zonas geográficas vigilar, la posibilidad de obtener la libertad bajo fianza o la libertad condicional, la duración de una condena penal y el tipo de prisión en la que debe ser encarcelado un delincuente condenado” (McNamara et al., 2019, p. 96). Estas lógicas experimentaron un notable desarrollo en la década de los 90 coincidiendo con los procesos crecientes de digitalización y uso de sofisticadas técnicas estadísticas (análisis de regresión) y computacionales (inteligencia artificial y aprendizaje automático - machine learning). Copas y Marshall (1998) , años atrás, reparaban en la continuidad entre los por aquel entonces incipientes usos de algoritmos en el sistema de justicia criminal y los métodos basados en regresión estadística utilizados durante décadas para determinar la posibilidad de reincidencia. McNamara et al. (2019, p. 96), siguiendo las tesis de Berk (2012), proponen que las lógicas actuariales podrían considerarse como un antecedente de la actual evaluación algorítmica de riesgos, con la salvedad de que “utilizan métodos de aprendizaje automático sobre grandes volúmenes de datos y se comercializan bajo el paraguas de la inteligencia artificial”.
En un escenario marcado por el paradigma del procesamiento de la información y las ciencias cognitivas, uno de los principales debates que acompañaron a estos primeros sistemas de evaluación algorítmica del riesgo se ceñía a la disyuntiva central que planteaba en qué medida las evaluaciones producidas por personas expertas son más precisas que las emitidas por estos sistemas (Dawes, Faust y Meehl, 1989; Grove y Meehl, 1996). En la actualidad los programas actuariales de naturaleza algorítmica son de uso común en el ámbito judicial, mayormente en vistas previas y concesiones de libertad provisional o condicional. The Public Safety Assessment, LSI-R y Ohio Risk Assessment System son algunos de los sistemas propietarios utilizados en las jurisdicciones estadounidenses, con un código fuente que no está disponible públicamente, lo que significa que los/as usuarios/as no pueden ver cómo funciona el sistema operativo o modificarlo para satisfacer sus necesidades específicas. Algunas jurisdicciones han adoptado estas evaluaciones de riesgo en la fase previa al juicio para reemplazar la fianza en efectivo, por suponer un fuerte sesgo para las personas (Zweig, 2010; Desmarais, Garrett y Rudin, 2019).
Otros beneficios que comportan los sistemas de ayuda a la toma de decisiones (DSS-- Decision Supporte Systems), además de una supuesta mayor precisión, consistencia y escalabilidad en las resoluciones judiciales (Kleinberg, Mullainathan y Raghavan, 2017), son la transparencia que brinda sus modelos algorítmicos cada vez más abiertos y accesibles (Zeng, Ustun y Rudin, 2017), así como la capacidad de ajuste y refinamiento de la metodología y el reajuste de dichos modelos. En una tónica parecida a Wang et al. (2022) , McNamara et al. (2019) expresan su confianza en los enfoques cuantitativos para implementar mejoras y, con ellas, mayor justicia en los sistemas de evaluación de riesgo basados en la IA y aprendizaje automático en su caso en el contexto judicial australiano.
Sin menoscabar las bondades de este tipo de decisiones automatizadas, durante la última década han aparecido otros estudios que reparan en los efectos indeseados que acompañan a determinados usos de las lógicas actuariales algorítmicas. El algoritmo Correctional Offender Management Profiling for Alternative Sanctions [Gestión de perfiles de delincuentes correccionales para sanciones alternativas] (COMPAS), utilizado por los tribunales estadounidenses para evaluar el riesgo de reincidencia, se convirtió en un ejemplo paradigmático de los sesgos y prejuicios de la Inteligencia Artificial y el aprendizaje automático (Angwin et al., 2016). COMPAS evalúa el riesgo potencial de reincidencia a partir de tres escalas (reincidencia general, reincidencia violenta y liberación previa al juicio) (Larson et al., 2016). Las puntuaciones en la escala de riesgo de liberación previa al juicio, que estima la posibilidad de que una persona no comparezca y/o cometa nuevos delitos mientras está en libertad, como indica el manual de uso de COMPAS (Northpointe, 2015, p. 27), se calculan a partir de los siguientes indicadores: “cargos actuales, cargos pendientes, historial de arrestos previos, fallas previas al juicio, estabilidad residencial, situación laboral, vínculos con la comunidad y abuso de sustancias”. Angwin et al. (2016) han denunciado que COMPAS puntuaba casi dos veces más a las personas afroamericanas que a las caucásicas, como de riesgo alto, cuando en realidad no llegaban a reincidir (véase también Flores, Bechtel y Lowenkamp, 2016; López-Flores, 2022).
El sistema equivalente a COMPAS en Australia, el Suspect Targeting Management Plan [Plan de Gestión de Objetivos Sospechosos] (STMP) también adolece de serios sesgos en el caso de los/as jóvenes y la población indígena australiana (Englezos, 2023). El STMP encuentra un máximo referente en el Harm Assessment Risk Tool [Instrumento para Determinar el Riesgo de Delito] (HART), un programa utilizado en el Reino Unido para evaluar el riesgo -alto, medio, bajo- de reincidencia. También Simón-Castellano (2021) ha denunciado las lógicas discriminatorias y deterministas de HART.
Ante semejantes sesgos raciales y “fallos”, algunos analistas abogan por la diversificación de los datos de entrada con el propósito de desarrollar sistemas más inclusivos (Eubanks, 2018; Noble, 2018; West, Whittaker y Crawford, 2019). Otros estudios, por el contrario, sostienen que, en el caso del reconocimiento facial, mejorarlos con sistemas más precisos puede exacerbar las tendencias discriminatorias de estas tecnologías, por ejemplo, cuando se utilizan de forma indebida para vigilar a las minorías étnicas (Taylor, 2019; Hassein, 2017). Los trabajos a favor de la diversificación de las entradas de datos, según Pasquale (2015) , formarían parte de la primera ola de la investigación sobre la “responsabilidad algorítmica”, mientras que el segundo grupo, conocido como los “estudios algorítmicos críticos”, estaría más preocupado por las fuerzas estructurales, las cuestiones de gobernanza y las desigualdades de poder endógenas a las sociedades de control.
Este segundo grupo encuentra uno de sus principales referentes en el libro de Noble (2018) Algorithms of Oppression. El texto arroja evidencias sobre los sesgos contra las personas de color en los motores de búsqueda. Según Noble (2018) los algoritmos refuerzan las relaciones sociales opresivas y promulgan nuevas discriminaciones raciales. La autora denomina este proceso como redlining tecnológico (tachado o discriminación tecnológica). Buolamwini y Gebru (2018) dan buena cuenta de la tesis principal de Noble cuando evalúan los tres programas comerciales más utilizados de reconocimiento facial en los Estados Unidos. Los resultados muestran que las mujeres de piel más oscura experimentan mayores tasas de error: un 34,7% frente al 0,8% para los hombres de piel clara. El informe de Lo (2022) y el trabajo de Wang et al. (2022) ofrecen nuevos ejemplos de los posibles sesgos racistas de estos programas.
El informe coordinado por Lo (2022) propone el término “criminalización de los datos” para denunciar y desnaturalizar “las prácticas de clasificación predictivas impulsadas para justificar el castigo y la exclusión social” de las personas migrantes en el contexto estadounidense. Desde una aproximación afín, Wang et al. (2022) sostienen que el Servicio de Inmigración y Control de Aduanas (ICE) opera como una agencia de vigilancia nacional. En sus esfuerzos por detener y deportar a los registros digitales de los gobiernos estatales y locales, el ICE funciona como una infraestructura de vigilancia “sin ningún tipo de supervisión judicial, legislativa o pública” (Lo, 2022). En estos programas de evaluación del riesgo, según Harcourt (2015), los antecedentes penales son uno de los principales factores predictivos, además de un indicador indirecto de la raza. Završnik (2021, p. 632) sugiere que la asociación entre los antecedentes penales y la sentencia penal no es un indicador fiable de riesgo, sino que refleja, en cambio, las desigualdades raciales en el sistema de justicia penal.
Otra idea común a la mayoría de los estudios críticos algorítmicos es la necesidad de abogar por la equidad y la transparencia en los sistemas algorítmicos. Lin y Chen (2023) amplían los requisitos cuando proponen la certeza, la interpretabilidad y la confiabilidad como los tres principios éticos fundamentales para los sistemas algorítmicos. Barabas et al. (2017) insisten en la necesidad de analizar los algoritmos subyacentes a las decisiones automatizadas para identificar y mitigar los posibles sesgos.
Esta última oleada de estudios críticos algorítmicos, más afines a las propuestas de “responsabilidad algorítmica”, propone atender igualmente a nuevos conceptos y actuaciones policiales entre los que se incluyen: el “análisis de sentimientos”, la “minería de opiniones” y el “tratamiento computacional de la subjetividad”, los cuales, como apunta Završnik (2021, p. 627) “reorganizan y difuminan los límites en el ámbito de la seguridad y el control de la delincuencia”.
Otros trabajos recientes, además de reconocer los sesgos existentes, apuestan por soluciones técnicas para conseguir mayores dosis de justicia e igualdad. Estas posturas tan comprometidas como propositivas se hallan representadas en los trabajos de Berk, Kuchibhotla y Tchetgen (2023) , Skeem y Lowenkamp (2020) y Mitchell et al. (2021) . También dejan constancia de estas posturas Ashford, Spivak y Shepherd (2022) cuando realizan una revisión sistemática de los desafíos para optimizar la equidad racial en los instrumentos de evaluación de riesgo en connivencia con una mayor precisión. Por su parte, Berk et al. (2021) proporcionan un examen integrado de la equidad y precisión en las evaluaciones de riesgos de la justicia penal a partir de la revisión de la literatura existente en criminología, informática y estadística. Con el mismo propósito de diseñar instrumentos más específicos y eficaces para la evaluación del riesgo cabe mencionar los trabajos centrados en el refinamiento de las tipologías de las víctimas de violencia de género (Pineda et al., 2023; Vignola-Lévesque y Léveillée, 2022; Santos et al., 2022).
Pero, en materia específica de violencia de género ¿Cuáles son las oportunidades e incertidumbres derivadas del uso de algoritmos y de los sistemas de decisión automatizados?
Oportunidades e incertidumbres algorítmicas en materia de violencia de género
La violencia de género ha sido una de las prioridades desde sus inicios de las políticas sociales basadas en las evaluaciones de riesgo (Grogger et al., 2021). Los trabajos de Dutton y Kropp (2000) , Campbell, Webster y Glass (2009) , Ericson (1997) , Rodríguez-Rodríguez et al. (2020) y Zambrano-Guerrero y Rodríguez-Pabón (2021) dan buena muestra del interés suscitado por la aplicación de sistemas de decisión automatizados en la predicción de la violencia de género. En este sentido, Delgadillo-Alemán et al. (2019) utilizaron los datos proporcionados por el Instituto Mexicano de las Mujeres y, con la ayuda de ecuaciones diferenciales, demostraron la capacidad de su modelo para diagnosticar el riesgo de violencia de género en una determinada pareja. De la Poza, Jódar y Barreda (2016) desarrollaron un modelo matemático para inferir la incidencia oculta de la violencia de género. El modelo incluye factores como la conciencia social de los hombres, la edad, el consumo de drogas y las estadísticas de mujeres asesinadas, todo ello para estimar la población oculta de agresores. Desde esta misma perspectiva, Rodríguez-Rodríguez et al. (2020) comparan cuatro técnicas de algoritmos para predecir el número de denuncias por violencia de género presentadas ante un juzgado en España, en un horizonte de predicción de seis meses.
La mayoría de los países europeos han incorporado sistemas de evaluación del riesgo como parte destacada de sus políticas contra la violencia de género. Los sistemas más utilizados son el Spousal Assault Risk Assessment (SARA) [Valoración del riesgo de violencia contra la pareja] (Dinamarca, Irlanda, Eslovaquia, Chequia, Suecia, Italia, Portugal y España), el Domestic Abuse, Stalking, and Harassment and Honor-Based Violence (DASH) [Maltrato doméstico, acoso, hostigamiento y violencia contra la integridad] (Estonia, Irlanda, Eslovaquia, Reino Unido), el Brief Spousal Assault Form for Risk Assessment (B-SAFER) [Formulario breve para la valoración del riesgo de violencia contra la pareja] (Italia y Suecia), además del Ontario Domestic Assault Risk Assessment (ODARA) [La valoración Ontario del riesgo de violencia doméstica] (Alemania y Eslovakia) y el Danger Asssessment (DA) [Evaluación del peligro] (Alemania, Italia, Austria, Portugal y Suecia) (Instituto Europeo de Igualdad de Género [European Institute for Gender Equality] EIGE, 2019; Fernández Teruelo, Fernández-Rivera González y García Amez, 2022).
La evaluación del riesgo de violencia de género se lleva a cabo de acuerdo con diferentes enfoques y, en algunos casos, se utiliza una combinación de estos. Los principales modelos de evaluación del riesgo de violencia de género que prevalecen en el contexto europeo son: (i) la toma de decisiones clínicas no estructuradas, (ii) el enfoque actuarial y (iii) el enfoque del juicio profesional estructurado (EIGE, 2019).
El modelo no estructurado recurre a técnicas más cualitativas y flexibles, menos estructuradas. El modelo de evaluación actuarial del riesgo persigue una estimación precisa de la probabilidad de reincidencia y supone el uso de una lista de control de factores de riesgo (como los antecedentes penales) que actúan a modo de indicadores de reincidencia/homicidio. Las herramientas de evaluación del riesgo actuarial más utilizadas son el Ontario Domestic Assault Risk Assessment (ODARA) y el Danger Asssessment (DA). El enfoque estructurado supone una combinación de los otros dos enfoques, el actuarial y el clínico no estructurado, con el propósito de superar sus respectivas limitaciones. En él se hace hincapié en el desarrollo de directrices y herramientas para la evaluación del riesgo (enfoque actuarial), que sean lo suficientemente flexibles como para tener en cuenta las especificidades de cada caso de violencia (enfoque clínico). Dos de las herramientas más utilizadas que siguen este enfoque son el Spousal Assault Risk Assessment (SARA) y el Brief Spousal Assault Form for Risk Assessment (B-SAFER).
En el Estado Español el sistema más empleado es VioGén, un programa gubernamental a cargo del Ministerio del Interior dirigido a recopilar, analizar y proporcionar medidas preventivas relacionadas con los casos de violencia de género. VioGén se creó en cumplimento de la Ley Orgánica 1/2004, de 28 de diciembre, de Medidas de Protección Integral contra la Violencia de Género. Se trata de un cuestionario que administra la Policía Nacional, la Guardia Civil y algunas Policías Autonómicas y Locales a las mujeres que han sido víctimas de violencia de género para evaluar el riesgo de exposición a este tipo de violencia. Las valoraciones del nivel de riesgo o pronósticos individuales del sistema VioGén se obtienen a partir de valores algorítmicamente calculados en base a cohortes de personas que han experimentado distintos niveles de riesgos.
Los responsables de la administración del sistema VioGén son las Fuerzas y Cuerpos de Seguridad del Estado. No obstante, las Instituciones Penitenciarias, Juzgados, Institutos de Medicina Legal y Ciencias Forenses, Oficinas de Asistencia a las Víctimas, Fiscalías, Servicios Sociales y organismos de Igualdad de las diferentes Comunidades Autónomas también tienen acceso al sistema VioGén (Ministerio del Interior, 2019) y “pueden consultar el sistema para obtener información sobre situaciones específicas o niveles de riesgo de las víctimas” (EIGE, 2019, p. 53). El sistema admite el acceso simultáneo de múltiples usuarios. Actualmente, ofrece soporte para archivar y procesar en paralelo todos los informes de delitos de género que ocurren en todo el país. Según estos informes, el sistema emite una predicción del riesgo de reincidencia para cada caso.
En el País Vasco y Cataluña se utilizan herramientas de valoración del riesgo específicas para su territorio. En el País Vasco se utiliza la Escala de Predicción de Riesgo Grave de Violencia contra la pareja (EPV-R), desarrollada por el Instituto Vasco de Criminología (Echeburúa et al., 2009). La EPV-R es un instrumento actuarial utilizado por psicólogos forenses, los profesionales de la policía, de la justicia y de los servicios sociales en el País Vasco para evaluar el riesgo de violencia grave contra la pareja en los casos de violencia doméstica y permitir “la adopción de medidas de protección a las víctimas, cuando se produce la primera denuncia, adecuadas a sus necesidades específicas y basadas en criterios empíricos” (Echeburúa et al., 2010, p. 1055).
La EPV-R evalúa los principales factores de riesgo, incluyendo antecedentes de violencia, consumo de sustancias y amenazas. En una evaluación posterior de la herramienta los/as autores/as identificaron que los ítems que resultaban más discriminativos del grupo de riesgo alto de violencia, presentes en un 75% de los casos analizados, eran los “relacionados directamente con características propias del agresor, tales como las conductas controladoras o de celos, el consumo abusivo de alcohol/drogas y la falta de empatía, así como el incremento de las amenazas y de la violencia física” (Echeburúa et al., 2010, p. 1056).
En Cataluña, los Mossos d’Esquadra, aplican el Qüestionari Policial de Valoració de Risc [Cuestionario policial de valoración del riesgo] (QPVR), que consta de 25 a 30 preguntas. Las preguntas no se hacen directamente, sino que los Mossos d'Esquadra las cumplimentan a partir de las propias declaraciones de las mujeres. En un estudio reciente sobre el uso de herramientas algorítmicas en la valoración de la situación de riesgo de la mujer, que incluye el análisis de expedientes judiciales de 2014 a 2019 sobre peticiones de órdenes de protección en Cataluña, Bodelón González et al. (2019, p. 70) , se señalan que los Mossos d’Esquadra consideran al QPVR como un instrumento objetivo que, además, les proporciona una estimación o “adelanto” a la hora de valorar la situación de riesgo de la mujer.
Por otro lado, el Circuito Barcelona contra la Violencia hacia las Mujeres utiliza el Protocolo de valoración del riesgo de violencia contra la mujer por parte de su pareja o ex pareja (RVD-BCN), un instrumento semi-estructurado que tiene como objetivo identificar el riesgo de violencia grave contra la mujer por parte de su pareja o ex pareja. Este protocolo integra los principales ámbitos implicados en el abordaje de la violencia machista en Barcelona (ámbito sanitario, social, policial, educativo, justicia y judicial), e implica directamente tanto a la administración autonómica, como al Ayuntamiento de Barcelona, la Fiscalía, los consorcios Sanitario, de Educación y de Servicios Sociales de la ciudad de Barcelona (Álvarez Freijo et al., 2011). El RVD-BCN se basa en una evaluación multidimensional que incluye factores de riesgo individuales, relacionales y contextuales desde su puesta en marcha en 2011.
Un aspecto común a los programas actuariales es la administración de un cuestionario a las víctimas (Grogger et al., 2021). Algunos de estos cuestionarios incluyen rúbricas y puntuaciones preestablecidas, mientras que otras se dejan al arbitrio de las personas entrevistadoras expertas (Kropp, 2004; Messing y Thaller, 2013). Por ejemplo, el primer componente del DASH es un cuestionario que consta de 27 elementos, administrado a la víctima por un/a agente de policía. Su segundo componente es el grado de riesgo atribuido por el/la agente, que equivale a una predicción del riesgo futuro (Richards, 2009). La clasificación del riesgo que hace el/la agente está basada en las respuestas de la víctima al cuestionario, si bien en última instancia tiene que recurrir a su propio juicio profesional para emitir una evaluación de riesgo (Robinson et al., 2016). La Escala de Predicción del Riesgo de Violencia Grave contra la Pareja (EPV-R), desarrollada y validada en el País Vasco por Echeburúa, Fernández-Montalvo, de Corral y López-Goñi (2009) , es un cuestionario breve, heteroaplicado, que incluye 20 ítems, para la evaluación de los 10 principales factores de riesgo de violencia de género.
La Guía de procedimiento VPR5.0 y VPER4.1 Protocolo de valoración policial del riesgo y gestión de la seguridad de las víctimas de violencia de género (Ministerio del Interior, 2019) detalla los distintos formularios que incluye el protocolo VioGén, además de la definición de los factores e indicadores. En el sistema VioGén la información inicial se recopila a través de un formulario estándar llamado VPR, que proviene de la 'Valoración Policial del Riesgo'. Los datos posteriores son registrados mediante un formulario diferente llamado VPER, que deriva de la 'Valoración Policial de la Evolución del Riesgo'. Como señalan González-Prieto et al. (2021) , el formulario VPR (actualmente en la versión VPR5) permite recabar datos básicos para la evaluación, que serán posteriormente analizados por el programa VioGén. En esta fase de la evaluación, el programa VioGén se limita a estimar la probabilidad de reincidencia (en una escala de 0 a 4, probabilidad escasa-extrema) en lugar de su intensidad, gravedad o frecuencia de ocurrencia. En base a la estimación arrojada por VioGén, el/la agente de policía determinará diferentes medidas preventivas.
A diferencia de otras herramientas actuariales (Como SARA), VioGén, el Qüestionari Policial de Valoració de Risc (QPVR) y el EPV-R contemplan la posibilidad de que los profesionales policiales modifiquen, al alza, el resultado automático en función de la información o percepción que tengan del caso o su experiencia. Así lo muestran, por ejemplo, las siguientes declaraciones de Mossos d'Esquadra tomadas de Bodelón González et al. (2019, p. 72) :
Porque a veces como, claro, que valoras una agresión física muy grave, claro, esto valora algo muy grave, pero quizás el que está recogiendo la denuncia percibe que hay un riesgo y no le gusta el nivel que ha dado. Tiene el poder de subirlo un nivel... (P5).
[…] hay veces que la experiencia evidentemente te da el plus que no tiene la máquina, para subir el nivel de riesgo si dices no, esta persona, por lo que me está explicando, necesita una protección policial, y por lo que sea, el cuestionario no la da. Entonces, tiene la potestad de subir el nivel de riesgo (P2).
El nivel de riesgo es reevaluado cada cierto tiempo o, en caso de producirse un nuevo episodio de violencia durante la fase de seguimiento (o periodo de vigilancia), por medio de un formulario de Valoración Policial de la Evolución del Riesgo (VPER). El empleo de dos formularios distintos es una particularidad de protocolo VioGén. Esta valoración permite calcular el número de reincidencias, siendo este uno de los principales índices utilizados para estimar la probabilidad de nueva ocurrencia. 1
Desde su creación en 2007, el sistema VioGén ha analizado 701.563 casos y ha realizado más de 5,4 millones de valoraciones policiales de riesgo y está considerado como uno de los principales sistemas de valoración de riesgo de violencia de género a escala mundial (Ministerio del Interior, 2022). Las sucesivas evaluaciones de la eficacia del sistema VioGén han estimado un alto valor predictivo de la VPR (López-Ossorio, González-Álvarez y Andrés-Pueyo, 2016; López-Ossorio et al., 2019; López-Ossorio et al., 2021).
A pesar del uso tan amplio y la centralidad otorgada a los programas algorítmicos actuariales como VioGén, estos programas están expuestos a un continuo cuestionamiento. Un primer grupo de críticas están dirigidas al bajo poder predictivo observado en contextos de justicia penal (Farrington y Tarling, 1985; Campbell, et al., 2005; Éticas, 2022). Thornton (2017) intentó predecir los homicidios domésticos y actos de violencia graves a partir de los registros disponibles en una base de datos en el condado de Dorset (Reino Unido) y de la evaluación obtenida a través de las evaluaciones de riesgo de la policía local, incluido el protocolo DASH. Los resultados del estudio indicaban que menos del 50% de estos casos contaba con una intervención o presencia policial previa, por lo que la predicción no podía basarse únicamente en los registros policiales. También concluyó que en los casos en los que se disponía de registros, el protocolo no evaluaba de ‘alto riesgo’ al 89% de los casos. Según Chalkley y Strang (2017) , el 67% de los casos de violencia mortal fueron clasificados por el sistema como carente de riesgo o falsos negativos, incluso cuando los agresores habían tenido antecedentes o contacto previo con la policía.
Otras críticas apuntan a la inconsistencia en la toma de decisiones (Grove y Meehl, 1996; Gottfredson y Moriarty, 2006). En el caso de DASH el estudio a cargo del colectivo Her Majesty’s Inspectorate of Constabulary (2014) informó que, de un total de 28 unidades de policía, 10 unidades calificaron menos del 10% de los casos de maltrato doméstico como de “alto riesgo”, mientras que tres unidades de policía designaron más del 80% como de “alto riesgo”. Este nivel de discrepancia entre juicios de profesionales pone en duda la fiabilidad de las predicciones. Otros estudios ofrecen resultados parecidos sobre la fiabilidad de otros sistemas actuariales de evaluación de riesgo en materia de violencia de género en distintos entornos (Gottfredson y Moriarty, 2006; Kahneman et al., 2016).
En el estudio referido acerca de órdenes de petición de alejamiento en Cataluña, Bodelón González et al. (2019) concluyen que, contrariamente a las valoraciones positivas del QPVR por parte de los Mossos d'Esquadra, la abogacía y la judicatura, como las otras partes que participan en el proceso de evaluación y la toma de decisiones acerca de las medidas de seguridad a tomar, no consideran el QPVR una herramienta que dé una pauta de la situación real de riesgo de la mujer. Una gran parte de los miembros de las judicatura y abogacía entrevistados, según Bodelón González et al. (2019), no dan valor alguno o ignoran el resultado del cuestionario. Esto es así hasta el punto de que “algunos miembros de la judicatura, que con riesgos no apreciados o bajos dan órdenes de protección”, o que muchas veces solo tienen en cuenta las valoraciones de riesgo alto o muy alto debido a que, “si normalmente no aprecian el riesgo, aunque exista, cuando lo aprecian es que la situación puede ser muy grave” (Bodelón González et al., 2019, p. 71).
En lo que respecta al sistema VioGén, encontramos críticas referidas tanto al inicio del proceso y la recogida de información, como al análisis y la interpretación de los datos de acuerdo con el protocolo establecido. Los errores de predicción (altos porcentajes de riesgo no percibido, falsos negativos y falsos positivos) advierten de inconsistencias que deberían ser mejoradas y complementadas con otro tipo de actuaciones. Los datos y la información que se incluyen en el sistema son de vital importancia, por eso en la guía del formulario se aconseja al profesional que lo cumplimenta, que revise toda la información disponible (atestado policial, informes de servicios sociales, declaraciones de familiares), además de la declaración de la víctima. Sin embargo, diferentes estudios indican que ya sea por falta de tiempo o de recursos esto no siempre se hace así (Olaciregui, 2021).
Por otro lado, Muñoz-Vicente y López-Ossorio (2016) indican como una limitación que VioGén no incluya de una manera solida algunos indicadores que influyen en la conducta violenta relacionados con la valoración psicológica del agresor y la víctima, así como creencias, distorsiones cognitivas o patologías que tienden a justificar la violencia. Tampoco el conocimiento y la formación de los agentes policiales sobre este tipo de cuestiones permite suplir esta carencia. En este sentido, hay que advertir que además del peritaje policial, existe la posibilidad de hacer una valoración forense en sede judicial. Esto cobra particular interés en los casos clasificados de “especial relevancia” en los que, junto a la VPR, VioGén genera una diligencia automatizada que recomienda al juez la práctica de evaluaciones forenses complementarias en las Unidades de Valoración Forense Integral. Sin embargo, según la Fiscalía General del Estado (2019), el uso del Protocolo médico-Forense de valoración urgente del riesgo de violencia de género sigue siendo muy escaso, y reconoce que los informes policiales de valoración del riesgo son en la práctica el único instrumento disponible para adoptar o no medidas cautelares de protección de la víctima.
En cuanto al análisis y la interpretación de la información, VioGén recibe críticas centradas en sesgos de tipo estadístico, y en otros sesgos más sociales en línea con los estudios algorítmicos críticos. Entre las críticas de corte estadístico están aquellas que reparan en la falta de medición directa de la evaluación del riesgo, la cual sólo se estima a partir de una medida indirecta: las recaídas/reincidencia. Otras limitaciones estadísticas señaladas son la marcada dependencia del sistema respecto de los factores de riesgo estáticos (pertenecen al pasado de la persona -víctima/agresor- y son difícilmente modificables), que no captan cómo puede fluctuar el riesgo de violencia a lo largo del tiempo y en función de los diferentes contextos. Precisamente, uno de los rasgos diferenciales de las valoraciones del riesgo, frente a los tradicionales y criticados pronósticos de peligrosidad, consiste en contemplar tanto factores individuales (y, por ende, en buena medida estáticos) como factores ambientales y contextuales (cambiantes), que pueden influir en su comportamiento. Según fuentes e informes oficiales, el número de casos calificados con cada nivel de riesgo se mantiene constante a lo largo del tiempo, con variaciones muy pequeñas. Estas limitaciones a la hora de capturar las fluctuaciones de la violencia de género suponen una perspectiva más orientada a la predicción del riesgo, que a la prevención de la violencia. Como señalan González-Prieto et al. (2021) , la ausencia de reincidencia en violencia de género puede responder a las medidas de protección adoptadas o ser debida a los fallos de detección del sistema. A esta incertidumbre se suma el hecho que el algoritmo VioGén está aprendiendo a clasificar el riesgo de sufrir o ser víctima de la violencia de género, una variable en sí misma intangible (González-Prieto et al., 2021).
El segundo grupo de críticas recibidas por el sistema VioGén se centra en los sesgos sociales y en la necesidad de reconsiderar la falta de valores éticos y de presencia humana en el sistema. El informe basado en la auditoría del sistema VioGén a cargo de Eticas Research and Consulting (Eticas, 2022) indica que más del 80% de las víctimas consultadas tuvieron dificultades a la hora de responder a los formularios de ‘Valoración Policial del Riesgo’ (VPR) o de ‘Valoración Policial de la Evolución del Riesgo’ (VPER). Dependiendo de su nivel educativo y cultural, las mujeres entienden mejor o peor las preguntas. La auditoría informaba, además, que la cumplimentación del cuestionario coincide con el momento de interponer la denuncia policial por violencia de género, por lo que muchas mujeres se encuentran en tal estado de shock que les hace difícil contestar adecuadamente. Eticas (2022) también señala que VioGén tiene una supervisión humana mínima y que las fuerzas policiales a cargo de VioGén han modificado sólo el 5% de la puntuación de riesgo calculada por el algoritmo. Además, esta participación disminuye en momentos de mayor presión de trabajo, como ocurrió durante la pandemia del COVID-19.
Entre dependencias algorítmicas y decisiones éticamente verificadas
La comisaria de Policía Nacional María Jesús Cantos, responsable del Área contra la Violencia de Género de Interior, tras un significativo repunte de homicidios por violencia de género, en diciembre de 2022 en unas declaraciones a título personal dijo ser partidaria de que todas las mujeres a las que el sistema VioGén estimara que corren “riesgo de homicidio” se les asignara el dispositivo telemático de detección y prevención de la violencia (Europa Press, 2022). Este comentario acerca de la conveniencia de generalizar el dispositivo de detección de riesgo reparaba en la escasez de recursos, en lugar de los posibles fallos e insuficiencias de VioGén, como una de las principales razones del repunte de homicidios experimentado durante esos meses. Por otro lado, la propia comisaria indicaba que algunos de los homicidios recientes eran casos inactivos, pues el sistema desactiva aquellos que no han registrado ninguna nueva incidencia tras un periodo de diez años. En consecuencia, las autoridades consideraron entonces alargar la vida de los casos dentro del sistema. Como se puede ver, los esfuerzos acordados un año atrás apuntaban en la dirección de reforzar el algoritmo, sin ponerlo en tela de juicio ni pensar en actuaciones complementarias.
Pero, no solo se trata de una cuestión de falta de tiempo y de recursos. Apostar por la automatización en la toma de decisiones como parte de los dispositivos del sistema penal y de las políticas de seguridad confiere un aura de objetividad a las decisiones adoptadas (Harcourt, 2015), además de otorgar una falsa sensación de seguridad (Hannah-Moffat, 2019). Al mismo tiempo, las lógicas algorítmicas actuariales, como hemos señalado, pueden llegar a fomentar sistemas de vigilancia que redirigen las actividades de las fuerzas de seguridad y del sistema jurídico penal hacia actos no cometidos e individuos potencialmente sospechosos.
Un ejemplo de estas prácticas de vigilancia preventiva lo encontramos en la legislación antiterrorista alemana posterior al 11-S y su desarrollo del constructo “terrorista durmiente”, basado en los supuestos estados psicológicos personales y otras circunstancias conocidas de presuntos terroristas. Esta identificación algorítmica preventiva, permite criminalizar antecedentes delictivos menores y distantes en el tiempo además de alteraciones psicológicas transitorias. La idea de la detección preventiva supuso el arresto de ciudadanos alemanes musulmanes debido a la “situación general de amenaza” (Završnik, 2021, p. 627). Jiménez y Douhaibi (2023) han denunciado las asunciones de los sistemas actuariales preventivos de naturaleza algorítmica (PRODERAI/PRODERAEV) utilizados en España tras los atentados en las Ramblas de Barcelona y en Cambrils, en 2017, para prevenir la radicalización, que recuerdan el constructo “terrorista durmiente”.
Un año después de haber empezado a escribir este trabajo, reparamos en las nuevas cifras de violencia de género ofrecidas por el ministro del Interior, Fernando Grande Marlaska, en su reunión con la nueva ministra de Igualdad, Ana Redondo, a principios de diciembre 2023: 55 mujeres fueron asesinadas por su pareja o expareja, seis más que en 2022, de las cuales solo 5 de los 13 casos denunciados estaban activos en VioGén (García Martín y Rubio, 2023; Soler, 2023). La respuesta de las autoridades ante esta situación reitera la necesidad de ampliar los recursos destinados al programa VioGén. Según el ministro del Interior, desde 2018 se han duplicado las mujeres protegidas por VioGén y el número de funcionarios para su atención. Además, se anima encarecidamente al entorno social de las presuntas víctimas a que avise a las fuerzas y cuerpos de seguridad. De este modo, se podría activar el “protocolo cero” que permite a la policía investigar el supuesto caso de violencia de género sin necesidad de la denuncia de la víctima. Los avisos por parte del entorno de las víctimas representan actualmente el 30% de los casos de VioGén.
En estas declaraciones del ministro del Interior y de la ministra de Igualdad, la violencia de género, aludida en un primer momento como un “problema estructural”, pasa a ser calificada como un “problema de Estado” y un “compromiso político” respectivamente. A diferencia de las declaraciones de la comisaria de Policía Nacional María Jesús Cantos en diciembre de 2022, donde se planteaba la necesidad de destinar más recursos al sistema VioGén, ahora, un año después, las medidas de seguridad de las víctimas requieren a su vez “la confianza en las Fuerzas y Cuerpos de Seguridad”. Como se deriva de las declaraciones mencionadas, se requiere del “entorno” social una doble confianza: por un lado, en la capacidad de nuestras fuerzas del orden de protegernos y de hacer un uso preciso y veraz de los sistemas de evaluación y detección del riesgo de violencia de género; y, por otro, confianza, en el sentido de cercanía y familiaridad, para poder avisarles de las violencias que puedan ocurrir en nuestro entorno.
La denuncia ciudadana, y como paso previo re/construir la confianza en las fuerzas de orden, y sus procedimientos algorítmicos, aparecen ahora como el gran reto en las políticas contra la violencia de género. De ahí que el ministro del Interior haya insistido en la idea de que "La denuncia es la que nos permite abrir el paraguas protector del Estado español". Ni las predicciones algorítmicas ni los sistemas policiales preventivos son suficientes por sí mismos para mitigar el riesgo de la violencia de género.
Más allá de la violencia de género, la necesidad de complementar los programas asistidos por IA con la dimensión más social, además de la verificación humana, también la podemos apreciar en el modo que las Fuerzas de Defensa de Israel (FDI) utilizan un sistema basado en IA, llamado Habsora (El Evangelio), para seleccionar de manera masiva los objetivos a bombardear en Gaza (Davies, McKernan y Sabbagh, 2023). El rendimiento de esta unidad secreta de selección de objetivos, potenciado por “las capacidades de la IA”, cuenta con la participación de “cientos de soldados y oficiales” con el propósito, según la FDI, de que “haya una coincidencia total entre la recomendación de la máquina y la identificación llevada a cabo por una persona” (Davies, McKernan y Sabbagh, 2023, párr. 12). Especialistas en inteligencia artificial y derecho internacional humano, como Marta Bo, afirman que, incluso cuando hay humanos en estos procesos de tomas de decisiones, “existe el peligro de desarrollar una ‘preferencia por lo automatizado’, así como una ‘dependencia excesiva en sistemas que terminan ejerciendo una influencia demasiado grande sobre decisiones humanas complejas’ (citado en Davies, McKernan y Sabbagh, 2023, párr. 34).