El sistema «CURIA»: (muchas) más preguntas que respuestas

Autores: Renzo Cavani y Maurizio Cavani

Para nadie es novedad que la inteligencia artificial y su constante y permanente desarrollo tecnológico potencialmente permite solucionar diversos problemas de eficiencia que padece la administración pública y, particularmente, la administración de justicia. De hecho, desde hace algunos años ya ha capturado la atención de las gestiones del Poder Judicial en diversos países que han apostado por implementar diversos sistemas con tareas muy puntuales, como es el caso de Victor (Supremo Tribunal Federal brasileño) o PretorIA (Corte Constitucional colombiana).

El Perú no ha sido ajeno a ello. Dos ejemplos son AMAUTA-PRO y CURIA: el primero, desarrollado por la Corte Superior de Justicia de Lima Norte en el ámbito de la interposición de denuncia por violencia familiar y la adopción de medidas de protección; y el segundo, llevado adelante por la Quinta Sala de Derecho Constitucional y Social Transitoria de la Corte Suprema (en adelante, la “Quinta Sala”). Es sobre este último sistema que reside nuestra atención.

Los informes de CURIA

Al respecto, hemos tenido a la vista dos documentos: un informe situacional del programa de abril o mayo de 2025 (primer informe), y otro informe situacional del segundo semestre de este año (segundo informe). Ninguno de ellos tiene fecha.

Respecto del contexto, según se indica­, la Quinta Sala enfrentaba una necesidad urgente de modernizarse. Se menciona que su proceso de votación era arcaico, basado en “imprimir tablillas físicas”, que sería un método ineficiente que ralentizaba la toma de decisiones.

Una primera solución fue el Sistema Jurisdiccional de Trabajo (SJT), iniciado entre mayo y junio de 2024. El SJT es una solución de infraestructura digital. Su función principal fue reemplazar el papel por una “tablilla digital” y crear “bandejas de trabajo” para centralizar las votaciones. Es, en esencia, un sistema de flujo de trabajo (workflow) que digitaliza y organiza el proceso frente al colegiado.

La segunda fase de la implementación tecnológica en la Quinta Sala fue precisamente CURIA. Este sistema surge como un requerimiento posterior para “fortalecer” el SJT. El informe acentúa de que no es el SJT, sino un componente que se integra a este.

CURIA es definido como un “modelo conceptual de inteligencia artificial generativa”, diseñado como un asistente jurídico digital basado en IA, que utiliza procesamiento de lenguaje natural (NLP), machine learning e IA Generativa. Se indica, además, que su objetivo no sería reemplazar al juez, sino “potenciar su capacidad de análisis”.

Las funcionalidades clave de CURIA serían: análisis del caso, búsqueda inteligente de jurisprudencia, justificación de precedentes y “apoyo en la elaboración de ejecutorias supremas”, para lo cual sugiere redacciones. Inclusive, cuenta con el ChatBot CURIA, que sería un prototipo especializado con funciones de consulta de normativa, orientación y apoyo a los jueces supremos.

Según los informes, el estado actual es que CURIA es una “prueba de concepto” (PoC) exitosa, analizando 270 hojas en aproximadamente 4 minutos; y, además, que actualmente se encuentra en proceso de “gestión de adquisición” para su escalabilidad e implementación institucional. Se entiende, pues, que se buscaría implementarlo en otros colegiados de nuestro país.

Los informes revelan varios desafíos que se habría tenido en el proceso de implementación:

1. Inercia tecnológica: El punto de partida fue un sistema manual basado en documentos físicos, lo que implica un reto cultural y de capacitación significativo.

2. Desarrollo sin costo (in-house): Se destaca que el desarrollo del SJT y CURIA “no ha generado costos adicionales”, utilizando recursos existentes y el apoyo de especialistas (incluyendo un equipo de Brasil).

3. El desafío de la escalabilidad: Si bien la PoC no tuvo costo, el informe es indica que la “implementación a nivel nacional requiere una inversión” y la asignación de recursos presupuestales para su sostenibilidad. Así pues, el modelo actual no es escalable sin financiamiento.

4. Gobernanza reactiva: El desarrollo tecnológico parece haber avanzado más rápido que la propia estructura administrativa. El Consejo Ejecutivo del Poder Judicial, recién en febrero de 2025, dispuso que la Gerencia de Tecnologías de Información del Poder Judicial “analice y desarrolle las mejores propuestas” y que “se evalúe la viabilidad de crear un órgano rector en materia de inteligencia artificial en el Poder Judicial”. Pero CURIA se lanzó en un mes después.

5. Dependencia externa: El desarrollo de la IA requirió reuniones de trabajo y asesoramiento de ingenieros y científicos de datos de Brasil, lo que podría sugerir una dependencia de experticia externa que debe gestionarse para la sostenibilidad a largo plazo.

¿Qué no sabemos de CURIA?

Aunque los informes permiten conocer algunos aspectos de CURIA, estos son extremadamente genéricos, no son manuales de usuario, y están muy lejos de ser manual de referencia, esto es, un documento es que se muestre la construcción algorítmica del programa. Esto es muy preocupante pues el sistema se viene usando desde hace meses, ya se busca que sea replicado institucionalmente, pero, al menos en cuanto a información pública, no es posible saber cómo realmente funciona.

En efecto, hay mucha información técnica y de gobernanza que es esencial conocer para poder comprender el sistema de mejor manera; sin hacer ningún acto de fe respecto de las ventajas que puedan resaltarse. Sólo esto permite juzgar si la implementación de CURIA es apropiada.

Por ejemplo, podemos mencionar las siguientes omisiones:

Detalles del corpus de entrenamiento: Se menciona que CURIA fue entrenado con “1136 resoluciones judiciales” y la base de datos del SPIJ, y que únicamente está restringido a la revisión de legalidad en la ejecución coactiva (un proceso especial del proceso contencioso administrativo). No obstante, no se detalla el criterio de selección de esos 1136 casos, el método de curación ni el balance del dataset. Saber este criterio es fundamental para poder tener una seguridad razonable de que, al menos, no habría sesgos algorítmicos.

Protocolos de validación (pruebas): Se menciona el “éxito” de la PoC y su validación, pero no se proporcionan las métricas de rendimiento (por ejemplo: precision, recall, F1-score) ni tampoco las métricas de generación de texto, tales como ROUGE/BLEU. Tampoco se detalla los protocolos de testing ni los resultados del análisis de errores. Parecería, pues, que la prueba no habría arrojado dificultades, lo cual es muy difícil de creer.

Infraestructura de software/hardware: Faltan detalles sobre el stack tecnológico. ¿Es CURIA un modelo on-premise o en la nube? ¿Qué modelos y técnicas específicas de IA generativa o machine learning se están utilizando (por ejemplo: transformers, LLMs)? ¿Con qué técnicas se han representado computacionalmente los precedentes que se encuentran en la base de datos? ¿Atienden al mérito del caso concreto o simplemente a una coincidencia de palabras, sin llevar a cabo modelos de razonamiento? ¿Cuál es exactamente el output del sistema y cuáles son los protocolos de prompting y de inclusión en la resolución judicial final?

Gobernanza de datos: No se especifican las políticas de gobernanza de datos, el versionado del dataset de entrenamiento, ni tampoco cómo se gestiona el ciclo de vida de los datos judiciales utilizados.

Así pues, nos parece que toda esta información es absolutamente esencial que sea revelada. De lo contrario, no hay forma posible de saber realmente si se trata de una herramienta segura y confiable.

¿Y el aspecto ético?

La IA es una herramienta creada por humanos para los humanos; somos nosotros los que gozaremos o sufriremos de sus consecuencias. Así, dado que la IA es un nuevo agente que potencialmente puede generar grandes transformaciones sociales, es necesario que se establezcan parámetros éticos que guíen su correcto uso. Esto y se viene realizando a nivel de soft law y, por supuesto, a nivel de legislación.

Empero, en el caso de CURIA, nos parece que podrían existir diversos problemas en este ámbito. En efecto, el problema ético más significativo podría ser un riesgo de sesgo algorítmico. Específicamente dos son los sesgos en cuestión:

Sesgo de muestra: Se indica que el modelo se entrenó con solo 1136 precedentes, pero este es un dataset extremadamente pequeño para un modelo de IA robusto, creando un alto riesgo de sobreajuste (overfitting) y de no generalizar correctamente a casos nuevos o atípicos.

Sesgo de contenido: El modelo, como se dice, se especializa en revisión de legalidad de la ejecución coactiva. Pues bien, si los 1136 casos de entrenamiento contienen sesgos históricos (por ejemplo: una tendencia a fallar a favor de la administración pública), la IA aprenderá, replicará y amplificará estos sesgos, presentándolos como la norma o “sugerencia” estándar. Ello comprometería gravemente la imparcialidad judicial.

Asimismo, a priori vemos problemas de transparencia y explicabilidad (explainable artificial intelligence, o XAI). Se dice que el sistema usa IA generativa y machine learning, que son técnicas conocidas por ser modelos de “caja negra” (black box) en la medida que son entrenados por miles de millones de datos, a partir de complejos modelos matemáticos y estadísticos. No obstante, el informe no menciona si CURIA incorpora herramientas de XAI (aunque sea en el output o en el ChatBot CURIA), lo cual se agrava si acaso el sistema ofrece razones o guías para decisión. En ese escenario, en nuestra opinión, todo juez necesita saber por qué la IA sugiere una determinada línea argumentativa o precedente. Pero no es nada claro si esto realmente se garantiza.

Por su parte, tenemos la privacidad y anonimización. Los informes mencionan la “anonimización de datos personales y sensibles” como un requerimiento o necesidad; sin embargo, no se confirma explícitamente que el corpus de entrenamiento de 1136 casos haya sido efectiva y correctamente anonimizado antes del entrenamiento.

Luego está la rendición de cuentas (accountability). Los informes indican que CURIA “no pretende reemplazar el criterio judicial”. No obstante, es necesario que se esclarezca lo siguiente: si un juez se apoya en una “sugerencia” de CURIA que resulta estar basada en un sesgo o en una “alucinación” de la IA, ¿la responsabilidad es únicamente del magistrado o existe algún tipo de auditoría sobre el algoritmo para determinar a los responsables? Aquí los informes silencian.

Y, finalmente, la gobernanza. Llevar adelante sistemas de IA ad hoc (esto es, creados por un desarrollador para una actividad específica en que éste será el principal usuario) puede ser una buena idea porque se logra más transparencia y no se dan las ataduras de secretos industriales, pero también tiene algunos riesgos. En el caso de CURIA, la Quinta Sala desarrolló una PoC antes de que el Poder Judicial cuente con “lineamientos” o un “órgano rector en materia de inteligencia artificial” como se había anunciado; e inclusive antes de la promulgación del propio Reglamento nacional de la Ley de IA, en septiembre de 2025. Su mayor o menor compatibilidad con esta normativa será explorada en un artículo posterior, pero desde ya hay que dejar algo sentado: es muy problemático implementar esta tecnología de IA sin tener aún las reglas éticas, legales y de supervisión institucional definidas, que es precisamente lo que busca hacer el Reglamento de IA con las obligaciones a las entidades públicas, la consagración de la Secretaría de Gobernanza y Transformación Digital como ente rector y la colocación de CURIA como sistema de alto riesgo.

En conclusión, nos quedamos con muchas más preguntas que respuestas sobre CURIA, en gran medida por una falta de información pública. Ojalá que pronto podamos contar con ella a fin de despejar las legítimas dudas de la academia, la abogacía y la ciudadanía.


Sobre el autor: – Renzo Cavani
Profesor ordinario asociado PUCP

– Maurizio Cavani
MsC y biólogo computacional UPCH

Comentarios: