Entrevista a Luis Antonio Morró CEO de tranSkriptorium: “El respaldo del CDTI Innovación y los fondos europeos MRR ha sido clave para desarrollar nuestra tecnología de IA capaz de extraer información de documentos no nativos digitales”

Respaldada por CDTI Innovación y los fondos europeos MRR, la spin-off de la UPV tranSkriptorium utiliza la inteligencia artificial para abrir al mundo documentos manuscritos, impresos o mecanografiados que antes eran casi imposibles de consultar. Su tecnología los transforma, sin importar idioma, antigüedad o deterioro, en bases de datos accesibles para investigadores, administraciones y empresas

CEO_Transkriptorium

En un momento en el que la digitalización avanza con rapidez, buena parte del conocimiento sigue atrapado en documentos no accesibles electrónicamente. Por ello, millones de expedientes administrativos, registros judiciales y documentos manuscritos conservados en archivos públicos y privados permanecen fuera del alcance de los sistemas de búsqueda y análisis de datos, limitando su valor para administraciones, empresas, investigadores y ciudadanía.

Frente a este reto, surge tranSkriptorium, una spin-off de la Universitat Politècnica de València (UPV) que ha convertido años de investigación en soluciones capaces de interpretar, clasificar y extraer información estructurada de documentos históricos y administrativos. Según Luis Antonio Morró, CEO de la compañía: “El origen de tranSkriptorium se remonta al momento en que los investigadores del Pattern Recognition and Human Language Technology Research Center (PRHLT) de la UPV y la propia Universidad se interesaron por conocer si la tecnología de Indexación Probabilística (PrIx) tenía sentido empresarial”. “Esa reflexión —añade—, marcó el punto de partida para transformar un desarrollo científico en una herramienta de impacto real”. 

La empresa, fundada durante la pandemia de 2020, basa su propuesta de valor en soluciones como PrIx y modelos avanzados de reconocimiento de escritura manuscrita, capaces de analizar imágenes no transcritas y entender documentos que hasta ahora solo podían estudiarse manualmente. 

Desde ese momento, tranSkriptorium se ha especializado en el procesado de documentos complejos: manuscritos antiguos, mecanografiados o impresos con caligrafías difíciles, layouts irregulares o anotaciones marginales. Aunque sus primeros clientes han sido administraciones públicas, Morró subraya que la tecnología con la que trabajan desde la compañía tiene un alcance mucho más amplio: “En esta era, cualquier tenedor de datos hasta la fecha no accesibles de manera electrónica identifica la importancia empresarial y económica que tiene el poder acceder a toda la documentación de la que se dispone”.

La empresa, además, trabaja para acelerar la digitalización de miles de colecciones documentales que permanecen invisibles a los sistemas electrónicos. Así, su objetivo es claro: “Buscamos democratizar el acceso a la información y permitir que cualquier ciudadano, investigador, empresa o administración pueda consultar estos documentos de forma que puedan explorarse con la misma facilidad que un archivo digital”, afirma el CEO.


Equipo de tranSkriptoriumAI, investigadores y desarrolladores que combinan IA y conocimiento archivístico para recuperar información oculta en miles de documento

 

Un reto que afrontar: miles de millones de documentos sin describir

Pese a los avances en digitalización, la mayor parte de los archivos públicos y privados contiene documentos que no han sido descritos ni catalogados, o que carecen de información mínimamente estructurada. En muchos casos, solo existe una imagen digital de la página manuscrita o mecanografiada, imposible de procesar automáticamente. Como asegura Morró: “Miles de millones de documentos presentes en los archivos apenas tenían información y los procesos manuales solo permitían describir alrededor del 3%”. 

Esta falta de descripción hace que la consulta de los fondos dependa del conocimiento experto de archiveros y conservadores que deben interpretar cada documento de forma manual. Además, limita las posibilidades de reutilización, investigación o análisis masivo, y dificulta el cumplimiento de normativas relacionadas con transparencia, acceso ciudadano o preservación de la memoria institucional.

Por esta razón, la compañía busca resolver este problema con un enfoque doble: por un lado, mediante sistemas de reconocimiento automático que aceleran el trabajo; por otro, mediante estrategias “human-in-the-loop”, donde un experto valida los casos ambiguos. Como bien explica el CEO: “Esta aproximación permite mantener la calidad. Nuestra tecnología combina automatización con supervisión humana para obtener datos reales y gestionarlos a gran escala, evitando errores asociados a modelos completamente generativos”.
 


Modelos de IA capaces de transformar colecciones documentales históricas en información estructurada y consultable

 

Digitalizar, describir y extraer información a gran escala

El apoyo de Neotec, iniciativa del CDTI Innovación cofinanciada con los fondos europeos del Mecanismo de Recuperación y Resiliencia (MRR), ha sido clave para el desarrollo y crecimiento de tranSkriptorium. En palabras de Morró: “Sin este respaldo habría sido difícil abordar un proyecto tan ambicioso, especialmente por los costes de investigación, desarrollo y entrenamiento de modelos”, y añade: “Neotec ha permitido acelerar las pruebas, demostrar la viabilidad comercial y reforzar su posicionamiento en un mercado en expansión”. 

Gracias a este apoyo, la empresa ha podido avanzar en un proyecto estratégico: desarrollar modelos capaces de clasificar documentos, segmentar sus componentes e identificar nombres de personas, cargos, fechas y otros elementos estructurados, transformando grandes archivos en bases de datos consultables y explotables. La tecnología combina varias capacidades complementarias: analiza miles de imágenes para determinar el tipo de documento, su estructura interna y la información que contiene, automatizando la fase inicial del trabajo archivístico; identifica entidades y datos clave esenciales para construir índices y habilitar búsquedas avanzadas; y, en el centro de la solución, incorpora PrIx, la tecnología de indexación probabilística que permite trabajar con imágenes sin necesidad de transcribir todo su contenido. 

“Esta herramienta permite trabajar con documentos aún no transcritos y localizar información como si se tratara de un buscador moderno, ofreciendo un acceso rápido y preciso a colecciones que antes eran prácticamente inaccesibles”, explica. 
 


Procesos de extracción y clasificación automática que convierten páginas manuscritas o mecanografiadas en datos listos para análisis y consulta


El valor del enfoque human-in-the-loop

La digitalización masiva de archivos presenta ambigüedades: caligrafías complejas, abreviaturas, tachaduras o deterioros físicos. En este contexto, Morró subraya que, frente a otros sistemas, “tranSkriptorium apuesta por integrar expertos en la validación de los resultados”. Además, asegura que “No se trata de sustituir al profesional sino de multiplicar su capacidad de trabajo”.
 

Impacto y validación internacional

La tecnología de tranSkriptorium AI ya ha sido validada por instituciones y universidades de distintos países, así como por administraciones públicas que gestionan colecciones de gran volumen. 

“Hemos observado una gran demanda internacional, debido, especialmente, a que nuestra tecnología no depende de un idioma concreto ni de una época específica”, asegura Morró, que añade: “Pueden trabajar con documentos en español, valenciano, francés, inglés, latín o cualquier otro idioma, y con caligrafías tan diversas como las notariales del siglo XVII o las administrativas de mediados del XX”. 

Además, el CEO señala que su solución no se limita a archivos históricos. Existen documentos manuscritos de creación reciente en sanidad, servicios sociales, educación o justicia. “Es algo que forma parte de nuestro día a día”, remarca. Por ello, su tecnología no solo recupera el pasado, sino que también impacta en la gestión documental del presente.
 

Perspectivas de futuro: alianzas, expansión y nuevas líneas de investigación

En los próximos años, tranSkriptorium busca integrarse en proyectos europeos y establecer alianzas globales que impulsen el uso de su tecnología en administraciones públicas y grandes instituciones, con el objetivo de consolidarse como un referente internacional en el procesamiento inteligente de archivos. 

Paralelamente, la empresa seguirá invirtiendo en investigación para mejorar la precisión, la capacidad de extracción y la robustez de sus modelos frente a documentos especialmente deteriorados o complejos. Como señala Morró, su intención es “Obtener datos reales y gestionarlos a gran escala sin depender de tecnologías que puedan generar información no verificable”.

Morró sintetiza la filosofía de la empresa con una idea clara: democratizar el acceso al conocimiento. Su objetivo es que cualquier ciudadano pueda consultar un archivo histórico o administrativo permitiendo localizar la información con la misma agilidad que un buscador digital. En definitiva, y como concluye el CEO, “Recuperar la información oculta en millones de documentos constituye un paso esencial para construir sociedades más transparentes, eficientes y conectadas con su memoria colectiva”. 

 

CDTI Innovación

El Centro para el Desarrollo Tecnológico y la Innovación, CDTI E.P.E. es la agencia de innovación del Ministerio de Ciencia, Innovación y Universidades, cuyo objetivo es la promoción de la innovación tecnológica en el ámbito empresarial. La misión del CDTI es conseguir que el tejido empresarial español genere y transforme el conocimiento científico-técnico en crecimiento globalmente competitivo, sostenible e inclusivo. En 2024, en el marco de un nuevo plan estratégico, el CDTI proporcionó más de 2.300 millones de euros de apoyo a empresas y startups españolas.


Más información:

Oficina de Prensa
prensa@cdti.es
91-581.55.00

En Internet
Sitio web: www.cdti.es
En Linkedin: https://www.linkedin.com/company/29815
En X: https://twitter.com/CDTI_innovacion
En Youtube: https://www.youtube.com/user/CDTIoficial

Este contenido es copyright © 2025 CDTI,EPE. Está permitida la utilización y reproducción citando la fuente y la identidad digital de CDTI (@CDTI_innovacion).