Conference Agenda
Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).
|
Session Overview |
| Session | ||
4.13. Archival Access at Scale: Linking Heritage, Technology, and the Public
| ||
| Presentations | ||
Large-scale HTR at the National Archives of Sweden Swedish National Archives, Sweden Short Description The Swedish National Archives is using handwritten text recognition (HTR) to transcribe a large amount of scanned document images, starting with 5 million pages from our historical archives. Powered by the Swedish Lion Libre model and HTRflow, an in-house developed HTR-package, this system transcribes 1600–1900 Swedish handwriting with high accuracy. The end-user access the text through our digital-research room. This end-to-end HTR solution can hopefully inspire other similar projects. Abstract Large-scale HTR at the National Archives of Sweden About 70 million images of the National Archives of Sweden’s archival documents are published online in our ‘Digital Research Room’. Although these images are digitally accessible, their content is not searchable and has only been truly accessible to those proficient in historical handwriting. With recent developments in AI-based handwritten text recognition (HTR), it is now possible to transcribe handwritten documents automatically. During 2025, we will update the Digital Research Room with a new media viewer capable of displaying transcriptions alongside images, together with an initial batch of c. 5 million transcribed and searchable pages. Our HTR solution builds on open-source models and a unique open-source HTR package called HTRflow. The base HTR model, called Swedish Lion Libre, is an open-source HTR model trained on over a million lines of historical Swedish text. A large part of its training data have been sourced through a series of citizen-science projects. The Swedish Lion Libre transcribes Swedish handwriting from the period 1600–1900 with high accuracy. The transcriptions will be available for search, display and download via the Digital Research Room and our public APIs. The digital research room uses the open source media viewer Universal Viewer 4, which we have customized to display transcriptions alongside images. The viewer includes integrated search functionality that lets users easily navigate between highlighted matches in both the transcription and the original image. Additionally, a new IIIF Content Search API endpoint facilitates external integration and reuse of the transcriptions. HTR makes it possible to transcribe handwritten documents at a large scale and low cost relative to manual transcription. It enables users at all experience levels to read, browse and analyse handwritten texts in unprecedented ways. Scholars can also download the transcribed texts for analysis using digital tools and methods. This paper demonstrates the entire digitalization pipeline, going from scanned document images, to presenting text and images to the end-user in a searchable and user-friendly way. Along the way of this large-scale digitalization project, we’ve developed, evaluated and refined the components comprising the entire production pipeline, and this paper will hopefully serve as an inspiration for similar projects going on at cultural heritage institutions around the world. Projecte “XARXES”: Tecnologies de visió per computador per construir xarxes socials històriques. Departament de Cultura de la Generalitat de Catalunya, Espanya Short Description L’ús de les tecnologies de visió per computador que processen i interpreten imatges digitals, permet desenvolupar programes de reconeixement massiu de caràcters que fan possible la transcripció automàtica o semiautomàtica dels documents digitalitzats. La tecnologia ja s’aplica sobre la sèrie dels padrons i es treballa en l’aplicació en altres sèries com les lleves militars, perquè permetrien resseguir la trajectòria vital dels individus. L’objectiu és la creació de xarxes socials històriques. Abstract Projecte de col·laboració de la Xarxa d’Arxius Comarcals de Catalunya (XAC), el Centre de Visió per Computador (CVC) i el Centre d’Estudis Demogràfics (CED), per dissenyar els programes d'ordinador que permeten la transcripció automàtica dels documents digitalitzats. La informatització massiva de les fonts demogràfiques històriques de la població, permetrà la creació de bancs de dades d’ús públic, en aquest sentit la sèrie documental dels padrons es tracta des d’una òptica longitudinal a través de la seva vinculació amb altres sèries documentals que permeten extreure dades objectives per individus. La creació de xarxes socials històriques (semblant a un Linkedin) permetran entre altres estudiar els moviments migratoris o les formacions familiars dinàmicament, en el temps i en l’espai. A partir d’aquí es podran elaborar eines per analitzar genealogies i trajectòries individuals, millorant la consulta i l’accés de la ciutadania a la informació continguda als arxius públics. Es presentaran les dades obtingudes de la sèrie documental dels padrons i de les lleves militars, l’objectiu serà mostrar l’encreuament de dades per localitzar una persona. Es mostraran també les sèries documentals amb les quals es vol continuar el projecte que hauria de donar com a resultat la creació d’una base de dades per fer cerques per individus. Innovación archivística desde Córdoba: digitalización, robotización y prototipos de IA para manuscritos históricos en el contexto andaluz 1Junta de Andalucía, España; 2Universidad de Córdoba Short Description En el Archivo Histórico Provincial de Córdoba se han llevado a cabo proyectos de digitalización masiva y de automatización que han permitido subir a @rchivAWeb 18 millones de imágenes de los archivos históricos de Andalucía. Actualmente, se están impulsando modelos de IA para el reconocimiento de escritura del Siglo de Oro, reutilizables por cualquier archivo que custodie fondos en español de esa época. ¿Cómo abordar este tipo de proyectos? Compartiremos algunas claves y experiencias concretas. Abstract La digitalización de grandes volúmenes de documentación requiere proyectos complejos que integren conocimientos de múltiples disciplinas como archivística, informática, historia y gestión de proyectos. En el caso del Archivo Histórico Provincial de Córdoba, este proceso ha sido posible gracias a la colaboración entre la Universidad de Córdoba y la Junta de Andalucía, en el marco del Proyecto DARCO (Digitalización de Archivos del Reino de Córdoba). Hasta el momento, este proyecto ha permitido generar más de tres millones de imágenes digitalizadas de protocolos notariales de la ciudad y la provincia de Córdoba. Para facilitar el acceso público a los fondos digitalizados de los archivos históricos de Andalucía, fue necesario unificar tanto las imágenes como sus metadatos según las directrices actualizadas de la Junta de Andalucía. Este proceso fue posible gracias a la automatización robótica de procesos (RPA), también conocida como robótica de software, cuyo robot se diseñó en Córdoba. Este prototipo ha sido extendido al resto de archivos históricos de la comunidad. Gracias a esta automatización, ya se han publicado más de 18 millones de imágenes a través de la plataforma @rchivAWeb. Actualmente, se trabaja en la aplicación de inteligencia artificial para el reconocimiento automático de escritura manuscrita del Siglo de Oro (HTR – Handwritten Text Recognition), un proyecto multidisciplinar en el que participan paleógrafos, historiadores, archiveros, informáticos y gestores. Esta nueva fase, impulsada desde Córdoba, cuenta con la colaboración de la Junta de Andalucía, la Universidad de Córdoba y la Diputación Provincial de Córdoba. Los modelos y tecnologías que se desarrollen serán de carácter abierto y reutilizable, lo que permitirá que otros archivos históricos —tanto en España como en el ámbito internacional— que custodien documentación en español de esa época puedan beneficiarse directamente de los resultados del proyecto. Estos avances representan solo los pasos iniciales en el tratamiento de grandes fondos documentales y permitirán, en el futuro, la implementación sistemática del modelo RiC (Records in Contexts), facilitando la identificación de entidades y su conexión dentro del marco de la Web Semántica (Web 3.0). Asimismo, se abrirán nuevas posibilidades para aplicar técnicas de minería de datos en el ámbito de la investigación, especialmente en las Humanidades Digitales. Preservación y Digitalización del Archivo empresarial Bunge y Born. 1Consejo Nacional de Ciencia y Técnica, Argentina; CIS/IDES-UNTREF; ABB,Argentina; 2Archivo Bunge y Born, Argentina; UdeSA, Argentina; 3CONICET-IICS-UCA, Argentina; 4Archivo Bunge y Born, Argentina Short Description En este artículo se describe el proceso de identificación, catalogación y digitalización implementado para la creación del Archivo Histórico Bunge y Born (ABB), en Argentina. La ponencia se encuentra dividida en dos partes, en la primera se realiza un análisis de los alcances y limitaciones del software AtoM como herramienta para archivos empresariales privados. En la segunda parte, se profundiza en el proceso de digitalización implementado en este archivo de empresa. Abstract En este artículo se describe el proceso de identificación, catalogación y digitalización implementado para la creación del Archivo Histórico Bunge y Born (ABB), en Argentina. El ABB constituye el acervo empresarial privado más grande de la Argentina. Con cerca de 1.500.000 páginas da cuenta de las actividades económicas y sociales de uno de los grupos más destacados del país desde finales del siglo XIX hasta mediados del XX. La ponencia se encuentra dividida en dos partes, en la primera se realiza un análisis de los alcances y limitaciones del software AtoM como herramienta para la descripción y catalogación de archivos empresariales privados, evaluando su efectividad en un acervo con las particularidades y complejidad del ABB. En este apartado profundizaremos a partir de casos concretos, es decir, describiremos los pasos llevados a cabo para lograr la identificación y catalogación del 100 por ciento de los documentos. En la segunda parte, se profundiza en el proceso de digitalización propiamente dicho, en ese sentido, los documentos existentes en el ABB enfrentan desafíos técnicos porque supone la manipulación de ejemplares de gran tamaño y peso. Mediante un enfoque metodológico riguroso, y un sentido práctico, -necesario al momento de actuar en contextos de escasos recursos económicos-, se ha logrado, luego de dos años, transformar estos registros en papel a formatos digitales accesibles, garantizando tanto su preservación como su disponibilidad para investigadores, gestores culturales y público en general. En este caso, abordaremos el proceso de preservación digital incluyendo todas sus fases y ejemplificando a través de explicaciones muy precisas los métodos y formas de digitalización y de preservación implementados en este archivo de empresa. Por último, consideramos que el estudio del ABB permite reflexionar sobre los desafíos que enfrentan los archivos empresariales privados en cuanto a su conservación, gestión y acceso. Asimismo, a lo largo de la ponencia se interpela sobre la necesidad de un análisis crítico sobre la importancia de estos archivos como fuentes documentales, destacando su valor para la investigación histórica y su potencial para enriquecer el conocimiento sobre la evolución económica y social de Argentina. | ||