Conference Agenda
Overview and details of the sessions of this conference. Please select a date or location to show only sessions at that day or location. Please select a single session for detailed view (with abstracts and downloads if available).
|
Session Overview |
| Session | ||
Colab 4.4. Innovating Archival Access and Governance: AI, Standards, and Policy Frameworks
| ||
| Presentations | ||
Fragmentos Restaurados: LLaMA 3 y la Recuperación de Registros Históricos Empresariales. 1Consejo Nacional de Ciencia y Técnica, Argentina; CIS/IDES-UNTREF; 2Archivo Bunge y Born, Argentina; UdeSA, Argentina; 3Read-Coop, Austria Short Description Este artículo aborda la utilización de inteligencia artificial, específicamente el uso de LLaMA, para la recuperación de registros históricos empresariales, partiendo del caso del Archivo Bunge y Born (ABB). La presentación se organiza en tres partes: la preparación de datos en formato machine readable, la creación de un ground truth para el fine tuning del modelo, utilizando Ollama, mediante el método Optimized Rank Preservation Objective (ORPO) y la validación de resultados. Abstract Este artículo aborda la utilización de inteligencia artificial, específicamente el uso de LLaMA, para la recuperación de registros históricos empresariales, partiendo del caso del Archivo Bunge y Born (ABB). Este archivo contiene más de 20.000 documentos y 1.500.000 páginas que registran las actividades del grupo empresarial desde 1882 hasta 1950. La presentación se organiza en tres partes: la preparación de datos en formato machine readable, la selección y el análisis del material histórico utilizado como ground truth para el fine tuning del modelo, utilizando Ollama, mediante el método Optimized Rank Preservation Objective (ORPO) y el trabajo conjunto entre profesionales y tecnologías avanzadas para la validación de resultados. La primera parte, expone cómo se realizó la preparación de los datos a partir del procesamiento de la documentación histórica del ABB mediante la plataforma Transkribus. Este proceso produjo transcripciones iniciales que se estructuraron y normalizaron mediante un middleware de desarrollo propio denominado Tapir. En la segunda parte, se definió el corpus documental que se utilizó como ground truth para el entrenamiento del modelo para el fine tuning. En este caso se seleccionaron actas históricas, que abarcan el periodo 1906 y 1967, con un total de 994 hojas. La coherencia en estructura, contenido y formato, junto con su enfoque económico-administrativo, posiciona al corpus como una base representativa que podría optimizar la capacidad del modelo para extraer información. El ajuste fino o fine-tuning del modelo cuantizado se realizó utilizando Ollama v0.5.7, mediante el método ORPO. La elección de Ollama se fundamentó en su naturaleza open source, y en su capacidad para operar de forma autónoma en hardware estándar. Por sus características podría convertirse en una herramienta eficaz para aplicaciones archivísticas. Finalmente, y en la tercera parte, se advierte la necesidad de incluir en el proceso una validación que surja de la interacción interdisciplinaria en la que archivistas, historiadores, gestores y expertos en inteligencia artificial evalúen la precisión del modelo y su aplicabilidad en el ámbito archivístico, como también demostrar el potencial de las tecnologías de procesamiento de lenguaje natural para redefinir el acceso y la exploración de archivos históricos. ICA’s offer to the community on copyright 1The National Archives, UK, United Kingdom, Chair of ICA EGLM; 2Independent Scholar, ICA EGLM Member, ICA WIPO representative Short Description Copyright is a difficult area for many archivists to manage. The presenters will outline the developing ICA offer to the community on copyright which has been enhanced in recent years and take questions and feedback from the participants in the co-lab Abstract At the 2023 ICA Congress in Abu Dhabi, attendees at a workshop sponsored by the Expert Group on Legal Matters (EGLM) requested we follow up on the ICA Copyright Declaration with institutional guidelines relevant to specific institutions’ challenges and endorsed the development of advocacy materials for either National Archives or professional bodies to use to approach their intellectual property offices to advocate for the needs of archives in copyright law. This co-lab will supplement that Session and with a general explanation of the ICA’s copyright resources. They include the copyright exceptions checklist and the online copyright course (going live in 2025) prepared by the ICA’s representative to the World Intellectual Property Organization’s Standing Committee on Copyright and Related Rights, as well as the work undertaken within the EGLM Expert Group on Legal Matters: ICA Copyright Declaration (2022) and the present draft Toolkit for jurisdictional and institutional guidelines. Mindful that ICA members represent many legal traditions and types of archive, EGLM has devised a modular toolkit form of copyright guidelines capable of being customised to a jurisdiction or even an individual institution. Fully to test the concept, further work is required in collaboration with practitioners and educators. EGLM shall be doing that in 2025 in partnership with an ICA Branch to share learning and benefits. Malcolm Todd, the Chair of EGLM and Jean Dryden, WIPO Representative and EGLM Member will review this corpus of products designed to support the profession’s effectiveness in this vital area for the archival mission. Time will be available for attendees to give their views on the utility and coverage. La Política de gestió de la informació tipus del Consorci Localret 1Consorci Localret, España; 2Ayuntamiento de Sant Feliu de Llobregat, España; 3Ayuntamiento de Vilafranca del Penedès, España; 4Ayuntamiento de Sant Cugat del Vallès, España; 5Generalitat de Catalunya, España; 6Diputació de Barcelona, España Short Description La Política de gestió de la informació de Localret, pren com a base la política de gestió del document electrònic elaborada per l’Estat Espanyol i n’incorpora tots els elements per a la correcta gestió de les dades, creant un document que configura un paraigües únic per a la gestió de la informació d’una organització en l'actual era digital, actuant com el pont que connecta la gestió dels documents i la ciència de les dades. Abstract La governança de la informació s’ha convertit en una matèria cabdal per a les organitzacions públiques, que es troben actualment immerses en un procés de trànsit cap a l’anomenada era digital. L’expansió de les tecnologies disruptives ha provocat la generació i el processament de dades en volum i velocitat fins ara inèdits, situant aquests actius digitals en el centre d’interès dels poders públics, per una banda, per les grans possibilitats que ofereixen en la presa de decisions, la transparència i el retiment de comptes, així com en la prestació de serveis públics proactius i personalitzats, centrats en les persones, i per l’altra, pels reptes que planteja la seva gestió i la seva governança. Aquesta nova realitat confronta el model de gestió de la informació actual a les administracions, basat en normatives i en polítiques concebudes des de la perspectiva d’una administració docucèntrica, on la seva activitat es traduïa principalment en la producció d’actes administratius en suport documental. La necessitat de gestió de les dades i la seva governança, requereixen d’una sèrie de normes, procediments i polítiques que permeti les administracions usar-les i gestionar-les de manera eficaç i eficient, així com garantir la seva qualitat, seguretat, accessibilitat i disponibilitat. La Política de gestió de la informació de Localret, pren com a base la política de gestió del document electrònic elaborada per l’Estat Espanyol i n’incorpora tots els elements per a la correcta gestió de les dades, creant un document que configura un paraigües únic per a la gestió de la informació d’una organització en l'actual era digital, actuant com el pont que connecta la gestió dels documents i la ciència de les dades. Així mateix, la Política que presentem s’alinea amb els valors arxivístics fonamentals, i amb els objectius de l’ICA, en tant que promou les bones pràctiques en l’àmbit dels documents i la gestió de les dades, fomentant una gestió i un major ús d’aquestes en el marc legal establert. En aquest sentit, aquesta Política ha estat elaborada en el marc del grup de treball format per professionals de primera línia del món de l’arxivística i la gestió documental dels diferents nivells d’administració catalana, fet que ha permès incorporar en el seu text diferents sensibilitats i pràctiques complementàries, que han donat com a resultat una política de gestió de la informació tipus excepcional, d’aplicació a totes les organitzacions públiques. | ||