AIUCD2024: METE DIGITALI
PROGRAM FOR WEDNESDAY, MAY 29TH
Days:
previous day
next day
all days

View: session overviewtalk overview

09:00-10:20 Session 8A: Frontiere etiche e sociali nelle Digital Humanities
Location: Aula 67
09:00
The dark mirror of artificial intelligence: how AI affects climate change

ABSTRACT. In the aftermath of the conclusion of the Digital Transformation (DT) Era, society is undergoing a pivotal shift, notably marked by the widespread integration of Artificial Intelligence (AI). This paper explores the multifaceted impact of AI on global climate change, focusing on the GLAM (galleries, libraries, archives, and museums) sector and the Cultural and Creative Industries (CCIs) and emphasising the European approach to address these challenges. As AI permeates various sectors, especially museums utilising AI for enhanced experiences and heritage preservation, the escalating computational demands contribute significantly to carbon emissions, demanding urgent intervention. Europe, exemplified by initiatives like the European Green Deal, underscores a commitment to sustainable development in mitigating environmental repercussions. This research delves into the moral and cultural dimensions of the AI-climate change nexus caused by European cultural institutions, contributing to the ongoing discourse on responsible AI development. A case study on OpenAi chatbot ChatGPT highlights the imperative to educate users about responsible AI usage, preventing irreversible damage to the environment and communities. Overall, the author seeks a harmonious balance between technological innovation and ethical responsibility in navigating the complexities of the AI-driven Era.

09:15
Genere e geopolitica nelle Discipline Umanistiche Digitali in Italia. Le Conferenze AIUCD (2012-2023)

ABSTRACT. Questo studio indaga la diversità di genere e geopolitica nelle digital humanities (DH) in Italia, in particolare nel contesto dall’Associazione Italiana per l’Informatica Umanistica e la Cultura Digitale (AIUCD), su esempio di analisi precedenti sulle conferenze ADHO (Eichmann-Kalwara et al., 2018). A partire da un corpus di atti di convegno pubblicati da AIUCD dal 2012 al 2023, l’analisi si concentra sulla rappresentazione di genere e sul divario Nord-Sud nel contesto istituzionale legato alla ricerca in DH. Questo lavoro preliminare mostra come, dal punto di vista del genere, il quadro generale veda un lento miglioramento verso un maggiore coinvolgimento delle donne, mentre dal punto di vista geopolitico la comunità delle DH italiana è ancora accentrata su singoli e limitati poli d’eccellenza, prevalentemente nelle istituzioni tradizionalmente più legate all’Umanistica Digitale ed economicamente più fiorenti del Settentrione. Lo studio invita a un esame critico e a una riflessione più generale sulla direzione futura delle DH, sottolineando inoltre l’importanza di politiche che promuovano attivamente una maggiore inclusività nel settore.

09:30
I simili si attraggono. La valutazione letteraria sulle piattaforme di digital social reading

ABSTRACT. La rivoluzione digitale che interessa una parte sempre crescente del campo letterario ha avuto fra i suoi effetti principali quello di attribuire al lettore comune un’inedita centralità. L’impossibilità di concepire i lettori come soggetti passivi, diretti da cause esterne, impone di superare i modelli della valutazione letteraria in cui il valore attribuibile a un’opera viene visto come il risultato della decisione di un ristretto gruppo di lettori esperti, suggerendo l’applicazione di criteri più inclusivi. In questo paper, proponiamo di considerare la valutazione letteraria come parte di un complesso sistema di relazioni tra singoli lettori e mostriamo, usando la teoria dei grafi, come le dinamiche interne a tale sistema possano portare all’emergere di criteri valutativi condivisi. Al fine di ottenere dati reali su cui basare la nostra analisi, ci si è focalizzati sulla piattaforma di digital social reading Goodreads.

09:45
Preservare la diversità nell’era dell’intelligenza artificiale: il dilemma etico di bias e discriminazioni negli algoritmi

ABSTRACT. Il seguente contributo intende mettere in luce i rischi legati alla presenza di bias nei dataset e negli algoritmi delle IA generative evidenziando come, attraverso i processi di addestramento di un Large Language Model (LLM), si possa giungere a esiti stereotipanti o discriminatori. Il dilemma dei bias è considerevole soprattutto nell’ottica dell’utilizzo sempre più diffuso di questi strumenti, in quanto le IA generative sono ormai produttrici di cultura, seppur sintetica, ben più di semplici macchine imitatrici. Il contributo origina dunque dalla necessità di un’indagine etica dello sviluppo di questi strumenti e del loro impatto sulla società. Per far ciò questa trattazione teorica ha tenuto presenti i principi, gli obiettivi e le pratiche proprie delle Digital Humanities.

09:00-10:20 Session 8B: Le Digital Humanities tra archivio e preservazione
Location: Aula 75
09:00
Rethinking scholarly digital objects as cultural heritage: the KNOT project

ABSTRACT. This paper presents the KNOT project, a three-year pilot tasked with investigating ways to integrate the digital cultural heritage of Italian universities within the national infrastructure being developed by the Ministry of Culture, and its central argument for rethinking the digital objects produced by academic research projects as interesting and, so far, unexplored examples of this digital cultural heritage. The paper discusses the key steps in the development of a conceptual framework for rethinking scholarly digital objects as cultural heritage starting with the definition of these objects and identification of the potential heritage values they hold, the selection of the humanities, and in particular the digital humanities, as the academic field from which to select these objects, the use of a census to evaluate the validity of these choices, and some of the issues that arose around the classification, documentation, and visibility of these objects.

09:15
Digital preservation e sostenibilità ambientale

ABSTRACT. Il cambiamento climatico si manifesta attraverso eventi estremi, e le nostre azioni individuali devono adattarsi a comportamenti più sostenibili. Sebbene siamo attenti a scelte eco-friendly nella vita quotidiana, l'impatto ambientale derivante dalle attività tecnologiche e dalla conservazione dei dati digitali richiede un'analisi critica. Questo studio esplora l'impatto ambientale delle tecnologie dell'informazione e della comunicazione (ICT) così come della conservazione digitale. Attraverso un'analisi del ciclo di vita degli hardware, dalle materie prime alla produzione, utilizzo e smaltimento, si evidenziano le sfide legate alle emissioni di carbonio. La transizione verso la digitalizzazione ha portato benefici, ma i data center e la conservazione digitale presentano nuove sfide ambientali. L'utilizzo crescente di servizi cloud ha un forte impatto sulla produzione, gestione e raffreddamento dei data center, sollevando interrogativi sulla sostenibilità delle pratiche attuali. Si esamina anche il ruolo dell'intelligenza artificiale nell'ottimizzare l'efficienza energetica. L'analisi si conclude sottolineando la necessità di considerare l'impatto ambientale delle attività digitali e di promuovere pratiche sostenibili a livello individuale e aziendale per mitigare l'impatto complessivo sulla crisi climatica.

09:30
The Tree of Philosophers: design and implementation of a digital resource for the history of academic philosophy

ABSTRACT. Our contribution presents the Tree of Philosophers (ToP), a digital resource for the reconstruction of academic family trees in the history of philosophy, resulting from an on-going collaborative effort of historians of philosophy. ToP’s trees represent specific socio-institutional networks of knowledge tradition, as they are made of lines of academic descent that connect philosophers on the basis of institutionalized master-pupil relations. Descent relations are labelled accordingly to specific context-dependent models of historical institutional assets, developed in close collaboration with a variety of experts in different historical domains. ToP relies on a simple infrastructure whose core is ToP’s relational database, which stores philosophers, relations and labels. ToP data have been retrieved from a variety of institutional and administrative sources, integrated by the exam of professional and biographical sources and by selected parts of available genealogical reconstructions. ToP’s sources and criteria for data collection allow the resource to include large amounts of philosophers regardless of their notability, thus providing access to a massive extra-canonical collection of non-famous authors. Dealing with 15000 mostly unknown philosophers in the first release of ToP presented many challenges that are reduced to FAIRification issues. Such issues have been managed by mapping ToP philosophers on external repositories of virtual identifiers for authority data, integrating them in ToP’s database.

09:45
Messaggistica istantanea e archivi digitali. Quali soluzioni? Best practices e considerazioni dal contesto internazionale

ABSTRACT. Negli ultimi anni la messaggistica istantanea – instant messaging (IM) - è diventata uno dei mezzi di comunicazione più utilizzati della nostra società: WhatsApp, Signal, Telegram, WeChat, ma anche Microsoft Teams o Google Chat, solo per citarne alcuni, sono diventati straordinariamente diffusi come metodo di comunicazione veloce ed efficiente. Come osserva Jenny Mitcham in un recente post dal titolo What’s up with using WhatsApp? (Digital Preservation Coalition), chi si occupa di archivi digitali dovrebbe iniziare ad interrogarsi sulla messaggistica istantanea come documento archivistico e pensare a come gestirla, archiviarla e conservarla a lungo termine, proprio in virtù del suo crescente utilizzo per comunicazioni importanti, aspetti decisionali nel contesto governativo, o come parte delle nostre memorie personali. Sebbene queste applicazioni favoriscano un modo di comunicare rapido e semplice, il loro utilizzo espone ad alcune criticità emergenti. L’intervento propone di delineare lo stato dell’arte sulla gestione della messaggistica istantanea negli archivi digitali. Recenti studi e inchieste, svolti principalmente da istituti internazionali e archivi nazionali tra il 2020 e il 2023, hanno portano alla luce una prima riflessione attorno al concetto di messaggistica istantanea come record, nonché policy e best practices per la sua gestione e conservazione.

11:10-11:30Coffee Break

Presso il chiostro di levante

11:30-13:10 Session 10A: Modelli semantici per testi musicali e letterari
Location: Aula A1
11:30
From Data Complexity to User Simplicity: A Framework for Linked Open Data Reconciliation and Serendipitous discovery

ABSTRACT. This article introduces a novel software solution to create a web portal to align Linked Open Data sources and provide user-friendly interfaces for serendipitous discovery. We present the Polifonia Web portal as a motivating scenario and case study to address research problems such as data reconciliation and serving generous interfaces in the music heritage domain.

11:45
Lost in datification? The journey of data from the primary source to the final interpretation

ABSTRACT. In the field of Digital Humanities, recent attention was given to the relationship between RDF-triples and natural language in the context of natural language to RDF conversion of humanities texts. The rigid structure of the model obliges scholars to make critical choices during the formalization of data resulting from an interpretation of the cultural resource. This may result in crucial differences between the final RDF formalization and the natural language text in terms of how much of the final semantic content retains the original one and how much remains hidden due to the framework's formal structure. The verification of the adherence of structured data to the primary source is useful to test if the data model returns the semantic expressiveness of the primary source in order to pursue the specific goal driven by the computational process. In this talk, we propose a three-step approach to verify the extent to which the RDF triples represent the respective content of the textual source from which they were generated within the limits of the modeling adopted. The approach is thus tested by proposing two case studies taken from two different cultural domains, namely literature and art history.

12:00
Representing texts as LOD: a Systematic Literature Review

ABSTRACT. Despite the growing interest in publishing linguistic data as Linked Open Data, the publishing of ancient language corpora for the Semantic Web is still challenging. This contribution describes a systematic literature review on the representation of corpus data as Linguistic Linked Open Data, focusing especially on models and (data) granularity. Our goal is to gain insights into the advantages and disadvantages of the different approaches. Here we present our systematic review methodology and some initial results.

12:15
Per l’interoperabilità e la sostenibilità delle risorse digitali dantesche: il progetto LiDa

ABSTRACT. In questo contributo presentiamo LiDa (Linking Dante), un progetto che mira a promuovere una maggiore interoperabilità e sostenibilità dei dati sulle opere dantesche raccolti in progetti precedenti, tramite l’utilizzo di tecnologie e linguaggi del Web Semantico. Dopo un’introduzione in cui definiamo gli scopi del progetto (§1), facciamo cenno ai limiti con cui si scontra l’annotazione in XML dei dati linguistici e alle potenzialità di una loro implementazione in RDF (§2); introduciamo poi gli elementi fondamentali della nuova ontologia che abbiamo elaborato a tal scopo (§3), e descriviamo la procedura con cui abbiamo realizzato un nuovo grafo di conoscenza che colleghi il testo della Commedia alle risorse linguistiche che lo descrivono (§4); infine, presentiamo le modalità di navigazione e interrogazione di tale grafo (§5) e riflettiamo sui risultati raggiunti (§6).

12:30
L’ontologia BiGraFo: verso un modello semantico per l’opera di Franco Fortini

ABSTRACT. Il contributo propone i primi risultati del progetto BiGraFo, avviato nel settembre 2023 per realizzare un catalogo semantico dedicato all’opera di Franco Fortini. Ci si concentra in particolare sugli aspetti metodologici ed euristici inerenti alla riflessione nata intorno alle ontologie bibliografiche e alla definizione di un modello per organizzare e rappresentare un caso particolarmente complesso come quello di Fortini: la sua ingente produzione e il continuo rimaneggiamento dei testi, spesso riproposti in sedi editoriali differenti, rendono l’autore un banco di prova significativo nell’ambito della rappresentazione della conoscenza.

11:30-13:10 Session 10B: Memoria tra digitalizzazione, codifica e gamification
Location: Aula 75
11:30
Preservare e valorizzare la memoria di archivi storici di ex-ospedali psichiatrici

ABSTRACT. Questo contributo presenta attività di ricerca inerenti alle cartelle cliniche degli ex ospedali psichiatrici calabresi di Reggio Calabria e Girifalco (CZ). L’obiettivo è illustrare lo stato di conservazione dei due archivi storici e proporre nuove prospettive di ricerca, supportate dall’impiego di metodologie di intelligenza artificiale e da tecniche di diagnostica non invasive, per favorire l’accesso al patrimonio informativo e la conservazione nel tempo delle carte. Tali attività, che si inquadrano nell’ambito del progetto di dottorato descritto, si propongono di completare le fasi di i) digitalizzazione e trascrizione delle cartelle cliniche dei due archivi storici, avviate nel corso di precedenti lavori e progetti di ricerca; ii) realizzare strumenti per favorire l’organizzazione, l’accesso e la consultazione del materiale archivistico; iii) effettuare valutazioni sullo stato di conservazione delle cartelle cliniche. Le scansioni delle cartelle cliniche non consentono un accesso immediato ed interoperabile ai contenuti delle stesse, per cui si applicheranno tecniche di Handwritten Text Recognition, mediante l’uso del software Transkribus, per ottenere delle trascrizioni in formato machine-readable. Il software servirà per addestrare un modello specifico di riconoscimento del testo manoscritto delle cartelle cliniche, redatte in lingua italiana e relative al XIX e al XX secolo. Saranno presi in considerazione solo le tabelle nosologiche, i diari delle degenze e i testi elaborati dai pazienti, sia per il particolare interesse che queste tipologie documentali rivestono per fini di ricerca e sia perché l’assenza di dati anagrafici al loro interno consente un maggiore rispetto della riservatezza e della privacy. Le difficoltà principali nell’addestramento del modello risiedono nella presenza di termini specialistici, in alcuni casi anche desueti, della disciplina psichiatrica, di diverse calligrafie all’interno di una stessa pagina e nell’evoluzione della struttura della cartella clinica, soprattutto per quanto riguarda lo sviluppo delle sezioni della tabella nosologica. Le trascrizioni rappresenteranno il punto di partenza per le indagini successive: si applicheranno tecniche di Natural Language Processing per automatizzare i processi di indicizzazione e categorizzazione dei contenuti e la Network Analysis per snellire le fasi di costruzione di un Knowledge Organization System (KOS).

11:45
Digitalizzazione e modellazione della Drammaturgia di Leone Allacci

ABSTRACT. Il contributo presenta il progetto di digitalizzazione e trasformazione in database di uno dei maggiori cataloghi di opere teatrali italiane: la Drammaturgia di Leone Allacci (1666), nella sua versione riveduta e ampliata da Giovanni Cendoni, Apostolo Zeno e altri (Venezia, Pasquali, 1755).

12:00
Luoghi comuni: metodi e strategie di sviluppo software in ambito GLAM, dalle voci di autorità all’esplorazione cartografica

ABSTRACT. L’interoperabilità dei sistemi informativi, in ambito umanistico e non solo, rappresenta un obiettivo e una sfida che coinvolge, a diversi livelli, progetti di sviluppo software in numerosi settori di applicazione. In particolare, gli strumenti digitali impiegati nella gestione, archiviazione, descrizione e pubblicazione di cataloghi di beni culturali (archivi, musei, biblioteche) si stanno evolvendo nella direzione, da un lato, di integrare standard, formati, tecnologie che agevolano la condivisione e interconnessione di dati, richiedendo quindi, dall’altro lato, l’attivazione di protocolli di comunicazione tra domini e ambiti disciplinari distinti. Questa trasformazione è centrale per i software che operano in ambito GLAM, per i quali la gestione della trasversalità cross-dominio richiede soluzioni, tecniche e scientifiche, che interessano i diversi livelli dell’applicativo (dalla struttura della base dati alle modalità di presentazione). Inscrivendosi in questo filone di ricerca, il contributo presenta le scelte, tecnologiche e metodologiche, operate nell’evoluzione di Geca, software per la gestione di cataloghi di beni culturali, con particolare attenzione i) all’identificazione delle entità e connessioni semantiche che, anche in una base dati strutturata su un modello logico relazionale, costruiscono una rete di punti di accesso utile ii) alla progettazione e sviluppo di strumenti e modalità di presentazione ed esplorazione integrata dei dati in catalogo, fino a ipotizzare iii) il livello di presentazione come servizio autonomo, modulare e personalizzabile. Si presenta qui la metodologia adottata, le soluzioni tecniche e architetturali, insieme ai primi risultati ottenuti e agli sviluppi previsti.

12:15
Serious games e gamification: a che punto sono le istituzioni culturali italiane?

ABSTRACT. Nel corso del periodo pandemico le istituzioni culturali hanno sperimentato diverse soluzioni digitali in grado di aumentare la fruizione e l’interazione con il patrimonio culturale. La gamification rappresenta una delle pratiche che sta assumendo una diffusione crescente, affiancata dalla progettazione di videogame collegati a beni ed istituzioni culturali. Un censimento delle soluzioni digitali prodotte dalle 500 istituzioni museali italiane più visitate consente di ottenere una fotografia dello stato dell’arte del rapporto tra luoghi del patrimonio culturale e gamification. La ricerca scava nel panorama dei serious games e della gamification, mettendo in luce limiti e opportunità, rivolgendo la propria attenzione al futuro e alla sostenibilità delle soluzioni digitali di gamification nel contesto culturale italiano.

12:30
Una proposta di codifica in XML-MEI per testi musicali autografi di Vincenzo Bellini

ABSTRACT. Nel contributo sono descritti i criteri con cui è stata realizzata la codifica, utilizzando il vocabolario XML-MEI, di una selezione di schizzi belliniani del fondo musicale del Museo civico Belliniano di Catania, mettendo in luce le particolarità del testo musicale manoscritto e l’integrazione dei dati di interesse musicale con quelli codificati all’interno di risorse esterne.

11:30-13:10 Session 10C: Tra analisi computazionale e linguistica
Location: Aula 67
11:30
Il Distant reading è l'ornitorinco

ABSTRACT. Negli studi di Distant reading, l’oggetto base su cui vengono condotte le ricerche è composto dai testi letterari e gli aspetti, caratteristiche, costruzioni e categorie linguistiche al loro interno. L’invalso che si è sviluppato è di non operare alcuna distinzione all’interno dei corpora su cui vengono condotte le indagini. Ai fini di validità statistica l’invalso è corretto, pena sarebbe, diversamente, la non rappresentabilità del campione. Ma ai fini dell’attività critico-interpretativa l’invalso non riconosce almeno due aspetti fondamentali: (1) tutte le classificazioni di linguistica testuale pongono il testo letterario a sé, riconoscendo a un tale oggetto base di ricerca caratteristiche peculiari e strutturali; (2) aspetti, costruzioni, categorie e caratteristiche linguistiche oggetto base di indagine acquisiscono salienze diverse quando si presentano nella diegesi e quando si presentano nella mimesi di una stessa opera, poiché le porzioni testuali diegetiche e le porzioni testuali mimetiche di uno stesso testo letterario hanno salienze diverse. L’intervento propone una riflessione e proposta teorico-metodologica per ovviare a tali criticità, seguita da una sua applicazione concreta su un corpus di letteratura italiana premiata.

11:45
Analisi computazionale dei report di sostenibilità: la vaghezza come strategia di greenwashing.

ABSTRACT. Oggi è possibile elaborare in maniera automatica enormi quantità di testo in linguaggio naturale, ma vi sono ancora difficoltà nel trattare casi di ambiguità e vaghezza linguistica. L’obiettivo del presente contributo è l’analisi dei fenomeni di vaghezza e imprecisione nei report di sostenibilità, con particolare attenzione al greenwashing. Il corpus oggetto dell'analisi è composto da 225 report di sostenibilità in lingua italiana in pdf, pubblicati da 45 aziende, relativi agli anni tra 2017 il 2021. Questi sono stati analizzati ed elaborati con il tool Sketch Engine [7] e un notebook in Python, partendo dalla ricerca mirata di parole chiave notoriamente legate al greenwashing, e annotando un campione di concordanze. In particolare, per ciascun esempio estratto è stato stabilito se rispondesse ai criteri per essere considerato un’asserzione ambientale e se fosse vago, classificando ove possibile i casi di vaghezza in cinque categorie semantiche (quantity, degree, time, category e softening stancetaking). Il contributo del lavoro è duplice, poiché da un lato l’analisi preliminare sul linguaggio utilizzato nei report di sostenibilità fornisce una migliore comprensione delle strategie linguistiche associate alle asserzioni ambientali, promuovendo una maggiore trasparenza e responsabilità da parte delle aziende; dall'altro pone le basi per l’identificazione automatica di quelle riconducibili al greenwashing con un dataset in lingua italiana per l'allenamento di modelli di Intelligenza Artificiale con un valore aggiunto in prospettiva del raggiungimento dell’uguaglianza linguistica digitale.

12:00
Testi allografici: contatti tra lingue e scritture del mediterraneo

ABSTRACT. Questo contributo discute la creazione dell’edizione scientifica digitale e l’analisi linguistica di testi allografici italoromanzi, documenti unici scritti in volgari italiani ma con alfabeti non latini dell’area mediterranea quali il greco, l’ebraico, l’arabo e il siriaco. Nonostante sia un fenomeno noto, ha ricevuto scarsa attenzione nella ricerca storico-linguistica e filologica in Italia, principalmente a causa delle difficoltà interpretative. Il progetto MIA (Manuscripta Italica Allographica) e altre iniziative simili mirano a catalogare digitalmente questi testi, applicando i metodi della filologia digitale per trascriverli e interpretarli. L’analisi si concentra sulle peculiarità grafiche e fonologiche, evidenziando l’influenza dei sistemi grafici originali sulla lingua italiana scritta e offrendo nuove prospettive sulla competenza linguistica degli autori alloglotti. Questa ricerca apporta un contributo significativo alla comprensione della diversità grafica e linguistica dei testi allografici, proponendo metodologie innovative per il loro studio attraverso l’apporto delle Digital Humanities.

12:15
Strumenti digitali per la trascrizione e la lemmatizzazione di testi in italiano antico

ABSTRACT. Il contributo si focalizza sullo sviluppo e sull’uso di metodologie per supportare e potenziare la ricerca nel contesto delle discipline umanistiche e del patrimonio culturale, con particolare riferimento all’ambito della filologia digitale. Partendo dal caso di studio del Fondo Datini dell’Archivio di Stato di Prato, l’obiettivo è lo sviluppo di nuovi strumenti digitali, nonché l’integrazione ed il potenziamento di strumenti esistenti, finalizzati allo studio del carteggio privato e commerciale del mercante pratese Francesco di Marco Datini. Lo scopo di questo progetto pilota è l’ampliamento, nel contesto del cluster H2IOSC [4], degli obiettivi raggiunti nell’ambito del progetto RESTORE (smaRt accESs TO digital heRitage and mEmory) in riferimento al trattamento di lettere edite che costituiscono il corpus lemmatizzato Archivio Datini realizzato dall’Istituto Opera del Vocabolario Italiano (OVI-CNR). L’implementazione di tali strumenti consentirà di facilitare la ricostruzione di una parte significativa della storia delle città d’Europa e dei porti del Mediterraneo del XIV secolo, evidenziandone sia le dinamiche della vita quotidiana, sia le specificità territoriali, sociopolitiche e commerciali.

12:30
Un sistema di classificazione automatica di immagini relative a materiali librari antichi e moderni

ABSTRACT. Nell’ambito della digitizzazione dei beni librari, tra le sfide tecniche più significative a oggi ancora irrisolte vi è la classificazione automatica delle immagini, processo che combina l'informatica, la biblioteconomia e le tecnologie dell'informazione per categorizzare e organizzare digitalmente le strutture degli oggetti digitali che riproducono volumi. Questo articolo presenta una recente ricerca sperimentale di tre modelli di classificazione automatica di immagini digitali che riproducono manoscritti e libri antichi e moderni, finalizzata a estrarre dal layout le informazioni relative alla struttura dei volumi per la codifica nei metadati di gestione delle immagini.

13:15-14:15Lunch Break

Presso il chiostro di levante

14:15-15:15 Session 11

Aspettando AIUCD: Bilanci e prospettive (Emmanuela Carbé, Liborio Barbarino, Francesca Prado, Emilio Sanfilippo)

Presentazione di Neperia e della rivista "Il nuovo Mediterraneo" (Francesco Iannacone e Cristina Maya Rao).

Presentazione: CLARIN-IT In H2IOSC, sviluppi recenti (Monica Monachini).

15:15-16:30 Session 12A: Modelli di organizzazione dati con tecnologie semantiche e Intelligenza Artificiale
Location: Aula 67
15:15
CLEF 2.0. Soluzioni per la catalogazione nativa Linked Da-ta del patrimonio digitale culturale italiano

ABSTRACT. L’affermazione del Web Semantico ha avuto un impatto significativo nel settore delle istituzioni GLAM, per le quali la connes-sione dei saperi ha assunto una rilevanza tale da produrre numerose iniziative di crowdsourcing e progetti collaborativi di catalo-gazione nativa Linked Open Data. Una sfida attuale che interessa tali attività collaborative riguarda l’eterogeneità dei contenuti e dei gradi di competenza posseduti dagli utenti. Se da un lato soluzioni esistenti riescono a soddisfare i requisiti minimi in questo ambito di lavoro, spesso a dettare le linee guide dello sviluppo di nuove funzionalità per le applicazioni di crowdsourcing è il concreto impiego di queste stesse piattaforme in contesti di lavoro pratici. Il presente articolo intende analizzare queste esigenze e presentare la soluzione proposta da CLEF 2.0, il software per la catalogazione nativa Linked Open Data adottato in alcuni casi di studio inerenti alla descrizione del patrimonio culturale digitale italiano.

15:30
Un futuro per la memoria. Strumenti, modelli e sinergie per l’integrazione dei dati nel Portale delle fonti per la storia della Repubblica italiana

ABSTRACT. Il Portale delle fonti per la storia della Repubblica italiana nasce dalla volontà di offrire a un pubblico ampio e diversificato una raccolta di fonti per la storia politica e istituzionale nazionale relativa alla seconda metà del Novecento. L’intento è creare un'architettura software e un’infrastruttura dati in grado di favorire l’accesso effettivo al patrimonio culturale considerato nel progetto; un accesso il più possibile aperto, che agevoli la conoscenza dei documenti conservati nei complessi archivistici degli organi costituzionali e dagli apparati amministrativi dello Stato, integrati con quelli delle associazioni private che concorrono alla vita democratica del paese, in particolare le fonti prodotte dai partiti politici e dalle organizzazioni sindacali. Una sfida culturale e tecnologica importante, ricca di implicazioni civili, ma anche teoriche e metodologiche, che vede impegnati tre istituti del CNR in collaborazione con soggetti pubblici e fondazioni e istituti privati.

15:45
L’impiego dell’intelligenza artificiale per la ricostituzione delle aggregazioni archivistiche e l’arricchimento dei metadati negli archivi digitali

ABSTRACT. Il contributo intende presentare i primi risultati di uno studio condotto nell’ambito del progetto internazionale InterPARES Trust AI ed intitolato “The role of AI in identifying or reconstituting archival aggregations of digital records and enriching metadata schemas”. L’obiettivo generale di questo studio è quello di indagare la capacità dell’intelligenza artificiale di supportare la creazione (o la ri-costituzione) di aggregazioni archivistiche per risolvere il problema della presenza di documenti non aggregati, non ordinati o de-contestualizzati (sia nella fase corrente che in quella semi-corrente dell’archivio). Infatti, in molte amministrazioni pubbliche e in numerose aziende private, i documenti non vengono classificati né fascicolati; oppure, le aggregazioni documentali vengono formate ma in modo non corretto, e questo si traduce in un numero incontrollato di documenti non ordinati, mal collocati e difficili da trovare. In aggiunta, in molti casi i metadati – necessari per garantire l’autenticità, l’affidabilità, la ricercabilità – non vengono correttamente individuati ed associati ai documento. Questo costituisce una forte criticità nel campo dell’organizzazione del patrimonio nato digitalmente e delle modalità della sua archiviazione. Purtroppo, nonostante i progressi compiuti dalle tecnologie informatiche per fornire aiuto nella gestione documentale, gli attuali prodotti software sono in grado di fornire un supporto molto limitato a questo tipo di attività. Pertanto, lo studio in questione si è posto l’obiettivo di fornire una risposta alla seguente domanda di ricerca: gli strumenti di intelligenza artificiale possono aiutare a creare le aggregazioni documentali quando queste non sono mai state formate o a ri-crearle quando erano state formate ma sono andate perdute? Possono aiutare nella creazione di schemi di metadati e nella associazione ai documenti relativi?

16:00
Paul Klee, Tunisreise e Bildnerische Formlehre: un caso studio di DiScEPT (Digital Scholarly Editions Platform and Aligned Translations)

ABSTRACT. Il contributo illustra il progetto DiScEPT (Digital Scholarly Editions Platform and aligned Translations), piattaforma per la produzione e la pubblicazione di edizioni scientifiche digitali, attraverso la presentazione di un caso studio dell’edizione scientifica digitale dei Beiträge zur bildnerischen Formlehre (Contributi alla teoria figurativa della forma) di Paul Klee. Uno degli aspetti a cui verrà data particolare attenzione è la possibilità di affiancare le versioni di un testo o di interi corpora testuali allineando traduzioni in una o più lingue. Accanto a questo sistema di allineamento, si offre la possibilità di utilizzare strumenti di annotazione che mettano in evidenza i rapporti intertestuali. Come caso di studio si sono considerati gli interessanti rapporti di continuità, non solo cronologica, che i Tagebücher 1898-1918 (Diari) — in particolare la parte dedicata al viaggio in Tunisia — hanno con i Beiträge (1920-1921). I livelli di intertestualità presi in considerazione riguardano i parallelismi tematici, le ricorrenze terminologiche e la somiglianza delle immagini.

15:15-16:30 Session 12B: Dizionari e digitalizzazione
Location: Aula A1
15:15
La digitalizzazione del dizionario latino Lana 1978

ABSTRACT. Il testo ha l’obiettivo di mostrare attraverso un caso studio una possibile metodologia applicabile alla creazione di un dizionario digitale in accesso aperto a partire da un testo cartaceo già esistente. In particolare, è esposta l’operazione di digitalizzazione di una parte del dizionario latino pubblicato da Italo Lana nel 1978. La sezione digitalizzata corrisponde all’ambito semantico della natura nel mondo antico. L’argomento è approfondito tramite lo studio della letteratura e il risultato delle riflessioni è visibile nella codifica del dizionario stesso. L’approccio al testo nasce dallo studio delle migliori pratiche attualmente diffuse nella lessicografia digitale e si propone di essere allineato alla produzione di dati FAIR. Tale metodologia è elaborata nel contesto specifico della lessicografia latina, ma i risultati ottenuti possono essere un esempio replicabile per chiunque affronti questo genere di operazione.

15:30
XML-TEI e dizionari born-digital: una proposta per i dizionari della rete Lexicad/PLUTO

ABSTRACT. Nell’ambito del progetto PRIN QM (Quattrocento Meridionale) – The Future of Old Italian. Towards a New Digital Lexicography with the Southern Texts Corpus, il cui obiettivo più ambizioso è quello di creare una rete di vocabolari in collegamento dinamico all’interno del sistema di gestione Lexicad/PLUTO, il presente progetto mira a definire un modello di codifica in XML-TEI per le voci del TLIO, applicabile a tutte le risorse lessicografiche connesse. A partire dallo studio della microstruttura delle voci del TLIO e dalla codifica non standard in XML prodotta durante i lavori per il progetto ReddiX, si fornisce uno strumento di conversione dell’XML delle voci del TLIO in uno standard XML-TEI, integrato con i moduli forniti da TEI Lex-0, con il vantaggio di fornire uno strumento standard che può essere riadattato e riutilizzato in progetti differenti, garantendo una piena interoperabilità, lo scambio reciproco di dati e la convergenza di metodi di trattamento condivisi. La codifica qui proposta sarà il punto di partenza per fornire ulteriori strumenti nel più ampio piano di integrazione fra le diverse imprese lessicografiche per l’italiano antico, con conseguente sviluppo di applicativi in grado di implementare le potenzialità della piattaforma in termini di interoperabilità e usabilità.

15:45
Il VIVer (Vocabolario dell’Italiano Verista)

ABSTRACT. Il progetto del VIVer punta sulla lessicografia informatica per rinnovare il panorama storico‑letterario e storico‑linguistico: secondo il programma culturale della Fondazione Verga intende rivisitare il verismo nel quadro sovranazionale del realismo letterario descrivendone e ridefinendone i linguaggi e mira a incrementare la conoscenza dell’italiano postunitario, con settori semantici finora poco esplorati. A partire da un corpus multigenere (narrativa, teatro, letteratura educativa e testualità metadiegetica) si punta a costruire un vocabolario digitale che, sulla scia del VoDIM (Vocabolario Dinamico dell’Italiano Moderno) consultabile sulla Stazione lessicografica dell’Accademia della Crusca, restituisca nella sua organicità lessico regionalizzato e dimensione fraseologica dell’italiano verista. Il corpus è digitalizzato tramite metodologie e tecnologie di OCR e immesso in una piattaforma sviluppata per il progetto. I testi sono poi marcati secondo gli standard XML/TEI con appositi bottoni per rilevare il repertorio categoriale che spazia dai regionalismi a proverbi e sentenze. Attualmente la banca dati consiste in 33 testi, consultabili al sito https://testi.progettoviver.it/. I principali risultati attesi sono: costituire una Sala di lettura in open access che contenga un corpus dei corpora della letteratura verista; realizzare un vocabolario dinamico dell’italiano letterario post-unitario a consultazione variabile per fini di ricerca e di didattica; offrire una prima descrizione lessicografica della fraseologia dell’italiano moderno intesa in senso lato (es. codice gestuale e proverbi).

16:00
L’informatizzazione del GDLI: risultati, prospettive, sfide future

ABSTRACT. L’articolo intende condividere con la comunità scientifica le attività, i metodi, i risultati intermedi e le prospettive che caratterizzano il progetto di informatizzazione del Grande Dizionario della Lingua Italiana di Salvatore Battaglia (GDLI). Il progetto nato dalla collaborazione tra l’Accademia della Crusca e l’Istituto di Linguistica Computazionale “A. Zampolli” del CNR si pone l’obiettivo di realizzare una banca dati interrogabile online con funzionalità di ricerca avanzate. Attualmente la disponibilità di dizionari digitali registra l’accesso di una vasta platea di utenti, anche il GDLI da quando è in rete nella versione non strutturata, è molto consultato, tuttavia, mentre molti dizionari sono nati digitali, ovvero prodotti appositamente per la consultazione online, il GDLI è un dizionario (retro)digitalizzato: derivato dalla digitalizzazione di un’opera a stampa. Questa condizione obbliga ad una ricostruzione a posteriori della struttura della voce, che può proporre peculiari caratteristiche di dettaglio a seconda del livello di strutturazione dei contenuti. Nel caso particolare del GDLI il formato di input dei dati non era standard ma derivato dall’acquisizione, attraverso sistemi di OCR (Optical Character Recognition), di un complesso formato cartaceo. Le conseguenti problematiche di gestione di varie tipologie di errori hanno condizionato gran parte del lavoro di implementazione delle procedure di estrazione delle strutture interne delle voci, sostanzialmente impedendo di affidarsi a strumenti e approcci consolidati e/o innovativi [10], ma anche a modelli di rappresentazione standardizzati [3]. La costruzione di una risorsa digitale strutturata da dati di input ‘rumorosi’ ha richiesto non solo lo studio di escamotage e strategie per il controllo e gestione degli errori, ma ha indirizzato lo sviluppo verso un modello di rappresentazione dei dati ibrido, scomposto in più risorse collegate ma autonome, una risorsa multidimensionale in grado di produrre viste diverse del dizionario. Tale complessità ha avuto un forte impatto sullo studio di funzionalità di ricerca dedicate, richiedendo specifiche di realizzazione distinte per le diverse dimensioni/componenti da indagare. Studiando e analizzando cosa è stato fatto per altri grandi dizionari a livello internazionale, è stato tuttavia seguito un approccio sperimentale al lavoro di costruzione della banca dati, un punto di vista che permettesse di procedere a stadi di avanzamento progressivo e ad una verifica costante delle scelte implementate. Senza utilizzare una classica rappresentazione in database è stato necessario testare passo dopo passo le strutture dati atte a rappresentare le varie risorse prodotte, ma anche predisporre un’indicizzazione efficiente, in grado di rendere le diverse dimensioni del dizionario un’unica banca dati. In più la risorsa multidimensionale creata doveva rispondere efficacemente alle funzionalità di ricerca tipiche di un sistema di interrogazione online. La sfida principale riguarda infatti la possibilità di rendere il GDLI, comunque affetto da persistenti problematiche legate alla gestione di errori nei dati, uno strumento idoneo alla consultazione in rete. L’impresa è ambiziosa, date queste premesse, e si avvia ad essere un obiettivo a lungo termine ma che va nella direzione di favorire la valorizzazione di questa importante risorsa lessicografica.

15:15-16:30 Session 12C: Digital Public History
Location: Aula 75
15:15
Dal Catasto Borbonico alla Genomica. Piattaforme digitali e interdisciplinarità: Riposto tra Settecento e Ottocento

ABSTRACT. Il Mediterraneo è una dimensione-concetto —definito da Braudel «continente liquido»—, che origina e si definisce nel ruolo delle genti, delle culture e delle economie che si sono susseguite nei suoi tempi. Oggi, attraverso un approccio interdisciplinare, anche la ricerca genetica riesce a ridefinire questo ‘continente’, grazie al venire in essere di quel ponte dialettico tra la Storia e le Scienze Biologiche. Su questo assunto, trova ragione il progetto di ricostruzione storica della comunità ripostese, tra Sette e Ottocento, attraverso un lavoro di interconnessione tra fonti primarie e dati genomici, i cui risultati confluiscono nella progettazione di un portale web. In questo studio, l’approccio genealogico e l’analisi genetica emergono quali strumenti strategici per la descrizione della comunità, consentendo un workflow storico-metodologico focalizzato sull’analisi del cromosoma Y di un vivente, che, completando la storia dell’ascendenza patrilineare del cognome «Sorbello», partendo dal borgo ripostese, ha consentito di gettare le basi per una metodologia in grado di interconnettere dati e informazioni storiche, allo scopo di spiegare gli assetti delle comunità, la cui esatta configurazione è determinante per la descrizione dell’Europa e del Mediterraneo, in età moderna.

15:30
Odonimi d’Italia e Digital Public History: le problematiche di una schedatura partecipata

ABSTRACT. Si presentano le impostazioni metodologiche di un progetto sulla schedatura partecipata degli odonimi d'Italia al fine di avviare un utile confronto con la comunità scientifica degli umanisti digitali. Per quanto ancora in una fase iniziale di elaborazione e sperimentato per una sola città italiana, riteniamo importante spiegare gli intenti, i metodi e le problematiche che si incontrano nella categorizzazione degli odonimi del territorio nazionale e evidenziare le difficoltà e opportunità nella scelta di lavorare su un livello locale, anche e soprattutto in previsione del ricorso ineludibile alla partecipazione diretta del pubblico in attività di Citizen Humanities.

15:45
OpenStreetMap: uno strumento e uno spazio per la digital public history?

ABSTRACT. La proposta ha l’obiettivo di coniugare estrazione e analisi dei dati provenienti dalla neogeography e dal Volunteered Geographic Information (VGI), con considerazioni storiografiche e approcci mutuati dalla digital public history, dal cultural e dal monumental turn e dalle spatial humanities. Si intende, dunque, riconsiderare OpenStreetMap alla luce delle sue potenzialità e del contributo che può apportare alla disciplina storica in termini di metodo, di fonti e di coinvolgimento del pubblico, facendo alcuni esempi pratici nel campo della monumentalistica e dell’odonomastica, temi oggi quantomai centrali nel dibattito pubblico.

16:00
Un Atlante digitale per la storia marittima del Regno di Sardegna

ABSTRACT. L’intervento è diretto a presentare l’Atlante digitale per la Storia marittima della Sardegna (ASMSA), strumento impiegato per la costituzione di un quadro conoscitivo complessivo della storia marittima sarda con attenzione specifica all’età moderna. L’Atlante integra la bibliografia di riferimento, sia con la documentazione custodita in archivi locali, nazionali e internazionali, sia con dati e applicativi generati dal campo, anche con azioni di public engagement. L’intervento illustrerà la piattaforma tecnologica e il flusso di lavoro attraverso le quali i dati, raccolti secondo regole condivise, vengono descritti, ordinati e spazializzati, interconnessi in ambiente digitale, su livelli cartografici e testuali, attraverso un lavoro collaborativo e interdisciplinare, al fine di consentire l’analisi interpretativa integrata del problema storiografico con la sua lettura su scale analitiche diverse e interconnesse e la comparazione tra differenti studi di caso.

16:30-17:00Coffee Break

Presso il chiostro di levante