Els pilots

Els pilots d’INDICATE tenen com a objectiu l’estudi i l’experimentació de la migració de dues aplicacions existents d’e-Cultura cap a plataformes d’e-Infrastructures. Els resultats dels pilots són accessibles a través del portal d’accés a recursos científics d’e-Cultura d’INDICATE (http://

indicate-gw.consorzio-cometa.it). Es posa especial atenció a la fase de preparació, necessària abans que aquests projectes puguin començar, pels problemes que poden sorgir i les seves solucions apropiades, com també la seva aplicabilitat a través de les fronteres nacionals i europees.

L’experiència reunida amb els pilots pot ser analitzada i suposa una aportació clau pel treball amb bones pràctiques.

Pilot de cerca semàntica

El pilot de cerques semàntiques d’INDICATE basat en e-Infrastructures, desenvolupat per IVML (www.image.ntua.gr) permet a l’usuari recuperar metadades culturals basades en criteris semàntics, beneficiant-se també de les característiques de l’organització d’una e-Infrastructura. En aquest pilot, les dades culturals es transformen a un model semànticament més ric (RDF). A continuació, camps de dades específics són enriquits usant vocabularis de domini específic com DBPedia i Geonames. Les dades transformades són carregades en un repositori semàntic (4 Store), que ha estat seleccionat apropiadament per ser muntat en e-Infrastructures.

D’aquesta manera l’usuari pot cercar les dades, no només basant-se en els camps inicials de la metadada (ex. localització), sinó també en camps que proveeixen informació addicional (ex. àrea de localització de la població), derivats a través del procés d’enriquiment. La instal·lació en e-Infrastructures és la base per la cerca semàntica amb disponibilitat i escalabilitat de les dades. Les dades del projecte MICHAEL i d’altres projectes com ATHENA i EUSCREEN són usades com a banc de proves pel pilot.

El principal objectiu del pilot semàntic és proveir d’un servei de cerca semàntica pels repositoris culturals basat en e-infraestructures, usant un conjunt de dades de MICHAEL. Primerament, les metadades es transformen a RDF proveint d’aquesta manera una representació semànticament més rica que amb XML, que era el format inicial. Durant aquest procés, també conegut com a RDFització, els elements XML són mapejats amb les classes i propietats de RDF, establint d’aquesta manera una representació semàntica de les metadades. A més a més, els valors d’elements específics del conjunt de dades com els països, persones i llengües són usats per descobrir recursos que descriuen aquesta informació en fonts externes (com DBPedia). Els recursos descoberts proporcionen informació addicional sobre la persona, país o llengua d’interès a la originalment proveïda a la base de dades utilitzada per enriquir el servei de recuperació. Per tant, a través d’aquest procés s’estableix l’enriquiment semàntic del conjunt de dades de la base MICHAEL. Les metadades transformades a RDF i enriquides s’emmagatzemen en un repositori semàntic i són accessibles a través de l’ús del llenguatge de consulta SPARQL. El resultat més important d’aquest procediment és el servei de resposta a les consultes composat de conceptes i propietats, així com d’informació que no està disponible a la base original per la recuperació de contingut de MICHAEL.

El mencionat flux de treball es desplega a l’Amazon Elastic Compute Cloud (EC2), considerada una de les infraestructures Cloud més madures del moment. Pel desplegament a l’Amazon Elastic Compute Cloud s’implementa una interfície de processament (MINT-PI) que paral·lelitza la transformació semàntica i l’enriquiment, agafant d’aquesta manera avantatge del poder de processament massiu que ofereix la infraestructura Cloud. A més, el repositori semàntic emprat per l’emmagatzematge de la base semànticament augmentada i apropiadament seleccionada per ser distribuïda també està arranjat a l’EC2.

L’avaluació es realitza tant pel procés d’enriquiment com pel funcionament global de l’arquitectura proposada. Més específicament, l’algoritme que es desenvolupa pel descobriment de recursos funciona extraordinàriament bé (~98% dels valors són relacionats correctament a DBPedia) pels països i les llengües, mentre que els resultats són força bons quan es realitzen en persones (~58%), tenint en compte la dificultat d’una tasca com aquesta. Finalment, comparant el rendiment general del flux de treball quan és desplegat a l’e-infraestructura Cloud i quan és desplegat en un servidor únic s’observa que la e-infraestructura pot proveir escalabilitat – una característica essencial quan es processa un volum massiu de contingut que sempre és el cas del patrimoni cultural digital- a un cost molt baix.

Arxius Digitals e-col·laboratius

El portal d’accés a recursos científics d’e-Cultura INDICATE (eCSG, indicate-gw.consorzio-cometa.it) desenvolupat per COMETA (www.consorzio-cometa.it) com a part del pla de treball del projecte, proveeix als usuaris amb una interfície web de fàcil ús i un únic procés de registre per accedir als arxius digitals de dades del patrimoni cultural provinents de la Xina i Itàlia. El portal es basa en el marc del portal Liferay (www.liferay.com), pel qual s’ha desenvolupat un portlet per la interfície gLibrary (https://glibrary.ct.infn.it), el famós marc desenvolupat per INFN i COMETA per crear i gestionar repositoris digitals a la xarxa. La infrastructura d’autentificació i autorització estableix uns suports per a les Federacions de proveïdors d’identitats, permès gràcies a Shibboleth (shibboleth.internet2.edu). L’INDICATE eCSG ha estat configurat com un proveïdor de serveis tant de l’IDEM (www.idem.garr.it) com del CARSI (carsi.edu.cn), ambdues federacions d’identitats sumen entre entorn de 4.000.000 usuaris finals entre Itàlia i la Xina. El que s’ha fet és un pas endavant molt gran cap a un més simple i ampli ús d’e-Infrastructures pels usuaris no-experts, que no volen haver de tractar amb certificats personals digitals i una complexa xarxa d’infraestructura de seguretat. Obrint la xarxa a les federacions d’identitats permetrà una més estreta col·laboració de les e-Infrastructures amb les llibreries digitals i els encara existents repositoris de patrimoni digital. Instruccions per registrar i accedir a l’INDICATE eCGS es troben disponibles a indicate-gw.consorzio-cometa.it/instructions-to-register-and-sign-in.