Logo Laterza Fabio Metitieri _blank Riccardo Ridi
Logo Laterza Biblioteche in rete Biblioteche in rete Biblioteche in rete
Logo Laterza IndiceVai all'indice completo AcquistoAcquista il volume su www.laterza.it Torna all'homepage
Editori Laterza

Aggiornamento
giugno 2008

Introduzione

1. Le ricerche bibliografiche

2. Information retrieval:
strumenti e strategie

3. Opac e biblioteca virtuale

4. Biblioteche e Opac
nel mondo

5. Biblioteche e Opac
in Italia

6. Biblioteche
e Opac europei

7. Le biblioteche
e gli Opac statunitensi

8. Opac specializzati,
archivi e musei

9. Oltre i cataloghi: i testi

10. Banche dati: archivi
e host computer in Internet

11. Metarisorse generali
e informazioni per bibliotecari

Principali acronimi utilizzati

Bibliografia

Parte prima – Concetti e strumenti

3. Opac e biblioteca virtuale

[Introduzione]
Gli Opac tra Telnet e Web: un'evoluzione ormai completa
Opac: progetto e funzioni
La biblioteca virtuale: gli Opac e Xanadu
Modelli teorici di biblioteca virtuale
Da memex ai Plao: la biblioteca sulla scrivania
Diligent: un progetto europeo di biblioteca digitale in grid
Catalogare le risorse Internet
Metadati
Nuovi modelli di indicizzazione
Il Web semantico
Citare le risorse Internet
Caratteristiche dell'informazione in Internet
La valutazione delle risorse in Internet, l'accessibilità e l'usabilità


 

Sempre più di frequente in Internet si discute di information overload, un eccesso di informazione in cui gli utenti spesso si perdono. Nell'ormai lontano 1994, in Rete vi erano più di 5.000 Gopher server e circa 3.500 siti World Wide Web; oggi i Gopher sono scomparsi, ma il numero dei server Www non è più valutabile, e le pagine Web sono ormai più di 10 miliardi. Questa complessa struttura consente all'utente di passare da una risorsa all'altra senza bisogno di ricordare indirizzi e comandi, ma lo costringe anche a muoversi in un ambiente dove la moltiplicazione di uno stesso accesso ad una stessa risorsa è la regola, mentre i menu dei World Wide Web non sempre sono abbastanza descrittivi.

Numerosi documenti, singoli testi o veri e propri archivi indicizzati, sono stati digitalizzati e sono disponibili in Internet. Molti di questi, prima o dopo la loro disponibilità in Rete, vengono anche stampati su carta. Altri no. Giornali elettronici, documentazione e guide sulle Reti o sui loro standard, ad esempio, sono disponibili solo in Internet, e non possono essere richiesti ad una libreria o ad una casa distributrice. È inevitabile citare un esempio che fa storia. Il libro di Ed Krol The whole Internet (O'Reilly & Associates, 1993) costituisce uno dei primi casi di migrazione di un testo dai bit alla carta e viceversa. Nato in Rete come guida liberamente disponibile, il testo di Krol prima è diventato uno dei libri su Internet più venduti nel mondo, poi per volontà degli stessi editori è ridiventato accessibile su Web; infine, per un lungo periodo, The whole Internet è esistito ed ha continuato ad essere aggiornato sia in forma stampata e distribuita commercialmente sia in formato digitale, gratuito.

In altri casi le strategie di marketing editoriale trasformano il libro non solo digitalizzandolo, ma scomponendone la forma virtuale: i testi per esami universitari, di cui a volte non vengono utilizzati tutti i capitoli, per esempio, possono essere venduti anche in singole parti. Operazione semplice se eseguita sul formato elettronico, ancora più facile se la vendita e la consegna avvengono in Internet con il pagamento tramite carta di credito. La stampa on demand, che sembra destinata a diffondersi in questi anni, potrebbe realizzare anche questi modelli.

È inevitabile, da anni, parlare di una vera e propria catalogazione delle risorse Internet, dal momento che la rete Internet, nel suo complesso, può essere paragonata ad una sola, enorme biblioteca virtuale che invece di contenere soltanto libri e periodici in formato digitale mette a disposizione anche oggetti molto diversi tra loro e non tutti di tipo strettamente documentario (si pensi ad Opac, banche dati, strumenti di ricerca, archivi di immagini, file audio, filmati, software, gruppi di news, liste di discussione, persone raggiungibili attraverso indirizzi di posta elettronica, e via dicendo). Una biblioteca dove una stessa risorsa è spesso presente in numerosissime copie, alcune più vicine e di più facile accesso, altre più lontane.

Il Cern di Ginevra, per primo, ed in particolare Tim Berners-Lee nell'ambito del progetto World Wide Web, ha di fatto imposto come standard l'oggetto, chiamato Url (Uniform resource locator), in grado di puntare in modo univoco qualsiasi risorsa Internet. Un Url, come si è già spiegato, specifica per prima cosa il protocollo da usare (telnet://, gopher://, http://) o comunque il tipo di risorsa e di conseguenza la modalità per accedervi; oltre a questo, contiene l'indirizzo e la porta necessari per raggiungere la risorsa, ad esempio <telnet://melvyl.ucop.edu:23>.

Oltre all'Url, che in una biblioteca potrebbe essere paragonato alla collocazione, è da tempo in via di definizione un altro oggetto, l'Urn (Uniform resource name), finora però privo di applicazioni concrete. Urn è il nome univoco che un'autorità centrale dovrebbe assegnare ad ogni risorsa Internet, esattamente come un Isbn viene assegnato ad una pubblicazione. L'Urn quindi è del tutto indipendente dalla collocazione della risorsa stessa. Un determinato file, ad esempio, avrebbe un solo Urn che lo identifica, ma a quel solo Urn potranno corrispondere più Url, uno per ciascuno dei server che lo contengono. Dato che l'Urn (il corrispondente dell'Isbn) e l'Url (il corrispondente della collocazione) non comprendono la descrizione della risorsa stessa, sarà necessario definire anche un Urc (Uniform resource characteristics), un oggetto costituito da un insieme di meta informazioni sulla risorsa e che potrebbe corrispondere alla descrizione bibliografica. Se una risorsa si sposta o cambia indirizzo, infine, potrebbe risultare molto comodo l'uso di un Purl, ovvero un Persistent Url che resti immutato anche quando una risorsa si sposta nel cyberspace, grazie alla «triangolazione» garantita (per ora solo in modo sperimentale e limitatissimo) da agenzie incaricate di tenere sotto controllo queste frequenti migrazioni, rendendole irrilevanti per gli utenti.

Come spesso accade, mentre per anni si discute intorno a un tavolo istituzionale di standard de jure come Urn e Purl, a un altro tavolo nascono e si impongono rapidamente gli standard de facto necessari al commercio. È quello che è successo anche col Doi (Digital object identifier), una sorta di Isbn sviluppato in ambiente editoriale, assegnato (a pagamento) in modo univoco e permanente da una serie di agenzie coordinate a livello internazionale ad ogni segmento di proprietà intellettuale potenzialmente autonomo (un singolo testo o immagine, ma anche un intero e-journal o e-book) disponibile on line.

Fra i servizi collegati più rilevanti va citato Crossref <http://www.crossref.org>, un imponente database in rapida crescita, che mantiene aggiornate le equivalenze fra 9 milioni di Doi e gli Url di altrettanti articoli da 9.000 e-journals (e, recentemente, anche e-book) di 250 diversi editori. Utilizzando Crossref si può quindi passare automaticamente, attraverso una applicazione della già citata tecnica del reference linking, dalla citazione recuperata in una banca dati bibliografica o in un altro e-journal al full text dell'articolo (ovviamente solo se ad accesso gratuito o se il computer da cui ci si collega è abilitato, previa adeguata tariffazione) senza più preoccuparsi dei «link a vuoto» dovuti ai purtroppo continui cambiamenti di Url.

In futuro, grazie ad un accurato lavoro di catalogazione e a una maggiore attenzione all'interoperabilità fra sistemi informativi eterogenei, gli strumenti per la ricerca delle informazioni in Rete potrebbero evolversi ed operare con meccanismi molto più sofisticati di quelli esistenti oggi. Ma il condizionale è sempre più obbligatorio e la realtà di oggi, tutta tesa verso il business e la ricerca di un profitto difficile da ottenere, non pensa a fornire agli utenti dei validi servizi di catalogazione semantica delle risorse Internet; al contrario, lavora con motori di ricerca per parola (sui quali si tornerà nel capitolo 11) che sempre più spesso vengono accusati non solo di essere poco efficienti e di vedere soltanto una parte della Rete, ma anche e soprattutto di presentare i risultati delle ricerche in base al denaro che ricevono dai loro sponsor. Chi paga è reperibile, insomma, mentre le pagine Web di chi non paga il motore, per quanto interessanti, restano invisibili.

Stupisce e rattrista, in questo scenario, l'attuale scarsa presenza del mondo accademico e della ricerca, che al di là degli studi, sempre più teorici e lontani, è incapace di produrre soluzioni concrete per gli utenti finali, con poche eccezioni. Sembra ormai persa persino l'abitudine di catalogare in modo sistematico e organizzato almeno le risorse accademiche. Le iniziative di catalogazione esistenti in tal senso sono spesso incomplete, quasi mai frutto di accordi ufficiali tra tutti gli interessati, e di solito basate su iniziative personali di singoli o di qualche organizzazione.

Un progetto che suscitava molte aspettative e che tutt'ora è molto discusso, sebbene non ancora applicato su scala massiccia, è il Dublin core metadata, nato nel 1995 durante un convegno promosso da Oclc (Online computer library center), una grande organizzazione non profit che si occupa di catalogazione e dell'allestimento e della commercializzazione di archivi elettronici, con sede a Dublin, in Ohio.

L'obiettivo del progetto Dublin core <http://dublincore.org> è la definizione di uno standard che permetta la descrizione di ogni risorsa disponibile in Rete da parte degli autori stessi, in modo sia da garantire un livello minimo di autocatalogazione per ciascun documento sia di costituire la premessa necessaria per realizzare eventuali indicizzazioni successive più sofisticate, con sistemi automatici o con catalogatori professionisti.

Lo standard del Dublin core individua alcuni elementi descrittivi del documento, di tipo bibliografico (titolo, autore, soggetto, parole chiave, abstract, editore, data, lingua, e via dicendo); la traduzione italiana degli elementi essenziali è disponibile sul Web dell'Associazione italiana biblioteche, all'interno di una sezione dedicata agli standard tecnici di interesse bibliotecario <http://www.aib.it/aib/lis/std/t9503.htm>. Ogni elemento del Dc può essere incluso nel file Html della risorsa catalogata nella parte dedicata all'header, invisibile ai browser ma utilizzata dai principali motori di ricerca, con il tag <Meta>, già compreso nello standard Html.

Un secondo progetto, The Scorpion project <http://www.oclc.org/research/software/scorpion/default.htm>, compatibile con il Dublin core in quanto di ausilio nell'individuare i contenuti da inserire nei campi Dc, prevede di utilizzare il testo completo di una pagina Web per interrogare una versione elettronica della Classificazione decimale Dewey o di un analogo schema, ottenendo come risultato delle possibili intestazioni di soggetto e di classe da associare alla pagina stessa. Il progetto è recentemente approdato alla distribuzione gratuita di un software open source che le biblioteche possono utilizzare in locale sui propri Pc per aiutarle nella catalogazione delle risorse elettroniche sia remote che locali.

Gli esperimenti di catalogazione delle risorse Internet effettuati da singole biblioteche anche italiane (all'interno dei relativi Opac o in archivi separati) sono ormai numerosi, ma il più vasto progetto di questo tipo, a livello mondiale, è stato e continua ad essere quello che, sotto vari nomi e con diverse collaborazioni nel corso del tempo, ha condotto dal 1991 il grande consorzio internazionale di biblioteche Oclc. I progetti Intercat (1991-1996), Netfirst (1996-2002) e Corc (Cooperative online resource catalog, 1999-2002) hanno esteso il formato Usmarc e le regole di catalogazione angloamericane per consentire a un vasto gruppo di bibliotecari di tutto il mondo di creare delle vere e proprie «schedine elettroniche» delle risorse disponibili in Rete, complete di autore, titolo, data, soggetto Lc, classificazione Ddc e abstract.

Nel 2002 gli oltre 800 mila record così prodotti sono confluiti in Worldcat <http://www.oclc.org/worldcat>, l'enorme catalogo collettivo di Oclc accessibile a pagamento su cui si tornerà nel capitolo 10, dove vengono quotidianamente incrementati e mantenuti aggiornati dalle biblioteche partner. Il particolare valore di questo approccio alla catalogazione delle risorse Internet è dato, oltre che dall'elevata qualità delle descrizioni e dei punti di accesso, dal fatto che i record, grazie al loro formato, possono essere prelevati e inseriti nel catalogo di qualsiasi Opac attraverso il servizio Connexion <http://www.oclc.org/connexion>, utilizzabile peraltro anche per derivare schede di pubblicazioni più tradizionali. Punti deboli sono invece il tempo e le competenze necessari per creare e mantenere aggiornati i record, che si riflettono sul numero tutto sommato ridotto di risorse catalogate e sulla necessità di tariffarne l'uso.

In Gran Bretagna, invece, i progetti Catriona (Cataloguing and retrieval of information over networks applications) e Catriona II (1994-1995 e 1997-1998) hanno preferito puntare, piuttosto che su un grande catalogo unico, sulla proliferazione di piccoli cataloghi locali delle risorse di Rete, curati da singole biblioteche. L'insieme dei cataloghi, però, avrebbe potuto essere raggruppato e divenire interrogabile cumulativamente grazie ad un server Z39.50. Catriona e Catriona II non hanno prodotto risultati operativi di rilievo, con la parziale eccezione di Bubl link <http://bubl.ac.uk/link>, un vero e proprio Opac di risorse Internet creato dalla cooperazione di vari bibliotecari, molto ben fatto anche se con un numero ridotto e stabilizzato di schede (12 mila).

In Italia, non i bibliotecari ma alcuni informatici, gli ideatori del software di Arianna (un motore di ricerca di cui si parlerà nel capitolo 11), hanno condotto negli anni passati delle ricerche sulla costruzione automatica di directory (directory e motori di ricerca verranno esaminati sempre nel capitolo 11). Un software chiamato Searchtone può estrarre le pagine dall'archivio generale del motore di ricerca, suddividerle in categorie e corredarle di un breve estratto, anche questo scritto automaticamente. Da notare che uno stesso documento potrebbe risultare classificato in diverse categorie e in tal caso avrebbe un abstract differente in ciascuna classificazione. Un secondo programma che può migliorare automaticamente il contenuto di una directory è Teseo, sempre degli stessi autori, che svolge un lavoro basato su una complessa analisi del contesto in cui si trovano i link alle pagine Web. Grazie a Teseo possono essere classificati anche i materiali non testuali, come audio e video, dato che vengono utilizzate non le pagine Web da classificare ma quelle che contengono i loro puntatori.

Occorre tenere presente anche che alcuni degli standard già approvati o in corso di elaborazione da parte del W3c, il consorzio diretto dall'inventore del Www, Tim Berners-Lee, e finanziato e promosso dal Massachusetts institute of technology di Boston, dall'Inria (Institut nationale de recherche en informatique et en automatique) francese, dall'Università di Keio in Giappone, da Darpa (l'agenzia di ricerca del Dipartimento della difesa statunitense) e dalla Commissione Europea, sono destinati ad influire non poco sulle future tecniche di catalogazione delle risorse Internet. Il Resource description framework (Rdf), in particolare, un lavoro ormai diventato raccomandazione ufficiale del consorzio <http://www.w3c.org/RDF> stabilisce il modo di descrivere qualsiasi tipo di documento disponibile in Internet mediante Xml, in modo da potervi incorporare diversi tipi di standard descrittivi, tra i quali anche quelli definiti dal Dublin core. Tra il 2003 e il 2004 è stato approvato anche un altro importante standard legato alla costruzione del Web semantico (su cui si tornerà fra poco), il Web ontology language (Owl) <http://www.w3.org/2004/OWL>, cioè il linguaggio da utilizzare per scrivere i dizionari (o ontologie, o reti di conoscenza).