Logo Laterza Fabio Metitieri _blank Riccardo Ridi
Logo Laterza Biblioteche in rete Biblioteche in rete Biblioteche in rete
Logo Laterza IndiceVai all'indice completo AcquistoAcquista il volume su www.laterza.it Torna all'homepage
Editori Laterza

Aggiornamento
giugno 2008

Introduzione

1. Le ricerche bibliografiche

2. Information retrieval:
strumenti e strategie

3. Opac e biblioteca virtuale

4. Biblioteche e Opac
nel mondo

5. Biblioteche e Opac
in Italia

6. Biblioteche
e Opac europei

7. Le biblioteche
e gli Opac statunitensi

8. Opac specializzati,
archivi e musei

9. Oltre i cataloghi: i testi

10. Banche dati: archivi
e host computer in Internet

11. Metarisorse generali
e informazioni per bibliotecari

Principali acronimi utilizzati

Bibliografia

Parte terza – Oltre i cataloghi: testi e banche dati

9. Oltre i cataloghi: i testi

[Introduzione]
Editoria elettronica e biblioteche digitali
Tavole di caratteri Iso
I formati dei testi digitali
I formati per gli e-book
Dagli e-book ai bit quasi di carta
Alcune biblioteche digitali italiane
Alcune biblioteche digitali francesi
Alcune biblioteche digitali di altri paesi
Google Print e la googlizzazione delle biblioteche
La conservazione dei bit
Riferimenti sull'analisi dei testi e sulle nuove forme del linguaggio
I periodici elettronici
Prestito interbibliotecario (Ill) e fornitura documenti (Dd)
Prestito interbibliotecario e fornitura di documenti in Sbn
Alcuni fornitori commerciali di documenti
Current contents, Current awareness services e Individual article supply
Copyright: un problema spinoso
Librerie virtuali
Le differenze tra Opac e librerie virtuali
La stampa on demand


 

L'editoria elettronica e le biblioteche digitali hanno in comune un grosso problema: quello della scelta del formato da utilizzare.

I file di tipo grafico privilegiano la resa visuale e l'aderenza all'originale cartaceo, usando tecniche di acquisizione poco costose; si tratta però di file di grandi dimensioni che non consentono di lavorare sul testo.

I file di tipo testuale sono più piccoli e consentono di strutturare e indicizzare i testi, ma comportano costi maggiori. Per acquisire l'immagine digitale di una figura o di un testo basta uno scanner; per digitalizzare un testo occorre invece utilizzare anche un programma di riconoscimento ottico dei caratteri (Ocr: Optical character recognition) ed eseguire le indispensabili correzioni degli errori; l'alternativa a scanner ed Ocr consiste nell'effettuare due digitazioni indipendenti per poi incrociarle.

Tra file testuali e file grafici esiste una terza possibilità, mista: l'uso in parallelo dell'immagine e di un testo non corretto. In questo caso il file di testo è inaffidabile come unica fonte ma è utile per la ricerca full text di parole e frasi, mentre il file grafico garantisce la fedeltà all'originale.

Tralasciando i numerosi formati esistenti per la gestione delle immagini, si elencano qui soltanto alcuni fra i formati più diffusi per la distribuzione di testi in Rete.

Ascii è l'American standard code for information interchange, di cui si è parlato nel capitolo 2 e nel paragrafo precedente; la versione ristretta (Us-Ascii o Plain vanilla Ascii) di questo standard codifica i 128 caratteri più comuni in modo davvero universale, comprensibile a tutti i tipi di computer. I rapporti fra questo standard per i caratteri dell'Ansi (American national standards institute), americano di diritto ma diffuso di fatto in tutto il mondo, e quelli internazionali dell'Iso (International organization for standardization) sono stati trattati nel paragrafo precedente.

Txt o testo. In questo modo generico si indicano i file caratterizzati da questa estensione nel nome. Di solito si tratta di testi in Ascii, anche se qualcuno definisce «file di testo» anche i formati Doc (di Word) o Rtf.

Html (Hypertext markup language) è il linguaggio con cui si costruiscono le pagine Web; si tratta di un linguaggio di marcatura (markup), composto da una serie di marcatori (tag) che vengono inseriti all'interno di un normale file di testo in Ascii per assegnare alle varie parti del testo determinate caratteristiche logiche o grafiche. Quando il file Ascii scritto in Html viene letto con un browser, quale Netscape navigator, Internet explorer o Lynx, i tag non vengono visualizzati ma sono interpretati come istruzioni per la visualizzazione del testo che racchiudono. Per esempio se nel file Ascii c'è scritto questa frase va in corsivo (dove I sta per «italic»), il browser visualizza questa frase va in corsivo. Lynx, un browser a caratteri che non ha questa possibilità, visualizza invece questa frase va in corsivo, con il sottolineato.

Sgml è lo Standard generalized markup language, un linguaggio di marcatura fortemente orientato alla struttura logica del documento, estremamente ricco ma non facile da imparare ed utilizzare. Si tratta di uno standard Iso da cui sono derivati altri linguaggi; lo stesso Html è una sua applicazione semplificata. I documenti in Sgml possono essere visualizzati con particolari interpreti quali Panorama, oppure possono essere tradotti da un'applicazione residente sul server al momento della richiesta, «on the fly» (al volo), con l'invio al client di un file Html visualizzabile con qualsiasi browser. Sgml non definisce in concreto una particolare serie di marcatori, ma prescrive delle regole astratte per creare degli insiemi di marcatori adatti ad esigenze specifiche. Ciascun insieme di tag e delle reciproche relazioni costituisce un Dtd (Document type definition); fra questi, alcuni dei più utilizzati sono quelli definiti dalla Text encoding initiative (Tei) per il trattamento di testi a carattere umanistico. I documenti codificati in Sgml sono esportabili in ogni ambiente, dato che sono costituiti da un semplice file di caratteri Ascii, e consentono di incorporare nel documento stesso numerose informazioni aggiuntive utili per effettuare ricerche. Manuali, bibliografie, software, archivi e progetti sono raggiungibili partendo dalle aggiornatissime Cover pages sugli standard tenute da Oasis <http://www.oasis-open.org/cover/sgml-xml.html>.

Tei (Text encoding initiative) è un progetto internazionale condotto dall'Association for computational linguistics (Acl), dall'Association for literary and linguistic computing (Allc) e dall'Association for computing and the humanities (Ach). Il progetto si prefigge di individuare metodi, il più possibile indipendenti da condizionamenti hardware o software, per la codifica e la trasmissione elettronica di testi a carattere prevalentemente umanistico, in tutte le lingue. In quest'ottica è stato scelto lo standard Sgml, partendo dal quale sono stati definiti vari Dtd adatti alle diverse tipologie di documenti. Sul sito Tei <http://www.tei-c.org>, oltre alle Tei guidelines sono disponibili gli elenchi degli organismi che stanno digitalizzando libri e documenti seguendo questo standard.

Xml è l'Extensible markup language. Fra l'incredibile ricchezza di possibilità offerte da Sgml, difficili da imparare e da applicare, e l'eccessiva povertà di Html, il W3 Consortium ha scelto una soluzione di compromesso, Xml, un sottoinsieme semplificato di Sgml studiato specificamente per essere utilizzato in ambiente Www. Questo standard mantiene la possibilità insita in Sgml (ma non nella sua applicazione Html) di creare nuovi marcatori a seconda delle specifiche esigenze, ampliando notevolmente le possibilità espressive delle pagine Web e rendendole più flessibili e adattabili a differenti contesti formali e di contenuto. L'evoluzione di questo standard, ancora poco diffuso, può essere seguita a partire dalle già citate Cover pages di Oasis, oppure dal sito del W3c <http://www.w3.org>.

Xhtml è l'Extensible Html, un'altra soluzione di compromesso, questa volta tra Xml e Html. Questo standard è destinato a sostituire l'Html nella definizione delle pagine Web e costituisce l'ossatura del Wap 2.0, il principale linguaggio utilizzato per la visualizzazione sui piccoli display dei cellulari e dei Pda di informazioni provenienti da Internet e opportunamente riformattate. L'Xhtml sostituirà dunque il tanto diffuso Html, che non si evolverà oltre all'attuale versione, la 4; informazioni sull'Xhtml si possono trovare sulle pagine del W3c, con indirizzo <http://www.w3.org/MarkUp>.

Pdf (Portable document format) e Postscript. I formati Sgml, Html, Xml e Tei sono standard internazionali, non proprietari e tutti orientati verso la struttura logica del documento, ovvero verso la definizione del suo «layout» generale e dei suoi vari componenti (titolo, capitolo, autore, e via dicendo), lasciando ai vari browser e alle personalizzazioni operate dai lettori una notevole libertà nella scelta di come rendere visivamente tale struttura. Un approccio radicalmente opposto è invece quello degli standard di proprietà di una singola azienda e orientati verso una descrizione più precisa dell'aspetto della pagina, che determinano rigidamente come verrà visualizzato o stampato il documento. A questa seconda tipologia di standard appartengono Postscript e Pdf, della Adobe.

Postscript è un linguaggio che permette di scambiare file di testo non direttamente leggibili sullo schermo e non ulteriormente manipolabili, che possono essere stampati su stampanti compatibili, con un'alta resa grafica e una notevole fedeltà all'originale.

Il formato Pdf, basato su Postscript, permette invece di visualizzare documenti prodotti con quasi ogni tipo di editor senza bisogno di possedere il programma con cui tali documenti sono stati creati. I programmi che traducono i testi in Pdf sono commerciali, mentre quello che permette di visualizzare i file Pdf, Adobe reader, è distribuito gratuitamente in versione per Pc o per Mac all'Url <http://www.adobe.com/support/downloads/main.html>. Adobe reader, che viene spesso incluso nei Cd-Rom multimediali, può essere utilizzato autonomamente o come plug-in di un browser e permette al lettore di visualizzare i documenti esattamente come sono stati creati o stampati, sfogliandone le pagine, effettuando ricerche nel testo e potendone esportare parti verso qualsiasi word processor, ma non consente in alcun modo di modificarli. Pdf è diventato uno standard ufficiale, approvato dall'Ansi nel 2000, ma resta in ogni caso «proprietario».

Doc e Rtf. Il formato indicato come Doc è quello proprietario di Microsoft, utilizzato dal programma Microsoft word. Il formato Rtf (Rich text format), invece, messo a punto ancora da Microsoft, che ne è proprietaria, è lo standard de facto che si è imposto per lo scambio di documenti da un programma di scrittura all'altro. Quasi tutti i word processor utilizzati oggi hanno la possibilità di importare e di esportare dei file in questo formato. Rtf, d'altra parte, riesce a gestire la visualizzazione e la stampa di testi formattati anche in modo complesso, sfruttando soltanto set di caratteri molto semplici e diffusi.

Zip. Non è uno standard per i testi, ma semplicemente il sistema più conosciuto per la compressione dei file. Qualsiasi file può essere «zippato» e ridotto a dimensioni che, nel caso dei testi, sono molto inferiori a quelle originali, con una notevole riduzione dei tempi necessari alla sua trasmissione in Rete o dello spazio necessario ad archiviarlo su disco. Il programma necessario alla compressione e alla decompressione, Pkzip, è molto facile da usare e shareware; può essere scaricato da uno dei numerosi archivi di software presenti in Rete o direttamente dal sito Web del suo produttore <http://www.pkware.com> e utilizzato con relativa libertà. Un altro prodotto compatibile è Winzip, scaricabile da <http://www.winzip.com>. In ambiente Macintosh il programma più diffuso per la compressione è Stuffit della Aladdin systems <http://www.stuffit.com>. La compressione zip non va confusa con gli zip disk, supporti magnetici portatili (una sorta di floppy disk più capienti), su cui possono essere memorizzati dati in qualsiasi formato.