![]() |
![]() |
![]() |
![]() |
|
2. Information retrieval: 4. Biblioteche e Opac 5. Biblioteche e Opac 7. Le biblioteche 8. Opac specializzati, 10. Banche dati: archivi 11. Metarisorse generali |
Parte terza Oltre i cataloghi: testi e banche dati 11. Metarisorse generali e informazioni per bibliotecari Indici generali del World Wide Web
Sebbene i cataloghi, le bibliografie e i repertori esaminati nei capitoli precedenti siano i mezzi migliori per effettuare ricerche bibliografiche in Rete, è bene ricordare che esistono anche strumenti più generali, che tentano di censire e catalogare l'intero contenuto informativo di Internet. Fra queste metarisorse di carattere generale e i progetti di catalogazione descritti nel capitolo 3, un ruolo fondamentale è svolto dagli indici del World Wide Web. Il Web è la parte di Internet cresciuta più rapidamente; se ai tempi della prima edizione di questo libro, all'inizio del 1998, si calcolava che esistessero 300 milioni di pagine, oggi il numero, difficile da stimare, ha probabilmente raggiunto i 9 miliardi. Si descrivono qui, molto rapidamente, le principali tipologie degli indici oggi disponibili. Indici Web per parola. Detti anche "motori di ricerca" o "search engines", grazie a programmi chiamati "spider" o "robot", raccolgono automaticamente in grandi archivi e permettono di individuare tutte le occorrenze di uno o più termini presenti in una buona parte delle pagine Web mondiali o di una singola nazione. Talvolta i motori ricercano anche tra i messaggi di numerosi gruppi di news. I risultati trovati, purtroppo, non sono sempre pertinenti, anche se questi strumenti vengono continuamente perfezionati per consentire interrogazioni e metodi di ordinamento sempre più sofisticati. Il problema consiste nella difficoltà di far individuare automaticamente a un programma, senza l'intervento di catalogatori umani, omonimie, sinonimie e più in generale il contenuto semantico delle pagine Web. I maggiori motori di ricerca internazionali sono attualmente Altavista <http://www.altavista.com> (uno dei più "antichi", dotato di numerose opzioni per raffinare la ricerca), Fast <http://www.alltheweb.com> (noto anche come "All the Web", dotato di uno degli archivi più vasti e aggiornati), Teoma <http://www.teoma.com> (non particolarmente vasto né aggiornato, ma con interessanti opzioni per l'individuazione dei siti più popolari in una determinata "comunità di esperti") e Google <http://www.google.com> (complessivamente il migliore, grazie anche all'efficace analisi dei link che legano fra loro le pagine, consentendo di valorizzare i siti più rilevanti). Le dimensioni dei rispettivi archivi vanno, secondo le stime di Greg R. Notess <http://www.searchengineshowdown.com/stats/sizeest.shtml> (al 31 dicembre 2002), dal miliardo di pagine indicizzate da Teoma ai 3 miliardi di Google, passando per il miliardo e mezzo di Altavista e gli oltre 2 miliardi di Fast. Era molto interessante anche Northern light <http://www.northernlight.com>, perché dotato di un utile sistema di ordinamento supplementare dei risultati in base al sito di provenienza o ad altre caratteristiche delle pagine recuperate; Northern light offriva inoltre la possibilità di ricercare negli abstract di migliaia di articoli provenienti da periodici e libri a stampa, dei quali si poteva anche richiedere l'invio del full text a costi contenuti. Acquistato da Divine <http://www.divine.com> all'inizio del 2002, Northern light ha purtroppo sospeso la maggior parte dei suoi servizi, senza finora dare indicazioni sulla loro eventuale ripresa. Sono da tenere presenti anche Lycos <http://www.lycos.com>, Wisenut <http://www.wisenut.com> e Overture <http://www.overture. com>, quest'ultimo nato dall'evoluzione di Goto e ormai specializzato nelle formule di ranking a pagamento di cui si parlerà in uno dei prossimi paragrafi. Alcuni motori permettono di rintracciare (con una ricerca che viene talvolta definita impropriamente "per concetto" ma che andrebbe chiamata "per somiglianza") ulteriori pagine Web contenenti una certa percentuale di parole uguali a quelle delle pagine già trovate, nel tentativo di recuperare parte del contenuto semantico sfuggito con la ricerca per parole. Un approccio un po' particolare è quello dei motori studiati per rispondere a domande poste in linguaggio naturale, di solito in inglese. Ask Jeeves <http://www.ask.com>, per esempio, lavora su un archivio che contiene milioni di domande ricevute da parte dei navigatori, grazie al quale riesce sempre a fornire delle risposte, sebbene non sempre rilevanti e quasi mai esaustive. Fra i primi motori di ricerca del webspace italiano si ricordano Arianna <http://www.arianna.it> e Il Trovatore <http://www.iltrovatore.it>, tuttora attivi e indipendenti, mentre la maggioranza dei portali italiani tende attualmente ad appoggiarsi a prodotti internazionali opportunamente adattati, come fanno, ad esempio, Supereva <http://www.supereva.it> con Google e Tiscali <http://www.tiscali.it> con Fast. Indici Web per argomento. Detti anche "directories" o "subject trees", questi indici sono costruiti da personale specializzato che indicizza e ordina le pagine Web in base al soggetto, scartando quelle meno interessanti e talvolta aggiungendo un breve riassunto e una valutazione. Il lavoro umano garantisce un filtro qualitativo e diminuisce il "rumore" rispetto alle ricerche effettuate coi "search engines" automatici, ma per problemi di costi gli archivi sono di gran lunga più piccoli di quelli usati dai motori, costruiti automaticamente. Per fare un paragone coi dati sui motori di ricerca riportati poco prima si consideri che, nel febbraio 2003, la Open directory <http://dmoz.org>, utilizzata anche da Google e probabilmente la più vasta esistente, dichiarava di classificare circa 3,8 milioni di siti. Nel valutare queste cifre si ricordi però che i motori per parola rintracciano singole pagine (che solo talvolta costituiscono la home page di un sito o di una risorsa), mentre le directory per argomento si focalizzano sui siti o comunque su unità informative compiute. Pochi di questi indici adottano sistemi formalizzati di classificazione bibliotecaria (Cdd, Cdu, Lc), mentre la maggior parte utilizza una propria gerarchia di classi annidate piuttosto approssimativa dal punto di vista del rigore concettuale. Alcuni, come Yahoo! <http://www.yahoo.com>, uno dei più conosciuti, al punto di essere considerato una sorta di archetipo di questo tipo di meta-risorsa, permettono anche una ricerca per parola all'interno del proprio archivio di "intestazioni", una possibilità che gli utenti meno esperti confondono spesso con la ricerca full text nell'intero webspace tipica dei search engine. Alcuni indici per argomento, quali ad esempio la autorevole e "antica" (in quanto risalente al 1994) Www virtual library <http://vlib.org>, vengono definiti "distribuiti" perché sono costituiti dalla collaborazione tra diversi siti indipendenti, ciascuno dedicato a un determinato argomento. Nel capitolo 8 sono già stati citati alcuni degli indici più orientati verso le risorse di interesse accademico e bibliografico e altri ancora, più generici, sono stati elencati nel capitolo 4 come mezzo per raggiungere i repertori internazionali di biblioteche e di Opac. Fra quelli dedicati alle risorse italiane si ricordano Virgilio <http://www.virgilio.it> e la versione italiana di Yahoo! <http://it.yahoo.com>. Anche i già citati Arianna e Supereva dispongono, oltre che dei motori, di directory. Indici Web per parola limitati a una disciplina. Nati di recente, sono degli ibridi fra le due categorie precedenti, delle quali cercano di unire i pregi. Applicano la potenza "cieca" dei motori di ricerca esclusivamente a un gruppo di siti dedicati a una particolare disciplina o argomento e indicizzati da personale specializzato. Tra questi si possono citare Argos <http://argos.evansville.edu>, che si definisce "Limited area search engine of the ancient and medieval Internet", un servizio sospeso a febbraio del 2003, e Hippias <http://hippias.evansville.edu>, per una "limited area search of philosophy on the Internet". Indici Web retrospettivi. Le pagine Web stanno diventando dei documenti sempre più importanti anche dal punto di vista storico, sebbene la maggioranza degli enti e delle persone che le producono sembrino non rendersene conto, cancellando con noncuranza le versioni precedenti man mano che aggiornano i propri siti. Per fortuna, non solo degli storici del futuro, cominciano a nascere progetti che cercano di ovviare a tale problema. Il primo è stato l'Internet archive <http://www.archive.org> con la Wayback machine, un indice su cui si possono eseguire ricerche finora solo per Url, per trovare le versioni passate dei siti corrispondenti, salvate ogni sei mesi a partire dal 1996. Un secondo progetto del genere, limitato ai siti interessanti per la cultura inglese, è stato avviato nel 2002 dalla British library, ma non offre ancora archivi consultabili pubblicamente. Anche altre biblioteche nazionali stanno avviando, in modo limitato e sperimentale, iniziative analoghe, e anche Google sta progettando di cumulare e organizzare in modo più stabile le "copie cache" delle pagine indicizzate, consultabili adesso solo una ad una fino al successivo aggiornamento dell'archivio. Meta-indici. Permettono l'accesso (talvolta anche l'interrogazione, non sempre contemporanea) a un certo numero di indici e repertori primari come quelli elencati finora. In alcuni casi è possibile scegliere se impostare la ricerca direttamente dalla pagina del meta-indice oppure se collegarsi prima a quella dell'indice primario. Vengono chiamati anche "unified search engines", e possono rivelarsi utili, tra l'altro, per testare le differenze fra i vari indici. Alcuni meta-indici permettono di immettere una sola volta i termini di ricerca, lasciando al software il compito di ripetere l'interrogazione su tutti gli indici selezionati e di produrre una risposta cumulativa; il risultato è "sporco", cieco rispetto alle peculiarità dei vari archivi e delle relative tecniche di interrogazione, ma la rapidità e la potenza di questi strumenti li rende comunque interessanti. Possono essere suddivisi in tre sottocategorie: gli indici di indici, i multi-indici e i veri e propri meta-indici in senso stretto. Indici di indici. Sono semplici liste di link a indici. Più che veri e propri meta-indici sono dei repertori di indici, qualche volta ampiamente commentati. Come esempio, si citano l'essenziale Internet navigation tools <http://riceinfo.rice.edu/Internet> della Rice University, l'italiano Motoridiricerca.it <http://www.motoridiricerca.it> e quelli inclusi nei due principali punti di riferimento sui motori a livello internazionale: Search engine watch <http://www.searchenginewatch.com>, coordinato dal giornalista Danny Sullivan, e Search engine showdown <http://www.notess.com/search>, dell'ex bibliotecario Greg R. Notess, già citato più volte in questo capitolo. Un elenco ragionato di queste e altre guide, bollettini, bibliografie, notiziari e mailing list dedicate agli strumenti per la ricerca in Internet è curato da Mariateresa Pesenti in Aib-Web all'indirizzo <http://www.aib.it/aib/lis/motori.htm>. Multi-indici. Detti anche multi-motori, sono pagine che permettono la ricerca su vari indici, interrogabili però solo uno alla volta, proprio come i Multi-Opac. Tra questi si ricordano Webtaxi <http://www.webtaxi.com> e All in one <http://www.allonesearch.com/all1www.html#WWW>. Molti di questi strumenti, inclusi i due citati, mettono purtroppo in un unico calderone indifferenziato motori, directory e altri generi di indici e repertori. Recentemente il noto motore di ricerca Hotbot <http://hotbot.lycos.com> si è trasformato in un multi-motore attraverso cui è possibile interrogare i motori Fast, Google, Teoma oppure l'archivio di Inktomi, di cui si parlerà fra poco. Meta-indici in senso stretto. Detti anche meta-motori, prevedono un'unica maschera di ricerca che permette l'interrogazione cumulativa di vari indici contemporaneamente, come per i Meta-Opac. I risultati talvolta sono ordinati in base all'indice di provenienza, con eventuali ripetizioni, mentre a volte vengono "schiacciati", eliminando le ripetizioni, e vengono ordinati in base alla supposta rilevanza rispetto alla richiesta oppure ad altri criteri. Spesso il numero dei risultati è sorprendentemente esiguo perché, per evitare una mastodontica cumulazione, vengono presi in considerazione solo i primissimi risultati provenienti da ciascuna fonte. Come esempi si possono citare Metacrawler <http://www.metacrawler.com>, dall'eloquente sottotitolo "search the search engines", Beaucoup <http://www.beaucoup.com> e Mamma <http://www.mamma.com> "The mother of all search engines", oltre a ProFusion <http://www.profusion.com>, su cui si tornerà nel paragrafo sull'"invisible web". Si segnala qui anche Vivisimo <http://vivisimo.com>, un meta-indice abbastanza particolare elaborato dal Dipartimento di Computer science della Carnegie Mellon University, che può fungere sia da multi-motore che da meta-motore e che ha il pregio di eseguire, un raggruppamento automatico per voci dei risultati trovati, suddividendoli in cartelle etichettate con parole associate al contenuto delle pagine Web rintracciate, in modo simile a quanto faceva Northern light. Sono interessanti anche i meta-indici che utilizzano un software di tipo client da installare sul proprio Pc, come per esempio Copernic <http://www.copernic.com>, permettendo di memorizzare e gestire in modo più sofisticato ricerche complesse o ripetute nel tempo. Il software Copernic esiste sia a pagamento sia in versione gratuita. Virtual reference desk (Vrd). Queste utili metarisorse hanno molti altri nomi, quali "virtual library", "electronic reference desk", "gateway", "trailblazer page", "metapage", "homepage" e "hub". Proprio come le sale di consultazione delle biblioteche reali questi reference desk virtuali raccolgono, ordinano e talvolta valutano e commentano le principali fonti informative e i più utili strumenti di ricerca disponibili in Rete, relativamente a una determinata disciplina o argomento (virtual reference desk specializzati) o a Internet in generale (virtual reference desk generali). Talvolta includono anche (o si presentano come) delle guide discorsive alla ricerca, che spiegano metodi e trucchi per la ricerca in Rete. Come esempi di virtual reference desk generali si possono ricordare, restando in ambito italiano:
Talvolta l'espressione Virtual reference desk viene utilizzata per indicare non tanto un repertorio consultabile direttamente dagli utenti, quanto un servizio di assistenza personalizzata on line agli utenti stessi, svolto prevalentemente via e-mail da professionisti della ricerca dell'informazione. Numerosi esempi di servizi gratuiti di questo tipo, svolti da bibliotecari, sono raggiungibili attraverso il sito The virtual reference desk <http://www.vrd.org>. Indici Web personalizzabili e agenti di ricerca. Ancora in gran parte sperimentali, questi strumenti mirano a rintracciare autonomamente tutte le risorse di interesse per l'utilizzatore, sulla base della preventiva definizione di un accurato "profilo di ricerca" e, nei casi più sofisticati ma anche più imprevedibili, di decisioni "autonome" dei cosiddetti "agenti intelligenti". In qualche caso utilizzano le tecnologie di tipo "push". Come esempi piuttosto semplici, che si limitano a permettere una riorganizzazione personalizzata dell'ordinamento delle informazioni proposte, si vedano My Yahoo! <http://www.my.yahoo.com> in ambito commerciale e My Humbul <http://www.humbul.ac.uk/user/login.php> in ambito accademico. Anche l'appena citato Vrd Segnaweb utilizzerà un'interfaccia personalizzabile di questo tipo. Portali. Molto utilizzati dagli utenti meno esperti, ma poco adatti ai professionisti della ricerca in Internet, i portali si candidano a costituire il sito di riferimento dei navigatori non solo per la ricerca di informazioni ma anche per ogni altra attività effettuabile in Rete (comunicazione, giochi, acquisti in linea, prenotazione di servizi, e via dicendo). Includono quasi sempre una directory per argomento molto orientata alle necessità della vita quotidiana, un motore di ricerca sviluppato in proprio o mutuato dai maggiori e un insieme dei più svariati servizi: notiziari, quotazioni di borsa, indirizzi e-mail e spazio Web gratuiti, oroscopi, stradari, chat e forum, invio di Sms, previsioni del tempo e così via. Si vedano per esempio, in Italia, Ciaoweb <http://www.ciaoweb.it>, Jumpy <http://www.jumpy.it>, Kataweb <http://www.kataweb.it> e i già citati Supereva <http://www.supereva.it> e Virgilio <http://www.virgilio.it>. Anche giganti di altre categorie, come Altavista (solo fino a novembre 2002) e Yahoo! (tuttora), si stanno rapidamente "portalizzando" sulla spinta delle pressioni pubblicitarie. C'è chi li distingue in portali "orizzontali" (cioè generali) e "verticali" (cioè specializzati, denominati talvolta anche col temine "vortali", da "vortals", "vertical portals"). Ai portali è dedicato un capitolo del volume Frontiere di rete. Internet 2001: cosa c'è di nuovo, di Marco Calvo, Fabio Ciotti, Gino Roncaglia e Marco A. Zela (Laterza, 2001), che costituisce l'aggiornamento dell'ormai classica serie di manuali dei medesimi autori iniziata con Internet '96 e arrivata finora a Internet 2000 (la versione Internet 2004 è attesa per settembre del 2003).
|
||