Elosztott digitális könyvtári projekt Európában

Kovács László, laszlo.kovacs@sztaki.hu
Micsik András, micsik@sztaki.hu
MTA SZTAKI, Elosztott Rendszerek Osztály

Abstract

The member institutes of ERCIM (European Research Consortium for Informatics and Mathematics) decided to serve their technical reports through a unified and distributed digital library environment. This environment is based on the Dienst server of the American NCSTRL project. The server at this time is running in several computer research institutes in France, Sweden, Italy, Portugal, Greece and Hungary. It provides advanced search and display facilities, where the technical reports of selected institutions can be handled parallelly through a unified interface.

1. Egységesítési törekvések a könyvtári rendszerek világában

A közös európai digitális könyvtárak megvalósulásának napja egyre közelebb kerül. Ennek egyik jele az, hogy az európai számítástechnikai kutatóintézetek egy egységes, de elosztott rendszeren keresztül teszik elérhetõvé kutatási beszámolóikat. Az ERCIM (European Research Consortium for Informatics and Mathematics) tagintézményei közül immár Franciaországban (INRIA), Svédországban (SICS), Olaszországban (CNR), Portugáliában (INESC), Görögországban (FORTH) és Magyarországon (SZTAKI) is mûködik a az elosztott könyvtári rendszer. Egy kis történelmi áttekintés után ennek a rendszernek a képességeit mutatjuk be.

Az elosztott digitális könyvtárak létrejöttének nélkülözhetetlen elõfeltétele az egységes katalógus formátum. Immár jónéhány nemzetközi szabvány is van erre, melyek azonban sajnálatos módon nem teljesen kompatibilisek egymással. A fent említett európai kutatóintézetekben is több mint háromféle katalógusformátumot használnak. Külön csak az RFC1807 dokumentumban leírt katalógusformátumot említjük meg, mert ez tekinthetõ az Internet szabványának, és ezt használja az ERCIM elosztott digitális könyvtári projekt is.

A digitális könyvtárak két fõ szolgáltatása a keresés és a kiválasztott dokumentumok megjelenítése vagy letöltése. Az amerikai WATERS (Wide Area Technical Report Service) szolgáltatás ezt úgy oldotta meg, hogy egy központi szerveren tárolta az összes hozzá tartozó dokumentum katalógusrekordját, és itt lehetett ezekben keresni. Maguk a dokumentumok mindig a származási intézmény szerverén helyezkedtek el, és innen voltak letölthetõk. Hasonló megoldást jelent a World Wide Weben keresztül elérhetõ dokumentumok felderítése és leindexelése, annyi különbséggel, hogy itt a teljes szövegben kereshetünk.

Ha a szóba jövõ technológiák szempontjából nézzük az elosztott digitális könyvtárak problémáját, a dokumentumok letöltésére két jól bevált eszköz is van: az FTP és a WWW. A keresést és a letöltést is megoldja a WAIS, vagy egy indexelt WWW szerver. Az igazi gond az egyes elosztott szerverek összefogása és egységes kezelése. Erre a célra hozták létre az amerikai NCSTRL projekt keretében a Dienst szervert, mely az ERCIM digitális könyvtári projektjének is kiindulópontját képezi. Az NCSTRL több mint 40 amerikai intézmény digitális könyvtárát egyesíti a Dienst segítségével.

Példa: A felhasználói felület nyitó oldala

2. A Dienst szolgáltatás felépítése

A Dienst megközelítésében minden intézménynek saját magának kell ellátnia a keresés és a dokumentum megjelenítés feladatkörét is. Így a digitális könyvtár és a szükséges számítástechnikai infrastruktúra fenntartása is az intézmeny feladata. A különálló szerverek összefogását egy úgynevezett metaszerver végzi, mely az összes szerver alapvetõ elérési adatait szolgáltatja.

Ez a felépítés az egyik oldalról megköveteli az állandó technikai felügyeletet (Dienst és WWW szerverek, valamint Internet kapcsolat állandó üzemeltetése), a könyvtárosi (kiadványok adatainak karbantartása) és szoftvermérnöki munkát (kiadványok formátumainak elõálítása, konvertálás). A másik oldalról lehetõvé teszi, hogy egy intézmény egy egységes keretrendszerben szolgáltasson dokumentumokat úgy, hogy közben teljes rendelkezési lehetõsége van a dokumentumaival kapcsolatban, azaz elérhetõvé teheti és visszavonhatja bármikor a dokumentumait, továbbá például korlátozhatja a hozzáférésüket, vagy egyedi szerzõi jogokat tüntethet fel.

Szükséges még valamilyen hivatkozási séma kidolgozása a szolgáltatott dokumentumokra. A Dienst alatt minden dokumentumnak egyedi azonosítója van, mely alapján a dokumentumot egyszerûen meg lehet találni. Az azonosító is decentralizált elven épül fel. Az elsõ része a szolgáltató intézmény (nevezzük ezután kiadónak) azonosítója, mely központilag van bejegyezve, második része a kiadón belüli azonosító, melyet a kiadó rendel hozzá a dokumentumaihoz.

A Dienst szerverek felhasználói felülete integrálva van a World Wide Web-bel, mely biztosítja a felület széleskörû elérhetõségét, platform-függetlenségét és egységes megjelenését. Ezen felül még az is igaz, hogy mindegyik szerver ugyanazokat a szolgáltatásokat nyújtja a felhasználónak a többi szerveren tárolt adatokra, mint a sajátjaira, így gyakorlatilag mindegy, hogy melyik szerveren veszem igénybe a felhasználói felületet. Hasonló módon egy dokumentumot, ha ismert annak azonosítója, bármely szerverhez kapcsolódva le lehet tölteni.

Példa: A kereső felület

3. A Dienst szolgáltatásai a felhasználóknak

A keresési ûrlapon a szerzõ, cím és kivonat mezõk szavaira kereshetünk, az egyes keresési kulcsok között ÉS, VAGY kapcsolatot állíthatunk be. Kiválaszthatjuk, hogy a felsorolt kiadók közül melyeknél akarjuk elvégeztetni a keresést. Ezután a keresés párhuzamosan hajtódik végre a kiválasztott szervereken, a felhasználói felület csak az eredmények összefésülését végzi.

A kapott dokumentumlista alapján bármelyik dokumentumot megtekinthetjük. Elsõként a dokumentumhoz tartozó katalógusrekordot kapjuk meg. (A Dienst-et használják csupán katalógusrekordok szolgáltatására is.) Ez alatt a dokumentum elérhetõ formátumainak listáját látjuk, mivel egy dokumentumot többféle formátumban is lehet szolgáltatni. A formátumok többsége egyszerûen integrálható a Dienst-be. Az egy fájlból álló formátumok közül TeX, Word, RTF, Postscript, és bármely más használata megoldott. Lehetséges szkennelt dokumentumokat képi formátumban szolgáltatni. Ez olyan esetekben ajánlott, amikor más szöveges formátumra nem oldható meg a konvertálás, például munkaerõ hiányában, vagy különleges grafikai megjelenés esetén. Az oldalak képének egyes részleteit ki is tudja nagyítani a rendszer. Másik érdekes lehetõség a dokumentum logikai szerkezetének, tartalomjegyzékének megjelenítése, melybõl könnyen tudunk a dokumentum kívánt részére ugrani. Az integrálható formátumok között van a HTML is.

Példa: Egy dokumentum megjelenítése

Utolsóként az egyes kiadók dokumentumainak megjelenési év vagy szerzõ szerinti böngészésének lehetõségét említjük meg.

4. A Dienst szerver belsõ felépítése

A szerver belülrõl három alapszolgáltatásra, és opcionális tartozékokra oszlik. Az alapszolgáltatások közé tartozik a dokumentumtár, az indexelõ, és a felhasználói felület. Ezek mindegyike adott eljáráskészlettel rendelkezik, melyek a Dienst saját protokollja szerint hívhatók meg a többi szerver által. Így amikor a felhasználó egy távoli szerver dokumentumának megjelenítését kéri, a Dienst szerver, melyhez a felhasználó kapcsolódott, a kérés teljesítéséhez a belsõ protokoll segítségével közvetlenül a távoli szerver dokumentumtárával kommunikál.

A szervert integrálni kell egy WWW szerverrel, azaz konfigurálni úgy, hogy a WWW szerver továbbítsa a felhasználó kéréseit a Dienst szerver felé.

A könyvtárosok munkáját megkönnyítõ segédeszközök is vannak a Dienst-hez, amelyek új dokumentumok beillesztését, formátumkonverziókat, az adatbázis ellenõrzését és dokumentumok törlését teszik lehetõvé.

Irodalomjegyzék