Homepage von Michael Hohlfeld | Homepage of Michael Hohlfeld [an error occurred while processing this directive]
Paper zum Vortrag auf der Konferenz
Content in Context - Perspektiven der Informationsdienstleistung
(24. DGI-Online-Tagung),
3.- 5. Juni 2002, Frankfurt am Main, Palmengarten

erschienen im
Tagungsband der Konferenz
ISSN 1438-9274


Das Projekt SINN - Ein Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz

Michael Hohlfeld, Thomas Severiens
Institute for Science Networking Oldenburg GmbH

Einführung

Wissenschaftliche Fachinformationen werden schon seit einiger Zeit und in zunehmendem Maße nicht mehr nur durch traditionelle Informationsanbieter, wie Verlage, Fachinformationszentren, etc., sondern durch die Wissenschaftlerinnen und Wissenschaftler selbst direkt angeboten, zum Beispiel über ihre eigene Homepage, den Server ihres Fachbereiches oder über PrePrint-Server. Im elektronischen Zeitalter spielt die klassische Vertriebskette Verlag-Grossist-Bibliothek, deren Aufgabe das Verteilen von wissenschaftlichen Informationen ist, eine immer geringer werdende Rolle, ja könnte in dieser Form bald schon ganz entfallen. Vielmehr verlagern sich die Aufgaben von Verlagen und Bibliotheken sowie der Wissenschaftler als Autoren und Leser.

Die einzelnen Akteure positionieren sich schon längst. Während die Wissenschaftler selbst zu direkten Informationsanbietern werden, wenden sich Verlage, nachdem das Geldverdienen mit dem bloßen Besitz von Dokumenten entfällt, sogenannten add-on Diensten zu, wie dem intelligenten personenbezogenen Suchen und der Einordnung von Dokumenten (cross-back-forward-citation), und übernehmen in gewissem Sinne auch Funktionen von Bibliotheken. Im Gegenzug wenden sich Bibliotheken immer mehr verlägerischen Tätigkeiten zu, z.B. durch Gründung von Universitätsverlagen und der Entwicklung neuer Dokumenten-Workflow-Systeme im Bereich des wissenschaftlichen Publizierens.

Bildete im Zeitalter der gedruckten Information der Transport und die Verteilung den Engpass bei der Verbreitung wissenschaftlicher Fachinformation, so liegt dieser heute beim Retrieval, also beim inhaltlichen Erschließen, dem Wiederauffinden und Herausfiltern der für den jeweiligen Nutzer relevanten Information. Denn wissenschaftliche Fachinformationen machen nur einen sehr kleinen, wenn auch stetig wachsenden, Teil der heute im World Wide Web zur Verfügung stehenden riesigen Informationsmenge aus. Die bekannten Suchmaschinen, so gut sie in einige Fällen auch sein mögen, sind nicht wissenschaftsspezifisch sondern für eine breitere Öffentlichkeit ausgelegt und liefern daher bei der Suche nach Fachinformationen viele irrelevante Ergebnisse, dagegen aber viele der gesuchten Informationen nicht, obwohl diese - oft in größerer Tiefe der Server - online zur Verfügung stehen.

Verteilte Informationssysteme

In den letzten Jahren wurden deshalb für verschiedene Fachrichtungen spezielle fachspezifische Suchmaschinen- und Informationssysteme aufgebaut, um dieser Entwicklung entgegen zu treten. Meist handelt es sich dabei um sogenannte verteilte Informationsdienste. Diese Dienste nutzen das dezentrale Konzept des Internets, d.h. es wird die verteilte Information fachrelevanter Webserver zugänglich gemacht. Die entsprechenden Dokumente / Informationen verbleiben dabei auf den Servern der Erzeuger, welche somit auch die Kontrolle und alle Rechte darüber behalten und diese pflegen und aktualisieren können. Durch diesen Ansatz werden keine großen zentralen Rechenanlagen benötigt und es bedarf keiner Pflege einer zentralen Datenbank (welche dazu tendieren würde, schnell zu veralten).

Die Organisation aus den jeweiligen Fachwissenschaften heraus - z.B. durch die Fachgesellschaften - und die Beschränkung des Such- oder Datenraumes stellt die Qualität und Relevanz der in diesen Diensten angebotenen Informationen sicher.

Beispiele für solche Dienste sind das PhysNet <www.Physics-Network.org> für die Physik, das MareNet <www.MareNet.de> für die Meeresforschung oder Math-Net <www.Math-Net.org> für die Mathematik.

Anforderungen an verteilte Systeme

An Informationsdienste mit verteilten, also dezentralen Quellen stellen sich nun aber verschiedene Anforderungen. Zum einen muss der Umgang mit hochgradig heterogenen Datenräumen geregelt sein. Verschiedenste Informationen und Dokumententypen müssen erschlossen werden, hierzu gibt es die unterschiedlichsten Methoden. Ein sehr aktuelles Thema ist zudem die Vernetzung verschiedener Dienste (auch fächerübergreifend), um den Zugriff auf verteilt vorhandene Daten und Dokumente zu bündeln. Es müssen also entsprechende Schnittstellen vorhanden sein. Für die Inhaltserschließung ist dabei ein standardisiertes Vokabular für Metadaten (z.B.: DublinCore) notwendig, für den Datenaustausch zwischen verschiedenen Diensten werden ebenfalls standardisierte Protokolle (wie beispielsweise das der Open Archives Initiative) benötigt.

Eine weitere Anforderung, die an ein (aus Nutzersicht optimales) Informationssystem gestellt werden muss, ist natürlich, dass Anfragen an das System schnell und stets bearbeitet werden sollen, möglichst unabhängig von der Netzbelastung durch Dritte oder dem Ausfall von Programmen oder Hardware.

Das Projekt SINN

Ein solches System aufzubauen ist das Ziel des Projektes SINN - Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz <www.isn-oldenburg.de/projects/SINN>.

Das verteilte Informationssystem PhysNet soll im Rahmen dieses Projektes durch den Aufbau eines aktiven Spiegelnetzwerkes, also das Spiegeln des Dienstes auf weltweit verteilten Servern, und durch den Aufbau eines kohärent gekoppelten Netzes von Brokern (Query-Beantwortern) und Gatherern (Informationssammlern) zu einem in der Nutzung belastbaren, schnellen und sicheren Dienst ausgebaut werden. Das Retrieval, insbesondere die Verbreitung des Einsatzes von Metadaten und der Datenaustausch zwischen den Spiegeln des Dienstes sind wesentlicher Bestandteil des Projektes und sollen dazu dienen, das Antwortverhalten zu verbessern.

SINN ist ein Vorhaben im Rahmen des DFN-Projektes "Einsatz von Netzdiensten im Wissenschaftlichen Informationswesen", und wird mit Mitteln des Bundesministeriums für Bildung und Forschung (bmb+f) und des Landes Niedersachsen gefördert. Die Institute for Science Networking Oldenburg GmbH betreibt dieses Projekt in Kooperation mit mehreren internationalen Partnern des PhysNet-Dienstes.

Aufgaben in SINN

Hauptaufgaben des Projektes sind

  • der Aufbau eines aktiven Spiegel-Netzwerkes des PhysNet-Dienstes,
  • der Aubau des dazugehörigen Suchmaschinennetzwerkes,
  • die Entwicklung einer Sprache zum Anfragenaustausch (basierend auf XML-Query), d.h. z.B. Suchanfragen werden an eine andere Suchmaschine weitergegeben, welche dann eine Antwort zurückgibt,
  • die Kommunikation zwischen den verschiedenen Suchmaschinen, d.h. Entwicklung eines (XML-basierten) Protokolls beispielsweise zum Austausch von technisch-administrativen Informationen (Index-Dateien, Konfigurationsdateien, Informationen über den aktuellen Status etc.).

Zu diesen Punkten gehören unter anderem die Einbindung und Schulung internationaler Partner und die aktive Auseinandersetzung mit den Aktivitäten in den verschiedenen Standardisierungs-Gremien zur Vernetzung von Suchmaschinen und Archiven. Ein weiterer Schwerpunkt liegt bei der Nutzeranalyse.

Aktueller Stand

Als ein erster Schritt in diesen Projekt wurde eine einfache Spiegelsoftware entwickelt, welche es erlaubt, den PhysNet-Dienst (gemeint sind die reinen HTML-Seiten, also Rahmendateien, Bilder und statische Linklisten) auf anderen Webservern zu spiegeln. Derzeit gibt es Spiegel an neun Standorten weltweit (in Deutschland, Frankreich, Indien, Irland, in den Niederlanden, Russland, in England und in den USA) weitere sind in Vorbereitung. Dieses Spiegelnetzwerk (ohne die Suchmaschinen) dient dabei als Vorläufer des späteren Suchmaschinennetzwerkes und bindet jetzt schon mal die internationalen Partnern in das Projekt ein.

Parallel hierzu betreiben, teilweise schon seit vielen Jahren, ca. 30 nationale und internationale Physik-Fachbereiche eigene Harvest-Gatherer. Diese verteilten Gatherer liefern ihre aktuellen Indexdaten regelmäßig an den zurzeit noch zentralen Informationsbroker des PhysNet-Dienstes. Auf diese Weise können die lokal verfügbaren Informationen und Dokumente besser erschlossen werden, d.h. es wird so eine größere Suchtiefe erreicht, welche sich bei einem zentral betriebenen Gatherer nur mit einer erhöhten Netzbelastung realisieren ließe.

Im Dezember 2001 wurde im Rahmen des Projektes in Oldenburg eine internationale Tagung mit dem Titel "SINN01 - First International Technical Workshop" durchgeführt. Zweck dieser Veranstaltung war die Einbindung weiterer internationaler Partner in das PhysNet und ein Erfahrungs- und Ideenaustausch. Es wurden verschiedene Möglichkeiten und technische Lösungen für das Vorhaben, insbesondere für das Spiegeln und die Vernetzung der Harvest-Broker und Harvest-Gatherer diskutiert und gemeinsame Vorgehensweisen vereinbart. Resultate dieser Diskussionen waren u.a. Verbesserungsvorschläge für die genutzte Spiegelsoftware, und das auch zukünftig ein netzbelastender Austausch von großen Index-Dateien zwischen den einzelnen Standorten vermieden werden soll. Hierzu werden an den Spiegelstandorten jeweils eigenständig Harvest-Gatherer und -Broker installiert und betrieben. Hilfestellung hierzu gibt die im Rahmen des Projektes erstellte Dokumentation zur Harvest-Installation.

Zwar bietet die Harvest-Software mit der Replicator-Technik prinzipiell die technische Möglichkeit, redundante Spiegel des bestehenden zentralen PhysNet-Suchmaschinen-Systemes zu erstellen (automatische Spiegelung und Aktualisierung der verteilt erstellten regionalen Index-Dateien ohne zentralen Server), und ursprünglich war auch geplant diese Replica-Technik einzusetzen. Von dieser Lösung wurde aber abgesehen, da diese eine umfassende Überarbeitung bedarf, wenn nicht sogar einer kompletten Neuentwicklung. Probleme bereiten hier unter anderem der verwendete Algorithmus zur Berechnung der Topologie und die unnötig extensive Nutzung von Systemresourcen.

Um sicherzustellen, dass alle Standorte (fast) identische aktuelle Informationen vorhalten, sollen die verschiedenen regionalen Gatherer und Broker synchronisiert werden, d.h. sie sollen zu bestimmten Zeitpunkten ihre Informationen neu sammeln und bereitstellen. Zudem sollen die verschiedenen Gatherer regelmäßig untereinander austauschen, über welche Datenräume sie suchen (Austausch von Konfigurationsdateien), so dass bei einem Ausfall jeder beliebige Gatherer die Funktion eines anderen schnell übernehmen kann. Bei einem Ausfall eines Brokers (nicht des Webservers!) sollen zunächst Listen mit Verweisen zu den alternativen Brokern an den andern Standorten angeboten werden. Zu einem späteren Zeitpunkt sollen dann die Anfragen automatisch an den nächsten funktionierenden Broker weitergeleitet werden.

Für eine derartige Vernetzung der Suchmaschinen, d.h. deren Kommunikation untereinander, wird, wie oben erwähnt, ein standardisiertes Protokoll benötigt.

An solchen Protokollen zur Vernetzung von Suchmaschinen und (Datenbank-)Archiven arbeiten derzeit mehrere Gruppen: W3C, IETF und OAi erscheinen uns die für das Projekt SINN wichtigsten zu sein.

Die XML-Query Arbeitsgruppe des W3C beschäftigt sich mit der Entwicklung eines XML-Protokolls, welches die Verknüpfung realer und virtueller Dokumente über Domaingrenzen hinaus erlauben und diese anfragbar findbar machen soll. Dabei sind Suchmaschinen wie sie in PhysNet verwendet werden identisch mit der Definition von "virtual document collections" in XML-Query.

Im Rahmen von SINN nutzen wir die Mitgliedschaft des Deutschen Forschungsnetzes beim W3C, um die internen Diskussionen dieser Gruppe intensiv zu verfolgen und um hier aktiv mitzuwirken. Momentan ist in dieser Gruppe eine Tendenz weg von Dokumenten-spezifischen, hin zu Datenbank-spezifischen Problemen zu beobachten.

Beim IETF scheint insbesondere die DASL (webdav) Gruppe für SINN von Interesse zu sein. Diese Gruppe kümmert sich um die Weiterentwicklung von RDF 2518 mit dem Ziel, http um die Fähigkeiten geordneter (nicht kommutativer) Sammlungen und dem referentiellen "Containment" zu erweitern. Die Diskussion innerhalb dieser Gruppe schreitet derzeit jedoch sehr langsam voran.

Die Open Archives Initiative (OAi) will Metadaten über Dokumente zwischen Archivservern mittels eines XML-Protokolls austauschen. Wir sind hier insbesondere über das Projekt "Open Archives: Distributed services for physicists and graduate students (OAD)" (DFG/NFS) direkt in die Entwicklung eingebunden. OAi will im Gegensatz zu W3C jedoch ein Protokoll entwickeln, dass lediglich den Austausch von Suchmaschinen Index-Dateien ermöglicht, während W3C XML-Query weit hierüber hinaus gehen wird, und insbesondere auch das Weiterreichen von Suchanfragen und das Zurückgeben der Antworten zwischen Suchmaschinen definiert.

Insgesamt hat sich gezeigt, dass es derzeit noch keinen verlässlichen, d.h. stabilen Standard bei XML-Query oder aber auch bei der Open Archives Initiative gibt, hier ist also noch einiges an Entwicklungsarbeit zu leisten.

Ausblick und Schlussbemerkungen

Neben den Tätigkeiten zur Entwicklung eines XML-basierten Austauschprotokolls und einer Sprache zum Anfragenaustausch, beschäftigen wir uns im Projekt auch intensiv mit der Optimierung der Harvest-Suchmaschinen. Hierzu gehören zum Beispiel die Implementierung eines Rankings bei der Ausgabe der Suchergebnisse wie auch Möglichkeiten der Personalisierung. Die Installation, Konfiguration und Optimierung von Harvest wird auch Thema des nächsten internationalen technischen Workshops sein, der Anfang November in Oldenburg stattfinden wird. Ergänzt wird dieser Workshop durch eine eintägige Konferenz zum Thema "Open Distributed Science Information Management". Weitere Informationen sind auf dem Projektserver unter www.isn-oldenburg.de/projects/SINN/sinn02 zu finden.

Während der Informations-Dienst PhysNet als solches vorerst auf unbeschränkte Zeit durch die European Physical Society (EPS) und verschiedene nationale Fachgesellschaften unterstützt wird, endet das Projekt SINN Anfang 2003.

Am Ende des Projektes soll PhysNet zu einem Informationssystem für die Physik geworden sein, das die gebündelte Information möglichst vieler fachspezifischer Server vorhält, über verteilte Suchmaschinen zugänglich macht und eine einheitliche Nutzeroberfläche zu möglichst vielen fachspezifischen Datenquellen bietet.

Die Nutzer dieses Systems merken sich im Idealfall eine URL (physics-network.org) und werden automatisch auf den am nächsten gelegenen und funktionierenden PhysNet-Spiegel geleitet.

Das hier entwickelte System soll später auch auf Informationssysteme anderer Fachrichtungen übertragbar sein und durch entsprechende Kopplung das Retrieval über die Informationsangebote verschiedener Disziplinen ermöglichen.

Aufgebaut kann hier auch auf die Ergebnisse anderer Projekte, wie dem gerade zuende gegangenen Projekt "CARMEN: Content, Analysis, Retrieval and Metadata: Effective Networking" und dem Projekt "Open Archives: Distributed services for physicists and graduate students (OAD)". In CARMEN wurden zum Beispiel die beiden Dokumentendienste PhysDoc <physics-network.org/PhysNet/physdoc.html> und MPRESS <MathNet.preprints.org/> mittels Cross-Konkordanzen bei den Klassifikations-Schemata und durch eine gemeinsamen Suchmöglichkeit, welche schon Rankingalgorithmen enthält, gekoppelt. Im Projekt OAD wurde PhysDoc zudem OAi-konform gestaltet, d.h. sowohl als OAi-Data-Provider, als auch als Service-Provider angemeldet.

Weiterführende Publikationen, Vorträge und Links

M. Hohlfeld:
Vernetzung von verteilten Informationssystemen
Vortrag auf der Konferenz '8th Annual Meeting of the IuK Initiative: Offene Systeme für die Kommunikation in Wissenschaft und Forschung',
Ulm, 10 - 13 Mar. 2002
<www.isn-oldenburg.de/talks/ulm_maerz02>

M. Hohlfeld, E. R. Hilf, T. Severiens, H. Stamerjohanns:
Verteilte Informationssysteme für die Wissenschaften (und ihre Vernetzung)
Vortrag und Paper für den Tagungsband der Konferenz
'Die Zukunft des wissenschaftlichen Publizierens',
Forschungszentrum Jülich, 28 - 30 Nov. 2001
<www.isn-oldenburg.de/talks/juelich_vortrag_nov01>

E. Hilf, M. Hohlfeld, T. Severiens, K. Zimmermann:
Distributed Information Services in Physics
veröffentlich in HEP Libraries Webzine, Issue 4, June 2001 [ISSN 1424-2729]
<library.cern.ch/HEPLW/4/papers/2/>

Eberhard R. Hilf, Hans-Joachim Wätjen:
Publishing and Refereeing in a Distributed World - the Views of a Physicist and a Librarian
Vortrag auf der Tagung
'LIBER Workshop on The Open Archives initiative (OAi) and Peer Review Journals in Europe',
22.-24. März 2001, CERN
<www.isn-oldenburg.de/talks/cern2001>

T. Severiens, M. Hohlfeld, K. Zimmermann, E. R. Hilf:
PhysDoc - A Distributed Network of Physics Institutions Documents - Collecting, Indexing, and Searching High Quality Documents by using Harvest
veröffentlich in D-Lib Magazine, Vol. 6 No. 12, December 2000
[ISSN: 1082-9873] [DOI: 10.1045/december2000-severiens]
<www.dlib.org.ar/dlib/december00/severiens/12severiens.html>

SINN: Suchmaschinennetzwerk im Internationalen Naturwissenschaftlichen Netz
<www.isn-oldenburg.de/projects/SINN/>

PhysNet, Physics Institutions and Documents Worldwide
<www.physics-network.org>

MareNet, Marine Research Institutions and Documents Worldwide
<www.marenet.de>

Math-Net, Internet Information Services for Mathematicians
<www.Math-Net.org>

Open Archives: Distributed services for physicists and graduate students (OAD)
<www.isn-oldenburg.de/projects/OAD>

CARMEN: Content, Analysis, Retrieval and Metadata: Effective Networking
<www.mathematik.uni-osnabrueck.de/projects/carmen/>

IuK-Initiative, Information und Kommunikation der wissenschaftlichen Fachgesellschaften in Deutschland
<www.iuk-initiative.org>

Open Archives initiative (OAi)
<www.openarchives.org>

Deutsche Initiative Netzwerkinformation (DINI)
<www.dini.de>

Harvest Web Indexing
<www.tardis.ed.ac.uk/harvest>

W3C XML Query Group
<www.w3.org/XML/Query>

Dublin Core Metadata Initiative
<dublincore.org>

IETF Group: WWW Distributed Authoring and Versioning (webdav)
<www.ietf.org/html.charters/webdav-charter.html>

Empfehlungen des Wissenschaftsrates zur digitalen Informationsversorgung durch Hochschulbibliotheken
<www.wissenschaftsrat.de/texte/4935-01.pdf>

Autoren-Informationen

Dipl.-Phys. Michael Hohlfeld
Email: hohlfeld_AT_isn-oldenburg.de

Dipl.-Phys. Thomas Severiens
Email: severiens_AT_isn-oldenburg.de

Institute for Science Networking Oldenburg GmbH
Ammerländer Heerstraße 121
26129 Oldenburg
www.isn-oldenburg.de

Phone: +49 (0)441 798 3362
Fax: +49 (0)441 798 5851


Urheberrechts-Hinweis

Auf dieses Dokument darf durch Links hingewiesen werden. Es darf beliebig kopiert, heruntergeladen, verbreitet werden, sofern das Dokument in allen seinen Teilen absolut integer (ungeändert) bleibt und auf das Original korrekt hingewiesen wird:

Online Version: http://isn-oldenburg.de/~hohlfeld/dgi-online2002.html