Magazin der Universität Zürich Nr. 3/95

Informationssuche im Umbruch

Manuelles Blättern im Zettelkasten hat vielfach ausgedient. Konventionelle Dokumentationsmethoden werden mehr und mehr durch moderne Methoden des Information Retrieval (IR) ersetzt. Doch auch im Umgang mit Datenbanken sind die Benutzer kritischer geworden. Sie fragen immer öfter, wieviel der gewünschten Information nicht gefunden wurde, obwohl sie im Informationssystem gespeichert ist.

Information wird in unserer Gesellschaft immer wichtiger. Die von einem geeigneten Informationssystem bereitgestellte Information kann dazu beitragen, Kosten grösseren Umfangs einzusparen. So ist ein Informationssystem oft mitentscheidend, ob beispielsweise ein defektes Verkehrsflugzeug in kurzer Zeit repariert werden kann oder ob es längere Zeit ungenutzt am Boden bleiben muss. Der rasche Zugriff auf Information für Mediziner oder für Einsatzleiter bei der Polizei kann lebensrettend sein. Bei solchen Anwendungen, wo die Aktualität der Information eine sehr grosse Rolle spielt, werden konventionelle Dokumentationsmethoden zunehmend durch moderne Methoden des Information Retrieval (IR) ersetzt. Diese IR-Methoden operieren direkt auf leistungsfähigen Datenbanksystemen, mit denen die Daten auf dem neuesten Stand gehalten werden. Bei modernen IR-Methoden werden die Dokumente automatisch indexiert, so dass auch die allerneuesten Dokumente sofort auffindbar sind.

Werden in Zukunft die konventionellen Dokumentationsmethoden vollständig durch die weitgehend automatisierten IR-Methoden abgelöst? Entscheidend wird sein, ob sich die Bibliotheken den digitalen Informationssystemen, die aus der Informatikwelt stammen, annähern oder ob sie getrennte Wege gehen werden. Wegen der wirtschaftlichen Relevanz ist die Entwicklung der digitalen Informationssysteme kaum mehr zu bremsen.

Neue Randbedingungen dank leichtgewichtiger Information

Auf dem Gebiet der Informationssuche findet momentan ein signifikanter Umbruch statt. Die wesentlich höhere Mobilität von digitaler Information führt zu völlig anderen Randbedingungen. Vergleichen wir zur Verdeutlichung nur die Zugriffsmöglichkeiten bei konventionellen Bibliotheken und digitalen Informationssystemen miteinander. (Bei den nun folgenden quantitativen Angaben spielt es keine Rolle, ob eine dieser Zahlen fünfmal grösser oder kleiner ist, da uns nur interessiert, um wieviele Grössenordnungen sie sich unterscheiden.)

Eine erste Grösse betrifft die Zugriffszeit, die das System selbst benötigt, um auf ein Dokument zuzugreifen. In einer konventionellen Bibliothek (ohne öffentlichen Zutritt zu den Gestellen) können wir uns vorstellen, dass ein Bibliotheksangestellter ein Buch innerhalb von zwei Minuten vom Büchergestell zum Ausleihschalter bringt. Bei einem digitalen Informationssystem wird ein Dokument typischerweise in 20 Millisekunden von der Festplatte in den Hauptspeicher transferiert.

Eine zweite Grösse betrifft das Einzugsgebiet. Eine grosse konventionelle Bibliothek wird hauptsächlich von Leuten aus der entsprechenden Stadt und Agglomeration benützt, was einer Fläche von 50 km&1272 entsprechen könnte. Im Falle eines digitalen Informationssystems, das am Internet angeschlossen ist, wird die ganze Welt abgedeckt (510 Millionen km2).

In einer grossen konventionellen Bibliothek könnte die Anzahl Personen, die direkten Zugang zu den Büchergestellen haben, auf zehn Bibliotheksangestellte beschränkt sein, wiederum unter der Annahme, dass die Benützer keinen direkten Zugang haben. Im Gegensatz zu Bibliotheksbenutzern haben aber Internetbenutzer direkten Zugang zu den gespeicherten Dokumenten. Momentan gibt es rund 30 Millionen Internetbenutzer (Tendenz steigend).

Die Zustellzeit, also die Zeit, um ein Dokument quer durch das Einzugsgebiet zu schicken, ist eine weitere wichtige Grösse bei Informationssystemen. Bibliotheksbenutzer, die bestellte Bücher per Post erhalten, müssen sich etwa zwei Tage gedulden. Internetbenutzer, welche via WWW ein Dokument anschauen wollen, das auf irgendeinem WWW-Server verfügbar ist, müssen sich auch gedulden, aber nur etwa 30 Sekunden.

Die Indexierungszeit, die Zeit für die Inhaltserschliessung, bestimmt die Verzögerungszeit, mit der ein neues Dokument nach inhaltlichen Kriterien auffindbar wird. In konventionellen Bibliotheken werden die Dokumente durch Spezialisten intellektuell erschlossen. Zeitliche Angaben hierfür sind schwierig zu erhalten. Moderne IR-Systeme basieren vorwiegend auf einer automatischen Inhaltserschliessung, was etwa eine Sekunde erfordert.

Die Randbedingungen bei konventionellen Bibliotheken unterscheiden sich um mehrere Grössenordnungen von den Randbedingungen bei digitalen Informationssyst.emen. Wichtig ist, dass diese veränderten Randbedingungen auch für Metainformation, also für Information über Information, gelten. Dies öffnet die Tür für bessere Informationssuchmethoden, wie wir im nächsten Abschnitt sehen werden.

Ein Wettbewerb für Informationssuch-Systeme...

Wie gut sind IR-Methoden heute? Oft hat man nur unklare Vorstellungen darüber, wieviel der relevanten (und somit gewünschten) Information gefunden wurde, und wieviel der gefundenen Information irrelevant ist. Deshalb ist es wichtig, die Effektivität der verwendeten Retrieval-Methode mit wissenschaftlich anerkannten Methoden zu bestimmen. So wurden umfangreiche Experimente im medizinischen Bereich (Hersh, 1994) und im Rechtsbereich (Turtle, 1994) durchgeführt. Beide Untersuchungen haben für die zurzeit noch weit verbreiteten booleschen Volltext-Retrieval-Systeme enttäuschende Resultate ergeben, die weit unter dem liegen, was man allgemein annahm.

Das bis anhin grösste Experiment, um die Effektivität verschiedener Retrieval-Methoden zu vergleichen, wird vom amerikanischen NIST (National Institute of Standards and Technology) koordiniert. Dieses Experiment wird in Form eines internationalen Wettbewerbs durchgeführt. Dabei stellt die jährliche "Text REtrieval Conference" (kurz TREC) den Höhepunkt dar: Hier müssen die teilnehmenden Gruppen ihre erzielten Resultate präsentieren, ganz gleich wie gut oder wie schlecht diese ausgefallen sind.

Der Aufwand ist enorm: Der TREC-Wettbewerb findet in einem jährlichen Rhythmus statt. Zu Anfang des Jahres werden sehr grosse Dokumentenkollektionen auf CD-ROM verteilt (mehr als 1 Million Dokumente, wobei die grössten Dokumente Buchumfang haben). Mitte des Jahres werden Testanfragen verteilt, zu denen relevante Dokumente gefunden werden müssen. Die gefundenen Dokumente müssen kurz darauf ans NIST geschickt werden, wo sie von Hand bezüglich ihrer Relevanz bewertet werden. Allein der Aufwand hierfür beträgt beachtliche 24 Personenmonate.

An der letzten TREC-Konferenz, welche Anfang November 1994 in Gaithersburg bei Washington DC stattfand, nahmen 33 Gruppen aus sieben Ländern teil. Die besten Systeme, darunter das an der ETH Zürich entwickelte Retrieval-System Spider, basieren ausschliesslich auf dem probabilistischen Anordnung. Reine boolsche Volltext-Retrieval-Systeme werden dagegen schon gar nicht mehr in die Bewertung einbezogen.

Es zeichnet sich bereits jetzt ab, dass die besten Retrieval-Systeme bezüglich ihrer Fähigkeit, relevante und nur relevante Information zu finden, einen deutlichen Quantensprung nach vorne gemacht haben. Wir haben es mit einer neueren Generation von IR-Methoden zu tun, die signifikant besser sind als die in den IR-Lehrbüchern beschriebenen Methoden.

. . . und mögliche Folgen

Für die Bibliotheken bedeutet dies, dass das manuelle Indexieren - die sogenannte intellektuelle Inhaltserschliessung - neu überdacht werden muss. Bei TREC wird mit automatischer Indexierung durchwegs eine bessere Retrieval-Effektivität erzielt als mit intellektueller. Der Begriff "automatische Indexierung" soll aber nicht zur Annahme verleiten, es werde keine intellektuelle Arbeit geleistet. Diese wird bei TREC in die Testdaten gesteckt, und zwar indem beim NIST ehemalige professionelle Recherchierer spezifizieren, welche Dokumente zu welchen Anfragen relevant sind. Diese Testdaten eines TREC-Experiments werden verwendet, um die Parameter der Retrieval-Modelle für das nächste Experiment zu schätzen. Das umfangreiche Testmaterial erlaubt sehr gute Parameterschätzungen.

Es ist zu erwarten, dass die Aktivitäten im Bereich digitaler Bibliotheken nicht spurlos an unseren Bibliotheken vorbeigehen werden. Umgekehrt ist zu hoffen, dass die in Bibliotheken gepflegten Merkmale wie Qualität und Korrektheit auch Einfluss auf die digitalen Informationssysteme haben. Wie und in welchem Rahmen dies stattfinden wird, ist unklar. Eine Möglichkeit wäre das beantragte EU-Projekt DELOS (ERCIM-Digital Library, 4. Rahmenprogramm), an dem die ETH Zürich ebenfalls beteiligt ist.

von Peter Schäuble

Dr. Peter Schäuble ist Professor am Institut für Informationssysteme der ETH Zürich.


Literatur

Hersh, W. (1994). OSHUMED: An Interactive Retrieval Evaluation and Large Test Collection for Research. In ACM SIGIR Conference on R&D in Information Retrieval, pp. 192-201.

Mittendorf, E., Schäuble, P., & Sheridan, P. (1995). Applying Probabilistic Term Weighting to OCR Text in the Case of a Large Alphabetic Library Catalogue. In ACM SIGIR Conference on R&D in Information Retrieval, pp. 328-335.

Turtle, H. (1994). Natural Language vs. Boolean Query Evaluation: A Comparison of Retrieval Performance. In ACM SIGIR Conference on R&D in Information Retrieval, pp. 212-220.


unipressedienst unizürich-Magazin
unipressedienst ­ Pressestelle der Universität Zürich
Felix Mäder (fmaeder@zuv.unizh.ch)
Last update: 9-NOV-95