Komfortable Abfragemodi fuer Massenspeicher Unschaerfe als Ansatzpunkt fuer ein intelligentes Info-Retrieval Von Detlev Siech*

26.08.1994

Komfortable Abfragemodi, wer wuenscht sie sich nicht. Insbesondere grosse Datenbestaende und nicht bekannte Datenstrukturen, wie sie in oeffentlich zugaenglichen Verzeichnissen online zu finden sind, lassen den Anwender oft verzweifeln. Der Markt fuer elektronische Medien auf Massenspeichern wie CD-ROM waechst, die Suchverfahren sind die alten.

Wer Telefonteilnehmer sucht, wer ein Buch oder eine CD aus einem umfangreichen Katalogangebot auswaehlen und kaufen will, wer in Datenbanken recherchiert, Kunden- oder Lieferantennamen schnell finden moechte, stoesst an die Grenzen zweiwertiger Logik. Aufgrund vager oder unvollstaendiger Angaben scheitern konventionelle Suchanfragen.

Das menschliche Geschirr versteht jedoch lueckenhafte oder falsch geschriebene Informationen (vgl. Kasten). Es assoziiert die richtige Schreibweise. Die gaengige Computersoftware, die Suchanfragen auch auf CD-ROM-Datenbestaenden durchfuehrt, vermag das nicht.

Erst mit der Fuzzy-Datenanalyse ist die menschliche Faehigkeit zur assoziativen Interpretation auf den Computer uebertragbar. Bisherige Verfahren des Trunkierens, der "naechst groesseren Anzeige", der Phonetik oder ausgekluegelter Matchcode-Methoden einschliesslich des ueblichen "Wildcard-Verfahrens" koennen nur Hilfsloesungen mit beschraenkter Produktivitaet darstellen. So scheitert die phonetische Methode an Zeichendrehern und reagiert aeusserst verwirrt auf Fremdsprachen (eye = Ei ?).

Der Weg, denkbare Falschschreibweisen zu lernen (erfassen und pflegen), eignet sich nur in Ausnahmefaellen wie alternative Orts- und Strassenschreibweisen bei der Postleitzahlzuordnung. Deskriptorensuche mit Boolescher Logik funktioniert nur beschraenkt. Kann man in geschlossenen Benutzergruppen dem Anwender noch unkomfortables Suchen zumuten, so wird bei Massenspeichern wie etwa der CD-ROM die Loesung mit der ueberzeugendsten Mensch- Maschine-Schnittstelle Kunden gewinnen. Das Problem der Unschaerfe bildet den Hauptansatzpunkt fuer intelligentes Information- Retrieval.

Schreibvarianten in Wissensdatenbanken

Sinnvolle Programme fuer eine komfortable Suche sind branchenuebergreifend und vielfaeltig. Eine Fuzzy-Datenanalyse besticht bei der Recherche in Wissensdatenbanken, besonders wenn sich beispielsweise medizinische Schreibweisen unterscheiden (C, K und Z/ Kalzium/Calzium). Die Firmennamen- und Warenzeichenrecherche ist auf CD-ROM sehr sinnvoll. Wie finden sich Aehnlichkeiten zu bestehenden Firmennamen? Wie lassen sich Rechtsansprueche aufgrund schon eingetragener Warenzeichen fruehzeitig erkennen und vermeiden? Das ist nur eine kleine Auswahl der Moeglichkeiten. Ein weiteres Einsatzfeld fuer eine komfortable Datenanalyse ist das Adress-Management. Der Kunde moechte ueber seine CD-ROM eine Postleitzahl ermitteln, kann aber weder Orts- noch Strassenschreibweise korrekt eingeben. Auswahllisten helfen da nicht weiter, wenn die ersten Buchstaben falsch sind. Fuer den Postdienst ist es bei der Briefbefoerderung zum Beispiel erforderlich, auch bei unvollstaendigen Adresseneingaben mit hoher Zuverlaessigkeit und geringstem manuellem Nachbearbeitungsaufwand die korrekte Anschrift zu ermitteln. Fuer einen Adressendienstleister ist es geschaeftsnotwendig, Dubletten aus verschiedenen Adressbestaenden herauszufiltern, moeglicherweise auch Familiendubletten. Die Herausforderung sind jedoch Business- und Auslandsadressen, die sich kaum formatieren lassen und damit einer phonetischen Aehnlichkeitsanalyse entziehen.

Die Fuzzy-Datenanalyse eignet sich darueber hinaus fuer die medizinische Diagnostik. Krankheiten sind haeufig durch Mehrfachsymptome gekennzeichnet. Die Suche mit Hilfe der Booleschen Logik fuehrt haeufig zu mangelhaften Ergebnissen, da sich nicht alle Abhaengigkeiten vorher beschreiben lassen. Aus Mehrfachsymptomketten, selbst bei falscher Schreibweise in beliebiger Reihenfolge, wird die zutreffende Diagnose (Husten, Schnupfen, Heiserkeit = Grippe) gefunden.

Fuer Fremdsprachenuebersetzer ist die Fuzzy-Suche als maschinelle Stuetze hilfreich, weil sie Aehnlichkeitsvergleiche ganzer Zeichenketten ohne Beruecksichtigung der Semantik in neuer Qualitaet anstellt. Nutzt man das Verfahren bei Romanen, lassen sich damit Verletzungen von Urheberrechten nachweisen.

In der Theorie ist die Assoziativ-Speichertechnik als Basistechnologie seit ueber zwanzig Jahren beschrieben, allerdings mit meist enttaeuschenden Ergebnissen. Erst die Fuzzy-Logic zeitigt Erfolge in der Regelungstechnik, die Fuzzy-Datenanalyse eignet sich fuer die beschriebenen Einsatzgebiete auch in kommerziellen Softwaresystemen.

Funktion und technische Loesung

Kommerzielle Anwendungen sind in ihren Auspraegungen vielfaeltig, so dass die Integration einer derartigen Datenanalyse ingenieurmaessig zu treibenden Aufwand erfordert. Die individuelle Architektur jeder Anwendung ist abhaengig von den Referenzdaten und den Abfrageprofilen. Der unscharfe Suchbegriff muss zu einer scharfen Zielgroesse hingefuehrt werden. Individuelle Regelbasen regeln Randbedingungen, wenn zum Beispiel unterschiedlich geschriebene Geburtsdaten/Telefonnummern als aehnliche auftauchen. Anforderungen an eine Online-Abfrage von 31 Millionen Anschriften erfordern eine Normalisierung, Segmentierung, Regionalisierung und auch Parallelisierung der Referenzbestaende, gleichgueltig ob auf CD-ROM oder auf dem Grossrechner. In bestehende Anwendungen laesst sich der fuer ein vages Suchverfahren benoetigte zusaetzliche Index leicht ueber dessen API einbinden.

Gute Aussichten fuer die CD-ROM-Anbieter

Die Bedeutung der Ressource Information fuer die Zukunft wurde schon oft beschworen. Im Markt der Nachschlagewerke wird der CD- ROM ein grosser Erfolg prognostiziert, Verlage wollen ihren derzeitigen Umsatzanteil an elektronischen Medien (auf 20 Prozent) verdoppeln. Die Bewaeltigung der erwarteten Informationsflut steht im Vordergrund der Diskussion. Nur kanalisierte Informationen durch intelligente Suchanfragen erlauben es dem Anwender, sich leichter zurechtzufinden. Die geplanten Datenautobahnen eroeffnen neue Perspektiven, aber wird die Software "Pritti Wummen" finden? Es ist Zeit fuer ein Fazit. Die Fuzzy-Datenanalyse senkt die Recherchekosten, macht Ergebnisse schneller, oft ueberhaupt erst verfuegbar und koennte die Anwender zufriedenstellen: "Auf der CD- ROM habe ich es gefunden, im Buch haette ich lange suchen koennen", lautet ein typischer Kommentar nach erfolgreicher Suche.

Fun-Frage (Fangfrage)

Frage nd Dn Komptr wrd vlcht fndn (Frage und Dein Computer wird vielleicht finden)

W fnd ch ws af mnr CD-RM (Wie finde ich was auf meiner CD-ROM)

Fuzzynierende Recherche-Technologie (faszinierende Recherche- Technologie)

*Detlev Siech ist Geschaeftsfuehrer der Fuzzy-Informatik GmbH in Ludwigsburg.