Phonetische Algorithmen zu komparativen Zwecken am Beispiel des phonetischen Komparators für Informationssysteme

Claus-Peter Rückemann
26. Aug. 2002


Kurzfassung:

Dieser Beitrag stellt stark vereinfacht die Grundzüge eines Verfahrens zur Erstellung eines phonetischen Kategorien-Lexikons und den Aufbau eines darauf basierenden, sogenannten phonetischen Komparators und möglicher Filter vor. Es werden die Ergebnisse des Einsatzes für Informationssysteme und der exemplarische Einsatz dieses für Suchmaschinen neuartigen Verwendungszwecks zur Generierung von Suchvorschlägen umrissen.


Inhalt

 

Ziel

Informationssysteme mit einer einfachen Benutzerschnittstelle stoßen meist an ihre Grenzen, wenn es darum geht, in einer großen Fülle von Informationen bestimmte Inhalte zu suchen.

Sowohl bei fachbezogenen, als auch bei allgemeinen Suchabfragen sind verschiedene Schreibweisen, Tippfehler oder beispielsweise auch die Unkenntnis der Schreibweise aktueller, neuer Begriffe, die der Suchende bisher vielleicht nur gehört hat, ein Problem.

Einfache, unkomplizierte Bedienbarkeit eines Informationssystems und unkoordinierte bzw. unmoderierte Informationsangebote, wie z.B. der Informationen im Internet stehen zueinander in den meisten Fällen im Gegensatz.

Es soll daher eine Möglichkeit gefunden werden, für Suchabfragen trotz der angesprochenen Probleme, die Zahl brauchbarer Suchergebnisse zu erhöhen.

Ein Ansatz dafür liegt in der Auswertung von phonetischen Ähnlichkeiten von Abfragebegriffen zu bekannten und bereitgestellten Begriffen.

Phonetisches Lexikon

Sammlung von Begriffen

Die Begriffe einer Suchabfrage können meist mit geringem Aufwand verarbeitet werden, da es sich praktisch immer um eine geringe Anzahl von Begriffen handelt.

Da Schreibweisen, Tippfehler und dergleichen toleriert werden sollen, aber die möglichen Differenzen nicht bekannt sind, kann versucht werden, den Klang der Abfragebegriffe zu erraten.

Dazu wird hier zunächst ein phonetischer Kode für die einzelnen Begriffe der Suchabfrage errechnet.

Um jedoch ähnliche Begriffe vorschlagen zu können bzw. bereitzustellen, müssen diese Begriffe z.B. in einer Datenbank oder im einfachsten Fall in einer Liste zur Verfügung stehen.

Es wird daher zunächst eine große Sammlung von Begriffen benötigt. Für praktische Fälle ist eine Sammlung unter etwa 10000 Begriffen pro Sprache nicht sehr ergiebig. Besser geeignet sind Sammlungen aus mehr als etwa 30000 handverlesenen Begriffen.

Phonetische Kodes

Um für die Abfragebegriffe ähnliche Begriffe zu ermitteln, müssen die phonetischen Kodes der Abfragebegriffe mit den phonetischen Kodes der Begriffe in der Sammlung verglichen werden.

Problematisch wird dies bei größeren Datenmengen, wenn die Aufbereitung interaktiv erfolgt, d.h. wenn z.B. erst bei der Abfrage die Kodes der Begriffe in der Sammlung berechnet werden.

Die phonetischen Kodes in der Sammlung sollten daher vorher berechnet worden sein, zumal sie sich ohne Veränderung des Verfahrens nicht wieder ändern.

Eine Sammlung dieser Art wird hier als phonetisches Lexikon bezeichnet. Zur Veranschaulichung kann ein Auszug folgendermaßen dargestellt werden:

H616:hervorgegangen
H616:hervorgehen
H616:hervorgehoben
H616:hervorgeht
H616:hervorgerufen
H616:hervorgerufene
H616:hervorgerufenen
H616:hervorheben
H616:hervorhebender
H616:hervorlugen
H616:hervorlugten
H616:hervorragen
H616:hervorragend
H616:hervorragendem
H616:hervorschaut
H616:hervorzuheben
H616:hierfür
H616:hierüber
H616:höherfrequente
H616:hörbar
H616:hörbaren
H620:Harsch
H620:Harz
H620:Heraus
H620:Hersee
H620:Herz

Als phonetische Kodes wurden in diesem Beispiel Soundex-Kodes verwendet. Diese Kodes wurden früher insbesondere für Namen verwendet, sind aber wegen ihrer unkomplizierten Berechnung als Beispiel hier gut geeignet.

Phonetisches Kategorien-Lexikon

Kategoriekodes

Um mehr inhaltlich vergleichbare Begriffe vorschlagen zu können, die phonetisch ähnlich zu einem Begriff der Suchabfrage sind, muß die Sammlung erweitert werden.

Dies bringt jedoch das Problem mit sich, daß zwar mehr inhaltlich verwandte Begriffe im Resultat enthalten sind, aber die Gesamtzahl sich auch entsprechend vergrößert.

Um dem entgegenzuwirken, kann die Bildung von Kategorien für die Einträge im Kategorien-Lexikon sinnvoll sein. Zu diesem Zweck können sogenannte Kategoriekodes verwendet werden.

Beispiele:

#NN%VORN%J%PR:C420:claus
#NN%VORN%J%PR:C421:claus-peter
#NN%VORN%J%PR:C423:claus-dieter
#NN%VORN%J%PR:K421:klaus-peter
#NN%VORN%J%PR:K423:klaus-dieter
#NN%ALLG%J%NN:G122:Geophysik
#NN%ALLG%J%NN:G420:Geologie
#NN%ALLG%J%NN:I521:Ionosphäre
#NN%ALLG%J%NN:I521:Ionosphärenphysik
#NN%ALLG%J%NN:A236:Astrophysik
#NN%ALLG%J%NN:A62ä:Archäologie
#NN%ALLG%J%PR:L520:Linux
#NN%ALLG%J%PR:R250:RRZN
#NN%ALLG%J%PR:R252:Rechenzentrum
#NN%NAME%J%PR:R255:Rickemann
#NN%NAME%J%PR:R255:Rickenmann
#NN%NAME%J%PR:R255:Rieckemann
#NN%NAME%J%PR:R255:Rikemann
#NN%NAME%J%PR:R255:Rikenmann
#NN%NAME%J%PR:R255:Rueckemann
#NN%NAME%J%PR:R255:Röckemann
#NN%NAME%J%PR:R255:Rückemann
#NN%NAME%J%PR:R255:Rückmann

Das phonetische Lexikon um Kategoriekodes zu erweitern, kann sehr aufwendig sein. Bei der Bildung der Kategorien muß zudem auf die Bereiche Rücksicht genommen werden, die für den betreffenden Verwendungszweck notwendig erscheinen und die für die Mehrzahl von Abfragen eine überschaubare Anzahl von Resultaten liefern.

Strukturierung der Kategoriekodes

Die gezeigten Beispiele sind um strukturierte Kategoriekodes erweitert. Die in dem kleinen Auszug vorkommenden Kategoriekodes bedeuten:

Stelle Teilkode Beschreibung/Kategorie
1 NN Nomen Nominandum (noch zu vergebendes übergeordnetes Ordnungskriterium)
2 VORN Vorname
2 ALLG allgemeiner Begriff, vermischte Begriffe ohne eigene Kategorie
2 NAME Name (kein Vorname)

Weitere Teilkodes können eingefügt werden, so hier z.B. and Stelle 3 J oder N für ,,Ja, aktuell verwenden`` bzw. ,,Nein, aktuell nicht verwenden``, oder an Stelle 4 z.B. PR für private Einträge.

Die derart strukturierte Sammlung von Begriffen wird hier als phonetisches Kategorien-Lexikon [1] bezeichnet.

Filterflanken

Phonetische Identität

Die Ergebnisse, die aus einem phonetischen Lexikon ebenso wie aus einem phonetischen Kategorien-Lexikon gewonnen werden, enthalten Begriffe unterschiedlicher Länge zu ein und demselben Abfragebegriff.

Dies liegt daran, daß nach dem jeweils verwendeten Algorithmus bestimmte Teile eines Begriffs phonetisch identisch sein können, unabhängig von der jeweiligen Länge.

So werden z.B. die Begriffe Hallo und Haaallooooooo ohne weitere Randbedingungen bei den meisten phonetischen Verfahren als phonetisch identisch oder fast identisch berechnet.

Diese phonetische Ähnlichkeit ist unabhängig von der realen Grammatik oder beispielsweise der Silbentrennung.

Filter

Um aus den betreffenden Kategorien nur Vorschläge auszuwählen, die sich nicht extrem in ihrer Länge unterscheiden, können z.B. spezielle Filter verwendet werden.

Beispielhaft seien hier folgende Filter genannt:

Phonetischer Komparator

Mittels des phonetischen Kategorien-Lexikons, eines Mechanismus zum phonetischen Vergleich mittels phonetischer Algorithmen und einiger Filter lassen sich einfache Werkzeuge zur Ermittlung phonetischer Alternativen zu Abfragebegriffen konstruieren. Diese Werkzeuge werden hier allgemein als phonetische Komparatoren bezeichnet.

Derartige Komparatoren können für verschiedene Zwecke eingesetzt werden, beispielsweise:

Phonetische Suchvorschläge

Zur Erprobung, ob sich Suchvorschläge für Suchmaschinen auch in der Praxis phonetisch ermitteln lassen, wurde ein entsprechend angepaßter phonetischer Komparator entwickelt.

Dieser phonetische Komparator wurde für Testzwecke in die Suchmaschine MetaGer (http://www.metager.de) eingebaut.

Um nicht unnötig Vorschläge für weitere Suchabfragen zu geben, solange ausreichend Ergebnisse geliefert werden, schien es sinnvoll die phonetisch ermittelten Vorschläge erst zu machen, wenn eine bestimmte Anzahl an Ergebnissen unterschritten wurde.

Der Komparator wurde für diesen Einsatz auf die jeweils ersten 5 Abfragebegriffe begrenzt.

Die Filter wurden auf die beschriebenen Verfahren begrenzt, um die Anforderungen an die zusätzliche Rechenleistung der Systeme bei hunderten paralleler Abfragen nicht zu hoch werden zu lassen.

Zusammenfassung der Ergebnisse

Der entwickelte phonetische Komparator funktioniert auch im Einsatz mit den Abfragebegriffen für eine Suchmaschine im Rahmen des erstellten Kategorien-Lexikons effektiv und effizient.

Das Kategorien-Lexikon hat bei dem aktuellen Einsatz einen Umfang von über 90000 zum Teil handverlesenen Begriffen mit einigen exemplarisch umfangreicheren Kategorien.

Für verschiedene Sprachen oder Themenbereiche können verschiedenen phonetische Algorithmen entwickelt werden. Für die Untersuchungen wurden bevorzugt deutschsprachige Begriffe und international verwendete Begriffe und Abkürzungen verwendet.

Es ist hilfreich, wenn sowohl bei der Erstellung des Kategorien-Lexikons, als auch bei der Entwicklung der verschiedenen phonetischen Algorithmen, Fachwissen aus den verschiedenen Fachbereichen zur Verfügung steht.

In vielen Fällen werden treffende Vorschläge geliefert, wenn bei umfangreichen Kategorien der Abfragebegriff in einer Kategorie identisch vorkommt. Es können dann Vorschläge aus einer konkreten Kategorie angeboten werden, die zudem weiteren Kriterien entsprechen, z.B. eine phonetische Ähnlichkeit haben, also beispielsweise andere Schreibweisen von Namen.

Getestet wurden einfache phonetische Vergleiche, phonetische Lexika, phonetische Kategorien-Lexika und phonetische Kategorien-Lexika mit verschiedenen Filtern.

Letzteres Verfahren liefert bei einem handgepflegten Kategorien-Lexikon die besten Ergebnisse.

Einige Aspekte des Verfahrens, die den Einsatz für Suchmaschinen einschränken, sind:

Es kann keine Grammatik verwendet werden, da die Abfragebegriffe in der Regel nicht grammatikalisch verknüpft sind.

Die zusätzliche Verwendung einer Häufigkeitsverteilung von Begriffen wäre aufwendig, da sie kontinuierlich eingebracht werden müßte. Eine verläßliche Ermittlung scheint nur schwer automatisierbar.

Eine Erweiterung des Kategorien-Lexikons ist praktisch nur von Hand vorstellbar.

Kombinationen mit anderen Verfahren können sehr komplex sein. Schon die Klärung der Frage, welche Auswirkungen die Reihenfolge und Gewichtung der Anwendung verschiedener, auch nicht phonetischer Verfahren hat, erfordert weitere Untersuchungen.

Literatur

1
Rückemann, C.-P.: Kategorien-Lexika zur Nutzung mit Informationssystemen. [Internet], 2002. URL: http://www.unics.uni-hannover.de/cpr/x/publ/2002/katlex (Text).


© 2002 Dr. Claus-Peter Rückemann, RRZN Hannover / E-Mail [--] / Tel. [--]
vi betrieben.
Letzte Änderung: Mo, 26. Aug. 2002, 18:12:04 MEZ