Claus-Peter Rückemann
26. Aug. 2002
Dieser Beitrag stellt stark vereinfacht die Grundzüge eines Verfahrens zur Erstellung eines phonetischen Kategorien-Lexikons und den Aufbau eines darauf basierenden, sogenannten phonetischen Komparators und möglicher Filter vor. Es werden die Ergebnisse des Einsatzes für Informationssysteme und der exemplarische Einsatz dieses für Suchmaschinen neuartigen Verwendungszwecks zur Generierung von Suchvorschlägen umrissen.
Informationssysteme mit einer einfachen Benutzerschnittstelle stoßen meist an ihre Grenzen, wenn es darum geht, in einer großen Fülle von Informationen bestimmte Inhalte zu suchen.
Sowohl bei fachbezogenen, als auch bei allgemeinen Suchabfragen sind verschiedene Schreibweisen, Tippfehler oder beispielsweise auch die Unkenntnis der Schreibweise aktueller, neuer Begriffe, die der Suchende bisher vielleicht nur gehört hat, ein Problem.
Einfache, unkomplizierte Bedienbarkeit eines Informationssystems und unkoordinierte bzw. unmoderierte Informationsangebote, wie z.B. der Informationen im Internet stehen zueinander in den meisten Fällen im Gegensatz.
Es soll daher eine Möglichkeit gefunden werden, für Suchabfragen trotz der angesprochenen Probleme, die Zahl brauchbarer Suchergebnisse zu erhöhen.
Ein Ansatz dafür liegt in der Auswertung von phonetischen Ähnlichkeiten von Abfragebegriffen zu bekannten und bereitgestellten Begriffen.
Die Begriffe einer Suchabfrage können meist mit geringem Aufwand verarbeitet werden, da es sich praktisch immer um eine geringe Anzahl von Begriffen handelt.
Da Schreibweisen, Tippfehler und dergleichen toleriert werden sollen, aber die möglichen Differenzen nicht bekannt sind, kann versucht werden, den Klang der Abfragebegriffe zu erraten.
Dazu wird hier zunächst ein phonetischer Kode für die einzelnen Begriffe der Suchabfrage errechnet.
Um jedoch ähnliche Begriffe vorschlagen zu können bzw. bereitzustellen, müssen diese Begriffe z.B. in einer Datenbank oder im einfachsten Fall in einer Liste zur Verfügung stehen.
Es wird daher zunächst eine große Sammlung von Begriffen benötigt. Für praktische Fälle ist eine Sammlung unter etwa 10000 Begriffen pro Sprache nicht sehr ergiebig. Besser geeignet sind Sammlungen aus mehr als etwa 30000 handverlesenen Begriffen.
Um für die Abfragebegriffe ähnliche Begriffe zu ermitteln, müssen die phonetischen Kodes der Abfragebegriffe mit den phonetischen Kodes der Begriffe in der Sammlung verglichen werden.
Problematisch wird dies bei größeren Datenmengen, wenn die Aufbereitung interaktiv erfolgt, d.h. wenn z.B. erst bei der Abfrage die Kodes der Begriffe in der Sammlung berechnet werden.
Die phonetischen Kodes in der Sammlung sollten daher vorher berechnet worden sein, zumal sie sich ohne Veränderung des Verfahrens nicht wieder ändern.
Eine Sammlung dieser Art wird hier als phonetisches Lexikon bezeichnet. Zur Veranschaulichung kann ein Auszug folgendermaßen dargestellt werden:
H616:hervorgegangen H616:hervorgehen H616:hervorgehoben H616:hervorgeht H616:hervorgerufen H616:hervorgerufene H616:hervorgerufenen H616:hervorheben H616:hervorhebender H616:hervorlugen H616:hervorlugten H616:hervorragen H616:hervorragend H616:hervorragendem H616:hervorschaut H616:hervorzuheben H616:hierfür H616:hierüber H616:höherfrequente H616:hörbar H616:hörbaren H620:Harsch H620:Harz H620:Heraus H620:Hersee H620:Herz
Als phonetische Kodes wurden in diesem Beispiel Soundex-Kodes verwendet. Diese Kodes wurden früher insbesondere für Namen verwendet, sind aber wegen ihrer unkomplizierten Berechnung als Beispiel hier gut geeignet.
Um mehr inhaltlich vergleichbare Begriffe vorschlagen zu können, die phonetisch ähnlich zu einem Begriff der Suchabfrage sind, muß die Sammlung erweitert werden.
Dies bringt jedoch das Problem mit sich, daß zwar mehr inhaltlich verwandte Begriffe im Resultat enthalten sind, aber die Gesamtzahl sich auch entsprechend vergrößert.
Um dem entgegenzuwirken, kann die Bildung von Kategorien für die Einträge im Kategorien-Lexikon sinnvoll sein. Zu diesem Zweck können sogenannte Kategoriekodes verwendet werden.
Beispiele:
#NN%VORN%J%PR:C420:claus #NN%VORN%J%PR:C421:claus-peter #NN%VORN%J%PR:C423:claus-dieter #NN%VORN%J%PR:K421:klaus-peter #NN%VORN%J%PR:K423:klaus-dieter #NN%ALLG%J%NN:G122:Geophysik #NN%ALLG%J%NN:G420:Geologie #NN%ALLG%J%NN:I521:Ionosphäre #NN%ALLG%J%NN:I521:Ionosphärenphysik #NN%ALLG%J%NN:A236:Astrophysik #NN%ALLG%J%NN:A62ä:Archäologie #NN%ALLG%J%PR:L520:Linux #NN%ALLG%J%PR:R250:RRZN #NN%ALLG%J%PR:R252:Rechenzentrum #NN%NAME%J%PR:R255:Rickemann #NN%NAME%J%PR:R255:Rickenmann #NN%NAME%J%PR:R255:Rieckemann #NN%NAME%J%PR:R255:Rikemann #NN%NAME%J%PR:R255:Rikenmann #NN%NAME%J%PR:R255:Rueckemann #NN%NAME%J%PR:R255:Röckemann #NN%NAME%J%PR:R255:Rückemann #NN%NAME%J%PR:R255:Rückmann
Das phonetische Lexikon um Kategoriekodes zu erweitern, kann sehr aufwendig sein. Bei der Bildung der Kategorien muß zudem auf die Bereiche Rücksicht genommen werden, die für den betreffenden Verwendungszweck notwendig erscheinen und die für die Mehrzahl von Abfragen eine überschaubare Anzahl von Resultaten liefern.
Die gezeigten Beispiele sind um strukturierte Kategoriekodes erweitert. Die in dem kleinen Auszug vorkommenden Kategoriekodes bedeuten:
| Stelle | Teilkode | Beschreibung/Kategorie |
| 1 | NN | Nomen Nominandum (noch zu vergebendes übergeordnetes Ordnungskriterium) |
| 2 | VORN | Vorname |
| 2 | ALLG | allgemeiner Begriff, vermischte Begriffe ohne eigene Kategorie |
| 2 | NAME | Name (kein Vorname) |
Weitere Teilkodes können eingefügt werden, so hier z.B. and Stelle 3 J oder N für ,,Ja, aktuell verwenden`` bzw. ,,Nein, aktuell nicht verwenden``, oder an Stelle 4 z.B. PR für private Einträge.
Die derart strukturierte Sammlung von Begriffen wird hier als phonetisches Kategorien-Lexikon [1] bezeichnet.
Die Ergebnisse, die aus einem phonetischen Lexikon ebenso wie aus einem phonetischen Kategorien-Lexikon gewonnen werden, enthalten Begriffe unterschiedlicher Länge zu ein und demselben Abfragebegriff.
Dies liegt daran, daß nach dem jeweils verwendeten Algorithmus bestimmte Teile eines Begriffs phonetisch identisch sein können, unabhängig von der jeweiligen Länge.
So werden z.B. die Begriffe Hallo und Haaallooooooo ohne weitere Randbedingungen bei den meisten phonetischen Verfahren als phonetisch identisch oder fast identisch berechnet.
Diese phonetische Ähnlichkeit ist unabhängig von der realen Grammatik oder beispielsweise der Silbentrennung.
Um aus den betreffenden Kategorien nur Vorschläge auszuwählen, die sich nicht extrem in ihrer Länge unterscheiden, können z.B. spezielle Filter verwendet werden.
Beispielhaft seien hier folgende Filter genannt:
Mittels des phonetischen Kategorien-Lexikons, eines Mechanismus zum phonetischen Vergleich mittels phonetischer Algorithmen und einiger Filter lassen sich einfache Werkzeuge zur Ermittlung phonetischer Alternativen zu Abfragebegriffen konstruieren. Diese Werkzeuge werden hier allgemein als phonetische Komparatoren bezeichnet.
Derartige Komparatoren können für verschiedene Zwecke eingesetzt werden, beispielsweise:
Zur Erprobung, ob sich Suchvorschläge für Suchmaschinen auch in der Praxis phonetisch ermitteln lassen, wurde ein entsprechend angepaßter phonetischer Komparator entwickelt.
Dieser phonetische Komparator wurde für Testzwecke in die Suchmaschine MetaGer (http://www.metager.de) eingebaut.
Um nicht unnötig Vorschläge für weitere Suchabfragen zu geben, solange ausreichend Ergebnisse geliefert werden, schien es sinnvoll die phonetisch ermittelten Vorschläge erst zu machen, wenn eine bestimmte Anzahl an Ergebnissen unterschritten wurde.
Der Komparator wurde für diesen Einsatz auf die jeweils ersten 5 Abfragebegriffe begrenzt.
Die Filter wurden auf die beschriebenen Verfahren begrenzt, um die Anforderungen an die zusätzliche Rechenleistung der Systeme bei hunderten paralleler Abfragen nicht zu hoch werden zu lassen.
Der entwickelte phonetische Komparator funktioniert auch im Einsatz mit den Abfragebegriffen für eine Suchmaschine im Rahmen des erstellten Kategorien-Lexikons effektiv und effizient.
Das Kategorien-Lexikon hat bei dem aktuellen Einsatz einen Umfang von über 90000 zum Teil handverlesenen Begriffen mit einigen exemplarisch umfangreicheren Kategorien.
Für verschiedene Sprachen oder Themenbereiche können verschiedenen phonetische Algorithmen entwickelt werden. Für die Untersuchungen wurden bevorzugt deutschsprachige Begriffe und international verwendete Begriffe und Abkürzungen verwendet.
Es ist hilfreich, wenn sowohl bei der Erstellung des Kategorien-Lexikons, als auch bei der Entwicklung der verschiedenen phonetischen Algorithmen, Fachwissen aus den verschiedenen Fachbereichen zur Verfügung steht.
In vielen Fällen werden treffende Vorschläge geliefert, wenn bei umfangreichen Kategorien der Abfragebegriff in einer Kategorie identisch vorkommt. Es können dann Vorschläge aus einer konkreten Kategorie angeboten werden, die zudem weiteren Kriterien entsprechen, z.B. eine phonetische Ähnlichkeit haben, also beispielsweise andere Schreibweisen von Namen.
Getestet wurden einfache phonetische Vergleiche, phonetische Lexika, phonetische Kategorien-Lexika und phonetische Kategorien-Lexika mit verschiedenen Filtern.
Letzteres Verfahren liefert bei einem handgepflegten Kategorien-Lexikon die besten Ergebnisse.
Einige Aspekte des Verfahrens, die den Einsatz für Suchmaschinen einschränken, sind:
Es kann keine Grammatik verwendet werden, da die Abfragebegriffe in der Regel nicht grammatikalisch verknüpft sind.
Die zusätzliche Verwendung einer Häufigkeitsverteilung von Begriffen wäre aufwendig, da sie kontinuierlich eingebracht werden müßte. Eine verläßliche Ermittlung scheint nur schwer automatisierbar.
Eine Erweiterung des Kategorien-Lexikons ist praktisch nur von Hand vorstellbar.
Kombinationen mit anderen Verfahren können sehr komplex sein. Schon die Klärung der Frage, welche Auswirkungen die Reihenfolge und Gewichtung der Anwendung verschiedener, auch nicht phonetischer Verfahren hat, erfordert weitere Untersuchungen.