
Beim Archivieren von Dokumenten ist es wichtig, den Überblick nicht zu verlieren. Gerade im digitalen Dokumentenmanagement kann in einer komplexen Ordnerstruktur die Suche nach einer bestimmten Datei sehr schwierig werden. Die Indexierung schafft hier Abhilfe. Durch sie werden Dokumente mit zusätzlichen Informationen versehen, welche über die Suchfunktion gefiltert werden können.
Indexierung „kurz erklärt“
Bei der Indexierung werden Daten mit einem Deskriptor versehen, welcher zusätzliche Informationen zum Inhalt liefert.
Definition: Indexierung
Die Indexierung ist ein Prozess oder Zustand, bei welchem jedem Objekt oder Dokument eine Reihe an weiteren Informationen hinzugefügt wird, um in einem Datensystem besser arbeiten zu können. Während im Bereich von Objekten wie Büchern oder Ersatzteilen eher der Begriff Katalogisierung verwendet wird, spricht man im Dokumentenmanagement oft auch von Dokumentenklassifizierung. Diese Begriffe sind nicht exakt synonym, haben in der Regel jedoch das gleiche Ziel.
Echte Synonyme für die Indexierung sind Beschlagwortung, Verschlagwortung und Verstichwortung, sowie im Englischen das Wort Tagging.
Ziele und Funktionen
Die Indexierung verfolgt das grundlegende Ziel, Informationen leichter auffindbar zu machen. In einem internen System wie beispielsweise einer Bibliothek werden neue Bücher dem Index hinzugefügt und mit Schlagwörtern versehen, die Inhalt und Genre repräsentieren. Dadurch können dieses und ähnliche Werke über die Schlagwortsuche gefunden werden.
In anderen Bereichen wie Suchmaschinen funktioniert die Indexierung nach einem ähnlichen Prinzip. Ein Crawler durchsucht das Internet nach neuen Seiten und analysiert diese, bevor sie in den Index aufgenommen werden und ein Ranking zugewiesen bekommen.
Methoden
Es gibt mehrere Methoden der Indexierung, welche sich nach unterschiedlichen Kriterien unterscheiden. Diese werden im Folgenden definiert.
In der manuellen Indexierung (auch intellektuelle Indexierung oder Verschlagwortung) wird das Dokument von einem Mitarbeiter analysiert und beschlagwortet. Hierfür werden zwei Methoden unterschieden:
Kontrolliert/Gebunden
Bei der kontrollierten Indexierung besteht bereits eine Dokumentationssprache mit bestimmten Deskriptoren, also Schlagworten, welche für das gebundene Indexieren verwendet werden muss. Dies sorgt für eine einheitliche Sortierung der Dokumente.
Frei
Die freie Indexierung folgt keinen festgelegten Schlagworten, sondern wird individuell vom Mitarbeiter durchgeführt. Hier besteht jedoch die Gefahr, dass die Deskriptoren nicht einheitlich sind und zu Verwirrung führen.
Es ist allerdings nicht so einfach zu sagen, dass eine gebundene Indexierung die bessere Variante ist. Dies ist abhängig von den Nutzern des Systems. Innerhalb eines Unternehmens bietet sich die kontrollierte Variante an, da alle Mitarbeiter mit dem Vokabular vertraut sein sollten. Handelt es sich bei der Zielgruppe jedoch um externe Nutzer, ist eine freie Indexierung mit Inhaltserkennung empfehlenswert, da so die Suchanfragen besser auf die richtigen Inhalte umgeleitet werden können.
Die automatische Indexierung läuft rein systematisch über digitale Programme ab. Dabei wird der gesamte Inhalt des Dokuments als Schlagwörter aufgenommen und anhand ihrer Häufigkeit kategorisiert. Wichtig ist hier allerdings auch der Vergleich zu anderen Dokumenten, sodass Füllworte wie „und“, „oder“, „ist“ etc. gefiltert werden. Das Gewichtungsverfahren vergleicht außerdem inhaltlich relevante Worte, um den Kontext noch mehr zu spezifizieren. Daraus entstehen dann die eigentlichen Deskriptoren.
Die computergestützte Indexierung ist halb automatisch. Dies bedeutet, dass die Maschine den Text oder die Datei analysiert und daraufhin verschiedene Schlagworte vorschlägt. Diese Vorschläge werden dann manuell selektiert und nur die relevanten werden ausgewählt.
Koordinative vs. syntaktische Indexierung
Die koordinative oder gleichordnende Indexierung macht in der Reihenfolge der Deskriptoren keinen Unterschied. Beispielsweise bei dem Keyword „Aktendigitalisierung“ speichert das Programm sowohl „Akte“ als auch „Digitalisierung“, sodass die Reihenfolge oder Formulierung der Suche keine Rolle spielt. Da Worte auch zu ihrem Stamm zurückgeführt werden, sind auch Abwandlungen wie „Akten digitalisieren“ als Suchbegriffe möglich.
In der syntaktischen Indexierung spielt die Reihenfolge der Worte eine wichtige Rolle, da der syntaktische Inhalt erkannt und wiedergegeben werden sollte.
Internet und SEO
Die Indexierung spielt vor allem im Internet eine große Rolle für die Suchmaschinenoptimierung (SEO). Verschiedenste Suchmaschinen nutzen Crawler, um Seiten zu überprüfen und dann gegebenenfalls in ihren Index aufzunehmen, sowie deren Hierarchie festzulegen.
Damit eine Seite fehlerfrei und präzise indexiert werden kann, werden Meta-Informationen vergeben. Dazu zählen der Meta-Titel und die Meta-Description, welche dem Crawler als Anhaltspunkte für die Deskriptoren dienen.
Häufig gestellte Fragen
Indexierung ist der Prozess, bei welchem ein physisches oder digitales Objekt in ein System, einen Index, aufgenommen wird. Dies kann beispielsweise die Katalogisierung eines neuen Buches in einer Bibliothek sein. Weiter verbreitet ist der Begriff jedoch im SEO-Bereich, wo er die Listung einer Seite in Google angibt.
Ein Index ist ein System, welches Daten enthält, kategorisiert und sortiert. Über Programme kann dann mithilfe von Suchfunktionen auf diese Daten zugegriffen werden.
Zunächst wird in die manuelle, automatische und computergestützte Indexierung unterschieden, nach Anteil des menschlichen Eingriffs in die Kategorisierung. Weiterhin gibt es die gebundene oder freie Indexierung, abhängig von der Einheitlichkeit der Dokumentationssprache. Zuletzt kann noch in syntaktische oder koordinative Indexierung unterschieden werden, abhängig davon, wie die Deskriptoren vom System erfasst werden.
Ein Deskriptor in der Indexierung ist ein Schlagwort, über welches das Objekt im Index gefunden werden kann. Eine Datei besitzt oft mehrere Deskriptoren, abhängig von den Themen, die sie behandelt.