Gewichtung & Relevanz

bei dem IR-System

Anders als bei Menschen, ist eine Beurteilung eines Dokumentes durch IR-System alles andere als einfach. Information-Retrieval-Systeme versuchen die menschliche Intelligenz und das menschliche Verhalten, bei der Bewertung eines passenden, oder weniger passenden Dokumentes, nachzubilden. Da der Boolesches Retrieval, oder Fuzzy Logik nicht genug relevante Ergebnisse liefern, benutzen die besten Suchmaschinen für die Dokumentenbewertung das gewichtete Vektorraummodell. Das macht es möglich, dass zu der Relevanzberechnung nicht nur ein einziger Algorithmus, sondern eine Kombination aus verschiedenen Ranking-Algorithmen angewandt werden kann.

TrustRank und Bad-Rank

TrustRank funktioniert auf einem ähnlichem Prinzip als Experten-Websites Prinzip (auch Hilltop-Prinzip gennant). Gewisse Websites bekommen ein Vertrauens-Gütesiegel, mit welchem sie als vertrauenswürdige Quelle eingestuft werden. Wenn man davon ausgeht, dass solche vertrauenswürdige Websites nicht auf unseriöse Websites verweisen, würde so eine weitergeleitete Reputation die Qualität der Ergebnisse steigern. Der höchste Trust-Score wird nur den Links, die direkt von der Vertrauensquelle ausgehen, vergeben. Je weiter der vergebene Link von dieser Quelle ist, desto kleiner Trust-Wert wird weitergegeben. Bad-Rank ist auch analog zu PageRank, oder TrustRank eine Bewertung, welche in diesem Fall die Negative Vererbung der Verlinkung von sogenannten "schlechten Nachbarschaft" (bad neighbourhood) errechnet. Mit jeder Website die einen PageRank 0 hat und schon länger indexiert ist, sollte man also lieber nicht verlinkt sein. 

Berechnungen und Bewertungen

Neben dem gewichtetem Vektorraummodell sind auch weitere Verfahren, die die Berechnungen und darauf folgende Bewertungen im System ausgeben, zu nennen: Relative Worthäufigkeit (term frequency) und Inverse Dokumenthäfigkeit (inverse document frequency). In diesen beiden verfahren wird die Worthäufigkeit in einem einzelnen Dokument (TF), sowie die Worthäufigkeit in allen anderen Dokumenten (IDF) zusammengebunden: je mehr ein Wort in einem Dokument vorkommt und je weniger dieses Wort in anderen Dokumenten vorhanden ist, desto mehr Gewicht bekommt dieser Term. Dazu kommt noch die Bedeutung der Position des Wortes in einem Dokumet, sowie die Betrachtung, ob sich dieses Wort auch in der Webadresse (URL) befindet. Weitere relevante Bewertungen werden nach und nach in unserem Blog erwähnt.

Click Popularity

Nebenbei den vollautomatisierten Ranking-Berechnungen ist auch noch ein relevantes Verfahren zu erwähnen, welches auf der Beobachtung des Nutzerverhaltens (User-Tracking) die Popularität einzelner Pages errechnet. Die leitende Idee dahinter ist, dass häufiger angeklickte Seiten mehr Relevanz besitzen können, als die weniger angeklickte. So sind die Dokumente, welche mehr Klicks erhalten, höher gewertet und erscheinen dann auch weiter oben in der Ergebnisliste. Um die Klickrate zu optimieren, braucht man sehr viel Fachwissen und Zeit. Hier ist jedes KMU wahrscheinlich besser mit professionellem SEO bedient und sollte sich Inhaus SEO und die damit verbundenen Risiken gut überlegen.

googleplus facebook