Link Analyse und Relevanz von SuchergebnissenMicrosoft Research arbeitet an neuen Block-Level Modellen, um künftig bessere Suchergebnisse zu erhalten |
|
|
Sind die Teile einer Webseite für die Such-Qualität mehr als das Ganze?Wer hätte das gedacht: Microsoft ging mit der Veröffentlichung eines Forschungsprojekts zum Thema Web Spam an die Öffentlichkeit! Inzwischen erschien eine Arbeit, an der Microsoft Research Asia beteiligt war, um die Schwächen der gegenwärtigen Link-Analyse-Algorithmen PageRank und HITS zu überwinden. Annahmen: Obige Algorithmen beruhen auf 2 Annahmen: Die Links erfordern menschliches Eingreifen, wodurch die Bedeutung einer Webseite an andere Webseiten weitergegeben werden kann. Seiten, die von einer Seite aus zitiert werden, behandeln wahrscheinlich dasselbe Thema. Diese Annahmen gelten jedoch nicht in allen Fällen. Ein typisches Beispiel dafür ist eine Webseite mit Nachrichten, die aus Teilen mit ganz unterschiedlichen Themen besteht und darüber hinaus Links enthält, die nur zur Navigation und zu Werbung führen. Webseiten müssen also bezüglich ihrer verschiedenen semantischen Bereiche und deren unterschiedlicher Bedeutung betrachtet werden. Dies führt dazu, eine Webseite nicht mehr als die kleinste Einheit im Web zu betrachten, sondern deren semantische Teile mit den Links, die zu unterschiedlichen Themen führen. Diese Teile werden als Blöcke bezeichnet, für die neue Link-Analyse-Algorithmen vorgeschlagen werden: Block Level PageRank und Block Level HITS. Diese betrachten die semantischen Blöcke als Informationseinheiten. Vorgehensweise: Mittels Vision Based Page Segmentation Algorithmus werden Seiten-Block und Block-Seiten-Beziehungen ermittelt und daraus Seiten- und Block-Graphen konstruiert. Damit sollte die genauere semantische Struktur des Web entdeckt werden können. Der Segmentationsalgorithmus (VIPSA) beruht auf der visuellen Darstellung einer Webseite in Form einer Baumstruktur, bei der jedem Knoten ein Block entspricht. VIPSA nutzt die Seitenlayout-Struktur, und "Rauschen" wie z. B. Navigation, Werbung und Dekoration kann damit leicht entfernt werden. Das Block-Block-Graphen-Modell sollte für viele webbasierte Anwendungen wie Bildersuche und Webseiten-Kategorisierung sehr nützlich sein. Neue Algorithmen: Die Block-Seiten-Beziehung sollte eine genauere und robustere Abbildung der Link-Strukturen des Webs ermöglichen, da die bisherigen Algorithmen wie PageRank keine Unterschiede bei den Links in verschiedenen Blöcken machen. Die Seite-Block-Beziehungen ergeben sich aus dem Seitenlayout, wobei große Blöcke mit zentraler Position wahrscheinlich wichtiger genommen werden müssen als kleine an Randpositionen. Hier sind verfeinerte Block-Bedeutungsmodelle denkbar, die Farben, Schrift usw. berücksichtigen. Damit sollten Links in wichtigeren Blocks als wichtiger bewertet werden. Der Block-Graph muss die Sprünge innerhalb einer Seite und zwischen verschiedenen Seiten berücksichtigen. Block Level PageRank: Der Block Level PageRank unterscheidet sich vom klassischen Algorithmus dadurch, dass die Webstruktur auf Block-Niveau abgebildet wird. Auf Block Level HITS soll hier nicht eingegangen werden. Experimente und Ergebnisse bez. PageRank und Block Level PageRank: Als Daten wurden über 1 Million HTML-Webseiten herangezogen. Berechnet und verglichen wurden sowohl PageRanks als auch Rankings. Immer waren die Resultate mittels Block Level PageRank besser als mittels PageRank. Quelle: Microsoft Research stellte die Studie von Deng Cai, Xiaofei He, Ji-Rong Wen und Wei-Ying Ma auf der 27th Annual International ACM SIGIR Conference 2004 der University of Sheffield, Großbritannien, im Juli 2004 vor unter dem Titel Block-level Link Analysis. (kk) Mailen Sie oder rufen Sie uns an, Tel.: +49 89 21031593, und fordern Sie ein Angebot zur Analyse Ihrer Website. |
News Archiv | Online Marketing Bücher | Partner | Sitemap © Optimierung.Net München. Tel: +49.89.21031593, Kontakt / Impressum
|