Website Marketing mit Suchmaschinenoptimierung

Web Spam. Microsoft zeigt Analyse-Methoden, um Spam-Seiten zu entdecken: Spam, Damn Spam and Statistics 

Optimierung.Net
Startseite für Web Positioning und Seiten- Optimierung

Konzept
Site Promotion bei Suchmaschinen und Verzeichnissen

Referenzen
Top Positionen nach Webseiten-Optimierung

Web News Blog
Aktuelles zu Suchmaschinen

Seminar | Schulung
Suchmaschinen als
Marketing-Instrument

Vortrag Termine
Suchmaschinen-
Marketing 

Web Positioning 
Newsletter WPN

Positionen aus der Welt der Suchmaschinen 

Bücher
zum Suchmaschinen-Marketing

Impressum
Kontakt 

Überblick 

Spam, Damn Spam, and Statistics: Microsoft Spam-Studie

Wie Ausreißer Such-Qualität und MSN ins Spiel bringen

Wer hätte das gedacht: Microsoft geht bezüglich Qualität mit den Ergebnissen eines Forschungsprojekts zum Thema Web Spam an die Öffentlichkeit! Im Gegensatz zu Google, dessen „Grundlagen“ immer noch auf einer uralten Veröffentlichung beruhen. Bemerkenswert ist vor allem der methodische Ansatz von MSN, wie mit einer statistischen Analyse von On Page- und Off Page-Eigenschaften und passenden Metriken Web Sites als Spam-Kandidaten erkannt werden können. 

Web Spam: Als solches bezeichnen die MS-Researcher die Erscheinung, dass Web-Seiten erstellt werden, die einzig und allein dem Zweck dienen, Suchmaschinen in die Irre zu führen, um durch täuschende Suchergebnisse User auf bestimmte Seiten (irre) zu führen. Dies hat sowohl für Suchmaschinen als auch für Sucher negative Auswirkungen.

Entdeckung: Spam-Seiten kann man ausmachen, da sie sich bei gewissen Eigenschaften von normalen Seiten unterscheiden. Für die Untersuchung ließ MSN mehr als 500 Millionen HTML-Seiten spidern und speicherte ausgewählte Eigenschaften für statistische Analysen. Für diese wurde nach passenden Metriken gesucht. Die Ausreißer wurden manuell auf Spam untersucht. 

URL: Zur Feststellung von Link-Spam wurde angenommen, dass sich automatisch erzeugte Spam-Seiten über Eigenschaften der URL identifizieren lassen, also beispielsweise viel länger sind oder mehr Buchstaben oder Klammern enthalten als Nicht-Spam-Seiten. In dieser Hinsicht ergab sich keine Korrelation, jedoch bezüglich des Host-Teils der URL: Web Sites mit vielen Buchstaben, Punkten oder Bindestrichen sind sehr wahrscheinlich Spam-Sites. Wurde die Schwelle z. B. bei 45 Zeichen oder 6 Punkten oder 5 Strichen oder 10 Ziffern angesetzt, konnten von 4,7 Millionen etwa 800.000 Web Sites als Spam eingestuft werden.

Host Name: Bei einer Spam-Technik werden sehr viele Host-Namen auf ein- und dieselbe IP-Adresse abgebildet. Ermittelt man statistisch die Häufigkeitsverteilung, so kann man sehr gut die Ausreißer erkennen: Für 3,5% der Web-Seiten gilt, dass mehr als 10.000 Host-Namen auf eine IP-Adresse abgebildet werden; bei einer Schwelle von 1.000 ergibt sich eine Ausbeute von 7%. Diese Metrik zeigt eine um den Faktor 20 höhere Spam-Rate als die bei der Länge der Host-Namen.

Host-Maschine-Verhältnis: Damit konnten Spam-Techniken entdeckt werden, die darauf beruhen, dass Seiten mit vielen Links bestückt werden, die auf Seiten vieler verschiedener Hosts verweisen, diese jedoch alle auf eine IP-Adresse gemapped werden. Liegt das Verhältnis bei mehr als 5, ist dies ein Indikator für Spam Sites (1,7% des Datenbestandes).

Links: Als weiteres Merkmal wurden ein- und ausgehende Links von Webseiten herangezogen und als Metrik die Verteilung benutzt: Diese ist über einen weiten Bereich Zipf-verteilt. Ausreißer weisen wieder auf Spam-Seiten hin, wobei bei eingehenden Links wesentlich mehr Ausreißer auftreten.

Content: Viele zu Spam-Zwecken automatisch generierte Seiten enthalten dieselbe Anzahl von Wörtern. Als Metrik wurde hier die Verteilung der Varianz der Wortanzahl benutzt. Eine Analyse der Ausreißer ergab, dass 55% Spam zugeschrieben werden konnte.

Web-Entwicklung und Clustering: Es wurden Metriken entwickelt, um Spam-Seiten zu entdecken, die sich bei jedem Laden ändern bzw. die sich sehr ähnlich sind. Auch hier überführten die Ausreißer wieder die gespammten Seiten. In einer früheren Arbeit konnte gezeigt werden, dass das „Deutsche Web“ eine weit über der Erwartung liegende Änderungshäufigkeit aufwies, die auf Spam zurückgeführt werden konnte.

Schlussfolgerungen: Da effektive Spam-Methoden auf der Erzeugung vieler Spam-Seiten beruhen, sind statistische Methoden und passende Metriken der richtige Ansatz, um anhand der Ausreißer Web Spam zu identifizieren. Frühere Forschungen hatten sich immer an den Trends orientiert. Als Gesamtergebnis des MS-Forschungsprojekts wurde eine Spam-Verseuchung von etwa 8% ermittelt.

Fazit: Die MS-Metriken werden’s wohl richten: Die guten Seiten in’s Spider-Kröpfchen, die schlechten ins Spam-Töpfchen. 

Quelle: Vorgestellt wurden die Ergebnisse der Studie beim Seventh International Workshop on the Web and Databases, WebDB 2004, im Juni 2004 in Paris unter dem Titel Spam, Damn Spam, and Statistics. (kk)

 

Sie sind sich nicht sicher, ob Ihre Website den Anforderungen der Suchmaschinen entsprechen? Ordern Sie einen Website-Check von Optimierung.Net.

Suchmaschinenoptimierung | Konzept Website Optimierung | Marketing Referenzen | Suchmaschinen Blog | Optimierung Seminar Suchmaschinen VortragWeb Positioning Newsletter | Online Marketing Bücher | Partner | AGB | Optimierung ÜberblickSitemap

© Optimierung.Net München. Tel: +49.89.210315-93, Kontakt / Impressum, © Bild: Lycos Europe