Immer wieder liest man von Unique Content und das Content das einzig wahre für eine gute Suchmaschinenpositionierung ist, abgesehen von Backlinks natürlich. Aber wann ist ein Text einzigartig? Wie erkenne ich, das mein Text einzigartig genug ist? Muss ich jeden Artikel von Grund auf neu schreiben?
Suchmaschinen, allen voran Google, können sehr wohl erkennen, ob ein Text einfach nur kopiert wurde, also Duplicate Content ist oder ob er einzigartig ist. Zu diesem Zweck werden diverse Algorithmen eingesetzt, die den gesamten Text in seine Bestandteile zerlegen und auf duplizierte Passagen prüfen. Einer dieser Algorithmen, den Google vermutlich auch verwendet ist der Shingle- oder auch Broder Algorithmus von Andrei Z. Broder. Man findet zu diesem Thema diverse Erklärungen, die zumeist sehr mathematisch sind. Dabei ist das Grundprinzip gar nicht so kompliziert, wie die Formel den Anschein macht.
Wie funktioniert der Shingle Algorithmus?
Ich beschränke mich an dieser Stelle einmal auf eine möglichst untechnische Erklärung, die auf Formeln und Berechnungen verzichtet. Zum Verständnis sind diese auch gar nicht nötig.
Als erstes ist es natürlich wichtig, das man einen reinen Text bekommt. Dazu werden Formatierungen und HTML Tags entfernt. Im nächsten Schritt können auch noch Füllwörter entfernt werden, mit denen man einen Text unendlich in die Länge ziehen könnte. Diese umfassen Konjunktionen und auch Adverbien. Gängige Beispiele sind an dieser Stelle Begriffe wie “und, aber, weil, doch, etc.” mit denen Sätze verlängert oder neu eingeleitet werden. In welchem Umfang hier beispielsweise Google tätig wird, wird natürlich nicht verraten.
Ich schreibe einen Text zum Testen
Aus diesem wird nun “ich,schreibe,einen,text,zum,testen”. Dieser wird wiederum in die vorher angesprochenen Shingles eingeteilt. Vorab muss noch kurz erwähnt werden, das die Länge dieser Shingles variieren kann. Gängig sind hier 4 bis 10 Wörter. Ist der Wert zu groß, kann man durchaus Duplikate übersehen. Ist er allerdings zu klein, werden zu viele Texte als Duplikat eingestuft, weil zu wenig Wörter miteinander verglichen werden.
Wir setzen den Wert von 4 ein und erhalten dabei die folgenden Shingles:
- ich,schreibe,einen,text
- schreibe,einen,text,zum
- einen,text,zum,testen
- text,zum,testen,ich
- zum,testen,ich,schreibe
- testen,ich,schreibe,einen
Als zweiten Satz nehmen wir eine leichte Modifizierung und bekommen somit:
Ich schreibe diesen Text zum Testen
Wir haben hier nur ein einziges Wort verändert, was bei einem derart kurzen Text allerdings schon mehr als 16% sind.
Eingeteilt in Shingles sind der Satz folgendermaßen aus:
- ich,schreibe,diesen,text
- schreibe,diesen,text,zum
- diesen,text,zum,testen
- text,zum,testen,ich
- zum,testen,ich,schreibe
- testen,ich,schreibe,diesen
Wenn wir diese beiden Texte nun vergleichen, stellen wir fest, das 2 der 6 Shingles auch in den oberen Shingles vorhanden sind. Rechnerisch kämen wir somit auf eine Einzigartigkeit von 66%. Dieser Wert wäre für einen langen Text durchaus ausreichend. In unserem oberen Beispiel wird der Wert verständlicherweise durch den sehr kurzen Text verfälscht.
Bei den meisten Suchmaschinen kommen zusätzlich noch diverse weitere Algorithmen zum Einsatz, die ein wesentlich genaueres Ergebnis liefern, aber für den ersten Überblick ist alleine der Shingle Algorithmus schon recht aussagekräftig.
Zum Vergleich von 2 Texten haben wir ein kleines Tool veröffentlicht, das kostenlos genutzt werden kann und einen guten Anhaltspunkt liefert, wenn man einen vorhandenen längeren Text nicht komplett neu schreiben und mit diversen Veränderungen und Ergänzungen modifizieren möchte.
Zum Unique Content Checker
Dort können 2 Texte direkt miteinander verglichen werden und man erhält einen prozentualen Wert für dessen Einzigartigkeit.