Das „normale“ Interface von Twitter ist über ein Script gar nicht so einfach zu crawlen. Zum einen gibt es das Infinite Scrolling, damit kommen viele Crawler nicht zurecht bzw. es ist ein großer Aufwand eine Script dafür zu schreiben. Des weiteren sind manche Inhalte nur für eingeloggte Nutzer sichtbar. In diesem Artikel zeige ich wie mit wenigen Einstellungen diese Probleme umgangen werden.
2 kleine Änderungen
Für den Bot ist die mobile Ansicht weit aus einfacher zu crawlen, wenn dazu noch JavaScript deaktiviert ist, wird kein Login mehr benötigt und das Infinite Scrolling ist auch weg. Es sind nur noch leicht zu crawlende a Tags, bei denen nur das href ausgelsen werden muss.
Tweets
Follower
ACHTUNG
Ich habe dies im Chrome gemacht, mit den ich täglich Twitter ansteure, aber diese Einstellungen gehen leider nicht mehr weg. Sprich ich bin gezwungen jetzt mit dem FireFox Twitter zu besuchen. Habe schon vieles Probiert diese Einstellungen rückgängig zu machen, von Cookies löschen bis hin zu local storage zu säubern. Nichts hilft!