Twitter über einen Bot auslesen

Erstellt am 23. August 2017 von Looplogic

Das „normale“ Interface von Twitter ist über ein Script gar nicht so einfach zu crawlen. Zum einen gibt es das Infinite Scrolling, damit kommen viele Crawler nicht zurecht bzw. es ist ein großer Aufwand eine Script dafür zu schreiben. Des weiteren sind manche Inhalte nur für eingeloggte Nutzer sichtbar. In diesem Artikel zeige ich wie mit wenigen Einstellungen diese Probleme umgangen werden.

2 kleine Änderungen

Für den Bot ist die mobile Ansicht weit aus einfacher zu crawlen, wenn dazu noch JavaScript deaktiviert ist, wird kein Login mehr benötigt und das Infinite Scrolling ist auch weg. Es sind nur noch leicht zu crawlende a Tags, bei denen nur das href ausgelsen werden muss.

Tweets

Follower

ACHTUNG

Ich habe dies im Chrome gemacht, mit den ich täglich Twitter ansteure, aber diese Einstellungen gehen leider nicht mehr weg. Sprich ich bin gezwungen jetzt mit dem FireFox Twitter zu besuchen. Habe schon vieles Probiert diese Einstellungen rückgängig zu machen, von Cookies löschen bis hin zu local storage zu säubern. Nichts hilft!