Webcrawler

Das Internet durchsuchen

Datenbeschaffung anhand von öffentlich zugänglichen Webseiten um diese auszuwerten.

Die Ausgangslage

Während beim Webscraping spezifische URLs aufgerufen und der Inhalt ausgelesen wird, geht es bei Webcrawlern um das Entdecken von Webseiten.

Welche Webseiten gibt es zu gewissen Themen, wie hängen diese zusammen und wo werden sie erwähnt? – Diese Fragen lassen sich durch Webcrawler beantworten. Hierzu folgt das Programm allen URLs (Links) die gefunden werden auf einer Webseite und indexiert diese nach Parametern.

Ein „Crawler“ beendet seine Arbeit quasi nie, denn es gibt einerseits immer wieder neue Seiten im Internet andererseits werden Verlinkungen laufend geändert und aktualisiert im „Netz“.

Technische Umsetzung

Ein Webcrawler den man in das Internet rausschickt braucht einiges an Ressourcen:

Eine grosse, ständig wachsende Datenmenge muss fortlaufend kontrolliert und bereinigt werden.

Fazit

Einen eigenen Webcrawler zu betreiben hat für die meisten Unternehmen keine direkten Vorteile, insbesondere da es bereits unzählige Plattformen für die Websuche gibt.

Beiträge