
Datenbeschaffung anhand von öffentlich zugänglichen Webseiten um diese auszuwerten.
Während beim Webscraping spezifische URLs aufgerufen und der Inhalt ausgelesen wird, geht es bei Webcrawlern um das Entdecken von Webseiten.
Welche Webseiten gibt es zu gewissen Themen, wie hängen diese zusammen und wo werden sie erwähnt? – Diese Fragen lassen sich durch Webcrawler beantworten. Hierzu folgt das Programm allen URLs (Links) die gefunden werden auf einer Webseite und indexiert diese nach Parametern.
Ein „Crawler“ beendet seine Arbeit quasi nie, denn es gibt einerseits immer wieder neue Seiten im Internet andererseits werden Verlinkungen laufend geändert und aktualisiert im „Netz“.
Ein Webcrawler den man in das Internet rausschickt braucht einiges an Ressourcen:
Eine grosse, ständig wachsende Datenmenge muss fortlaufend kontrolliert und bereinigt werden.
Einen eigenen Webcrawler zu betreiben hat für die meisten Unternehmen keine direkten Vorteile, insbesondere da es bereits unzählige Plattformen für die Websuche gibt.




Datenbeschaffung anhand von öffentlich zugänglichen Webseiten zur Automation von firmeninternen Prozessen und Schärfung vom Controlling.
Während beim Webcrawling das Internet erforscht und entdeckt wird, geht es bei Webscrapern um das Auslesen von Inhalten spezifischer URLs.
Firmeninterne Prozesse sind oft von externen Parametern abhängig und es ist wichtig diese so frühe wie möglich zu erkennen. Webscraping übernimmt die Aufgabe Webseiten periodisch zu überprüfen selbständig zu jeder Uhrzeit. Je nach Definition der zu überprüfenden Webseiten und deren Anzahl können einige Stunden manuelle Arbeiten automatisiert werden.
Erkennt der „Scraper“ eine Abweichung oder einen neuen Wert – beispielsweise einen Debitor, der laut Handelsregister in Liquidation ist, im ERP aber noch aktiv geführt wird – kann ein Report erstellt und per E-Mail versendet werden mit einer Zusammenfassung aller Datensätze die Abweichungen enthalten. So erhält das Team eine klare Übersicht, welche Debitoren überprüft oder gesperrt werden sollten.
Für eine erfolgreiche Automatisierung sind mehrere Schritte entscheidend:
Eine Schnittstelle in ein ERP ist in der Regel nicht notwendig, die zu prüfenden Daten können manuell exportiert werden für den Webscraper. Damit ist die Sicherheit gewehrleistet und es kommt nicht zu ungewollten Zugriffen auf Ihre Daten.
Mitarbeitende müssten nicht mehr – wie in diesem Beispiel – das Handelsregister durchsuchen ob ein Debitor ggf. sich in Liquidation befindet oder nicht. Durch einen regelmässigen Report wird der Status im ERP automatisch mit den gesammelten Daten des Handelsregisters abgeglichen und bei Fehlern darauf aufmerksam gemacht. Dadurch werden Fehler aus manuellen abgleichen verringert und die Mitarbeitenden haben mehr Zeit sich um die Herausforderungen und Prüfungen anderer Daten zu kümmern.
Ein Webscraper kann auf jegliche Webseiten die öffentlich zugänglich sind zugreifen und die Daten darin auslesen. Im Schnitt braucht es vom Aufruf einer Webseite bis zur Auswertung der Daten und Ausgabe in ein Zielformat 2-3 Sekunden.


