Webcrawler

Das Internet durchsuchen

Datenbeschaffung anhand von öffentlich zugänglichen Webseiten um diese auszuwerten.

Die Ausgangslage

Während beim Webscraping spezifische URLs aufgerufen und der Inhalt ausgelesen wird, geht es bei Webcrawlern um das Entdecken von Webseiten.

Welche Webseiten gibt es zu gewissen Themen, wie hängen diese zusammen und wo werden sie erwähnt? – Diese Fragen lassen sich durch Webcrawler beantworten. Hierzu folgt das Programm allen URLs (Links) die gefunden werden auf einer Webseite und indexiert diese nach Parametern.

Ein „Crawler“ beendet seine Arbeit quasi nie, denn es gibt einerseits immer wieder neue Seiten im Internet andererseits werden Verlinkungen laufend geändert und aktualisiert im „Netz“.

Technische Umsetzung

Ein Webcrawler den man in das Internet rausschickt braucht einiges an Ressourcen:

Eine grosse, ständig wachsende Datenmenge muss fortlaufend kontrolliert und bereinigt werden.

Fazit

Einen eigenen Webcrawler zu betreiben hat für die meisten Unternehmen keine direkten Vorteile, insbesondere da es bereits unzählige Plattformen für die Websuche gibt.

Beiträge

webscraping

Effizienz durch Automation (Webseiten auslesen)

Datenbeschaffung anhand von öffentlich zugänglichen Webseiten zur Automation von firmeninternen Prozessen und Schärfung vom Controlling.

Die Ausgangslage

Während beim Webcrawling das Internet erforscht und entdeckt wird, geht es bei Webscrapern um das Auslesen von Inhalten spezifischer URLs.

Firmeninterne Prozesse sind oft von externen Parametern abhängig und es ist wichtig diese so frühe wie möglich zu erkennen. Webscraping übernimmt die Aufgabe Webseiten periodisch zu überprüfen selbständig zu jeder Uhrzeit. Je nach Definition der zu überprüfenden Webseiten und deren Anzahl können einige Stunden manuelle Arbeiten automatisiert werden.

Erkennt der „Scraper“ eine Abweichung oder einen neuen Wert – beispielsweise einen Debitor, der laut Handelsregister in Liquidation ist, im ERP aber noch aktiv geführt wird – kann ein Report erstellt und per E-Mail versendet werden mit einer Zusammenfassung aller Datensätze die Abweichungen enthalten. So erhält das Team eine klare Übersicht, welche Debitoren überprüft oder gesperrt werden sollten.

Technische Umsetzung

Für eine erfolgreiche Automatisierung sind mehrere Schritte entscheidend:

Eine Schnittstelle in ein ERP ist in der Regel nicht notwendig, die zu prüfenden Daten können manuell exportiert werden für den Webscraper. Damit ist die Sicherheit gewehrleistet und es kommt nicht zu ungewollten Zugriffen auf Ihre Daten.

Zeiten besser nutzen

Mitarbeitende müssten nicht mehr – wie in diesem Beispiel – das Handelsregister durchsuchen ob ein Debitor ggf. sich in Liquidation befindet oder nicht. Durch einen regelmässigen Report wird der Status im ERP automatisch mit den gesammelten Daten des Handelsregisters abgeglichen und bei Fehlern darauf aufmerksam gemacht. Dadurch werden Fehler aus manuellen abgleichen verringert und die Mitarbeitenden haben mehr Zeit sich um die Herausforderungen und Prüfungen anderer Daten zu kümmern.

Ein Webscraper kann auf jegliche Webseiten die öffentlich zugänglich sind zugreifen und die Daten darin auslesen. Im Schnitt braucht es vom Aufruf einer Webseite bis zur Auswertung der Daten und Ausgabe in ein Zielformat 2-3 Sekunden.

Beiträge

Effizienz durch Automation (Erstellung XLSX mit C++)

Wiederkehrende, manuelle Abläufe lassen sich in vielen Fällen automatisieren – und genau darin liegt grosses Potenzial: Mitarbeitende können sich vermehrt auf anspruchsvollere Aufgaben konzentrieren, während Routinetätigkeiten im Hintergrund automatisch ablaufen.

Die Ausgangslage

In zahlreichen Unternehmen gehört es zum Alltag, Daten aus unterschiedlichen Quellen zusammenzuführen. Oft werden Informationen aus externen Systemen, Stammdaten aus dem ERP und weitere Tabellen manuell kombiniert, berechnet und überprüft. Meist liegt die Verantwortung dafür bei einer einzelnen Person – fällt diese aus, gerät der Ablauf ins Stocken, und wertvolles Wissen bleibt in Köpfen statt in Prozessen.

Der automatisierte Ablauf

Mit einer passenden Automatisierung läuft der Prozess selbständig – zuverlässig und reproduzierbar:

Dadurch lassen sich schnell mehrere Arbeitsstunden pro Monat einsparen – Zeit, die für wertschöpfenderen Aufgaben zur Verfügung steht.

Technische Umsetzung

Eine erfolgreiche Automatisierung berücksichtigt in der Regel folgende Schritte:

Mit einer bestehenden technischen Basis oder einem flexiblen Framework lassen sich solche Lösungen oft in kurzer Zeit umsetzen.

Ein Blick auf die Einsparung

Wenn ein manueller Ablauf jeden Monat mehrere Stunden beansprucht, summiert sich das über Jahre zu zahlreichen Arbeitswochen. Durch die Automatisierung wird diese Zeit frei – Know-how kann gezielt eingesetzt und Abhängigkeiten von einzelnen Personen werden reduziert.

Meine Überzeugung

Routine- und monotone Tätigkeiten sollten automatisiert werden, damit Menschen ihre Zeit für kreative, analytische oder strategische Arbeiten nutzen können. Ziel ist nicht in erster Linie, Kosten zu sparen, sondern das Potenzial der Mitarbeitenden optimal einzusetzen. Maschinen sollen Aufgaben übernehmen, die sich wiederholen – Menschen sollen sich den Herausforderungen widmen, die Denken und Erfahrung erfordern.

Am Ende bleibt dann auch mehr Zeit für ein «Guten Morge» im Team.

Beiträge