Webcrawler

Das Internet durchsuchen

Datenbeschaffung anhand von öffentlich zugänglichen Webseiten um diese auszuwerten.

Die Ausgangslage

Während beim Webscraping spezifische URLs aufgerufen und der Inhalt ausgelesen wird, geht es bei Webcrawlern um das Entdecken von Webseiten.

Welche Webseiten gibt es zu gewissen Themen, wie hängen diese zusammen und wo werden sie erwähnt? – Diese Fragen lassen sich durch Webcrawler beantworten. Hierzu folgt das Programm allen URLs (Links) die gefunden werden auf einer Webseite und indexiert diese nach Parametern.

Ein „Crawler“ beendet seine Arbeit quasi nie, denn es gibt einerseits immer wieder neue Seiten im Internet andererseits werden Verlinkungen laufend geändert und aktualisiert im „Netz“.

Technische Umsetzung

Ein Webcrawler den man in das Internet rausschickt braucht einiges an Ressourcen:

Eine grosse, ständig wachsende Datenmenge muss fortlaufend kontrolliert und bereinigt werden.

Fazit

Einen eigenen Webcrawler zu betreiben hat für die meisten Unternehmen keine direkten Vorteile, insbesondere da es bereits unzählige Plattformen für die Websuche gibt.

Beiträge

webscraping

Effizienz durch Automation (Webseiten auslesen)

Datenbeschaffung anhand von öffentlich zugänglichen Webseiten zur Automation von firmeninternen Prozessen und Schärfung vom Controlling.

Die Ausgangslage

Während beim Webcrawling das Internet erforscht und entdeckt wird, geht es bei Webscrapern um das Auslesen von Inhalten spezifischer URLs.

Firmeninterne Prozesse sind oft von externen Parametern abhängig und es ist wichtig diese so frühe wie möglich zu erkennen. Webscraping übernimmt die Aufgabe Webseiten periodisch zu überprüfen selbständig zu jeder Uhrzeit. Je nach Definition der zu überprüfenden Webseiten und deren Anzahl können einige Stunden manuelle Arbeiten automatisiert werden.

Erkennt der „Scraper“ eine Abweichung oder einen neuen Wert – beispielsweise einen Debitor, der laut Handelsregister in Liquidation ist, im ERP aber noch aktiv geführt wird – kann ein Report erstellt und per E-Mail versendet werden mit einer Zusammenfassung aller Datensätze die Abweichungen enthalten. So erhält das Team eine klare Übersicht, welche Debitoren überprüft oder gesperrt werden sollten.

Technische Umsetzung

Für eine erfolgreiche Automatisierung sind mehrere Schritte entscheidend:

Eine Schnittstelle in ein ERP ist in der Regel nicht notwendig, die zu prüfenden Daten können manuell exportiert werden für den Webscraper. Damit ist die Sicherheit gewehrleistet und es kommt nicht zu ungewollten Zugriffen auf Ihre Daten.

Zeiten besser nutzen

Mitarbeitende müssten nicht mehr – wie in diesem Beispiel – das Handelsregister durchsuchen ob ein Debitor ggf. sich in Liquidation befindet oder nicht. Durch einen regelmässigen Report wird der Status im ERP automatisch mit den gesammelten Daten des Handelsregisters abgeglichen und bei Fehlern darauf aufmerksam gemacht. Dadurch werden Fehler aus manuellen abgleichen verringert und die Mitarbeitenden haben mehr Zeit sich um die Herausforderungen und Prüfungen anderer Daten zu kümmern.

Ein Webscraper kann auf jegliche Webseiten die öffentlich zugänglich sind zugreifen und die Daten darin auslesen. Im Schnitt braucht es vom Aufruf einer Webseite bis zur Auswertung der Daten und Ausgabe in ein Zielformat 2-3 Sekunden.

Beiträge

Effizienz durch Automation (Erstellung XLSX mit C++)

Wiederkehrende, manuelle Abläufe lassen sich in vielen Fällen automatisieren – und genau darin liegt grosses Potenzial: Mitarbeitende können sich vermehrt auf anspruchsvollere Aufgaben konzentrieren, während Routinetätigkeiten im Hintergrund automatisch ablaufen.

Die Ausgangslage

In zahlreichen Unternehmen gehört es zum Alltag, Daten aus unterschiedlichen Quellen zusammenzuführen. Oft werden Informationen aus externen Systemen, Stammdaten aus dem ERP und weitere Tabellen manuell kombiniert, berechnet und überprüft. Meist liegt die Verantwortung dafür bei einer einzelnen Person – fällt diese aus, gerät der Ablauf ins Stocken, und wertvolles Wissen bleibt in Köpfen statt in Prozessen.

Der automatisierte Ablauf

Mit einer passenden Automatisierung läuft der Prozess selbständig – zuverlässig und reproduzierbar:

Dadurch lassen sich schnell mehrere Arbeitsstunden pro Monat einsparen – Zeit, die für wertschöpfenderen Aufgaben zur Verfügung steht.

Technische Umsetzung

Eine erfolgreiche Automatisierung berücksichtigt in der Regel folgende Schritte:

Mit einer bestehenden technischen Basis oder einem flexiblen Framework lassen sich solche Lösungen oft in kurzer Zeit umsetzen.

Ein Blick auf die Einsparung

Wenn ein manueller Ablauf jeden Monat mehrere Stunden beansprucht, summiert sich das über Jahre zu zahlreichen Arbeitswochen. Durch die Automatisierung wird diese Zeit frei – Know-how kann gezielt eingesetzt und Abhängigkeiten von einzelnen Personen werden reduziert.

Meine Überzeugung

Routine- und monotone Tätigkeiten sollten automatisiert werden, damit Menschen ihre Zeit für kreative, analytische oder strategische Arbeiten nutzen können. Ziel ist nicht in erster Linie, Kosten zu sparen, sondern das Potenzial der Mitarbeitenden optimal einzusetzen. Maschinen sollen Aufgaben übernehmen, die sich wiederholen – Menschen sollen sich den Herausforderungen widmen, die Denken und Erfahrung erfordern.

Am Ende bleibt dann auch mehr Zeit für ein «Guten Morge» im Team.

Beiträge

petra-fischer-hypnose.ch

Für den Start der Selbständigkeit wurde hier eine Webseite erstellt um mehr Aufmerksamkeit auf das Angebot zu lenken.

Projektbeschrieb

Anhand der bereits vorhandenen Visitenkarte wurde die Webseite aufgebaut. Das beinhaltete auch die Erstellung des Logos anhand der vorhandenen Visitenkarte deren Datei nicht digital vorlag. Die Anleitung worauf man achten sollte für die Fliesstexte um in Google besser gefunden werden zu können, wurden eingehalten und alle notwendigen Inhalte von der Inhaberin geliefert. Das Design wie auch die Webseite sollte für den Start mit einem kleinen Budget auskommen, was dank der guten Vorbereitung der Inhalte gut eingehalten werden konnte.

Die Integration von GoogleAnalytics und die Einrichtung der E-Mail-Accounts verliefen ohne grosse Probleme. Das Kontaktformular wurde später hinzugefügt.

Die Webseite konnte übergeben werden und die Inhalte werden selbst durch die Kundin gepflegt.

Einfache Webseite fusspflege-doris-schroeter.ch

Eine einfache Webseite für den Start in die Selbstständigkeit. Kostengünstig, übersichtlich und auf das Kerngeschäft abgestimmt.

Dazu wurden noch Visitenkarten, GoogleMaps-Einträge wie auch Whatsapp integriert um die Suche und Kommunikation mit Interessenten zu vereinfachen.

Projektbeschrieb

Für den Start der Selbständigkeit sollten einerseits Visitenkarten wie auch eine einfache Webseite zur Veröffentlichung des Angebotes erstellt werden. Wichtig hierbei war der GoogleMaps-Eintrag wie auch die Funktion direkt mit Whatsapp anfragen zu verschicken.

Die Umsetzung war schnell erledigt und die Seite konnte Online gesetzt werden. Das vorhandene Budget wurde entsprechend eingehalten und die Funktion wurde abgenommen.

PHP 7.0->8.2 aqualisclub.ch

aqualis.ch – die (Gay)Sauna in Bern, hatte ein dringendes Problem mit der Webseite da ein PHP-Upgrade nicht möglich und die Seite plötzlich nicht mehr erreichbar war.

Die Arbeiten wurden zügig durchgeführt und die Seite wieder in die Obhut des Teams übergeben.

Projektbeschrieb

aqualisclub.ch hatte sich gemeldet da die WordPress Version so veraltet war, dass der erzwungene Update von Hostpoint von PHP 7.0 auf PHP 8.2 die Seite unbrauchbar machte. Die Seite liess sich nicht mehr aufrufen respektive anzeigen.

Nach einer kurzen Besprechung was das Ziel sein soll der Arbeiten war schnell klar, dass die Seite wieder aufrufbar werden sollte. Für die Arbeiten wurden Zugangsdaten ausgetauscht und die Analyse des Problems konnte begonnen werden.

Das grundlegende Problem

Hostpoint hat, zurecht, den Support für PHP-Versionen älter als 8.2 eingestellt. Die Webseite von aqualisclub.ch war seit Jahren nicht mehr auf die aktuellste Version ge-updated worden, was dazu führte, dass das WordPress-Theme auf veraltete PHP-Funktionen zugriff, welche es nicht mehr gab.

Das zweite Problem war, dass die WordPress Version zwar aktualisiert werden konnte, nicht jedoch die Plugins die seit Jahren nicht mehr supportet waren.

Umsetzung der Lösung

Nachdem ein Backup erstellt wurde, konnte eine Entwicklungsumgebung erstellt werden. In dieser Umgebung konnten die PHP-Funktionen mit äquivalenten Funktionen der neuen PHP-Version ersetzt werden.

utf8_encode() -> mb_convert_encoding();
strftime() -> date();
mysqli::init() -> new mysqli();

Nachdem das Theme korrigiert war, konnten die nicht mehr unterstützten Plugins mit gleichartigen Plugins ersetzt werden (Multilingual, Bildanzeigen). Da die neuen Plugins nicht gleich strukturiert waren wie die alten, fand noch eine kleine Datenmigration statt. Die Daten wurden über MySQL aus den alten Tabellen in die Zielstruktur überführt.

Abschluss der Arbeiten

Die Entwicklungsumgebung wurde aqualis.ch zur Prüfung übergeben. Die Inhalte wurden geprüft und nachdem Schönheitsfehler korrigiert waren wurde die Seite wieder öffentlich zugänglich gemacht. Die Zugangsdaten wurden entfernt und die Seite konnte wieder in die Pflege der Mitarbeitenden übergeben werden.

Das Design, die Inhalte und die Aufmachung der Seite war nicht der Auftrag an whitemango. Es ging hierbei lediglich um den technischen Aspekt der PHP-Version.

Förderverein Yanktonai – Pfadfindergruppe „Yanktonai“

Der „Förderverein Yanktonai“ übernahm die finanzielle Unterstützung der gleichnamigen Pfadfindertruppe. Ich habe hier das Logo, Design und Vorlagen erstellt damit sich der Förderverein auf das wesentliche konzentrieren konnte.

Neben dem Designs übernahm ich auch das Mandat des Webmasters und stellte sicher, dass die Webseite aktuell und einwandfrei funktionierte.

Mein Engagement war ein Teil meiner Funktion als Schatzmeister und war dementsprechend ehrenamtlich.

Projektbeschreibung

Die Webseiten yanktonai.de und pfadfinder-wt.de wurden über mehrere Jahre mehrfach umgebaut und optimiert. Zuerst waren die Webseiten eigenprogrammiert mit PHP, HTML und CSS (2007-2015). Später wurden die Webseiten zu WordPress migriert. Hierbei wurden die Inhalte über ein eigens entwickeltes Script automatisch in die notwendige WordPress form migriert.

In WordPress wurde eigens eine Bildergalerie entwickelt, da die vorhandenen Addons nicht dem entsprachen, was man wollte (Einfach, unkompliziert und frei von Werbung oder Kosten).

Es wurden auch an einer Archivstruktur programmiert um die Inhalte die sich über Jahre aufgebaut hatten den Besuchern der Webseite einfach zur Verfügung zu stellen.

Das Logo wurde als .svg erstellt, damit es auch auf grösseren Formaten wie LKW-Planen gedruckt werden kann. Neben dem Logo wurden diverse Druckdateien wie Infoflyer oder Zeitschriften erstellt. Teilweise war ich auch Chefredaktor des Magazins „Die Brücke“ des Landesverbands des Bund der Pfadfinderinnen und Pfadfinder Baden-Württemberg.

Die Einrichtung von Google-Analytics wie auch Facebook-Business wurden umgesetzt und regelmässig auf Reichweite ausgewertet.

Die beiden Vereine mussten während der Covid19-Pandemie und den Folgen der mehrmonatigen Kontakt-/Versammlungsbeschränkungen aufgelöst werden.

ascemu.org – OpenSource Projekt

Das OpenSource Projekt „AscEmu“ wollte eine einfache Webseite ohne Verwaltungssystem um Interessenten auf GitHub weiterzuleiten.

Hierfür wurde in PHP, HTML, CSS und JavaScript eine einfache Webseite erstellt, die die neusten aktivitäten von Github darstellt und ein paar Informationen beinhaltet.

Projektbeschreibung

Domainregistration, Webhosting und Eigenentwicklung der Webseite mit Einbindung des Github-Feeds der letzten „Commits“ und Anzeige der Beiträge auf Github wurden umgesetzt. Die Webseite ist damit zwar noch recht statisch, jedoch aktualisieren sich die Inhalte anhand der Aktivität auf GitHub.