eine Frau sitzt vor einem Bildschirm mit einem Crawlerprofil

Wie funktioniert eigentlich ein Stellenanzeigen-Crawler?

2 Minuten

Damit wir zu unseren Arbeitsmarktdaten kommen, ist für uns ein Stellenanzeigen-Crawler im Netz unterwegs. Wie funktioniert dieser?

Ein Stellenanzeigen-Crawler ist ein automatisiertes System, das öffentlich zugängliche Unternehmenswebsites nach offenen Stellen durchsucht. Er folgt Links, ruft Seiten auf und sammelt diejenigen Inhalte, die für eine Stellenanzeige relevant sind. Das klingt alles sehr nach Agentic-AI, aber tatsächlich sind unsere Crawler schon seit 2012 im Einsatz. Also lange bevor es Agentic-AI gab.

Was macht ein Stellenanzeigen-Crawler konkret?

Ein Crawler besucht Stellenseiten in festgelegten Intervallen. Dabei lädt er ausgewählte Elemente der HTML-Seite herunter. Typischerweise gehören dazu:

  • Stellentitel
  • Stellentext
  • Arbeitsort
  • URL der Stelle

Die Schwierigkeit dabei: Karriereseiten sind nicht standardisiert. Jede Arbeitgeberseite ist anders aufgebaut, verwendet andere HTML-Strukturen, andere Bezeichnungen und andere Navigationslogiken. Deshalb programmieren wir Crawlerprofile oft für jede Stellenseite individuell.

Ein paar x28-Crawler-Facts

  • Crawlingintervalle zwischen 2 und 48 Stunden
  • Mehr als 20’000 Crawlerprofile
  • Über 224’000 Crawl-Jobs pro Tag

Informationen sind noch kein nutzbarer Datensatz

Die gecrawlten Informationen sind im Rohzustand noch nicht sinnvoll verwertbar. Sie sind unübersichtlich und enthalten noch keine hilfreichen Metadaten. Ohne weitere Verarbeitung fehlen zentrale Informationen wie ein standardisierter und vergleichbarer Beruf, die zugeordnete Berufsgruppe, ein einheitlicher Arbeitsort, das erkannte Anstellungsverhältnis oder die passenden Skills.

Dafür werden weitere Systeme eingebunden. Die x28-Ontologie hilft dabei, Jobtitel und Begriffe zu normalisieren und passenden Berufskategorien zuzuordnen. Anhand von Extraktionslogiken erkennen wir zusätzliche Informationen im Text, etwa vorausgesetzte Skills oder Kontaktdaten.

Was ein Stellenanzeigen-Crawler leistet

Entscheidend ist, dass aus grossen Mengen heterogener Quellen ein konsistenter, filterbarer und analysierbarer Datenbestand entsteht.

Erst mit aufbereiteten Metadaten lassen sich Fragen beantworten wie:

  • Welche Berufe werden aktuell in einer Region besonders stark nachgefragt?
  • Welche Skills tauchen in einer Berufsgruppe gehäuft auf?
  • Welche Firmen suchen in welchem Segment besonders intensiv?
  • Welche Veränderungen zeigen sich im Arbeitsmarkt über die Zeit?

Ein moderner Stellenanzeigen-Crawler ist der erste Baustein in dieser gesamten Verarbeitungskette. Aber ein ganz wichtiger. Eine gute Arbeitsmarktdatenerfassung kann darüber hinaus:

  • Inhalte sauber extrahieren
  • Dubletten erkennen
  • Veränderungen schnell erfassen
  • Jobtitel normalisieren
  • Skills und weitere Metadaten anreichern
  • Daten such- und analysierbar machen

Erst diese Kombination macht es möglich, aus einzelnen Web-Inseraten einen Informationsvorsprung zu gewinnen.

Möchten Sie von den Arbeitsmarktdaten profitieren, die unser Crawler täglich sammelt? Abonnieren Sie unseren Jobradar.

Arbeitsmarkt Schweiz Crawling Digitalisierung Event Fachkräftemangel Jobradar Künstliche Intelligenz Recruiting/HR Skills Wirtschaftstrends Zukunft der Arbeit