Website - Datenquelle

Verwenden Sie eine einzelne Webseite oder eine gesamte Website als Datenquelle. Dieser Abschnitt beschreibt die Konfiguration des Website-Crawlings.

Info
Wir unterstützen sowohl serverseitig als auch clientseitig gerenderte Webseiten!

Klicken Sie auf Website um eine Webseite oder Website als Datenquelle hinzuzufügen:

data source menu

Folgende Seite öffnet sich:

Connector Initialization

Manuell ausgewählte URLs hinzufügen

Geben Sie die URLs der gewünschten Seiten ein und klicken Sie auf Seite hinzufügen oder drücken Sie Enter. Ihre URLs erscheinen in der Liste unten:

Add first link

Eine gesamte Website crawlen

Geben Sie die URL einer Website ein und klicken Sie auf Seite und Unterseiten hinzufügen. Alle Unterseiten dieser URL werden extrahiert und standardmäßig gruppiert aufgelistet.

Grouped sub-pages

Unterseiten löschen

Entfernen Sie unerwünschte Unterseiten durch Klicken auf die Löschen-Schaltfläche in der Aktion Spalte.

Remove

Unterseiten verschieben

Unterseiten sind standardmäßig gruppiert. Verschieben Sie sie aus ihrer Gruppe durch Klicken auf Verschieben in der Aktion Spalte.

before moving

Übersicht

Beim Extrahieren von Links können einige URLs übersprungen werden – z.B. durch Zeitüberschreitungen oder Website-Einschränkungen (wie robots.txt).

Ein Info-Symbol kann erscheinen. Standardmäßig werden Links übersprungen, die die Original-URL nicht enthalten, da diese zu einer externen Website gehören könnten.

Show skipped-links

Das Modal für übersprungene Links ermöglicht die Überprüfung dieser URLs und deren Hinzufügen zum Datensatz.

Zwei Filter helfen bei der Verwaltung großer Listen:

  • Enthält
  • Endet mit

Diese Filter wählen URL-Gruppen anhand einfacher Textmuster aus.

Funktionsweise

Geben Sie einen Wert in einen der Filter ein:

  • Enthält — wählt URLs aus, die die angegebene Zeichenkette enthalten.
    Beispiel: Filtern mit "/blog/" wählt alle übersprungenen Links unter einem /blog/-Unterpfad aus.
  • Endet mit — wählt URLs aus, die mit dem angegebenen Text enden.
    Beispiel: Filtern mit ".pdf" wählt alle Links zu PDF-Dateien aus.
  • Klicken Sie auf Filter anwenden.

Alle passenden URLs werden automatisch ausgewählt.

Wichtiges Verhalten: Additive Auswahl

Auswahlen sind additiv.
Jeder neue Filter fügt passende URLs zur aktuellen Auswahl hinzu.
Manuell ausgewählte URLs bleiben immer ausgewählt.
Neue Filter entfernen keine zuvor ausgewählten URLs.

Beispiel:

  • URL 1 manuell auswählen.
  • Filter anwenden, der URL 2 und URL 3 auswählt.
  • Endergebnis: URLs 1, 2 und 3 sind ausgewählt.

Erweiterte Einstellungen (optional)

Passen Sie bei Bedarf die Crawling-Parameter an. Standardwerte eignen sich für die meisten Anwendungsfälle. Verfügbare Einstellungen:

  • Maximale Tiefe: Steuert, wie viele Ebenen tief der Crawler Links folgt.
  • Zeitüberschreitung: Legt das Zeitlimit für die Link-Erkennung fest. Der Crawler stoppt frühzeitig, wenn dieses Limit erreicht wird.
  • Cookies: Manche Websites erfordern Cookies für den Zugriff. Geben Sie diese als JSON-Wörterbuch an.
    {
        "session": "abc123",
        "user_id": "789xyz"
    }
  • Token: Manche Websites erfordern ein Token für den Zugriff.
    {
      "token_name": "Bearer your_token_here",
    }
  • Iframes durchsuchen: Steuert, ob der Crawler Iframe-Inhalte prüft. Standardmäßig "auto"; kann bei Bedarf erzwungen werden.
  • Scroll-Strategie: Steuert, wie der Crawler die Seite scrollt, um verzögert geladene Inhalte auszulösen.
  • 404 überspringen: Wenn aktiviert, ignoriert der Crawler fehlerhafte Links (404-Fehler) beim Sammeln von Links.
  • Implizite Zeitüberschreitung: Die feste Wartezeit vor jedem Seitenlade-Versuch.
  • Seitenlade-Zeitüberschreitung: Wie lange der Crawler auf eine vollständige Seitenladung wartet.
  • Skript-Zeitüberschreitung: Wie lange der Crawler auf die Ausführung von JavaScript wartet.
  • Einschließen: HTML-Tags, auf die sich der Crawler beim Sammeln von Links oder Inhalten konzentrieren soll (z.B. <div>, <a>).
  • Ausschließen: HTML-Tags oder Abschnitte, die der Crawler ignorieren soll (z.B. <script>, <footer>).
Settings

Erstellen

Klicken Sie auf Fertig um zur Datenquellenseite zu gelangen. Die ausgewählten Seiten beginnen sofort mit dem Crawling.

Klicken Sie auf Websites aktualisieren um die Häufigkeit automatischer Crawling-Aktualisierungen festzulegen.

Crawling