Website - Datenquelle

Verwenden Sie eine einzelne Webseite oder eine gesamte Website als Datenquelle. Dieser Abschnitt beschreibt die Konfiguration des Website-Crawlings.

Info
Wir unterstützen sowohl serverseitig als auch clientseitig gerenderte Webseiten!

Klicken Sie auf Website um eine Webseite oder Website als Datenquelle hinzuzufügen:

data source menu

Folgende Seite öffnet sich:

Connector Initialization

Manuell ausgewählte URLs hinzufügen

Geben Sie die URLs der gewünschten Seiten ein und klicken Sie auf Seite hinzufügen oder drücken Sie Enter. Ihre URLs erscheinen in der Liste unten:

Add first link

Eine gesamte Website crawlen

Geben Sie die URL einer Website ein und klicken Sie auf Seite und Unterseiten hinzufügen. Alle Unterseiten dieser URL werden extrahiert und standardmäßig gruppiert aufgelistet.

Grouped sub-pages

Unterseiten löschen

Entfernen Sie unerwünschte Unterseiten durch Klicken auf die Löschen-Schaltfläche in der Aktion Spalte.

Remove

Unterseiten verschieben

Unterseiten sind standardmäßig gruppiert. Verschieben Sie sie aus ihrer Gruppe durch Klicken auf Verschieben in der Aktion Spalte.

before moving

Übersicht

Beim Extrahieren von Links können einige URLs übersprungen werden – z.B. durch Zeitüberschreitungen oder Website-Einschränkungen (wie robots.txt).

Ein Info-Symbol kann erscheinen. Standardmäßig werden Links übersprungen, die die Original-URL nicht enthalten, da diese zu einer externen Website gehören könnten.

Show skipped-links

Das Modal für übersprungene Links ermöglicht die Überprüfung dieser URLs und deren Hinzufügen zum Datensatz.

Zwei Filter helfen bei der Verwaltung großer Listen:

  • Enthält
  • Endet mit

Diese Filter wählen URL-Gruppen anhand einfacher Textmuster aus.

Funktionsweise

Geben Sie einen Wert in einen der Filter ein:

  • Enthält — wählt URLs aus, die die angegebene Zeichenkette enthalten.
    Beispiel: Filtern mit "/blog/" wählt alle übersprungenen Links unter einem /blog/-Unterpfad aus.
  • Endet mit — wählt URLs aus, die mit dem angegebenen Text enden.
    Beispiel: Filtern mit ".pdf" wählt alle Links zu PDF-Dateien aus.
  • Klicken Sie auf Filter anwenden.

Alle passenden URLs werden automatisch ausgewählt.

Wichtiges Verhalten: Additive Auswahl

Auswahlen sind additiv.
Jeder neue Filter fügt passende URLs zur aktuellen Auswahl hinzu.
Manuell ausgewählte URLs bleiben immer ausgewählt.
Neue Filter entfernen keine zuvor ausgewählten URLs.

Beispiel:

  • URL 1 manuell auswählen.
  • Filter anwenden, der URL 2 und URL 3 auswählt.
  • Endergebnis: URLs 1, 2 und 3 sind ausgewählt.

Erweiterte Einstellungen (optional)

Passen Sie bei Bedarf die Crawling-Parameter an. Standardwerte eignen sich für die meisten Anwendungsfälle. Verfügbare Einstellungen:

  • Maximale Tiefe: Steuert, wie viele Ebenen tief der Crawler Links folgt.
  • Zeitüberschreitung: Legt das Zeitlimit für die Link-Erkennung fest. Der Crawler stoppt frühzeitig, wenn dieses Limit erreicht wird.
  • Cookies: Manche Websites erfordern Cookies für den Zugriff. Geben Sie diese als JSON-Wörterbuch an.
    {
        "session": "abc123",
        "user_id": "789xyz"
    }
  • Token: Manche Websites erfordern ein Token für den Zugriff.
    {
      "token_name": "Bearer your_token_here",
    }
  • Iframes durchsuchen: Steuert, ob der Crawler Iframe-Inhalte prüft. Standardmäßig "auto"; kann bei Bedarf erzwungen werden.
  • Scroll-Strategie: Steuert, wie der Crawler die Seite scrollt, um verzögert geladene Inhalte auszulösen.
  • 404 überspringen: Wenn aktiviert, ignoriert der Crawler fehlerhafte Links (404-Fehler) beim Sammeln von Links.
  • Implizite Zeitüberschreitung: Die feste Wartezeit vor jedem Seitenlade-Versuch.
  • Seitenlade-Zeitüberschreitung: Wie lange der Crawler auf eine vollständige Seitenladung wartet.
  • Skript-Zeitüberschreitung: Wie lange der Crawler auf die Ausführung von JavaScript wartet.
  • Einschließen: HTML-Tags, auf die sich der Crawler beim Sammeln von Links oder Inhalten konzentrieren soll (z.B. <div>, <a>).
  • Ausschließen: HTML-Tags oder Abschnitte, die der Crawler ignorieren soll (z.B. <script>, <footer>).
Settings

Erstellen

Klicken Sie auf Fertig um zur Datenquellenseite zu gelangen. Die ausgewählten Seiten beginnen sofort mit dem Crawling.

Klicken Sie auf Websites aktualisieren um die Häufigkeit automatischer Crawling-Aktualisierungen festzulegen.

Crawling

Sie können mehrere Links gleichzeitig über die Kontrollkästchen auf der linken Seite jeder Zeile auswählen.

Website link table with checkboxes

Sobald ein oder mehrere Links ausgewählt sind, erscheint eine Stapelaktions-Leiste über der Tabelle mit folgenden Aktionen:

  • Ausgewählte Links erneut versuchencrawlt alle ausgewählten Website-Links parallel erneut. Nützlich für das erneute Indizieren von Links, die zuvor fehlgeschlagen sind oder aktualisiert werden müssen.
  • Löschenentfernt alle ausgewählten Links dauerhaft aus dem Connector.
Batch action toolbar with retry and delete buttons
Tipp
Die Schaltfläche 'Ausgewählte Links erneut versuchen' erscheint nur, wenn mindestens eine der ausgewählten Zeilen zu einem Website-Connector gehört. Wenn ein Link ein Warnsymbol anzeigt (nicht erreichbar), wird durch Auswählen und erneutes Versuchen ein erneutes Crawling versucht.