Website - Source de données

Vous pouvez utiliser comme source de données une page web ou un site web entier. Dans cette section, nous décrivons comment utiliser un site web comme source de données.

info

Notez que nous supportons à la fois les pages web rendues côté serveur et côté client !

Cliquez sur Website pour ajouter une page web ou un site web en tant que source de données :

Vous arriverez à la page suivante :

Ajouter des URLs manuellement

Entrez les URLs des pages que vous souhaitez ajouter et cliquez sur Ajouter une page ou appuyez sur Entrée. Vos URLs apparaîtront dans la liste ci-dessous :

Saisie
Ajouté

Explorer un site web entier

Entrez l'URL d'un site web que vous souhaitez ajouter et cliquez sur Ajouter une page et ses sous-pages. Vous extrayez toutes les sous-pages sous l'URL particulière. Vous avez maintenant une liste de toutes les URLs sous le site web que vous avez spécifié, qui peuvent être regroupées.

Regrouper les sous-pages
Afficher les sous-pages

Supprimer des sous-pages

Certaines sous-pages pourraient ne pas vous intéresser, vous pouvez les supprimer en cliquant sur le bouton de suppression (dans la colonne Action).

Déplacer des sous-pages

Certaines sous-pages sont initialement regroupées, mais vous pouvez les déplacer en dehors de leur groupe en cliquant sur le bouton Déplacer (dans la colonne Action).

Avant
Après

Filtrage des liens ignorés

Aperçu

Lors de l'extraction des liens, certaines URLs peuvent être ignorées — par exemple en raison de délais d'attente ou de restrictions du site web (comme robots.txt).

Vous pouvez voir uni symbole. Par défaut, l'extraction ignore les liens qui ne contiennent pas l'URL d'origine, car il peut s'agir de pages provenant d'un autre site.

La fenêtre modale des liens ignorés permet aux utilisateurs de revoir ces URLs et éventuellement de les réintégrer dans leur ensemble de données.

Pour aider à gérer des listes très longues, deux filtres sont disponibles :

Contient
Se termine par

Ces filtres facilitent la sélection de groupes d'URLs basés sur des motifs de texte simples.

Comment ça fonctionne

Saisissez une valeur dans l'un des filtres :

Contient → sélectionne les URLs qui contiennent la sous-chaîne fournie.
Exemple : filtrer avec "/blog/" sélectionne tous les liens ignorés sous le sous-chemin /blog/ (par ex. /blog/post-1, /blog/archive/...).
Se termine par → sélectionne les URLs qui se terminent par le texte fourni.
Exemple : filtrer avec ".pdf" sélectionne tous les liens pointant vers des fichiers PDF.
Cliquez sur Appliquer les filtres.

Toutes les URLs correspondantes sont automatiquement sélectionnées.

Comportement important : sélection additive

Les sélections sont additives.
L'application d'un nouveau filtre ajoute les URLs correspondantes à la sélection en cours.
Les URLs sélectionnées manuellement restent toujours sélectionnées.
Les nouveaux filtres ne suppriment pas les URLs précédemment sélectionnées.

Exemple :

Vous sélectionnez l'URL 1 manuellement.
Vous appliquez un filtre correspondant à l'URL 2 et l'URL 3.
Résultat final : les URLs 1, 2 et 3 sont sélectionnées.

Paramètres avancés (optionnel)

Vous pouvez personnaliser les paramètres de crawl du site web si nécessaire (les paramètres par défaut conviennent pour une utilisation générale). Cela inclut par exemple :

Détection automatique des liens (uniquement pour l'extraction des hyperliens)

Profondeur maximale : Cela contrôle jusqu'où le système doit aller lorsqu'il explore les pages pour trouver des liens. Imaginez un site web comme un arbre avec de nombreuses branches (pages). Cela définit jusqu'où dans ces branches l'outil doit aller.
Timeout: Il s'agit d'une limite de temps pour la durée pendant laquelle l'outil passera à la recherche de liens. S'il met trop de temps à en trouver davantage, il s'arrêtera plus tôt. Cela aide à éviter de perdre du temps.

Authentification (Pour l'extraction des liens et l'indexation des pages)

Cookies: Certains sites web nécessitent des "passes" spéciales pour laisser l'outil entrer. Ces passes sont appelées cookies, et vous pouvez les considérer comme des tickets qui permettent à l'outil de collecter des informations sur le site. Les cookies doivent être ajoutés sous forme de dictionnaire (un format spécial pour organiser les données). Exemple :
```
{
    "session": "abc123",
    "user_id": "789xyz"
}
```
Token: Certains sites web ont besoin d'un jeton spécifique (un code secret) pour autoriser le scraping. L'outil utilisera ce jeton et son nom pour accéder au site, ces valeurs sont définies dans le stockage local du site web et la page est rechargée.
```
{
  "token_name": "Bearer your_token_here",
}
```

Paramètres supplémentaires (Pour l'extraction des liens et l'indexation des pages)

Recherche d'iframes: Certains sites web utilisent des "iframes", qui sont comme des fenêtres à l'intérieur d'une page affichant d'autres contenus. Cette option décide si l'outil doit regarder à l'intérieur de ces fenêtres. Elle est réglée sur "auto" par défaut mais peut être forcée si nécessaire.
Stratégie de défilement: Certains sites web chargent plus de contenu lorsque vous faites défiler la page, comme une page sans fin. Ce paramètre aide à contrôler comment l'outil doit faire défiler la page pour s'assurer que tout se charge.
Ignorer 404: Lorsqu'une page n'existe pas (une erreur "404"), ce paramètre décide si l'outil doit ignorer ce lien cassé ou arrêter d'essayer d'y accéder. Cela ne concerne que la collecte des liens.

Paramètres du pilote (Pour l'extraction des liens et l'indexation des pages)

Délai d'attente implicite : C'est le temps que l'outil attendra toujours avant d'essayer de charger une page. C'est comme donner à l'outil une courte pause avant de passer à l'étape suivante.
Délai d'attente de chargement de la page : Cela définit combien de temps l'outil attendra qu'une page se charge complètement, y compris toutes les images et scripts (comme JavaScript). S'il faut trop de temps, il arrêtera d'attendre.
Délai d'attente du script : C'est spécifiquement pour combien de temps l'outil attendra que le code JavaScript s'exécute. Si le code prend trop de temps, l'outil s'arrêtera et passera à autre chose.

Ajouter des filtres (Pour l'extraction des liens et l'indexation des pages)

Inclure: C'est une liste de balises (parties d'une page web) sur lesquelles l'outil doit se concentrer lors de la collecte des liens ou du contenu. Par exemple, vous pouvez lui dire de regarder des sections spécifiques, comme les balises <div> ou <a>.
Exclure: C'est le contraire. Ici, vous listez les balises ou sections que l'outil doit ignorer lors de la collecte d'informations. Par exemple, vous pouvez lui dire de ne pas regarder les publicités ou les sections inutiles, comme <script> ou <footer>.

Créer

Après avoir cliqué sur le bouton Terminer, vous serez redirigé vers la page de la source de données et les pages sélectionnées seront explorées.

Cliquez sur Mettre à jour les sites web pour sélectionner la fréquence des mises à jour automatiques de l'exploration pour vos liens.

Connecteur créé
Explorer à nouveau

Ajouter des URLs manuellement​

Explorer un site web entier​

Supprimer des sous-pages​

Déplacer des sous-pages​

Filtrage des liens ignorés​

Paramètres avancés (optionnel)​

Détection automatique des liens (uniquement pour l'extraction des hyperliens)​

Authentification (Pour l'extraction des liens et l'indexation des pages)​

Paramètres supplémentaires (Pour l'extraction des liens et l'indexation des pages)​

Paramètres du pilote (Pour l'extraction des liens et l'indexation des pages)​

Ajouter des filtres (Pour l'extraction des liens et l'indexation des pages)​

Créer​