Document - Source de données
Vous pouvez utiliser comme source de données un ou plusieurs documents. Dans cette section, nous décrivons comment télécharger des documents en tant que source de données.
Cliquez sur Document pour ajouter des documents en tant que source de données :
Téléverser
Téléversez vos fichiers (cliquez ou glissez-déposez dans la zone dédiée) :
Les formats de fichiers suivants sont actuellement pris en charge : .txt, .html, .md, .ods, .docx, .xlsx, .doc, .rtf, .odt, .csv, .pdf, .pptx
- Vide
- Fichiers sélectionnés
Reconnaissance optique de caractères (OCR)
Pour activer la fonction OCR, cliquez sur le bouton d'activation situé à droite du document sur lequel vous souhaitez appliquer l'OCR.
L'OCR est le processus de conversion d'une image de texte en un format texte lisible par machine. Par exemple, si vous scannez un document texte, votre ordinateur enregistre le scan sous forme de fichier image. Vous ne pouvez pas utiliser un éditeur de texte pour modifier, rechercher ou compter les mots dans le fichier.
Cependant, vous pouvez utiliser l'OCR pour convertir l'image en un document texte, dont le contenu sera stocké sous forme de données textuelles.
Une fois que vous avez spécifié tous vos documents, cliquez sur "Terminer". Vous serez redirigé vers la page de la source de données :
Si vous avez besoin de fichiers pour tester cette source de données, vous pouvez utiliser cette collection de PDF sur les Simpson que vous trouverez ici :
Ces documents proviennent de le wiki des Simpsons
Ici, vous pouvez accéder à une interface de recherche basée sur cette collection de PDF, vous pouvez l'essayer vous-même !