Parsing-Optionen

Der Dialog „Parsing-Optionen“ steuert, wie QAnswer Ihre hochgeladenen Dokumente in einen durchsuchbaren Index umwandelt. An einer Stelle können Sie das Embedding-Modell wählen, das Aufteilen der Dokumente in Chunks einstellen, zwischen der hochpräzisen und der schnellen Indexierungs-Pipeline wechseln, den LLM-Indexierungs-Prompt anpassen und nach jeder Änderung eine vollständige Neuindexierung erzwingen.

Dialog öffnen

Öffnen Sie die Seite Daten hinzufügen Ihres Assistenten und klicken Sie auf die Schaltfläche

Zahnrad-Schaltfläche „Einstellungen“ auf der Seite „Daten hinzufügen“

Der Dialog ist in zwei Registerkarten gegliedert:

  • Indexierung — wie Text aus Ihren Dateien extrahiert und der Assistent neu verarbeitet wird.
  • Embedding & Chunking — welches Embedding-Modell verwendet wird und wie Dokumente in Chunks aufgeteilt werden.

Registerkarte „Indexierung“

Registerkarte „Indexierung“ des Dialogs „Parsing-Optionen“

Schnelle Indexierung

Standardmäßig verwendet QAnswer eine hochpräzise Pipeline für genaue, zuverlässige Ergebnisse. Das Aktivieren der schnellen Indexierung wechselt zu einer einfacheren, deutlich schnelleren Pipeline. Verwenden Sie sie, wenn Sie große Mengen schnell indexieren müssen und Ihre Dokumente ein einfaches Layout haben.

Warnung
Die schnelle Indexierung kann die Präzision bei komplexen Layouts, gescannten Dokumenten oder PDFs mit gemischten Inhalten verringern. Bei aktivierter Option wird eine Warnung angezeigt.
Schnelle Indexierung aktiviert, mit Präzisionswarnung

LLM-Indexierung

Sofern Ihr Tarif dies unterstützt, liest ein Sprachmodell jedes Dokument während der Indexierung — besonders nützlich für gescannte Seiten und Bilder. Sie können den Extraktions-Prompt anpassen und das LLM sowie dessen Parameter (Kontextfenster, maximale Antwortlänge, Temperatur) wählen.

Info
Der Abschnitt „LLM-Indexierung“ erscheint nur, wenn das LLM-Parsing für Ihre Organisation verfügbar ist.

Neuindexierung erzwingen

Verarbeitet alle hochgeladenen Dateien erneut durch die vollständige Pipeline, sodass der gesamte Assistent mit Ihren neuesten Embedder- und Parsing-Einstellungen neu aufgebaut wird. Nützlich nach dem Ändern des Embedding-Modells oder einer Parsing-Option, da bestehende Dateien bis zur Neuverarbeitung die Einstellungen behalten, mit denen sie indexiert wurden.

Vor dem Start der Neuindexierung ist eine Bestätigung erforderlich. Sie läuft im Hintergrund und kann je nach Anzahl und Größe Ihrer Dateien eine Weile dauern.

Bestätigungsdialog für die erzwungene Neuindexierung

Registerkarte „Embedding & Chunking“

Registerkarte „Embedding & Chunking“ des Dialogs „Parsing-Optionen“

Embedding-Modell

Wählen Sie das Embedding-Modell, mit dem Ihre Dokumente vektorisiert werden. Das Modell bestimmt, wie Text für die semantische Suche dargestellt wird. Für das ausgewählte Modell werden zwei wichtige Eigenschaften angezeigt:

  • Kontextfenster — die maximale Anzahl von Tokens, die das Modell auf einmal einbetten kann. Ihre Chunk-Größe muss innerhalb dieses Limits bleiben.
  • Dimension — die Größe des Vektors, in den jeder Chunk umgewandelt wird.
Warnung
Das Ändern des Embedding-Modells indexiert alle Dateien des Assistenten neu. Während die Indexierung noch läuft, ist die Auswahl deaktiviert, da ein Modellwechsel mitten in der Indexierung die in Bearbeitung befindlichen Dateien verwerfen würde.

Aufteilungs-Optionen

Dokumente werden vor dem Embedding in kleinere Chunks zerlegt. Diese Optionen steuern, wie die Aufteilung erfolgt:

  • Aufteilen nach — die Einheit zur Messung jedes Chunks: Wörter, Sätze oder Seiten.
  • Aufteilungslänge — wie viele Einheiten jeder Chunk enthält.
  • Überlappung — wie viele Einheiten zwischen aufeinanderfolgenden Chunks wiederholt werden, damit an den Chunk-Grenzen kein Kontext verloren geht (bei seitenbasierter Aufteilung auf 0 festgelegt).

Mit „Auf Standard zurücksetzen“ stellen Sie die empfohlenen Aufteilungseinstellungen des gewählten Embedders wieder her.

Vorschau der Chunk-Anordnung

Klicken Sie auf „Vorschau anzeigen“, um eine beispielhafte Anordnung zu sehen, wie ein Beispieldokument mit den aktuellen Einstellungen aufgeteilt würde — Chunk-Anzahl, Chunk-Größe, Überlappung und der resultierende Schritt zwischen Chunks. Die Vorschau ist nur ein Beispiel; die tatsächliche Anzahl der Chunks hängt von der Größe Ihrer Dokumente ab.

Vorschau der Chunk-Anordnung mit Chunks, Überlappung und Zusammenfassung

Änderungen speichern

Die Schaltfläche „Speichern“ ist nur aktiv, wenn es ungespeicherte Änderungen gibt. Wenn Sie das Embedding-Modell geändert haben, müssen Sie die Änderung vor dem Speichern bestätigen, da sie eine vollständige Neuindexierung des Assistenten auslöst.