Best Picks Labor

Destilliertes Wissen zu Schule und Technik

Quellen via Prompt einbinden

Wenn wir einem Chatbot die Möglichkeit geben auf Informationen im Internet zuzugreifen, erzeugen wir die Illusion davon, dass er weniger Blödsinn erzählt. Sprachmodelle sind aber leider nicht besonders gut darin, richtige von falschen Fakten zu unterscheiden. Eine Websuche liefert einem Bot nur mehr Daten aber es ist nicht garantiert, dass diese korrekt sind

Im Unterricht stellen wir darum meist die Quellen für unsere SuS bereit. Auch bei einem Bot macht dies Sinn. Für das Vertiefen eines grösseren Themas kann dies in Form eines RAG sein.

Eine weitere Möglichkeit ist, dass wir die genauen Quellen vorgeben, diese jedoch nur abgerufen werden, wenn sie gebraucht werden. Damit können wir per Systemprompt viele Quellen einbinden, überfordern das Kontextfenster aber nicht, da der Bot nur auf die Quelle zugreift, wenn sie zum zugehörigen Thema passt.

Dieser Bot greift nicht einfach auf das Web zu sondern auf von mir AUSGEWÄHLTE informationen.

Dieser Bot erhält auf Anfrage gezielt die Informationen vorgegebener Webseiten. Damit können Informationen deutlich gezielter in den Bot fliessen, wenn wir viele Quellen haben und diese das Kontextfenster nicht überlasten dürfen. Die gegebenen URLs könnten zum Beispiel im Systemprompt vorgegeben sein.

Der Bot hat einen etwas grösseren Systemprompt mit dem er als sokratischer Bot funktioniert. Jede Quelle die er hat muss eine Webseite sein. Hinterlegt ist das garantiert nicht in den Trainingsdaten vorhandene Lumsas System (Vom Artikel Teachback) sowie ein Artikel aus einem Kinderlexikon.

Gib ein Start und der Bot gibt dir die Themen vor die möglich sind.

Mit dem Befehl /lehrplan gleicht der Bot die Lernziele mit meine vorgegebenen Auswahl aus dem Bereich Zyklus 3 –> NMG ab. Auch hier sind die Daten vorher aufbereitet und aus einer vorgegebenen Quelle gegeben. W

Vorteile dieses Bots

Der Vorteil dieses Bots ist, dass wir eine Vielzahl von Quellen in einen einzigen Prompt integrieren können ohne dass wir das Kontextfenster überlasten. Der Bot lädt jeweils nur dann Daten, wenn er sie braucht.

Einfachheit: Im Gegensatz zu einem RAG wie beim Teachback Bot (mit Datenbank) lassen sich die Daten mit viel weniger Aufwand integrieren. Gib einfach die entsprechende Seite im Systemprompt an und der Bot holt sich genau nur diese Daten.

Dadurch, dass die Quellen online geholt werden, lässt sich ein solcher Bot auch gut kollaborativ nutzen. Ein einzelner Bot kann eine Vielzahl von Themen abdecken. Die Zugehörigen Daten können irgendwo zugänglich liegen.

Kontrolle: Anders als bei einer klassischen Websuche oder reinen Trainingsdaten, hat man hier deutlich mehr Kontrolle über die Daten, welche der Bot verwendet. Damit lässt sich eine Bandbreite von geschlossenen bis offenen Aufgaben abdecken aber mit der Sicherheit, dass wir alle vom gleichen sprechen.
Gewisse Anbieter erlauben die Websuche auch über ihren vorgegebenen Suchdienst, dies funktioniert aber nur, wenn die Quellen bereits indexiert sind. Mit einer von uns selber vorgegbenen Funktion, können wir direkt auf die gewünschten Quellen zugreifen und wissen, dass die Informationen auch ankommen.

Ökosystem: Die Plattform, auf der dieser Bot läuft ist WordPress. Das ganze lässt sich also unabhängig von den grossen Playern aufziehen und ist darum insbesondere für Schulen interessant. Natürlich werden im Hintergrund derzeit noch llms der grossen Player verwendet, diese sind allerdings weitgehend austauschbar.

Limitationen

Da wir hier keine Vektordatenbank haben, ist die Datenmenge, welche wir bereitstellen können pro Anfrage limitiert. Falls wir sehr viele Daten verwenden wollen, müssen wir also im Voraus überlegen ob wir diese aufteilen müssen.

Der Bot entscheidet hier, welche der gegebenen Quellen er nutzt. Solange die Vorgegebenen Themen sich klar unterscheiden sollte dies gut klappen. schwieriger würde es, wenn die Themen oder Begrifflichkeiten sich überschneiden.

Grundsätzlich kann der Bot mit der Funktion auch mehrere Webseiten gleichzeitig laden. Dies habe ich allerdings noch nicht wirklich getestet.