Nach intensiven Bemühungen, Feldtest-Erfahrungen und Feedbacks können wir nicht länger wegschauen: ChatGPT-4o halluziniert öfter als sein Vorgänger. Aus diesem Grund haben wir entschieden, bei unseren Produkten wieder das ältere GPT-4 als Standardmodel einzusetzen. Dieses schneidet unter den gleichen Rahmenbedingungen besser ab.

 

Aber was kann man eigentlich gegen Halluzination bei KI Sprachmodellen tun?

 

Tatsächlich gibt es verschiedene Einflussfaktoren und Stellschräubchen, an denen man drehen kann:

 

Das richtige LLM auswählen

Sprachmodelle unterschieden sich bezüglich Kosten, Antwortgeschwindigkeit und der Menge der Trainingsdaten. Für uns ist die Halluzinations-Rate aber die wichtigste Eigenschaft, gerade bei Informations-Assistenten, welche sich an die Öffentlichkeit richten. Einen Modellvergleich kannst Du beispielsweise bei Huggingface abrufen. Die oben gezeigten Daten stammen aus dem Leaderboard von Vectara.

 

Den richtigen Kontext bereitstellen

Die zugrundeliegenden Daten sind immer ein Knackpunkt beim Einsatz von KI. Im einfachsten Fall lässt Du das Sprachmodell einfach auf seine Trainingsdaten zurückgreifen. Dann hast Du allerdings keinen Einfluss auf Umfang, Korrektheit, Aktualität oder Bias des Datenkontextes, welcher als Basis für die Antwort des LLMs dient. Wieviel zusätzlichen Kontext du mit deiner Frage übermitteln kannst, ist durch das sogenannte «Context Window» begrenzt. Aus diesem Fall setzen wir mit Runa Flow auf eine sogenannte Retrieval Augmented Generation Pipeline (RAG). Damit können wir auf einen praktisch beliebig grossen eigenen Datensatz zurückgreifen und diesen anhand von Metaeigenschaften und Ähnlichkeiten filtern und gewichten, um am Ende nur den bestmöglich passenden Kontext an das Sprachmodell zu übermitteln.

 

Prompt Engineering

Der «Prompt», also die eingegebene Frage, hat einen wesentlichen Einfluss darauf, wie stark ein Model halluziniert. Je nach Anweisung hält sich das Modell sehr genau an den mitgelieferten Kontext oder verweigert die Antwort komplett, wenn der Datenkontext nicht eindeutig passt oder widersprüchlich ist. Je homogener der Datenkontext ist, desto einfach ist es, einen guten Prompt zu erstellen. Es kann auch vorkommen, dass ein bisher gut funktionierender Prompt nach dem Wechsel auf eine andere LLM Version erneut optimiert werden muss. Einflussfaktoren sind auch die angewiesene «Rolle» und «Temperatur» für die Antwortgenerierung.

 

Was ist mit der Geschwindigkeit?

Wer die neuste ChatGPT-4o Version bereits ausprobiert hat weiss: Die Geschwindigkeit ist massiv verbessert worden. Gerade bei längeren Antworten fällt dies ins Gewicht. Zugegeben, hier gibt es derzeit keine ebenbürtige Lösung. Was wir dank unserer oben erwähnten RAG Pipeline tun können: Den Zusatzkontext bestmöglich vorselektieren. Dadurch verbessert sich auch die Antwortgeschwindigkeit merklich.

 

Ich hoffe, dieser kleine Einblick unserer Tätigkeiten und Herausforderungen bei App Manufacture hilft auch euch ein kleines Stückchen weiter.

Welche Erfahrungen und Inputs habt ihr mit GPT-4o gesammelt? Und wie geht ihr mit Rückschritten um?

Lass es uns gerne wissen 💬

Interesse geweckt?

Kommen Sie auf einen
Kaffee vorbei!

Mit Ihrem Besuch auf unserer Website stimmen Sie unserer Datenschutzerklärung und der Verwendung von Cookies zu. Dies erlaubt uns unsere Services weiter für Sie zu verbessern.