Wir haben zwei KI-unterstützte Angebote entwickelt, die Menschen helfen, deutsche Online-Texte zu verstehen. Das erste ist eine Internet-App, mit der du deine eigenen Texte vereinfachen kannst. Das andere ist eine Browser-Erweiterung, die automatisch Texte auf Webseiten für dich zusammenfasst. Beide verwenden ein KI-basiertes Sprachmodell, um deutschsprachige Texte automatisch zu vereinfachen.
Vereinfachung bedeutet, die Komplexität zu reduzieren, während die Kernbotschaft erhalten bleibt. Dabei werden längere Wörter durch kürzere Synonyme ersetzt, Sätze verkürzt oder zusätzliche Informationen eingefügt, um Zusammenhänge aufzuzeigen und zu erklären. Das Modell, das diese Vereinfachungen ermöglicht, wurde mit Nachrichtenartikeln trainiert und evaluiert. Deshalb sind unsere Angebote besser für diese Art von Webinhalten geeignet.
Unsere Browser-Erweiterung scannt die ersten 2600 Wörter auf einer Webseite, um diese vereinfacht zusammenzufassen. Falls du also einen längeren deutschsprachigen Text vereinfachen und zusammenfassen willst, kannst du dafür unsere Internet-App (der Textvereinfacher) nutzen. Diese hat kein Wortlimit bei ihrer Analyse von Texten.
Bitte beachte, dass wir nicht garantieren können, dass das Modell immer korrekte Informationen liefert. Simba basiert auf einem Textgenerierungsmodell, und wie andere Generierungsmodelle kann es in einigen Fällen „halluzinieren“. Bitte vergleiche die Ausgabe mit dem Eingabetext, um den Inhalt zu überprüfen. Du kannst unserer Browser-Erweiterung auch Feedback geben, wie du die erstellte Zusammenfassung findest. Damit hilfst du uns, das KI-Modell zu verbessern.
Unsere KI-unterstützten Angebote für Textvereinfachung wurden von Mitgliedern der Forschungsgruppe “Public Interest AI” am Alexander von Humboldt Institut für Internet und Gesellschaft entwickelt. Das übergeordnete Ziel der Forschungsgruppe ist es, herauszuarbeiten, welche Eigenschaften sogenannte KI im öffentlichen Interesse bzw. gemeinwohlorientierte KI haben sollte (unsere Gedanken dazu findest du auf publicinterest.ai).
Wir möchten diese Eigenschaften auch in praktischen Prototypen umsetzen. Simba ist einer davon. Konkret bedeutet dies, dass der Code und die Modelle hinter Simba Open Source sind. Das ermöglicht nicht nur eine Zusammenarbeit mit andern, sondern bietet auch eine sinnvolle Transparenz über das System. Die Funktionalität von Simba ist auch ein Schritt in Richtung eines größeren Ziels, das wir im öffentlichen Interesse sehen: Online-Texte (und damit das Internet) zugänglicher für alle Menschen zu machen.
Es gibt verschiedene Methoden, um automatisch eine Zusammenfassung zu erstellen. Simba basiert auf einem sogenannten „Textgenerierungsmodell“. Diese Textgenerierungsmodelle werden auch als Large Language Models oder Foundation Models bezeichnet: ChatGPT und Llama sind Beispiele dafür. Es handelt sich um sehr große neuronale Netzwerke, die mit einer großen Menge an Textdaten gefüttert werden. Diese Netzwerke werden darauf trainiert, zu berechnen, welches Wort in einer Sequenz am wahrscheinlichsten als nächstes kommt.
Wir haben deutschsprachige Zeitungsartikel verwendet, die vereinfacht wurden, um das Foundation-Modell Llama-3-8B-Instruct feinabzustimmen. Wir nutzen Artikel der Austria Presse Agentur, die von professionellen Übersetzer:innen vereinfacht wurden. Sie sind auf die Niveaus B1 und A2 des Gemeinsamen Europäischen Referenzrahmens für Sprachen (GER) vereinfacht. Eine Stichprobe des Datensatzes findest du hier.
Wie bei allen Textgenerierungsmodellen, und wie in den Beispieltexten zu sehen ist, können die automatisch generierten Zusammenfassungen und Vereinfachungen Informationen enthalten, die nicht der Wahrheit entsprechen. Diese werden auch „Halluzinationen“ genannt. Wir empfehlen, den Eingabe- und Ausgabetext zu vergleichen, um sicherzustellen, dass die Ausgabe faktisch korrekt ist.
Die Ausgabe kann auch wiederholte Informationen enthalten. Wir haben unser Modell auf Zeitungsartikel aus Österreich abgestimmt, was bedeutet, dass unser Modell mit diesem Texttyp am besten funktioniert und die Ausgaben sprachliche Merkmale enthalten können, die einzigartig für das österreichische Deutsch sind.
Unser Code-Repository findest du hier und eine Stichprobe des Datensatzes hier. Wenn deine Frage nicht beantwortet wird, kannst du gerne ein Issue in unserem Code-Repository erstellen.