Daten für KI aufbereiten – mit Qlik Talend Cloud und TOON
- larissamiddendorf7
- vor 13 Stunden
- 2 Min. Lesezeit
Die meisten Unternehmen stehen vor denselben drei Fragen, wenn sie Künstliche Intelligenz sinnvoll einsetzen wollen:
Wie kommen wir an unsere Daten – aus unterschiedlichen Systemen?
Wie bereiten wir diese Daten für KI auf?
Und wie reduzieren wir dabei die Token-Kosten bei der Nutzung von Large Language Models (LLMs)?
In unserem aktuellen Use Case zeigen wir anhand eines Talend-Jobs, wie genau dieser Prozess ablaufen kann – von der Datenintegration bis zur kosteneffizienten Übergabe an KI-Modelle. Die Kombination aus Qlik Talend Cloud und dem neuen, von Leitart entwickelten TOON-Format bietet dabei eine durchgängige Lösung.
Daten aus verschiedenen Quellen zusammenführen – mit Qlik Talend Cloud
In vielen Unternehmen liegen relevante Daten verteilt in unterschiedlichen Systemen – etwa als CSV-Dateien, in CRM-Plattformen wie Salesforce oder in Datenbanken wie Microsoft SQL Server.
Mit Qlik Talend Cloud lassen sich diese Quellen einfach anbinden und in einem gemeinsamen Data Flow zusammenführen. In unserem Beispiel nutzen wir:
eine CSV-Datei (users.csv)
Salesforce als CRM-System
eine MS SQL Server-Datenbank
Diese Daten werden in einem Talend-Job gebündelt und durchlaufen anschließend mehrere Schritte der Datenaufbereitung.
Daten aufbereiten für den Einsatz mit KI
Bevor Daten mit KI verarbeitet werden können – z. B. durch ein Large Language Model (LLM) wie GPT – müssen sie strukturiert, bereinigt und vorbereitet sein. Im Qlik Talend-Prozess übernehmen das Komponenten wie:
tMap: Zusammenführung aus mehreren Quellen
UniqRow: Entfernung von Duplikaten
tSortRow: Sortierung und Strukturierung der Datensätze
Doch genau an diesem Punkt entsteht ein Problem, das viele bisher übersehen: das Format.
⚠️ JSON ist nicht für KI optimiert
Das weit verbreitete JSON-Format ist zwar menschenlesbar und flexibel, aber in der Arbeit mit LLMs sehr ineffizient. Denn:
Jeder Datensatz enthält immer wieder dieselben Feldnamen – das kostet unnötig viele Tokens.
Und da Token die Abrechnungseinheit bei KI-APIs wie OpenAI sind, wird die Verarbeitung von JSON schnell teuer und langsam.
✅ Die Lösung: TOON – Token Oriented Object Notation
Mit TOON bietet Leitart ein kompaktes, leicht lesbares Datenformat, das speziell für KI-Prozesse entwickelt wurde. Es reduziert die Tokenanzahl erheblich – bei gleichbleibender Datenqualität.
Ein direkter Vergleich zeigt den Unterschied:
Format | Dateigröße | Tokenanzahl |
JSON | 7.000 Bytes | 2.800 Tokens |
TOON | 1.800 Bytes | 840 Tokens ✅ |
Das entspricht einer Reduktion von über 74 % – und damit auch geringeren API-Kosten sowie schnelleren Antwortzeiten der KI-Modelle.
Fazit: Weniger Tokens, mehr Effizienz – dank TOON
Die Kombination aus Qlik Talend Cloud und dem neuen TOON-Format eröffnet neue Möglichkeiten für Unternehmen, ihre Daten nicht nur zu analysieren – sondern auch wirklich KI-bereit zu machen.
TOON ist dabei mehr als nur ein neues Datenformat. Es ist ein echter Effizienzhebel im Zeitalter der tokenbasierten KI-Anwendungen.
Möchtest Du unseren TOON Writer in Deiner Datenpipeline verwenden? Gib uns kurz Bescheid, wir teilen ihn gerne kostenlos mit Dir.
