top of page

Daten für KI aufbereiten – mit Qlik Talend Cloud und TOON

Die meisten Unternehmen stehen vor denselben drei Fragen, wenn sie Künstliche Intelligenz sinnvoll einsetzen wollen:

  1. Wie kommen wir an unsere Daten – aus unterschiedlichen Systemen?

  2. Wie bereiten wir diese Daten für KI auf?

  3. Und wie reduzieren wir dabei die Token-Kosten bei der Nutzung von Large Language Models (LLMs)?




In unserem aktuellen Use Case zeigen wir anhand eines Talend-Jobs, wie genau dieser Prozess ablaufen kann – von der Datenintegration bis zur kosteneffizienten Übergabe an KI-Modelle. Die Kombination aus Qlik Talend Cloud und dem neuen, von Leitart entwickelten TOON-Format bietet dabei eine durchgängige Lösung.


Daten aus verschiedenen Quellen zusammenführen – mit Qlik Talend Cloud

In vielen Unternehmen liegen relevante Daten verteilt in unterschiedlichen Systemen – etwa als CSV-Dateien, in CRM-Plattformen wie Salesforce oder in Datenbanken wie Microsoft SQL Server.

Mit Qlik Talend Cloud lassen sich diese Quellen einfach anbinden und in einem gemeinsamen Data Flow zusammenführen. In unserem Beispiel nutzen wir:

  • eine CSV-Datei (users.csv)

  • Salesforce als CRM-System

  • eine MS SQL Server-Datenbank


Diese Daten werden in einem Talend-Job gebündelt und durchlaufen anschließend mehrere Schritte der Datenaufbereitung.


Daten aufbereiten für den Einsatz mit KI

Bevor Daten mit KI verarbeitet werden können – z. B. durch ein Large Language Model (LLM) wie GPT – müssen sie strukturiert, bereinigt und vorbereitet sein. Im Qlik Talend-Prozess übernehmen das Komponenten wie:

  • tMap: Zusammenführung aus mehreren Quellen

  • UniqRow: Entfernung von Duplikaten

  • tSortRow: Sortierung und Strukturierung der Datensätze

Doch genau an diesem Punkt entsteht ein Problem, das viele bisher übersehen: das Format.


⚠️ JSON ist nicht für KI optimiert

Das weit verbreitete JSON-Format ist zwar menschenlesbar und flexibel, aber in der Arbeit mit LLMs sehr ineffizient. Denn:

Jeder Datensatz enthält immer wieder dieselben Feldnamen – das kostet unnötig viele Tokens.

Und da Token die Abrechnungseinheit bei KI-APIs wie OpenAI sind, wird die Verarbeitung von JSON schnell teuer und langsam.


✅ Die Lösung: TOON – Token Oriented Object Notation

Mit TOON bietet Leitart ein kompaktes, leicht lesbares Datenformat, das speziell für KI-Prozesse entwickelt wurde. Es reduziert die Tokenanzahl erheblich – bei gleichbleibender Datenqualität.

Ein direkter Vergleich zeigt den Unterschied:

Format

Dateigröße

Tokenanzahl

JSON

7.000 Bytes

2.800 Tokens

TOON

1.800 Bytes

840 Tokens ✅

Das entspricht einer Reduktion von über 74 % – und damit auch geringeren API-Kosten sowie schnelleren Antwortzeiten der KI-Modelle.


Fazit: Weniger Tokens, mehr Effizienz – dank TOON

Die Kombination aus Qlik Talend Cloud und dem neuen TOON-Format eröffnet neue Möglichkeiten für Unternehmen, ihre Daten nicht nur zu analysieren – sondern auch wirklich KI-bereit zu machen.

TOON ist dabei mehr als nur ein neues Datenformat. Es ist ein echter Effizienzhebel im Zeitalter der tokenbasierten KI-Anwendungen.


Möchtest Du unseren TOON Writer in Deiner Datenpipeline verwenden? Gib uns kurz Bescheid, wir teilen ihn gerne kostenlos mit Dir.

bottom of page