
Geht man jedoch darüber hinaus und wendet diese Modelle auf strukturierte, tabellarische Daten an, die für die operativen Aufgaben von Unternehmen wesentlich sind, steht man vor einigen Herausforderungen. Dieses Ungleichgewicht ist teilweise auf die Verfügbarkeit von Trainingsdaten zurückzuführen. Texte zum Trainieren von Modellen sind reichlich vorhanden und werden häufig aus dem Internet gezogen. Tabellarische Daten hingegen, vor allem solche mit mehreren verknüpften Tabellen, sind rar.
Um die Fortschritte von KI in den Unternehmenskontext zu übertragen, benötigen Forschende, die sich mit Trainings und Vergleichen der Leistungsfähigkeit dieser Modelle im Unternehmensumfeld beschäftigen, realistische tabellarische Daten. Aus diesem Grund hat die SAP „Sales Autocompletion Linked Business Tables“ (SALT) entwickelt. Dabei handelt es sich um einen eigens zusammengestellten Datensatz mit anonymisierten Daten aus dem ERP-System eines Kunden.
SALT wurde speziell zur Unterstützung von Forschenden entwickelt, die an KI-Modellen für praxisbezogene Geschäftskontexte arbeiten. Zugänglich ist SALT über Hugging Face und GitHub.
Herausforderungen: Beschaffung und Umgang mit Unternehmensdaten
Bislang ist es kein leichtes Unterfangen, der Forschungsgemeinschaft realistische Unternehmensdaten wie SALT zur Verfügung zu stellen. Datenschutz, Vertraulichkeit und wirtschaftliche Interessen erschweren es, große, bereinigte, hochwertige Unternehmensdatensätze für das Training und Benchmarking von Modellen für bestimmte Anwendungsfälle zu beschaffen. Das bedeutet, dass die Kluft zwischen den Daten, mit denen Forschende arbeiten, und den tatsächlichen Unternehmensdaten wächst.
Zu dem Problem der mangelnden Verfügbarkeit kommt hinzu, dass Unternehmensdaten komplex sind. Zunächst werden Geschäftsdaten in der Regel in mehreren miteinander verbundenen Tabellen gespeichert. Ein Eintrag in einem Kundenauftrag kann etwa mit zahlreichen Tabellen verbunden sein, beispielsweise Kundennummern, die mit einer Lieferantentabelle mit Adressdaten verknüpft sind. Zweitens sind Tabellen per se heterogen in Bezug auf die Datentypen, die sie enthalten können. So ist ein Feld zum Beispiel ein Textfeld, ein anderes kann dagegen numerische oder kategorische Werte enthalten. Schließlich weisen Geschäftsdaten häufig erhebliche Ungleichgewichte in Bezug auf Spalten auf. Das heißt, dass eine bestimmte Produktkategorie beispielsweise in bis zu 90 Prozent aller Kundenaufträge enthalten sein kann, während andere nur selten vorkommen.
Der beste Weg, um Forschende bei der Entwicklung von Unternehmensmodellen für diese Herausforderungen zu unterstützen, besteht darin, präzise Unternehmensdaten bereitzustellen.
SALT – der neue Datensatz
Präzise Unternehmensdaten sind in der KI-Forschung Mangelware. Der Datensatz SALT schafft hier Abhilfe, indem er der Forschungsgemeinschaft den ersten realen ERP-Datensatz bereitstellt. SALT nutzt tatsächliche Branchendaten aus einem ERP-System, in dem Kundenaufträge erfasst werden. Um die Vertraulichkeit zu wahren, wurden die Daten minimal bearbeitet.
„In Bezug auf Daten besteht eine Kluft zwischen Wissenschaft und Industrie. Diese lässt sich aus Datenschutzgründen nicht so leicht schließen“, sagt Tassilo Klein aus dem Bereich Research/SALT bei der SAP. „Wir möchten aber, dass die Forschungsgemeinschaft an realen und nicht nur an simulierten Problemen arbeitet.“
ERP-Systeme helfen Unternehmen dabei, ihre Kerngeschäftsprozesse wie Finanzwesen und Ausgabenmanagement zu verwalten. Mit Millionen von Einträgen und umfangreichen miteinander verknüpften relationalen Tabellen, die überwiegend aus dem Verkaufsbereich stammen, repliziert der SALT-Datensatz Kundeninteraktionen in einem ERP-System. Aufgrund der Unternehmensdaten aus der Praxis bildet SALT eine perfekte Grundlage dafür, dass Modelle die Merkmale von Unternehmensdaten besser verstehen und deren Leistung durch Benchmarking validieren. Zudem dürfte SALT Forschenden dabei helfen, bessere Basismodelle für verbundene Geschäftsdaten zu entwickeln.
Wenn all das gelingt, wird es die Automatisierung in Unternehmen voranbringen, da viele Geschäftsprozesse in hohem Maß auf Daten in strukturierten Tabellenformaten beruhen. Wenngleich diese Daten eine entscheidende Rolle im Tagesgeschäft von Unternehmen spielen, ist es mit der revolutionären generativen KI noch nicht gelungen, ihr Potenzial voll zu erschließen.
„SALT ist ein erster Schritt, um Forschenden authentische repräsentative Branchendaten zur Verfügung zu stellen, die einen kleinen Einblick in tatsächliche Unternehmensdaten ermöglichen. Vorerst beginnen wir mit nur einem Kunden und einem Anwendungsfall“, erklärt Johannes Hoffart, Chief Technology Officer von Business AI bei der SAP. „Wir planen jedoch, weitere Datensätze zu veröffentlichen, die eine größere Bandbreite von Kunden und Anwendungsfällen abdecken. Dies kann dann zusammen mit SALT als eine Basis für das Pre-Training, das Anpassen sowie das Benchmarking von Modellen dienen.“
Ein weiterer Beweggrund für die Veröffentlichung dieser Daten ist die Kooperation mit Hochschulen.
„Wir bei der SAP hoffen auf eine Zusammenarbeit mit Partnern aus der Wissenschaft, die ihre Ergebnisse normalerweise nur in offenen Repositorys veröffentlichen können“, so Klein. „Eine weitere Hoffnung ist, dass dieser Datensatz mehr Menschen dazu ermutigt, neue Methoden zu erproben und zu validieren, die Basismodellen helfen, besser mit tabellarischen Unternehmensdaten umzugehen.“
Das macht die SAP
Neben dem Engagement in der offenen Forschungsgemeinschaft mit SALT, entwickelt die SAP das SAP Foundation Model, um tabellarische Unternehmensdaten verarbeiten zu können. Dieses KI-Modell speziell für tabellarische Daten soll die Zeit bis zur Wertschöpfung für vorausschauende Aufgaben auf Basis tabellarischer Daten verkürzen. Das zugrunde liegende Modell soll ohne oder mit nur wenigen zusätzlichen Trainingsdaten sofort mit tabellarischen Daten arbeiten können. Das PORTAL-Paper, das in Verbindung mit SALT veröffentlicht wurde, bietet einen ersten Blick darauf, wie dieses Modell einmal aussehen könnte.
Wissensgraphen spielen dabei eine wichtige Rolle. Sie arbeiten auf der Grundlage von Metadaten – das Wer, Was und Wann von Daten –, durch die Verknüpfungen zwischen Informationen genutzt werden können. Dies ermöglicht eine strukturierte, vernetzte Darstellung der Daten, die KI-Modelle leicht verstehen und verwenden können. Mithilfe von SAP Knowledge Graph kann das SAP Foundation Model auf eine Vielzahl unterschiedlicher Anwendungsfälle skaliert und durch geringfügiges Fine-Tuning angepasst werden.
– – – – –
Weiterführende Links
👉 www.sap.com
Foto: pixabay