So öffnen Sie die Daten-Schatztruhe
Ein Fachbeitrag von Jost Enderle und Alex Ron, Berater Trovarit-Competence Center Datenmanagement
Daten sind eine der wichtigsten Ressourcen eines Unternehmens. Sie dienen als Grundlage für strategische Entscheidungen und bieten immense Potenziale für Umsatz- und Gewinnsteigerungen. Dieser Goldschatz wird jedoch nicht selten stiefmütterlich behandelt und fristet ein Dasein im Verborgenen. Nur durch eine effiziente Datenverwaltung im Unternehmen kann er erfolgreich geborgen und sinnvoll genutzt werden.
Im Zuge der Digitalisierung sehen sich Unternehmen zunehmend mit komplexeren und umfangreicheren IT-Systemen zur Unterstützung ihrer Geschäftsprozesse konfrontiert. Daten und Informationen sind zum kritischen Faktor für den erfolgreichen Geschäftsbetrieb geworden und bilden die Basis von technologischen Trends wie Industrie 4.0. Das steigende Datenwachstum bietet für Unternehmen neue Potenziale zur Realisierung von Geschäftsmodellen und zum systematischen Lernen aus den Daten für schnellere sowie bessere Entscheidungs- und Anpassungs-prozesse. Hierfür dürfen Daten jedoch nicht nur gesammelt, sondern müssen zu höherwertigen Informationen aufbereitet und in Entscheidungen überführt werden. Essenziell wird dabei die Fähigkeit zur automatischen Datenanalyse, um Ursache-Wirkungsbeziehungen aus Daten verschiedener Quellen abzuleiten und zukünftige Ereignisse zu prognostizieren.
Der gewinnbringenden Nutzung des vorhandenen Datenbestandes im betrieblichen Kontext stehen in vielen Unternehmen jedoch nicht selten schwer zu überwindende Hürden im Wege. Gewachsene heterogene Systemlandschaften, die die Unternehmensdaten auf zahlreiche Software-Applikationen in verschiedenen Formaten und Strukturen und auf unterschiedliche Speicherorte verteilen, sind in der Praxis eher die Regel als die Ausnahme. Das Management der Daten beschränkt sich hier häufig auf das Management von Problemen, die im Zusammenhang mit fehlerhaft erfassten und veralteten Informationen sowie doppelter Datenhaltung entstehen. Unternehmensentscheidungen stützen sich dann auf manuell erstellte Berichte, die Informationen aus den verschiedenen Datenquellen und Systemen zusammenfassen. Eine weitergehende und automatisierte Wertschöpfung, die die Integration und Bereinigung des Datenbestandes voraussetzen würde, ist in einem solchen Szenario nicht direkt umzusetzen.
Eine datenorientierte Neuausrichtung des Unternehmens erfordert Basiswissen in der Kategorisierung, Modellierung und Integration von Daten sowie Kenntnisse über verschiedene Praktiken und Werkzeuge zu deren Verwaltung und Analyse. Die Beschaffung und Akkumulation dieses Wissens im Unternehmen stellt eine Grundvoraussetzung dar, um die Datenlandschaft des eigenen Unternehmens bewerten und analysieren zu können. Darauf aufbauend können dann Maßnahmen zur Integration und Qualitätssteigerung des Datenbestands ergriffen sowie Abläufe und Werkzeuge zur automatisierten Verwaltung der Daten im Unternehmen etabliert werden. Ziel muss es dabei sein, aus dem so erschlossenen Datenbestand unmittelbaren Nutzen für bestehende und neue Geschäftsmodelle zu ziehen. In den folgenden Abschnitten wird skizziert, welche Aspekte eine wesentliche Rolle zur effizienten Datenverwaltung im Unternehmen spielen.
Datenbank-Managementsysteme, Datenmodelle und Metadatenmanagement
Der überwiegende Großteil aller (strukturierten) Daten in Unternehmen findet sich heute in relationalen Datenbanken, die von entsprechenden relationalen Datenbank-Managementsystemen verwaltet werden. Herausragende Eigenschaften dieser Systeme sind:
- Anwendungsunabhängigkeit der Daten. In den Anfängen der Datenspeicherung wurden Daten in einfachen Betriebssystem-Dateien gespeichert. Die interne Struktur dieser Dateien unterschied sich von Programm zu Programm, je nachdem, welches Format und welchen Zeichensatz sich der entsprechende Programmierer ausgedacht hatte (z. B. Byteposition 1: Nachname; Byteposition 17: Vorname; Byteposition 37: Straße usw.). Für andere Programme bzw. Programmierer, die dieses Format nicht kannten, waren die Daten nichts weiter als eine Kette von Nullen und Einsen. Spätestens während der Apollo-Mondmissionen der 1960er Jahre, bei denen hunderte von Zulieferern und zigtausende von Teilen verwaltet werden mussten, erkannte man, dass diese Form der Programmierung nicht mehr zu beherrschen war. Ergebnis dieser Entwicklung waren Datenbank-Managementsysteme, die nicht nur die eigentlichen Daten verwalteten, sondern auch die Metadaten (Daten über die Daten), die die Struktur der verwalteten Daten enthielten. Fortan konnten nun beliebig viele Programme „gegen“ eine Datenbank geschrieben werden, die die Daten aller in den Programmen benötigten Daten enthielt.
- Relationales Datenmodell. Die Daten werden in Tabellenform gespeichert, wobei jede Zeile einem Datensatz (z. B. Personen mit Adresse) und jede Spalte einem Attribut (z. B. Hausnummer) entspricht. Die Datentypen der Attribute werden dabei genau definiert (z. B. Zeichenketten/Texte mit bestimmter Länge oder Zahlen mit einer bestimmten Anzahl von Nachkommastellen). Jede Tabelle erhält als Attribut oder Attributmenge einen eindeutigen Schlüssel (z. B. Personal- oder Artikelnummer), dessen Werte jeden Datensatz eindeutig identifizieren. Beziehungen zwischen diesen Tabellen werden dann über sog. Fremdschlüssel hergestellt: Zwischen einer Abteilungstabelle und einer Mitarbeitertabelle wird z. B. eine Beziehung hergestellt, indem die Mitarbeiter-Daten-sätze jeweils als Attribut den Schlüssel der Abteilung enthalten, zu der die entsprechenden Mitarbeiter gehören. Die Struktur der Gesamtheit aller Tabellen und Beziehungen einer Datenbank (das „Datenbankschema“) kann dann sehr anschaulich über ein sog. Entity-Relationship-Diagramm dargestellt werden, das die in der Datenbank gespeicherten „Entitäten“ (Abteilungen, Mitarbeiter etc.) über Abhängigkeitspfeile untereinander verbindet.
- Die Anfragesprache SQL (Structured Query Language), die es Programmen bzw. Programmierern auf einheitliche Weise erlaubt, sowohl Datenbanktabellen anzulegen („Data Definition“) als auch Daten in diese zu schreiben („Data Manipulation“). Sowohl die Tabellen(strukturen) als auch die darin enthalten Daten können über SQL natürlich auch geändert oder gelöscht werden.
- Das ACID-Prinzip (atomicity, consistency, isolation, durability). Das Datenbank-Managementsystem sorgt dafür, dass
- Datenbankoperationen immer komplett ausgeführt werden.
- sich die Datenbank immer in einem konsistenten Zustand befindet
- parallele Zugriffe unabhängig voneinander erfolgen
- Änderungen dauerhaft gespeichert bleiben.
Fragen, die sich ein Unternehmen in diesem Zusammenhang stellen muss, sind z. B.
Liegen die Daten überhaupt in einem relationalen Datenbanksystem?
Auch heute finden sich noch alte Systeme, bei denen Daten in einfachen Dateien verwaltet und z. B. über die antiquierte Programmiersprache COBOL abgefragt werden. Berentete Programmierer, die aus dem Ruhestand geholt werden müssen, da sie als einzige die Struktur der Daten kennen und auch noch COBOL beherrschen, sind hier z. B. die Folge.
Entspricht das Datenbankschema den aktuellen Anforderungen?
Häufig werden Datenbanken z. B. über ein ERP- oder CRM-System verwaltet, das von einer bestimmten Datenstruktur ausgeht. Wenn sich Geschäftsprozesse in einem Unternehmen ändern, müssen die verwendeten Systeme an die neuen Abläufe angepasst werden. Bei alten Systemen lassen sich die benötigten Funktionen oft nicht mehr umsetzen, da diese nicht im zugrundeliegenden Datenbankschema berücksichtigt wurden. Die Mitarbeiter müssen dann ineffizient „neben“ dem System (z. B. in Office-Dokumenten) arbeiten, um die benötigten Daten festzuhalten. Hier bleibt als Ausweg in der Regel nur der Umstieg auf ein neues System.
Sind die Geschäftsregeln, die z. B. die Formate von bestimmten Daten (z. B. Artikelnummern) regeln (also Metadaten), dokumentiert und werden diese auch eingehalten?
Oft findet man z. B. Tabellen mit sehr kreativen Schlüsselattributen (Einbettung z. B. bestimmter Untergruppen, Eigenschaften etc.), die eine automatisierte Verarbeitung erschweren.
Datenlebenszyklus-Management, Datenqualität und Data Governance
Unter Datenlebenszyklus-Management versteht man (sehr grob) das Management von Prozessen, innerhalb derer Daten angelegt, verarbeitet oder archiviert/gelöscht werden. Fragen, die sich in diesem Zusammenhang stellen, sind z. B.:
- Wie werden die Daten erfasst (z. B. durch eine oder mehrere Personen oder automatisiert)? Geschieht diese Erfassung effizient, d. h. werden z. B. falsch formatierte oder doppelt eingegebene Informationen automatisch abgefangen? Ist dies nicht der Fall, finden sich z. B. in Telefonfeldern uneinheitliche Formate oder gar Texte, die die automatisierte Verarbeitung (z. B. durch eine Telefonanlage) erschweren. Auch Dubletten können hier entstehen, wenn bei der Eingabe nicht geprüft wird, ob der Datensatz evtl. schon im System vorhanden ist.
- Was passiert mit den Daten während ihrer Verwendung? Werden fehlende Informationen ergänzt oder falsche Informationen korrigiert? Z. B. Adressdaten können mit der Zeit altern, wenn Adressänderungen nicht erfasst werden. Stehen für Analysen benötigte Daten überhaupt zur Verfügung?
- Was passiert mit den Daten nach ihrem Lebensende? Werden z. B. rechtliche Vorgaben eingehalten, die eine Löschung von Daten nach einem bestimmten Vorgang oder Zeitraum fordern? Geistern alte Daten weiterhin in der Datenbank herum, da sie z. B. nur mit einem „Lösch Flag“ versehen werden, wodurch die Datenbestände stark anwachsen und unübersichtlich werden?
Werden diese Umstände im Unternehmen nicht konsequent adressiert, kann daraus eine mangelnde Datenqualität resultieren. Diese kann Geschäftsprozesse negativ beeinflussen (z. B. falsche Zustellung von Artikeln) und führt zu einem erhöhten Verarbeitungsaufwand (Mitarbeiter müssen häufig prüfen und nachfragen). Zudem können Datenanalysen, auf denen wichtige strategische Entscheidungen beruhen, fehlerhaft sein.
Um solche Missstände zu umgehen, sind Maßnahmen erforderlich, die üblicherweise unter dem Begriff Data Governance zusammengefasst werden. Dazu gehören z. B.
- Benennung von Rollen bzw. Personen, die für die Aufrechterhaltung der Datenqualität zuständig sind.
- Etablierung fester Prozesse für die Datenpflege im Unternehmen, die die Datenqualität, den Datenschutz und die Datensicherheit adressieren.
- Anschaffung entsprechender Data-Governance-Software, die bei der Umsetzung der Maßnahmen unterstützt.
Technologien für das Datenmanagement
Zur Unterstützung des Datenmanagements im Unternehmen kann spezifische Datenqualitäts-Software in der Bearbeitung resultierender Aufgaben gezielt unterstützen. Auf dem Markt ist eine Vielzahl von Softwareanbietern aktiv, die in ihrem Fokus und Funktionsumfang von kleinen Tools zur Bereinigung einzelner Datensätze bis hin zu umfangreichen Server-Applikationen zum ganzheitlichen Datenmanagement von Konzernen reichen.
Je nach Anforderungsbedarf wird nach drei grundlegenden Software-Kategorien unterschieden: Stammdatenmanagement-Suite (MDM-Suite), Stammdaten-Integration (DI) und Stammdatenqualitäts-Management (DQ). Dabei können die Funktionen der Kategorien Stammdaten-Integration (DI) und Stammdatenqualitäts-Management (DQ) durchaus Bestandteil einer umfangreichen Stammdaten-Management-Suite sein. Es existieren aber auch eine Vielzahl von Stand-Alone-Lösungen für einzelne Aufgaben. Dazu kommt, dass unterschiedliche Funktionsumfänge den Vergleich einzelner Angebote und damit die Auswahl von Lösungen für das Stammdatenmanagement komplex machen.
Produkte in der Kategorie Datenintegration (DI) unterstützen die konsistente und fehlerfreie Verteilung der Stammdaten in voneinander isolierten Applikationen. Dies beseitigt Redundanzen und Inkonsistenzen der Stammdaten und beinhaltet drei Funktionsbereiche: Datenimport, Datentransformation und Datenexport.
Wie bereits oben erläutert, führt eine schlechte Datenqualität erfahrungsgemäß zu schrittweise ineffizienteren und ineffektiveren Prozessen durch erforderliche Rückfragen, Uneindeutigkeiten und Missverständnisse. Zum Beispiel entstehen bei fehlerhaften Kundenstammdaten aufgrund der Rückläufer und Fehlsendungen Kosten und Image-Verlust.
Produkte in der Kategorie Datenqualität (DQ) unterstützen die Schaffung und Sicherung einer angemessenen Qualität. Dies steigert die Verlässlichkeit und Nutzbarkeit der Stammdaten und beinhaltet drei Funktionsbereiche: Datenanalyse, Datenanreicherung und Datenbereinigung. Der Funktionsbereich Datenanalyse beinhaltet Funktionen zur Identifikation von Problemen im Stammdatenbestand. Bei der Datenanreicherung versucht man eine Datenqualitätsverbesserung der eigenen Stammdaten durch Vergleich und Übernahmen externer Referenzdaten oder das Verknüpfen von bspw. Bildern zu erreichen. Bei der Analyse erkannte Datendefekte können durch Funktionen aus dem Bereich der Datenbereinigung gemindert oder geheilt werden.
Produkte in der Kategorie Stammdatenmanagement (MDM) unterstützen schließlich die Verwaltung im Rahmen des Lebenszyklus der Stammdatenobjekte und beinhalten die Funktionsbereiche Stammdatenanlage, Stammdatenpflege und Stammdatendeaktivierung. Die korrekte und strukturierte Erfassung und Anlage von Stammdaten sowie die Verteilung auf die verschiedenen Zielsysteme (z. B. unterschiedliche ERP-Systeme in Regionalgesellschaften) wird durch MDM-Suiten im Funktionsbereich Stammdatenanlage unterstützt. Die Stammdaten-pflege umfasst die Unterstützung des Anwenders bei der Veränderung von Daten inklusive der gesamten zugehörigen Geschäftslogik. So müssen alle Transaktionen, die sich auf veränderte Attribute beziehen, ebenfalls angepasst werden. Im Rahmen der Stammdatendeaktivierung wird die sukzessive Sperrung, Löschung und Archivierung von Stammdatenobjekten gesteuert. Der Umfang reicht dabei von einer Deaktivierung einer Dublette über die Deaktivierung, weil ein Datenobjekt nicht mehr real existiert, bis hin zur sofortigen Deaktivierung aufgrund rechtlicher, finanzieller oder personengefährdender Gründe.
Datenintegration
Im betrieblichen Umfeld verteilen sich Daten in der Regel auf mehrere verschiedenen Quellen, innerhalb eines Unternehmensstandorts z. B. auf verschiedene Systeme (ERP, CRM usw.) und darunterliegende Datenbanken, fast immer aber auch auf Office-Dokumente oder auf die Köpfe der Mitarbeiter. Verschiedene Standorte können wiederum unterschiedliche Systeme einsetzen, ebenso überbetrieblich z. B. Lieferanten des Unternehmens.
Oft ist es notwendig, diese Daten zusammenzuführen, um Geschäftsprozesse zu steuern oder Datenanalysen für strategische Entscheidungen zu erstellen. Aufgrund der verschiedenen Formate der Systeme und Datenquellen ist dies eine herausfordernde Aufgabe, die jedoch gemeistert werden muss, um nicht wertvolle Informationen und Zusammenhänge zwischen diesen brach liegen zu lassen. Manchmal ist eine solche Datenintegration nur eine singuläre Aufgabe, z. B. bei einer Datenmigration auf ein neues System, das bisher getrennte Informationsquellen zusammenfasst. Oft ist jedoch eine fortwährende Integration sich verändernder Datenbestände notwendig, die sich z. B. in isolierten Applikationen bzw. Datenquellen befinden. Wie bereits im vorigen Abschnitt beschrieben, ist das Ziel hierbei die Beseitigung von Redundanzen und Inkonsistenzen in den Daten und umfasst die Funktionsbereiche Datenimport, Datentransformation und Datenexport.
Insbesondere für komplexe Auswertungen, die strategische Entscheidungen unterstützen sollen, werden Daten aus verschiedenen Quellen häufig in einem sog. Data Warehouse zusammengefasst. In regelmäßigen Abständen werden hierbei Daten aus den Produktivdatenbanken in das Data Warehouse migriert, wo dann „offline“ Datenanalysen (zur Bestimmung bestimmter Kennzahlen) und Data Mining (zum Finden „versteckter“ Zusammenhänge) betrieben werden.
Einsatz von künstlicher Intelligenz
Sehr häufig lassen Methoden der künstlichen Intelligenz eine Optimierung der Geschäftsprozesse und ein Ermitteln hilfreicher Zusammenhänge für Unternehmensentscheidungen zu, die auf konventionellem Wege nicht zu erreichen wären. Dahinter stecken in der Regel komplexe Algorithmen und Verfahren, die alle verfügbaren Unternehmensdaten betrachten und nach verschiedenen Kriterien in Beziehung miteinander setzen. Eine sehr große Rolle spielt hier vor dem eigentlichen Einsatz die Aufbereitung der Daten, da Fehler oder fehlende Informationen in den Ausgangsdaten zu deutlichen Abweichungen in den Ergebnissen führen können.
Eine Untersuchung, ob Methoden der künstlichen Intelligenz für ein Unternehmen gewinnbringend eingesetzt werden können, kann in der Regel nur von speziellen KI-Experten durchgeführt werden, die die Sammlung und Aufbereitung der relevanten Daten organisieren, dann geeignete Algorithmen auf diese ansetzen und die Ergebnisse am Ende interpretieren. Werden bei einer solchen Untersuchung dann entsprechende Potentiale entdeckt, kann innerhalb eines gesonderten Implementierungsprojektes eine KI-Lösung im Unternehmen etabliert werden.