Garbage in, Garbage out – Wenn die Datenqualität drastisch nachlässt

Einwandfrei arbeitende Software ist essenziell für das Funktionieren der IT. Doch besteht die (betriebliche) Informationstechnik nicht nur aus Programmen. Hinzu kommen mindestens auch Hardware und Datenbestände. Diese Datenbestände werden oftmals zur Software „im weiteren Sinne“ gerechnet. Und auch ihre Qualität ist entscheidend für die Verlässlichkeit der IT.

Denn insbesondere bei den verwendeten Datenbeständen gilt das Prinzip „garbage in – garbage out“. Wo Müll reingekippt wird, kommt auch meistens nichts Brauchbares mehr heraus.

Datenmüll im Unternehmen kann teure Folgen haben. Da geht die Marketing-Kampagne daneben, weil die falschen Leute angeschrieben wurden. Der Zahlungslauf scheitert an falsch zugewiesenen Kontennummern oder dem Vertauschen von Bankleitzahlen. Oder es werden Teile basierend auf Maßen in Zoll statt Zentimetern gefräst.

Gute Datenqualität ist an bestimmten Kriterien messbar. Dazu zählen:

Korrektheit: Die Daten müssen mit der Realität übereinstimmen.

Konsistenz: Ein Datensatz hat in sich und im Verhältnis zu anderen Datensätzen widerspruchsfrei zu sein.

Vollständigkeit: Ein Datensatz muss alle erforderlichen Attribute enthalten.

Zuverlässigkeit: Das Zustandekommen der Daten muss nachvollziehbar sein.

Aktualität: Alle Datensätze müssen jeweils dem aktuellen Zustand der abgebildeten Realität entsprechen.

Relevanz: Der Informationsgehalt der Datensätze muss den geforderten Informationsbedarf erfüllen.

Genauigkeit: Die Daten müssen in der jeweils geforderten Exaktheit vorliegen (Beispiel: Anzahl der Nachkommastellen).

Einheitlichkeit: Die Informationen eines Datenbestandes müssen einheitlich strukturiert sein.

Redundanzfreiheit: Innerhalb der Datensätze dürfen keine Doppelungen vorkommen.

Eindeutigkeit: Jeder Datensatz muss eindeutig interpretierbar und auswertbar sein.

Verständlichkeit: Die Datensätze müssen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen der Fachbereiche übereinstimmen.

Doch obwohl Fachleuten durchaus klar ist wie wichtig Datenqualität ist, ergab eine kürzlich durchgeführte Umfrage der Computerwoche, dass Unternehmen oft nicht wissen, wie sie eine hohe Datenqualität sicherstellen können.

Mit etwa 90% gab der größte Teil der ca. 200 von der Computerwoche befragten Unternehmen an, Datenqualität einerseits als sehr wichtig bis geschäftskritisch einzuordnen, so das sich Fach- und IT-Abteilungen mit dem Thema befassen würden, Man wäre sich der negativen Folgen mangelnder Datenqualität durchaus bewusst, so die befragten Entscheidungsträger. Etwa die Hälfte der Firmen hat sogar eine zentrale Stelle die für Datenqualität zuständig ist oder plant in der nächsten Zeit, eine solche einzurichten. Der Aufwand um eine gute Datenqualität dauerhaft zu gewährleiste wird von den Unternehmen mehrheitlich als eher hoch bis sehr hoch eingeschätzt.

Und dennoch hat nur ein Fünftel der Firmen für diese Aufgabe auch ein ausgewiesenes Budget. Wie so oft im Leben sollte man das Gewicht einer Sache eher am Umfang der dafür bereitgestellten Mittel messen als an Aussagen der Verantwortlichen.

Viele Unternehmen trauen daher der Qualität ihrer Daten nicht so recht. So ergab etwa eine BARC-Umfrage mit 100 beteiligten Firmen im letzten Jahr, dass nur 40% den Daten ihrer SAP-Systeme trauen und weitere 47% angaben dies so in etwa zu tun – wohl wissend, dass nicht alles, was so über den Bildschirm flimmert, auch der Realität im Feld entspricht.

Rund ein Drittel der von der Computerwoche befragten Firmen hat bereits Initiativen für
eine Verbesserung der Datenqualität gestartet. Weitere 38 Prozent planen Maßnahmen in diese Richtung. Der Erfolg ist den Umfrageergebnissen zufolge ordentlich, aber nicht überragend. Knapp die Hälfte der Befragten charakterisiert ihre Initiativen als erfolgreich, weitere 37 Prozent zumindest als eher erfolgreich. Das Wort Fehlschlag nehmen gute elf Prozent der IT-Verantwortlichen in den Mund, von einem „vollen Erfolg“ will niemand sprechen.

(Computerwoche)

Viele Unternehmen wollen Qualitätsmängel bei ihren Daten jedoch nicht einsehen, geschweige denn etwas dagegen tun. Es gibt wahrscheinlich kein Manager gerne zu, dass er ein Problem mit der Qualität seiner unternehmensrelevanten Daten hat.

Hinzu kommt, dass sich die Problematik oftmals dem direkten Zugriff durch das Management entzieht. Denn oft kommen fehlerhafte Daten erst dann ans Licht, wenn sie in nachgeordneten Systemen wie z.B. Data Warehouses zu unerklärlichen Effekten führen. Zumal viele Informationen über eine Vielzahl von Anwendungen, Oberflächen und Geschäftslogiken aus allen Ecken und Enden in die zentralen Systeme hineinfließen. Und die Verarbeitung personenbezogener Daten in Data-Warehouses ohnehin rechtlich umstritten ist. Schließlich gehen dabei rechtliche Eigenschaften wie Zweckbindungen und Einwilligungen regelmäßig verloren, wenn die Daten verquirlt werden.

Kommt es dabei zu Fehlern, so führt das im Datenfluss zu Folgefehlern, die sich leicht und vor allem unvorhersehbar zu größeren Problemen aufschaukeln könnten. Denn operative Systeme laufen auch mit Datenmüll i.d.R. klaglos weiter. Nur ihre Ergebnisse haben dann meist nur noch Heizwert.

Doch wie misst man die Qualität der Daten? Gibt es gar – wie beim Trinkwasser – „Grenzwerte“ mit deren Hilfe man entscheiden kann, ob der Schluck aus dem Informationsreservoir des Unternehmens noch gefahrlos genossen werden kann oder nicht?

Zumindest kann man einige interne Vorgehensstandards für entsprechende Tests festlegen. Man könnte z.B. regelmäßig die Systeme und Datenbereiche identifizieren, in denen Qualitätsprobleme auftreten; dazu Kennzahlen und Prüfregeln definieren; festlegen, ob damit automatisch oder manuell geprüft werden soll und definieren, in welchen Abständen die Daten geprüft werden sollen. In frühen Phasen der Entwicklung können Data-Profiling-Werkzeuge so dazu beitragen, die Datenqualität automatisiert zu überprüfen. Aus den so gewonnenen Profilen werden Datenregeln abgeleitet. Mit diesen Regeln lassen sich dann Kennzahlen messen und beurteilen.

Allerdings sollte man die Ergebnisse solcher Prüfungen nicht überbewerten. Denn zunächst erfährt man ja nur, dass etwas mit den Daten nicht in Ordnung ist, nicht jedoch was genau der Fehler ist und wodurch er verursacht wurde.

Inzwischen hat sich hierfür bereits ein Markt für Werkzeuge entwickelt, mit deren Hilfe man Datenbestände automatisiert prüfen (Data Profiling) und regelbasiert bereinigen (Data Cleansing) kann. Das was die Unternehmens-EDV oder ihre Anwender auf der einen Seite verschludert haben, sollen sie mit Hilfe solcher Tools an anderer Stelle wieder korrigieren.

Das Thema Datenqualität gehört jedoch einerseits zu den „dicken Brettern“ welche IT-Manager zu bohren haben und andererseits nicht unbedingt zu den Dingen, mit denen man gut im Vorstand glänzen kann. Bezeichnend daher auch das Fazit welches die Computerwoche im Rahmen ihrer Studie zog:

Rund ein Drittel der von der Computerwoche befragten Firmen hat bereits Initiativen für eine Verbesserung der Datenqualität gestartet. Weitere 38 Prozent planen Maßnahmen in diese Richtung. Der Erfolg ist den Umfrageergebnissen zufolge ordentlich, aber nicht überragend. Knapp die Hälfte der Befragten charakterisiert ihre Initiativen als erfolgreich, weitere 37 Prozent zumindest als eher erfolgreich. Das Wort Fehlschlag nehmen gute elf Prozent der IT-Verantwortlichen in den Mund, von einem „vollen Erfolg“ will niemand sprechen.

Vielen Unternehmen scheint es an einem Plan oder einer generellen Vorgehensweise zu fehlen, so dass ihre Maßnahmen eher punktuell bleiben und durch manuelle Eingriffe mal hier, mal dort vollzogen werden Es bräuchte so etwas wie eine „Data-Governance“ in den Unternehmen, um die Datenqualität zielgerichtet zu verbessern und dem eigenen Geschäft valide und konsistente Informationen zur Verfügung stellen zu können – so die BARC-Berater.

Doch wem fällt tatsächlich die Aufgabe zu, sich um Fragen der Datenqualität im Unternehmen zu kümmern?

Datenqualität ist eine gemeinsame Aufgabe von Fachabteilungen und Unternehmens-IT. Das macht es nicht unbedingt einfacher, muss doch zwischen beiden eine vertrauensvolle Zusammenarbeit bestehen, um das Themas in den Griff zu bekommen. Auch wenn 86% der von der Computerwoche befragten Manager das Thema Datenqualität originär in den Fachabteilungen beheimatet sehen.

Ein großer erster Schritt hin zu dauerhaft guter Datenqualität ist ein gutes Stammdatenmanagement. Daher legt auch das Fraunhofer-Institut für Arbeitswirtschaft und Organisation (IAO) in seiner Studie „Stammdaten-Management-Systeme 2009“ den Lesern nahe, zur Etablierung eines funktionierendes Stammdaten-Management einem 6-Punkte-Plan, bestehend aus den Schritten Datenanalyse, Datenmodell, Datenqualität, Datenintegration, Datenanreicherung und Datenkontrolle zu folgen.

Das könnte Ihnen gefallen