Gemeinhin wird Datenqualität definiert als die Eignung von Daten für einen bestimmten Anwendungszweck (fitness for use). Diese allgemeine Definition wird üblicherweise in eine Menge an Datenqualitätsdimensionen oder -kriterien aufgetrennt. Diese Dimensionen sind teils subjektiv, teils objektiv. Teils können sie automatisch gemessen werden, teils sind sie überprüfbar und teils können sie nur durch Expert*innen bewertet werden.
Das Glossar zur Datenqualität listet alle relevanten Datenqualitätsdimensionen mit einer knappen allgemeinen Definition. Der Fokus liegt auf der Nutzung von Daten für Anwendungen der Künstliche Intelligenz. Die Dimensionen sind nicht orthogonal – ihre Bewertungen können voneinander abhängen; dennoch wirft jede Dimension einen etwas anderen Blick auf die Qualität von Daten. Sofern die Dimensionen oder wortgleiche Begriffe bereits in Gesetzen aufgegriffen wurden, enthält das Glossar einen entsprechenden Hinweis.* Einige klassische Dimensionen aus der Datenqualitätsliteratur (bspw. Objektivität, Compliance) werden hier näher ausdifferenziert oder in mehrere Elemente aufgespalten. In künftigen Ausgaben des Glossars planen wir, systematisch Beispiele hinzuzufügen sowie passende Literatur zu verknüpfen. Hinweise und Fragen zu den Begriffen und deren Definitionen nehmen wir gerne entgegen: felix.naumann@hpi.de
Sedir Mohammed (Hasso-Plattner-Institut), Lou Brandner (Internationales Zentrum für Ethik in den Wissenschaften, Universität Tübingen), Sebastian Hallensleben (VDE), Hazar Harmouch (HPI), Andreas Hauschke (VDE), Jessica Heesen (IZEW), Stefanie Hildebrandt (VDE), Simon David Hirsbrunner (IZEW), Julia Keselj (Universität zu Köln), Philipp Mahlow (Universität zu Köln), Felix Naumann (HPI), Frauke Rostalski (Universität zu Köln), Anna Wilken (Universität zu Köln), Annika Wölke (Universität zu Köln)
DOI: 10.5281/zenodo.7702426
Version 1.2 (6.3.2023)