Workflow Datenmanagement
Betriebskonzept und Datenmanagementplan des Historischen Datenzentrums Sachsen-Anhalt
- 1. Was sind Forschungsdaten?
- 2. Zielstellung
- 3. Betriebskonzept
- 4. Forschungsdatenmanagement
- 5. Datenproduktion, Nachnutzung und Datenqualität
- 6. Beratungspflicht für Forschungs- und Qualifikationsprojekte
- 7. Dokumentation und Metadatenerfassung
- 8. Analyse
- 9. Publikation, Lizenzierung sowie Datenübergabe
- 10. Anforderungen für Datenarchivierung
- 11. Evaluation und Langzeitarchivierung
- 11.1. Evaluierung
- 11.2. Verpflichtung zur Bitstream-Preservation
- 11.3. Langzeitarchivierung
- 12. Nachnutzung
1. Was sind Forschungsdaten?
Forschungsdaten sind durch eine spezifische Methode und Schritte der Operationalisierung systematisch gewonnene, strukturierte Informationen, die (computergestützt) ausgewertet und verarbeitet werden können. Sie bilden die Grundlage des Forschungsprozesses. Daten können sowohl quantitativen wie qualitativen Charakter tragen.
In den Geschichtswissenschaften sind Forschungsdaten häufig (die Nennung bleibt beispielhaft):
- Texte, Transkriptionen, edierte Texte bis hin zu Textsammlungen und Corpora mit oder ohne Annotationen
- qualitative und quantitative empirisch erhobene Rohdaten, bereinigte Daten, verschnittene oder aggregierte Daten, Analysedaten
- komplexere Hypertexte, webbasierte Textsammlungen
- Historische Informationssysteme bzw. Historische Geo-Informationssysteme
Das Datenzentrum ist kein Quellenrepositorium (Archivprinzip) und auch kein Gremium zur Publikation wissenschaftlicher Ergebnisse (Verlage, Bibliotheken, Forschungsportale). In den Geschichtswissenschaften hat sich eine sehr klare Definition von Quellen – Daten – Literatur entwickelt, welche das Datenzentrum inhaltlich trägt. Nur in Ausnahmefällen, die im Betriebskonzept weiter unten beschrieben werden, weicht das Datenzentrum von diesen institutionell verfestigten Sammelstrukturen ab. In Betracht kommen hier zur Langzeitarchivierung nach Evaluation im Einzelfall:
- Digitalisate mit Metadaten die im Forschungsprozess erhoben wurden, jedoch keinerlei infrastrukturell bedingte Archivierung finden
- bibliografische Dokumentationen, Findmittel und erschließende Fachdatenbanken
Das Datenzentrum ist zudem auch keine Plattform zur Repräsentation einzelner Forschungsprojekte. Das Datenzentrum baut künftig jedoch gemeinsam mit anderen Institutionen der Universität Halle-Wittenberg bzw. des Landes Sachsen-Anhalts oder geeigneten Forschungsdatenrepositorien Infrastrukturen auf, über die Forschungsdaten unter Wahrung rechtlicher Bestimmungen durchsuchbar, nachvollziehbar und zitierbar werden. Sofern Daten keinen besonderen datenschutzrechtlichen Aspekten unterliegen, können diese öffentlich frei zugänglich publiziert werden.
2. Zielstellung
Das Historische Datenzentrum Sachsen-Anhalt verfolgt zwei übergreifende Zielstellungen:
1. Sichert das Datenzentrum die Infrastrukturen für das Forschungsdatenmanagement und eine Bitstream-Preservation von Daten der universitären Forschung innerhalb der Geschichtswissenschaften im Bundesland Sachsen-Anhalt. Dazu werden Informationen, Beratungen und Werkzeuge angeboten, um diese Aufgaben zu erfüllen. Angestrebt wird eine Regelabgabe von Forschungsdaten, um diese im besten Fall einer Nachnutzung und Publikation zuzuführen.
2. Das Datenzentrum versteht sich als eine Forschungseinrichtung, die über das Bundesland Sachsen-Anhalt hinaus strukturierte, individualspezifische Mikrodaten zu Lebensverläufen und Biografien historischer Personen sammelt (vorzugsweise quantitative, aber auch qualitative Daten). In diesem Schwerpunktbereich baut das Datenzentrum übergreifend Datensammlungen (Big Data) auf und verschneidet verschiedene Dateninformationen miteinander.
3. Betriebskonzept
Das Historische Datenzentrum unterstützt Forschende, um den hohen Anforderungen des Forschungsdatenmanagements gerecht zu werden. Die Langzeitarchivierung und die Existenz von Managementplänen sind heute für die Drittmittelförderung, vor allem aber für die Sicherung von Forschungsresultaten unerlässlich. In die Produktion von Daten fließt innerhalb des Forschungsprozesses sehr viel Zeit. Datenmanagement umfasst, solche Arbeitsweisen effizient auszugestalten, Workflows zu organisieren die personell und thematisch übergeordnete, routinierte Arbeitsabläufe verbindlich darstellen und Daten möglichst einer Nachnutzung zuführen. Das Historische Datenzentrum Sachsen-Anhalt hilft Forschenden daher bereits bei der Planung von Projekten, hier die geeigneten Maßnahmen des Datenmanagements zu strukturieren, zu beantragen und schließlich in die Forschungspraxis umzusetzen. Das Datenzentrum unterstützt bei der Datenerhebung, der Qualitätssicherung und der Evaluation von Daten und hilft geeignete Strategien der Langzeitarchivierung, Metadatenbeschreibung, Dokumentation und der Publikation (Zugriff, Interpretierbarkeit, Nachnutzbarkeit, Persistenz) zu finden.
4. Forschungsdatenmanagement
Life-Cycle von Daten
Datenmanagement umfasst einen komplexen Prozess von Regularien, Methoden und Verfahren im Life-Cycle von Daten. Dieser Prozess stellt die nachhaltige Verfügbarkeit von Daten und ihre Nutzbarkeit sicher, indem er ein organisatorisch verlässliches, individuell unabhängiges Procedere verfolgt.
Das Historische Datenzentrum Sachsen-Anhalt (Datenproduktion- und kuration) unterstützt Forscher und Forscherinnen, Studierende und Interessierte im Verbund mit anderen Institutionen wie dem Universitätsarchiv, dem IT-Servicezentrum und der Univeristätsbibliothek (Verwaltung von Daten) sowie überregionalen Forschungsinfrastrukturen und Forschungsumgebungen (Organisation: Radar, Clarin, DARIAH, FuD, RDA).
5. Datenproduktion, Nachnutzung und Datenqualität
Das Datenzentrum unterstützt folgende Schritte der Datenproduktion:
- Die Erstellung von Datenmanagementplänen für Forschungsvorhaben sowie die Konzeption eines Workflow von der Entstehung des Forschungsprojekts bis zur Langzeitarchivierung bzw. Publikation von Daten.
- Das Datenzentrum berät zu Standards des allgemeinen und fachspezifischen Datenmanagements, um adäquate Formen der Standardisierung zu wählen, um auf diesem Weg eine Anschlussfähigkeit der Daten im interdisziplinärem wie internationalem Kontext sicher zu stellen. Dazu existieren mittlerweile eine Reihe von Richtlinien und Policies. Zur Anlage von Forschungsprojekten ist die Kenntnis dieser Regeln Voraussetzung.
- Das Datenzentrum berät in Angelegenheiten der Datenkuration (Konsistenz und Persistenz von Daten).
- Das Datenzentrum informiert zu allgemeinen und fachspezifischen Standards der Metadatenerfassung und der Dokumentation von Forschungsdaten.
- Für ausgewählte Forschungsschwerpunkte (Level 5 – Daten, siehe unten) organisiert das Datenzentrum selbst Datenerhebungen, Datenverschneidungen oder weitere Maßnahmen zur Datenkuration.
- Für ausgewählte Forschungsschwerpunkte (siehe Zielstellung) betreibt bzw. begleitet das Datenzentrum auch die Anwerbungen von Daten. Das Datenzentrum stellt damit Daten zur Nachnutzung zur Verfügung und plant bzw. organisiert entsprechende Prozesse.
6. Beratungspflicht für Forschungs- und Qualifikationsprojekte
Im Rahmen von Qualifizierungs- und Forschungsprojekten führt das Historische Datenzentrum eine obligatorisches Beratungsgespräch durch.
- Im Bachelorstudiengang erfolgt die Beratung über die Vorlesung im Theorien- und Methodenmodul. Innerhalb des Vorlesungszyklus werden umfangreiche Informationen zum Datenmanagement durchgeführt. Die Bestätigung der Teilnahme erfolgt über die Studienleistung.
- Im Masterstudiengang wird in das Modul Master Abschlussarbeit ein verpflichtendes Beratungsgespräch in Form eines Blockseminars von einmalig 2 SWS eingeführt. Die Abrechnung erfolgt im Löwenportal über die Verbuchung einer Studienleistung.
- Für Dissertationsprojekte erfolgt die Beratung ebenfalls im vorgenannten Kurs. Kann ein Nachweis über die im MA-Studiengang erfolgte Beratung erbracht werden, ist dies ausreichend.
- Für Habilitations- und weitere Forschungsprojekte von Angehörigen des Instituts für Geschichte werden Einzelberatungen angeboten.
- Selbstverständlich können auch Forschende anderer Institutionen dieses Beratungsangebot nutzen. Das Datenzentrum verfolgt interdisziplinäre Strategien von eHumanities, die eine breite Anwendung von Methoden und Verfahren erlauben.
7. Dokumentation und Metadatenerfassung
Datensätze sind meistens nicht selbsterklärend, sie bedürfen der Erläuterung, um nachnutzbar zu sein. In einem größeren Forschungsprojekt sind solche Dokumentationen unverzichtbar, um überhaupt überindividuell reproduzierbare Daten und Forschungsergebnisse zu erzeugen. Es ist daher grundsätzlich ein Merkmal hochwertiger Forschungsprojekte, Daten und Methoden sauber zu dokumentieren und nach Möglichkeit fachliche Standards der Datenbeschreibung und Dokumentation zu verwenden. Die Anwendung solcher Workflows sichert daher die Datenqualität. Gerade in den Geisteswissenschaften, in denen Projekte aufgrund der Quellensituation meist sehr spezifischen Charakter tragen, sind automatisierte Prozesse der Dokumentation und Metadatenerhebung häufig nicht anwendbar. Umso mehr ist eine qualitativ hochwertige Dokumentation solcher Daten erforderlich.
Über den forschungsbezogenen Kontext hinaus sind zudem allgemeine Projektdaten und Informationen, sogenannte Metadaten, zu erheben. Gemeinsam mit den Datengebern stellt das Datenzentrum daher die Erfassung von Metadaten zum Projekt sicher. Es ist jeweils zu hinterfragen, welche allgemeinen Metadatenschemata zur Anwendung kommen oder welche projektspezifischen eigenen Metadatenmodelle entwickelt werden müssen. Diese beinhalten - ähnlich bibliografischer Angaben - verschiede Typen von Informationen zum Urheber, Produktionsbedingungen, Provenienz, Zeit, Technik etc. (siehe Metadaten Managementplan). Für Historiker und Historikerinnen gehören solche Erhebungen regelmäßig zum Standard der Forschung. Schwierigkeiten bereiten eher die Formen, in denen Metadaten bereit gestellt werden müssen. Daher stellt das Datenzentrum (gemeinsam mit dem Universitätsarchiv Halle-Wittenberg) Werkzeuge zur Metadatenerzeugung zur Verfügung und sichert so die Auffindbarkeit und Zitierbarkeit von Daten langfristig ab.
8. Analyse
Bevor Daten analysiert werden können, ist ein umfassender Prozess der Datenerhebung und vor allem der Datenaufbereitung erfolgt. Das Datenzentrum kann unterstützende Beratungen zur Datenkuration und vor allem zur Kontrolle und Bereinigung von Daten leisten, die zur Steigerung der Datenqualität dienen. Die Analyse von Daten repräsentiert einen sehr spezifischen Bestandteil der Forschungsarbeit. Das Historische Datenzentrum kann lediglich zu einzelnen statistischen Verfahren Beratungen anbieten, weitere Kontakte jedoch vermitteln. Vor allem stellt das Datenzentrum technische Infrastrukturen (spezielle Software, Computerpool, technische Geräte wie Microfilmscanner etc.) bereit, um diese Datenanalyse vorzunehmen.
9. Publikation, Lizenzierung sowie Datenübergabe
1. Das Datenzentrum nimmt gemeinsam mit dem Datengeber eine Lizenzierung vor. Grundsätzlich unterliegen Daten (anders als Metadaten) vollumfänglich dem deutschen Urheberrecht, das vom Datengeber weder aufgegeben werden kann, noch aufgegeben werden muss. Der Urheber der Daten kann dem Datenzentrum und Dritten jedoch Eigentums- und/oder Nutzungs- und Verfügungsrechte einräumen, die in verschiedenen Lizenztypen definiert sind. Das Datenzentrum arbeitet hier eng mit der Stabsstelle Justiziariat der Universität Halle zusammen und sichert die Gültigkeit der Verträge mit dem Rektorat der Universität Halle-Wittenberg ab. Der Urheber hat dabei sicher zu stellen, dass dem Datenzentrum alle datenschutzrechtlichen und ethischen Grundlagen bzw. Sonderbestimmungen von Daten bekannt gegeben werden. Diese sind schriftlich zu fixieren und gemeinsam mit den Nutzungsrechten in einem gesonderten Vertrag festzuhalten (siehe: Archivierungsvertrag). Das Datenzentrum stellt seinerseits sicher, dass die Daten nach Vereinbarung publiziert werden. Dazu bestimmt das Datenzentrum unter Mitwirkung des Datengebers selbst ein geeignetes Repositorium. Die Publikation ist wirksam, unabhängig davon, ob Daten der breiten Öffentlichkeit zur Verfügung stehen oder aus urheberrechtlichen, ethischen oder datenschützenden Aspekten gesperrt bleiben. Die Publikation erfolgt durch die Erzeugung einer PID bzw. DOI (bzw. ein gleichwertiges System zur persistenten Haltung von Daten) und ist wissenschaftlich als vollwertige Publikation zu verstehen. Diese Voraussetzungen werden vom Universitätsarchiv geschaffen.
2. Gleichzeitig verfolgt das Datenzentrum einen Ansatz zur Berücksichtigung der Datengeber als Autoren. Diese Vorgehensweise honoriert den hohen Aufwand zur Erzeugung und qualitätsgerechten Erstellung von Daten. Datennehmer werden bei vollumfänglichen Nutzung der Daten bzw. von großen Bestandteilen aufgefordert, Datengeber als Zweitautoren in Publikationen von Forschungsergebnissen zu nennen oder als Datenautor: z. B. Max Mustermann (Datenautor). Die Formen dieser Honorierung sind abhängig von der weiteren Entwicklung der Datenkultur weltweit und können daher nur angestrebt, nicht jedoch eingefordert werden. Ein entsprechendes Statement seitens des Datenzentrums bei Übergabe von Daten an Dritte informiert über gewünschtes Verhalten („Gute wissenschaftliche Praxis). Der Datennutzer erhält Empfehlungen zur Zitation des Werks.
3. Mit Share_it bei der Universitäts- und Landesbibliothek und der DOI-Vergabe entsteht ein Nachweissystem zu allen veröffentlichten Daten.
Lizenz A
Anonyme Daten: Gemeinfreie Daten ohne oder mit Namensnennung oder Daten mit vollem Nutzungsrecht durch Dritte (Namensnennung bzw. Namensnennung-Nicht Kommerziell; Creative Commons 4.0)
Lizenz B
Freie Daten: Urheberrechtlich geschützte Daten, frei nutzbar durch Dritte (Download nach Anmeldung), Verpflichtung zu Zitation/Autorenschaft bei Verwendung, wissenschaftliche Nutzung (Namensnennung bzw. Namensnennung-Nicht Kommerziell; Creative Commons 4.0)
Lizenz C
Gesperrte Daten: Urheberrechtlich geschützte Daten, gesperrt aufgrund ethischer Prinzipien (Anonymisierung), Datenschutz bzw. urheberrechtlicher Einschränkungen, Freigabe nach gesonderter Belehrung durch Datenzentrum
C1: Vertrag mit datenschutzrechlichen Klauseln
C2: Vertrag mit Sonderregelungen des Nutzungsrechts
Lizenz D
Geschlossene Daten: Urheberrechtlich geschützte Daten, gesperrt aufgrund ethischer Prinzipien (Anonymisierung), Datenschutz bzw. urheberrechtlicher Maßnahmen, Freigabe nach gesondertem Vertragsschluss mit dem Datengeber.
10. Anforderungen für Datenarchivierung
Eine Aufnahme der Daten und ihre Publikation erfolgt nur, insofern der Datengeber folgende Leistungen erbringt:
- Übertragung von abgestuften Nutzungsrechten (Lizenzvertrag) und Vertragsschluss.
- Übergabe von Daten in geeigneten Formaten.
- Sicherstellung von Dokumentationen und Metadaten (laut Richtlinien des Datenzentrum).
- Sicherstellung einer dauerhaften Kontaktadresse bzw. Belehrung zum Umgang mit „verwaisten“ Daten (siehe Archivierungsvertrag).
- Bei Übernahme in die Langzeitarchivierung bei Level 4 und 5-Daten sind zudem weitergehende Maßnahmen zur Annotation und Überführung in ein langzeitgeeignetes Format etc. notwendig.
11. Evaluation und Langzeitarchivierung
Das Datenzentrum führt einen Evaluationsprozess zur Datenqualität, zur fachlichen Beurteilung von Daten, zur Dokumentation und zum Metadatenstandard durch. Dazu kann auch ein Peer Review Verfahren durchgeführt werden. Bei Qualifizierungsarbeiten sind Empfehlungen der Gutachter ausschlaggebend. Eine Publikation von Daten wird ab einem Level 3 angestrebt.
11.1. Evaluierung
Level 1
- Bitstream Preservation mit Metadaten
Daten im Rahmen von Pflichtabgaben in BA-Arbeiten oder Staatsexamensarbeiten (sofern von den Gutachtern nichts anderes bestimmt wird), 10-Jährige Aufbewahrung von Qualifizierungsschriften, weiterhin unkorrigierte oder unvollständige Daten, Daten mit mangelhafter Dokumentation oder Datenqualität.
Level 2
- Bitstream Preservation mit Metadaten und Dokumentation
Daten im Rahmen von Pflichtabgaben in MA-Arbeiten (sofern von den Gutachtern nichts anderes bestimmt wird), 10-Jährige Aufbewahrung von Qualifizierungsschriften, korrigierte Daten aus kleineren Forschungsvorhaben ohne direkte Anschlussfähigkeit an Sammelschwerpunkten. Eventuell kommen Vermittlungen an andere Datenrepositorien in Betracht.
Level 3
- Bitstream Preservation mit Metadaten, Dokumentation und Format-Transfer (bzw. Speicherung technischer Infrastruktur), Publikation, ggf. Vermittlung an fachspezifisches Datenrepositorium
Daten aus Forschungsprojekten, Dissertationen die aufgrund des Peer Review-Verfahrens grundsätzlich eine Empfehlung zur Langzeitarchivierung erhalten.
Level 4
- Bitstream Preservation mit Metadaten und Dokumentationen entsprechend standardisierter Verzeichnisdienste, Format-Transfer und Kuration (im Sinne Unterstützung zur Langzeitarchivierung, Veröffentlichung)
Daten aus Projekten mit besonderer Bedeutung im universitären Umfeld und von An-Instituten des Landes Sachsen-Anhalts, die außerhalb des Sammelschwerpunktes des Datenzentrums liegen,
Level 5
- Bitstream Preservation mit Metadaten und Dokumentation entsprechend standardisierter Verzeichnisdienste, Formattransfer, Kuration und Verschneidung inklusive Anwerbungsstrategie dazu passender Daten (Aufbau Big Data), Publikation
A. Daten innerhalb der Forschungsschwerpunkte des Instituts für Geschichte bzw. der Universität als zentral wichtig klassifizierte Forschungsdaten (Benennung durch Professoren)
B. Sammelschwerpunkt: Strukturierte Mikrodaten (individuelle Daten) zur Abbildung lebenslaufspezifischer oder biografischer Ereignisse (z. B. Personendatenbank Sachsen-Anhalt) (Evaluierung durch Datenzentrum)
Quellen werden von der Langzeitarchivierung nur soweit erfasst, wie sie unmittelbar zum Verständnis wichtig sind und dies auch nur ab Level 4-Projekten.
11.2. Verpflichtung zur Bitstream-Preservation
Das Institut macht eine Abgabe von Daten innerhalb von Forschungs- und Qualifizierungsarbeiten (Bachlor-, Master- und Dissertationsprojekte, Habilitationen) verpflichtend, die durch Mitarbeiter des Instituts für Geschichte betreut werden. In diesen Fällen kommt die Verpflichtung aufgrund der 10jährigen Archivierungspflicht von Prüfungsleistungen zustande. Auf diese Weise werden nicht nur die Regeln guter wissenschaftlicher Praxis sichergestellt, sondern auch den Leitlinien der DFG zum Umgang mit Forschungsdaten Rechnung getragen. Daten aus anderen Qualifizierungsarbeiten sowie aus weiteren Forschungsprojekten werden ebenfalls verpflichtend gespeichert, sofern diese Personen aufgrund von Anstellungsverhältnissen zum Institut für Geschichte gehören bzw. Drittmittelprojekte von Angehörigen des Instituts für Geschichte eingeworben wurden.
Das Hosting der Daten erfolgt über die Bitstream-Preservation des ITZ der Universität Halle-Wittenberg. Gebühren fallen dafür innerhalb der universitären Forschung nicht an.
11.3. Langzeitarchivierung
Das Datenzentrum favorisiert eine Speicherung von langzeitgeeigneten Dateiformaten und empfiehlt eine Konvertierung in nichtproprietären Formaten bzw. eine Speicherung verschiedener Formattypen. Dazu sind Fragen der Kosten, des Speicherplatzes und des Zeitaufwandes (personelle Ressourcen) für einzelne Projekte zu berücksichtigen. Das Datenzentrum berät über geeignete Strategien einer (inhaltlichen) Langzeitarchivierung, die über die rein technisch Speicherung (Bitstream-Preservation) hinausgehen. Arbeitsleistungen dazu müssen von Datengebern geleistet werden, das Datenzentrum kann hier beratend unterstützen. Dazu baut das Datenzentrum momentan Infrastrukturen bzw. Kooperationen mit vertrauenswürdigen Datenrepositorien auf .
Unter Langzeitarchivierung wird gegenwärtig ein Zeitraum von zehn Jahren verstanden. Erfahrungsgemäß werden Daten bei aktueller Nutzung am besten gesichert. Über eine gute Auswahl und Evaluation von Daten wird am effektivsten eine erfolgreiche langfristige Sicherung erreicht, da diese eine regelmäßige Migration und Konvertierung von Daten erzwingt.
12. Nachnutzung
Das Datenzentrum strebt nicht nur eine nachhaltige Langzeitarchivierung von Daten an, sondern unterstützt bei der Klärung von Rechten bzw. vermittelt zwischen Datengeber und Datennehmern. Das Datenzentrum stellt für diesen Zweck Nutzungsverträge zur Verfügung, über die Nutzer entsprechend der verschiedenen Lizenztypen Daten verwenden können.
Mit Share_it und dem Open-Data-Repositorium der Universitäts- und Landesbibliothek werden Findmittel und Schnittstellen entwickelt, welche die Erreichbarkeit, Durchsuchbarkeit und Auffindbarkeit der Daten sicherstellen.
Das Datenzentrum sorgt über eine entsprechende Öffentlichkeitsarbeit für die Eintragung des Datenzentrums in geeignete Forschungsdatenbanken und Findmittel und führt ein Gesamtverzeichnis der vom Datenzentrum betreuten Daten.