
Podcast Blechhammer
Das Forschungsdatenmanagement an der Hochschule Schmalkalden stellt sich vor.
Svetlana Knaub fragt nach.
M
An dieser Stelle startet unser neuer Podcast zum Thema Forschungsdatenmanagement an der Hochschule Schmalkalden.
Dieser möchte Forschende ermutigen, sich mit der Materie des FDM zu beschäftigen, um ihre Forschung effizienter zu
organisieren und die Ergebnisse nachhaltiger zu nutzen. Herr Fehling, Sie sind ein Ansprechpartner
zum Forschungsdatenmanagement an unserer Hochschule. Vielleicht stellen sie sich zunächst kurz vor und
erzählen uns anschließend etwas über das HAWK-Projekt zum Forschungsdatenmanagement.
A
Mein Name ist Peer Fehling. Ich bin ausgebildeter Chemiker. Die Forschungsdaten, mit denen ich mich beschäftigt habe, sind hauptsächlich Messdaten. Die Community im Forschungsdatenmanagement in Thüringen bzw. bundesweit setzt sich aus allen Wissenschaftsbereichen zusammen, so dass ein vielfältiger Input aus den einzelnen Wissenschaftsdisziplinen erreicht wird. Als ich die Stelle an der Hochschule Schmalkalden im Projekt HAWK-FDM antrat, fand ich den Weg ins Forschungsdatenmanagement.
Seit Dezember 2022 läuft an der Hochschule Schmalkalden das FDM-HAWK-Projekt. FDM-HAWK heißt: Kompetenzcluster Forschungsdatenmanagement an Hochschulen für Angewandte Wissenschaften in Thüringen. Daran merkt man schon, dass mehrere Einrichtungen daran beteiligt sind.
M
Welche Einrichtungen sind das?
A
Außer der Hochschule Schmalkalden sind die Fachhochschule Erfurt, die Ernst-Abbe-Hochschule Jena und die Hochschule Nordhausen beteiligt.
M
Worum geht es bei dem Projekt?
A
Im Verlauf des Forschungsprozesses werden, beginnend mit der Planung von Projekten, dem Antrag zur Einwerbung von Fördermitteln und der Durchführung der Projekte zahlreiche Daten erhoben. Diese Daten entlang des Datenlebenszyklus in optimaler Weise und anhand standardisierter Regeln zu erhalten und über das Projektende hinaus auch für andere Interessenten nutzbar zu machen ist Anliegen des Forschungsdatenmanagements.
M
Warum sind diese Daten für Dritte von Interesse?
A
Die moderne Forschung wird mehr denn je von hochspezialisierten Teams getragen und die Ergebnisse einzelner Forschergruppen bauen stark aufeinander auf. Dabei sind oft beachtliche personelle und finanzielle Aufwendungen im Spiel. Die Projektfinanzierung erfolgt zum Teil durch Fördermittelgeber mit Steuergeldern. Im datengetriebenen Zeitalter sind also die Daten und Informationen der wahre Schatz der Forschung, den es zu erhalten gilt. Und Daten, die mit Steuermitteln erhoben werden, sollten auch für etwaige Interessenten zugänglich sein, um z.B. Doppelerhebungen und damit Doppelfinanzierungen zu vermeiden.
M
Warum befasst sich das Projekt speziell mit den Hochschulen für
angewandte Wissenschaften und Fachhochschulen in Thüringen?
A
Dazu muss man sagen, dass das Thema Forschungsdatenmanagement in den letzten Jahren zunehmend an Beachtung gewonnen hat. Ausschlaggebend dafür waren einerseits die Bestrebungen der Fördermittelgeber, verbindliche Standards zum Umgang mit Forschungsdaten zu schaffen. Genannt seien in diesem Zusammenhang die „Leitlinien der Deutschen Forschungsgemeinschaft zur guten wissenschaftlichen Praxis“ beim Umgang mit Forschungsdaten. Andere Fördermittelgeber, wie die Volkswagenstiftung oder die Europäische Union, verlangen von Antragstellern explizit Aussagen zum Umgang mit den im Projekt anfallenden Daten.
An den Universitäten der Bundesrepublik hat die Etablierung des Forschungsdaten-managements schon vor einigen Jahren begonnen, nicht zuletzt, weil die Grundlagenforschung dort in breitem Umfang mit Steuermitteln finanziert wird.
M
Wie muss man sich diese „Etablierung des Forschungsdatenmanagements“ vorstellen?
A
Es wurden Landesinitiativen zum Forschungsdatenmanagement gegründet, welche die Universitäten beim Aufbau des Forschungsdatenmanagements aktiv unterstützen. In Thüringen ist es das Thüringer Kompetenznetzwerk Forschungsdatenmanagement, das TKFDM, welches aus der Universität Jena hervorgegangen ist. Aber auch in anderen Bundesländern gibt es FDM-Landesinitiativen. Genannt seien zum Beispiel HeFDI für Hessen, BW-FDM in Baden-Würtemberg oder FDM-Bayern. An den Universitäten wurden zunächst befristete Stellen von Ansprechpartnern für die Forschenden zum Thema „Forschungsdatenmanagement“ geschaffen, die in vielen Fällen inzwischen entfristet wurden. Das ist eine wichtige Voraussetzung für die geplante Verstetigung von Forschungsdatenmanagement-Strukturen.
M
Und was ist das Besondere an den HAWs bzw. FHs beim Thema
Forschungsdatenmanagement im Vergleich zu den Universitäten?
A
Ein wesentlicher Unterschied ist die Ausrichtung der Forschung. Während die Universitäten den Forschungsschwerpunkt im Grundlagenbereich setzten, ist die Forschung an den HAWs sehr industrienah und anwendungsbezogen. Dementsprechend besteht ein starkes Interesse der Akteure, sensible Daten zu schützen und Wettbewerbsvorteile aus Forschungsaktivitäten zu sichern. Aber auch dies ist mit einem geeigneten Zuschnitt des Forschungsdatenmanagements möglich, etwa durch gezielte Lizenzen und den Schutz von Verwertungsrechten. Man sollte bei allem „Wenn und Aber“ nicht vergessen, dass die Nachnutzung von Daten Dritter auch mit Vorteilen für die eigene Forschung verbunden ist.
M
Wo kann ich mich zum Thema Forschungsdatenmanagement informieren und schnell einen Einstieg finden?
A
An der Hochschule Schmalkalden gibt es auf der Webseite des Dezernates „Forschung und Transfer“ eine Rubrik zum Thema Forschungsdatenmanagement, wo weiterführende Informationen zusammengestellt sind. Aber natürlich laden wir alle ein, diesem Podcast zu folgen, der als Einstiegshilfe zur Thematik „Forschungsdatenmanagement“ gedacht ist.
M
Herr Fehling, vielen Dank für diesen informativen Überblick zum Projekt „Forschungsdatenmanagement-Kompetenzcluster
an HAWs in Thüringen“. In der nächsten Episode wollen wir klären, was man unter Forschungsdaten und
Forschungsdatenmanagement versteht. Und damit verabschieden wir uns.

Podcast Blechhammer
Forschungsdaten und Forschungsdatenmanagement – der Einstieg.
Svetlana Knaub erkundigt sich.
M
Herzlich willkommen zu einer neuen Folge zum Thema Forschungsdatenmanagement
an Fachhochschulen. Diese Folge beschäftigt sich mit den folgenden Fragen:
Was sind Forschungsdaten und was ist Forschungsdatenmanagement?
Herr Fehling, was versteht man unter Forschungsdaten?
A
Wahrscheinlich kann sich jeder zumindest aus der Perspektive seiner eigenen akademischen Ausbildung etwas unter Forschungsdaten vorstellen. Und genau dieser fachbezogene Blick macht es schwer, eine einheitliche Definition zu finden. Man denke nur an die Vielzahl der in den Natur- und Ingenieurwissenschaften anfallenden Messdaten oder die in den Sozialwissenschaften gern und oft genutzten Datenerhebungen mittels Umfragen.
M
Das scheinen ja dann fast alle Daten zu sein, die irgendwie mit Forschung zu tun haben?
A
Die DFG hat sich beim Thema „Was sind Forschungsdaten“ in ihren „Leitlinien zum Umgang mit Forschungsdaten“ mit einer Aufzählung beholfen und Messdaten, Laborwerte, Texte, Objekte aus Sammlungen oder Proben, die im Rahmen einer wissenschaftlichen Arbeit entstehen, entwickelt oder ausgewertet werden, unter der Rubrik „Forschungsdaten“ zusammengefasst. Weiterhin sind methodische Testverfahren, wie z.B. Fragebögen, oder Software, Simulationen und Surveydaten, also Daten, die im Zusammenhang zu einzelnen „Beobachtungseinheiten“, wie Personen, Haushalten oder Unternehmen stehen, genannt.
M
Das klingt ziemlich sperrig?
A
Wir können das vereinfachen und sagen: Bei Forschungsdaten handelt es sich um alle Daten, die im Rahmen der Planung, Durchführung und Dokumentation von wissenschaftlichen Vorhaben entstehen bzw. verwendet werden. Zu den wissenschaftlichen Vorhaben zählen Projektarbeiten genauso wie Bachelor-, Master- oder Promotionsarbeiten.
M
Und warum sind die Forschungsdaten gerade heute so wichtig? Schließlich hat es solche Daten auch früher schon gegeben, wenn auch in anderer Form.
A
Das ist richtig. Aber die aktuelle Situation ist folgende: Moderne Forschung wird nicht mehr ausschließlich von herausragenden Einzelpersonen getragen und findet nicht mehr im „stillen Kämmerlein“ statt. Stattdessen haben wir es mit Teamarbeit hochspezialisierter Wissenschaftseinheiten zu tun, die hochschulübergreifend auf nationaler und internationaler Ebene zusammenarbeiten. An dieser Stelle müssen wir den Bezug zur Digitalisierung herstellen. Moderne Forschung generiert eine ständig wachsende Flut von digitalen Daten, die neben der praktischen Anwendung den eigentlichen Schatz der Forschung darstellen. Es ist unschwer zu erkennen, dass die Forschungsdaten die Basis für erfolgreiches wissenschaftliches Arbeiten bilden und auch dessen Erfolg widerspiegeln. Moderne Forschung ist „datengetrieben“, das heißt: Strategische Entscheidungen über die Ausrichtung der Forschung werden auf Basis der Analyse und Interpretation von Daten getroffen.
M
Jetzt wird auch die Bedeutung des Forschungsdaten-Managements deutlich.
A
Richtig. Im Grunde kümmert sich bereits jeder Forschende um seine Daten. Allerdings wird dieser Prozess immer anspruchsvoller und zeitintensiver, vom informationstechnologischen „know-how“ ganz zu schweigen. Es geht um Ressourcenplanung, verfügbare Speicherstrukturen, Datenschutz und Datensicherheit, Backupstrategien, Datenarchivierung und vieles mehr.
M
Wie unterstützt das Forschungsdatenmanagement die Forschenden?
A
Das Forschungsdatenmanagement stellt geeignete Tools für diese Aufgaben zur Verfügung und steht den Forschenden bei der Vorbereitung, Durchführung und Organisation ihrer Arbeit beratend zur Seite, so dass effektiv mehr Zeit für die eigentliche Forschung bleibt. Sicherheit und Nutzbarkeit der Forschungsdaten sind zu jedem Zeitpunkt des Projektes und auch darüber hinaus gewährleistet.
M
Welche Einrichtungen der Hochschule sind an diesem Prozess beteiligt?
A
Neben einem lokalen Ansprechpartner zum Thema „Forschungsdatenmanagement“ an der Hochschule sind auch das Hochschulrechenzentrum und die Bibliothek eingebunden. Diese bilden die „Forschungsdateninfrastruktur“. Es geht ja in weiterem Sinne auch um Informationsmanagement. Die Basis dafür bildet die elektronische Archivierung und Nachnutzung der Forschungsdaten.
Auf einen Nenner gebracht, vereint das Forschungsdatenmanagement alle methodischen, konzeptionellen, organisatorischen und technischen Maßnahmen und Verfahren zum Umgang mit Forschungsdaten während deren „Lebenszyklus“.
M
Wir hoffen, dass wir am Ende etwas zum Verständnis der Begriffe Forschungsdaten und
Forschungsdatenmanagement beitragen konnten. In der nächsten Folge wird es um das Thema
„Forschungsdatenmanagement und Datenlebenszyklus“ gehen. Bis dahin sagen wir Tschüss.

Podcast Blechhammer
Forschungsdatenmanagement – am besten FAIR!
Svetlana Knaub fragt für uns nach, wie das geht.
M
In der zweiten Folge haben wir über Forschungsdaten und Forschungsdatenmanagement gesprochen.
Am Schluss, als es darum ging, wie die Unterstützung der Forschenden bei der Organisation ihrer
Forschungsdaten genau aussieht, fiel der Begriff „Datenlebenszyklus“. Was ist der Datenlebenszyklus?
A
Der Datenlebenszyklus ist ein anschauliches Modell für den Umgang mit den Forschungsdaten auf der Zeitschiene ihrer Existenz. Er wird vereinfacht in einzelne Abschnitte unterteilt, die aber nicht streng nacheinander ablaufen, sondern sich tatsächlich zum Teil zeitlich überlappen.
Diese Abschnitte sind:
- Die Planung des Forschungsvorhabens
- Die Erzeugung der Daten
- Die Analyse und Aufbereitung der Daten
- Das Teilen und Publizieren der Daten
- Das Archivieren der Daten und -last but not least-
- die Nachnutzung der Daten.
Man muss dazu sagen, dass diese Gliederung in unterschiedlichen Bezeichnungsvarianten existiert, wobei die inhaltliche Entsprechung aber gegeben ist.
M
Können Sie uns die einzelnen Phasen etwas genauer erklären?
A
Gern. Das Forschungsvorhaben beginnt als erstes mit der Planungsphase. Es gilt sich Klarheit zu verschaffen, welche Daten tatsächlich benötigt, erzeugt, verarbeitet und gespeichert werden sollen. Eingeschlossen sind logistische und infrastrukturelle Überlegungen zu verfügbaren Speichermöglichkeiten und Speicherkapazitäten, die Regelung von Verantwortlichkeiten, die Festlegung von Datei- und Verzeichnisstrukturen, aber auch die Einwerbung von Mitteln für ein strukturiertes Forschungsdatenmanagement.
M
Das sind schon eine ganze Menge Informationen zu diesem ersten Punkt. Wie behält man da den Überblick?
A
Alle diese Informationen fließen in einen sogenannten Datenmanagementplan ein. Dabei handelt es sich um ein nützliches Tool, für das eine Reihe von gegliederten Vorlagen existieren. Im Prozessinformationsportal unserer Hochschule gibt es Handreichungen, die in Form eines Fließschemas bei der Erstellung des Datenmanagementplanes behilflich sind. Darauf werden wir in einer späteren Folge zurückkommen, da Datenmanagementpläne inzwischen bei vielen Fördermittelgebern im Antragsprozess gefordert werden.
M
Dann folgt an zweiter Stelle der Abschnitt „Erzeugung der Daten“.
A
Richtig. Forschungsdaten werden durch Experimente, Messungen, Beobachtungen, Simulationen, Umfragen oder andere Prozesse erzeugt. Das ist von Fach zu Fach sehr unterschiedlich. Wichtig in diesem Zusammenhang ist, dass bei Nutzung fremder Daten die Einwilligung des Dateneigentümers eingeholt wird, bzw. die lizenzrechtlichen Einschränkungen geprüft werden.
M
Als kleine Anmerkung: Auch auf das Thema der rechtlichen Aspekte und Lizensierung von
Forschungsdaten werden wir in einer späteren Folge zurückkommen.
A
So ist es.
Womit wir schon beim dritten Abschnitt „Analyse und Aufbereitung der Forschungsdaten“ wären. Die Verantwortung hierfür liegt beim Forschenden selbst. Die damit verbundenen Prozesse umfassen z.B. das Digitalisieren, Transkribieren, Prüfen, Validieren, Interpretieren, im Falle personenbezogener Daten auch das Anonymisieren oder Pseudonymisieren der Daten.
M
Und woher weiß ich am Ende noch, wie ich von meinen Rohdaten zu den bearbeiteten Daten gekommen bin?
A
Das ist ein sehr wichtiger Aspekt. Wir brauchen also eine Art Beschreibung für unsere Daten: Das sind die Metadaten. Metadaten sind, einfach gesagt, Daten über Daten. Ihre Erfassung ist Kernbestandteil der Aufbereitung von Forschungsdaten. Metadaten spielen beim Auffinden und Nachnutzen der Forschungsdaten eine wichtige Rolle.
M
Können wir vielleicht ein Beispiel für die Nutzung von Metadaten anführen?
A
Gut bekannt sind die Metadaten von digitalen Fotografien. Ihnen kann man entnehmen, wann das Foto mit welchen Kameraeinstellungen aufgenommen wurde. Die GPS-Koordinaten geben Auskunft über den Ort.
M
Einleuchtend. Auch das Thema Metadaten wird in einer späteren Podcast-Episode noch einmal
ausführlicher beleuchtet. Und damit sind wir bei Abschnitt 4 des Forschungsdatenlebenszyklus,
dem „Teilen und Publizieren“ von Forschungsdaten. Was ist dabei zu beachten?
A
Bevor Daten geteilt oder veröffentlicht werden, sollten die Urheber- und Zugriffsrechte, Patentrechte oder Lizenzen festgelegt werden. Sollen Daten auf einem Forschungsdatenrepositorium, also einem speziellen öffentlichen oder institutionellen Server, publiziert werden, kann man bei der Auswahl des Repositoriums gezielt Einfluss in dieser Hinsicht nehmen. Zur eindeutigen Identifizierung und Referenzierung der Daten können „Persistente Identifikatoren“, abgekürzt PIDs, angelegt werden. Mit Hilfe der PIDs wird das Auffinden der Daten im Netz erleichtert. Eine spezielle Form der PIDs sind z.B. Digital Object Identifiers, DOIs, die dem einen oder anderen bereits in der Fachliteratur begegnet sein dürften.
M
Was habe ich letztlich davon, wenn ich meine Forschungsdaten teile oder publiziere?
A
Die publizierten Forschungsdaten sind ein direkter Ausdruck des Erfolgs der Forschung und erhöhen nicht nur die eigene Reputation, sondern auch die der wissenschaftlichen Institution, an welcher der Forschende tätig ist. Das sollte Anspruch und Ansporn genug sein. Zudem eröffnet die Verbreitung in bestehenden Netzwerken und Communities Kooperationsmöglichkeiten für zukünftige Projekte.
M
Das ist plausibel. Und damit kommen wir zum fünften Abschnitt:
Dem Archivieren der Forschungsdaten.
Warum sollten Forschungsdaten archiviert werden?
A
Ganz klar: Um wissenschaftliche Ergebnisse längerfristig nachvollziehbar zu machen.
M
Was heißt längerfristig?
A
Längerfristig heißt mindestens 10 Jahre. Eine Forderung, die ausgehend von den Richtlinien der Deutschen Forschungsgemeinschaft zur „Guten wissenschaftlichen Praxis“ auch von den meisten Universitäten und Hochschulen in internen Richtlinien zum „Umgang mit Forschungsdaten“ bereits umgesetzt wird, so auch an der Hochschule Schmalkalden.
M
Was muss man sich unter Archivieren vorstellen?
A
Zum Archivieren werden die Daten oder unterschiedliche Versionen von Daten in langfristig verfügbare Speicher kopiert. Dort werden sie dauerhaft und sicher aufbewahrt. Die Originaldaten können anschließend gelöscht werden. Archivierungsspeicher ist nicht unbedingt für kurzfristige Zugriffe konzipiert, sondern tatsächlich oft als eine Art Datendepot mit entsprechend verzögerten Zugriffszeiten ausgelegt. Auf das Thema Archivieren werden wir in einer späteren Episode des Podcasts zurückkommen.
M
Welche Daten sollten archiviert werden?
A
Prinzipiell sollten nach Abschluss eines Forschungsprojektes alle wichtigen Projektdaten archiviert werden. So kann man auch zu einem späteren Zeitpunkt seiner Nachweispflicht nachkommen.
M
Dann bleibt uns noch als letzter Abschnitt des Forschungsdatenlebenszyklus die „Nachnutzung der Forschungsdaten“.
Was bedeutet das und wer nutzt die Forschungsdaten später?
A
Nachnutzung bedeutet, dass publizierte Forschungsdaten, also Forschungsdaten in Datenjournalen oder auf Repositorien, ohne oder auch mit Einschränkungen zu einem späteren Zeitpunkt vom Forschenden selbst oder Dritten genutzt werden können. Kontextuelle Neubewertung der Forschungsdaten, also Betrachtung unter anderem Blickwinkel, kann völlig neue Forschungsperspektiven und -ansätze eröffnen. Zeit- und kostenintensive Voruntersuchungen werden reduziert und die wissenschaftliche Gesamtbilanz der Forschung qualitativ und quantitativ verbessert. Der Eigentümer der Forschungsdaten kann selbst bestimmen, wer und mit welchen Einschränkungen die Daten nutzen darf.
M
Das waren eine ganze Menge Informationen zum Forschungsdatenlebenszyklus.
Können wir am Ende eine Handlungsempfehlung ableiten, wie man mit seinen
Forschungsdaten richtig umgeht und das Wissen über den Forschungsdatenlebenszyklus optimal nutzt?
A
Dazu gibt es die internationalen FAIR-Prinzipien. FAIR = F-A-I-R ist ein englisches Akronym. Die Buchstaben stehen für F, wie Findable = auffindbar, A wie Accessible = zugänglich, I wie Interoperable = interoperabel und R wie Reusable = wiederverwendbar. Damit sind Leitlinien zum Umgang mit Forschungsdaten beschrieben, so dass diese zur Wiederverwendung durch Menschen, aber auch Maschinen geeignet sind. Einige Mittel dazu haben wir bei der Behandlung des Datenlebenszyklus heute gehört. Daten, die den FAIR-Prinzipien genügen, nennt man auch FAIRe Daten. Ein Begriff, den man sich merken sollte.
M
Vielleicht fassen Sie noch einmal zusammen, wie wir unsere Forschungsdaten FAIR machen?
A
Die Auffindbarkeit gewährleistet die Zuweisung von Persistenten Identifikatoren, wie einer DOI oder aber einer ORCID, der Open Researcher and Contributor Identification Number, für den Autor.
Die Zugänglichkeit zu den Daten wird durch die Lizensierung der Daten und eine langfristig verfügbare Speichermethode sichergestellt. Auch die Metadaten tragen dazu entscheidend bei.
Interoperabilität wird durch die Verwendung offener und freier Datenformate mit langfristiger Nutzbarkeit erreicht. Die Verwendung von standardisierten Bezeichnungen, also von Fachvokabular, ist ebenso ein wichtiger Aspekt. Das gilt gleichermaßen für Daten und Metadaten.
Für die Wiederverwendbarkeit der Forschungsdaten sind viele der bereits genannten Punkte wichtig, so die Verwendung offener Dateiformate, strukturierter Metadaten, standardisierten Vokabulars oder maschinelesbarer Lizenzen. Auf die Lizenzen gehen wir in einer späteren Folge ausführlicher ein.
M
Herr Fehling, vielen Dank für das interessante Gespräch.
In der nächsten Episode unseres Podcasts beschäftigen wir uns mit Open Science, Open Access und Open Data.
Bis zum nächsten Mal.

Podcast Blechhammer
Die offene Wissenschaft – freier Zugang zu Informationen.
Svetlana Knaub sucht Klarheit.
M
In der dritten Folge haben wir über den Datenlebenszyklus, die FAIR-Prinzipien und
FAIRe Forschungsdaten gesprochen. Heute soll es um die Beziehungen von Open Science,
Open Access und Open Data zum Forschungsdatenmanagement gehen.
Was hat das eine mit dem anderen zu tun?
A
Eine exakte Definition gibt es für den Begriff „Open Science“ nicht. Durch die „Offene Wissenschaft“ sollen die Transparenz von Wissenschaftsprozessen im Allgemeinen und der Zugang zu wissenschaftlichen Informationen im Besonderen gefördert werden. Einzelne Elemente des Forschungsprozesses sind dabei frei zugänglich. Das schließt zum Beispiel Publikationen, Laborberichte, Software und eben auch Forschungsdaten ein. Der barrierefreie Austausch von wissenschaftlichen Erkenntnissen ermöglicht so eine höhere Qualität der Wissenschaft und ist Teil der Digitalisierungsstrategie.
M
Was bedeutet das für uns als Hochschule für angewandte Wissenschaften
im Hinblick auf die praktische Umsetzung von Forschungsergebnissen in der Wirtschaft?
A
Die Wirtschaft profitiert natürlich unmittelbar von einem erleichterten Transfer wissenschaftlicher Erkenntnisse. Innovationskraft und Konkurrenzfähigkeit werden verbessert und industrienahe Forschung qualitativ aufgewertet, was auch zukünftigen Kooperationsprojekten zugute kommt. Aber Open Science betrifft natürlich nicht nur Forschung, die sich industriell gewinnbringend umsetzten lässt, sondern alle Wissenschaftsdisziplinen.
M
Und wie lassen sich Open Access und Open Data im Verhältnis zu Open Science einordnen?
A
Open Science bildet sozusagen einen Oberbegriff für eine Gruppe von Maßnahmen, die alle das Ziel haben, den Zugang, die Verbreitung und die Nachnutzung wissenschaftlicher Erkenntnisse zu verbessern. Dazu zählen u.A. neben Open Access auch Open Source und Open Data.
Open Access strebt dabei den uneingeschränkten Zugang zu wissenschaftlichen Publikationen an. Open Source betrachtet die Nachnutzung von Software und dürfte bereits vielen bekannt sein. Open Data schließlich bemüht sich um frei verfügbare Forschungsdaten.
Es wird aber bereits weitergedacht und mit Open Hardware für experimentelle Setups, Open Services für Unterstützungsleistungen und Open Educational Resources für Lehrmaterialien neue Handlungsfelder im Sinne „Freier Verfügbarkeit“ erschlossen.
M
Und wo stehen wir als Hochschule in diesem Prozess?
A
Die Hochschule Schmalkalden besitzt seit dem Jahr 2021 eine Open Access Policy, also eine Leit- oder Richtlinie mit Empfehlungscharakter zu dieser Thematik, welche auf der Webseite der Hochschule eingesehen werden kann. Die Hochschule benennt Open Science bzw. Open Access als Teil ihres Wertekanons.
Alle Mitglieder der Hochschule sind aufgerufen, sich im Rahmen ihrer Möglichkeiten an der Umsetzung des Open Science-Gedankens zu beteiligen. Das heißt z.B., Publikationen in Open Access Journalen einzureichen, dauerhafte Sicherung der Verwertungsrechte elektronischer Publikationsversionen, d.h. keine Abtretung an Verlage, oder auch frei zugängliches Publizieren.
Hier unterscheidet man den „Goldenen Weg“, der die Erstpublikation in einem Open Access-Medium umschreibt und den „Grünen Weg“ zur Zweitveröffentlichung wissenschaftlicher Arbeiten simultan zur Erstveröffentlichung oder danach auf einem Open Access Repositorium, wie der Digitalen Bibliothek Thüringen oder dem im Aufbau befindlichen Thüringer Forschungsdatenrepositorium REFODAT.
M
Wo kann man sich zu Open Access Publikationswegen an der Hochschule beraten lassen?
A
Erster Ansprechpartner ist die Bibliothek, die entsprechende Informationen auch auf ihrer Webseite zur Verfügung stellt.
Seit 2021 ist die Hochschule Schmalkalden dem bundesweiten DEAL-Vertrag mit Springer Nature beigetreten, der bis 2028 verlängert wurde. Damit besteht campusweiter Zugriff auf etwa 2000 Zeitschriftentitel des Springer-Verlages. Artikel von ErstautorInnen der Hochschule in Springer-Closed-Access-Journalen, also Abonnement-Zeitschriften, sind weltweit Open Access verfügbar und die Publikationsgebühren in reinen Open Access-Zeitschriften von Springer Nature werden vom Land Thüringen getragen. Zudem gibt es einen Open Access Publikationsfond für das Land Thüringen. In jedem Fall sollte man sich im Vorfeld über die Veröffentlichungs- und Verwertungsrechte informieren.
Daneben gibt es zahlreiche Finanzierungsmodelle für Open Access-Publikationen.
M
Und wie sieht es mit der Umsetzung des Open Science-Gedankens im Hinblick auf
Open Data und Forschungsdaten an der Hochschule Schmalkalden aus?
A
In der Open-Access-Policy wird empfohlen, Forschungsdaten im Sinne von „Open Data“ nach den FAIR-Prinzipien auffindbar, zugänglich, interoperabel und wiederverwertbar abzulegen. Wie das bewerkstelligt werden kann, darüber haben wir in der letzten Folge gesprochen.
M
Wir bedanken uns für die Einblicke in die Themen „Open Science, Open Access und Open Data“.
Die nächste Episode handelt von der Datendokumentation und der Bedeutung von Metadaten beim Forschungsdatenmanagement.
Bis dahin verabschieden wir uns.

Podcast Blechhammer
Metadaten beschreiben die Datenwelt.
Svetlana Knaub erkundigt sich zu den Details.
M
Heute soll im Zusammenhang mit dem Forschungsdatenmanagement näher auf die Themen
„Datendokumentation und Metadaten“ eingegangen werden. Wie bereits in der 3. Folge unseres Podcastes kurz erwähnt,
sind Metadaten Daten über Daten. Hierbei hat Herr Fehling bereits am Beispiel einer digitalen Fotodatei erklärt,
dass z.B. das Datum, die Blende oder die GPS-Koordinaten solche Daten sind. Welche Bedeutung hat
die Datendokumentation und haben speziell die Metadaten für das Forschungsdatenmanagement?
A
Die Datendokumentation ist einerseits für die Reproduzierbarkeit der Forschung im Sinne der guten wissenschaftlichen Praxis, andererseits aber auch für die Nachnutzung der Forschungsdaten wichtig. Wenn man nicht weiß, unter welchen Bedingungen die Daten entstanden sind oder was sie aussagen, sind sie praktisch wertlos. Die zur Beschreibung der Forschungsdaten verwendeten Daten heißen Metadaten. Metadaten sind also Daten über Daten, die zur Interpretation der Forschungsdaten, also für ihr Verständnis, unabdingbar sind. Idealerweise sind sie sowohl menschen- als auch maschinenlesbar und ermöglichen damit die Interpretation der Daten durch technische Systeme. Und ein Datensatz, der aufgrund fehlender Metadaten nicht oder schwer gefunden wird, entzieht sich der Nachnutzung. Damit entfiele ein Kernelement von effektivem Forschungsdatenmanagement.
M
Fassen wir zusammen: Metadaten sollten also im Idealfall...
A
… strukturiert, standardisiert und maschinenlesbar sein. Nur durch die Beschreibung der Daten mit Metadaten genügen die Forschungsdaten den FAIR-Prinzipien. Letztlich kann jeder Datensatz nur so nützlich sein, wie die Metadaten, welche ihn beschreiben.
M
Wir erinnern uns an die Episode 3 unseres Podcasts, wo ausführlicher auf die FAIR-Prinzipien eingegangen wurde.
Können wir diese noch einmal kurz nennen, da Sie uns sicher noch öfter begegnen?
A
Natürlich. FAIR ist ein englisches Akronym und fasst die Anforderungen bei der Aufbereitung von Forschungsdaten zusammen. Dabei bedeutet
F = Findable für auffindbar
A = Accessible für zugänglich
I = Interoperable, also plattformübergreifend zu verarbeiten und
R = Reusable für wiederverwendbar.
M
Welche Informationen über die Forschungsdaten sollten unbedingt in den Metadaten enthalten sein?
A
Dafür gibt es die „6W-Regel“: Wer, Wie, Was, Wo, Wann und Warum?
Also WER hat die Daten WIE erstellt, WAS sagen die Daten aus, WO wurden Sie erstellt, WANN und zu welchem Zweck, also WARUM. Damit ist klar, dass Metadaten zu allen Zeitpunkten des Forschungsdatenlebenszyklus entstehen, beginnend mit der Planung, über die Datenerhebung, die Datenanalyse, die Datenarchivierung bzw. Speicherung und auch die Nachnutzung. Vollständig beschrieben sind die Forschungsdaten mit Informationen zum Forschungsprojekt, zum betreffenden Datensatz und zu den enthaltenen Dateien.
Niedergelegt sind diese projektgebundenen Informationen in Datenmanagementplänen, welche bei vielen Fördermittelgebern bei Antragstellung bereits obligatorisch sind. Darauf werden wir in einer späteren Folge des FDM-Podcasts eingehen.
M
Welche Möglichkeiten der Erstellung von Metadaten stehen dem Forschenden zur Verfügung?
Sie sprachen davon, dass im Idealfall die Metadaten standardisiert abgelegt werden sollten. Gibt es dafür Tools?
A
Eine einfache Form ist die Erstellung einer README-Datei. Einige werden dieses Format von Software kennen, wo wichtige Informationen über Autorenschaft, Version oder Lizenzen abgelegt sind. In analoger Weise enthält eine README-Datei zu Forschungsdaten beschreibende Informationen über die Forschungsdaten. Stichwort: 6W. Die README-Datei liegt oft in Markdown-Syntax vor. Im Internet auf der Plattform „GitHub“ gibt es dazu entsprechende Templates.
Eine weitere Möglichkeit ist das Codebook, welches Informationen zu allen Variablen eines Datensatzes enthält. Man stelle sich eine Tabelle in einem nichtproprietären Dateiformat, d.h. frei von Rechten nutzbar, vor. Etwa das „comma separated value“ – csv -. Dabei sollten nicht mehrere Tabellen auf einem Blatt sein, auf Titelzeilen, Kommentare, Leerzeilen, Auswertungen und Sonderzeichen verzichtet werden und Werte nach Maßzahl und Maßeinheit geordnet vorliegen. Dann spricht man auch von „wohlgeformten Daten“.
Gut strukturierte Metadaten erhält man durch Nutzung von Metadatenschemata. Diese gibt es als Vorlagen. Sie können generisch, also allgemeingültig, oder fachspezifisch angelegt sein.
Administrative und bibliographische Metadaten sind fachübergreifend standardisierbar. Anspruchsvoller ist die Erstellung von Prozess- und deskriptiven Metadaten.
M
Können Sie einige Beispiele für häufig genutzte Metadatenschemata nennen?
A
Ein bekannter generischer Metadatenstandard ist „Dublin Core“. Urheber ist die Dublin Core Metadata Initiative. Er beschreibt anhand von 15 Kernfeldern die Datenhistorie. Alle Felder sind optional und können bei Bedarf auch erweitert werden, so dass man sich den Standard für seine Daten maßschneidern kann.
Ein weiterer generischer Metadatenstandard ist der DataCite Metadata Generator. Er erstellt auf Frage-Antwort-Basis eine Datendokumentation im XML-Format und basiert auf Dublin Core.
Er wird vom DataCite Konsortium gepflegt.
M
Und die fachspezifischen Metadatenstandards?
A
Von den fachspezifischen Metadatenstandards seien CMDI = Component Metadata Infrastructure für den Bereich „Künstliche Intelligenz“ und EngMeta = Engineering Metadata für die Ingenieurwissenschaften genannt.
M
Wo kann ich mich bei Bedarf über verfügbare Metadatenstandards informieren?
A
Einen guten Überblick über Metadatenstandards geben der Metadata Standard Catalog der Research Data Alliance, einer internationalen Organisation mit dem Ziel, den offenen Austausch von Daten zu fördern.
Weiterhin sind die Seite „FAIR Sharing.org“, eine kuratierte Seite zum Thema Daten und Metadatenstandards sowie auch das „Digital Curation Centre“, eine britische Organisation mit dem Fokus auf Datenmanagement und digitaler Archivierung von Daten, zu nennen.
M
Das Metadatenschema gibt also vor, wie die Informationen zu meinen Forschungsdaten strukturiert sind.
Bleibt es mit überlassen, welche Begriffe ich dafür verwende? Stichwort: „Schlagworte“.
A
Das ist ein wichtiger Punkt. Auch die Inhalte sollten gewissen Standards genügen. Dafür stehen Vokabulare und Terminologien zur Verfügung. Dadurch sollen unterschiedliche oder falsche Schreibweisen auf einen Nenner gebracht bzw. korrigiert werden. Die Begriffe werden in Kategorien geordnet, die Taxonomien heißen. Diese Kategorien können dann unter Bildung von Ontologien modellhaft in Beziehung zueinander gesetzt werden. Man erhält also ein Netzwerk aus Wissen zu einem Thema oder auch fachübergreifend, welches aufgrund seiner Standardisierung leicht und effizient und widerspruchsfrei genutzt werden kann. Der Sachverhalt ist in diesem Rahmen stark vereinfacht dargestellt und in der Realität etwas komplexer.
M
Wo kann man sich ausführlicher zu dieser Thematik informieren?
A
Beispielgebend sei der NFDI4ING Terminology Service der Nationalen Forschungsdateninfrastruktur genannt, ein speziell für die Ingenieurwissenschaften bereitgestellter Service. Hier werden fachspezifische Terminologien für unterschiedliche Bereiche der Ingenieurwissenschaften entwickelt und vernetzt. Die Fachbereiche sind in 7 sogenannte Archetypen gegliedert, welche allesamt mit Vornamen bezeichnet sind. Der Archetyp DORIS steht beispielsweise für High Performance Measurement and Computation.
M
Und was genau macht die Nationale Forschungsdateninfrastruktur?
A
Die Nationale Forschungsdateninfrastruktur, abgekürzt NFDI, ist ein 2021 gegründeter, gemeinnütziger Verein, der von Bund und Ländern finanziert wird. Das Ziel besteht in der langfristigen Nutzbarmachung von Forschungsdaten durch Vernetzung. Dazu arbeiten Forschungseinrichtungen aus unterschiedlichen Bereichen zusammen. Die NFDI stellt Services, Trainingsangebote und Standards für den Umgang mit Daten zur Verfügung.
Die NFDI gliedert sich in 5 Sektionen, von denen eine „Metadaten, Terminologien und Provenienz“ heißt. In jeder Sektion arbeiten mehrere fachspezifisch organisierte Konsortien thematisch zusammen. Insgesamt gibt es, Stand 2024, 27 Konsortien.
M
Aber zurück zum Thema Metadaten. Wo werden die Metadaten gespeichert?
A
Die Metadaten werden direkt mit den von ihnen beschriebenen Daten gespeichert. Das kann, wie bei einem Foto, direkt in der Datei sein, oder aber verknüpft mit den eigentlichen Daten.
M
Und wie finde ich nun die Metadaten bzw. die Daten bei meiner Recherche?
A
Metadaten wird bei Veröffentlichung ein persistenter Identifikator = PID zugewiesen. Bekannt ist der Digital Object Identifier = DOI von Publikationen. Dieser schafft den Bezug zwischen Metadaten und Forschungsdaten. Die Auffindbarkeit der Metadaten selbst wird durch Registrierung und Indizierung in einem Metadatenverzeichnis realisiert. Dieses kann nach Informationen durchsucht werden. Unbedingt zu erwähnen ist, dass Metadaten verfügbar bleiben, auch wenn die eigentlichen Referenzdaten nicht mehr existieren, vielleicht weil der Server vom Netz ist oder die Archivierungsdauer abgelaufen ist.
Damit stehen auch ohne die eigentlichen Daten wichtige Informationen zur Datenhistorie und den Nutzungsrechten zur Verfügung.
Wir werden in einer späteren Folge beim Thema „Veröffentlichung von Forschungsdaten und Repositorien“ noch einmal auf diese Thematik zurückkommen.
M
Herr Fehling, vielen Dank für die Auskünfte zu den Themengebieten „Datendokumentation und Metadaten“.
Der Datenmanagementplan sowie nützliche Tools stehen im Mittelpunkt der nächsten Folge.
Hört dann gerne wieder rein.

Podcast Blechhammer
Forschungsdaten und Projekte: Gut geplant ist halb gewonnen.
Svetlana Knaub findet heraus, wieso.
M
Heute geht es um das Thema Datenmanagementplan, welches wir in der letzten Episode zum Thema
„Datendokumentation und Metadaten“ schon kurz angerissen hatten. Zu Beginn eine einfache Frage:
Was ist ein Datenmanagementplan? Ich vermute, die Antwort fällt etwas komplexer aus.
A
Ein Datenmanagementplan ist ein projektbezogenes Dokument, welches den Umgang mit Forschungsdaten während der gesamten Projektlaufzeit und darüber hinaus regelt. Das Wort „Plan“ impliziert schon, dass es sich dabei um strukturierte Informationen handelt. Das beginnt mit allgemeinen Informationen zum Projekt, wie Projektleitung, Kontaktangaben, Laufzeit und Förderschiene, der Planung des zu erwartenden Datenaufkommens, der eventuellen Nachnutzung fremder Daten, der Regelung von Verantwortlichkeiten für Datensicherung, -kuratierung, -veröffentlichung und -löschung, der Dokumentation notwendiger Speicherstrukturen bis zu rechtlichen und ethischen Aspekten, etwa im Falle der Verarbeitung personenbezogener Daten. Aber auch Kostenfaktoren können Bestandteil eines Datenmanagementplans sein.
M
Das hört sich nach umfangreicher Vorarbeit an.
Worin liegt der Mehrwert eines Datenmanagementplanes für die eigentliche Projektarbeit?
A
Der Datenmanagementplan ist ein effizientes Tool für die Projektbearbeitung. Er gibt eine Richtlinie für den Umgang mit Daten vor und schafft durch eine straffe Gliederung der Datenverwaltung mehr Freiräume für die eigentliche Forschung. Zudem ermöglicht er in oder auch zwischen Arbeitsgruppen ein verbessertes kollaboratives Arbeiten durch den einheitlichen Umgang mit Forschungsdaten.
M
Also eine Art projektbezogene Standardisierung im Umgang mit Forschungsdaten?
A
Genau. Gerade im datengetriebenen Zeitalter führt das Handling großer Datenmengen häufig zu Problemen und es wird zunehmend schwieriger, die Übersicht zu behalten. Stichwort: Nachnutzung von Forschungsdaten. Ist man beispielsweise auf der Suche nach Daten früherer Projekte, in die man nicht direkt involviert war, ist ein Datenmanagementplan ein guter Wegweiser. Als dynamisches Dokument wird er über die gesamte Projektlaufzeit und darüber hinaus aktualisiert.
M
Trotzdem scheint mir für die konsequente Nutzung noch Überzeugungsarbeit notwendig zu sein.
A
Zunächst einmal ist festzuhalten, dass viele Fördermittelgeber im Sinne einer guten wissenschaftlichen Praxis, bei Projektbeantragung einen Datenmanagementplan bzw. Aussagen zum Umgang mit Forschungsdaten fordern. Dazu zählen etwa die Volkswagenstiftung, die Deutsche Forschungsgemeinschaft, die Europäische Union oder das BMBF. Neben den von der DFG thematisierten Regeln für eine gute wissenschaftliche Praxis, die eine Nachvollziehbarkeit des Forschungsprozesses und der anfallenden Daten beinhalten, ist die Einhaltung der bereits in vorangegangenen Podcast-Episoden erwähnten FAIR-Prinzipien ausschlaggebend. Forschungsdaten sollen auffindbar, zugänglich, plattformübergreifend interoperabel und nachnutzbar sein.
M
DFG-und EU-Projekte sind eher untypisch für unsere Hochschule. Also bleibt der DMP an den
Hochschulen für angewandte Wissenschaften doch eher die Ausnahme?
A
An den Hochschulen für angewandte Wissenschaften läuft die Forschung traditionell oft im Rahmen industrienaher Kooperationsprojekte. Damit ergeben sich deutliche Unterschiede zur grundlagenorientierten Forschung an den Universitäten. Es bleibt abzuwarten, ob sich die Nutzung von Datenmanagementplänen in der Forschung an Hochschulen für angewandte Wissenschaften durchsetzen wird bzw. ob deren Anwendung irgendwann verbindlich wird. Der Aufwand wird sicher mit jedem erfolgreich eingesetzten DMP geringer im Vergleich zum generierten Mehrwert bei der Projektbearbeitung. Dafür sorgen sicher auch Tools, und lokale Forschungsdatenmanagement-Kontaktstellen, die bei der Erstellung von DMPs behilflich sind.
M
Welche Tools sind das und wie kann man diese nutzen?
A
Zuerst unterscheiden wir wieder allgemein anwendbare, also generische und fachspezifische DMPs. Für beide Arten sind Muster, sogenannte Templates im Internet verfügbar. Da die Universitäten in Sachen Forschungsdatenmanagement gegenüber den HAWs einen Vorsprung von einigen Jahren haben, sind auf den Websiten vieler Universitäten solche Muster-DMPs frei zugänglich. Das Problem ist dabei eher die Qual der Wahl.
Geordnet nach Projektträgern sind Muster-DMP vom BMBF, Horizon 2020 der Europäischen Union und der Volkswagenstiftung über die Website der Humboldt-Universität Berlin im pdf- oder rtf- Format zugänglich.
Als Beispiel für universitäre DMP-Vorlagen seien die Muster der RWTH Aachen und der Universität Greifswald genannt.
Zudem kann man sich auf dem vom CERN in Genf gehosteten Online-Speicherdienst „ZENODO“ eine Vielzahl von DMPs ansehen. Allein die Stichwortsuche „DMP“ bringt über 1700 Treffer.
Last but not least liefert die Webseite “DMP online” eine Übersicht von öffentlichen DMPs aus vielen Gebieten der Forschung, die unter Verwendung von „DMP online“ erstellt wurden. Achtung: Bitte nicht mit der unter identischer Abkürzung firmierenden Seiten für „Disease Management Programme“ zur Behandlung chronisch kranker Menschen verwechseln!
M
Das sind ja schon eine Vielzahl von Informationen zum Thema DMP.
A
Und bei weitem noch nicht alle. Aber das würde den Rahmen dieses Podcasts sprengen. Ein wichtiger Vertreter soll aber trotzdem noch genannt werden. Der Research Data Management Organizer – RDMO. Der RDMO ist ein sehr umfangreiches Tool, welches Forschungsprojekte von der Planungsphase, der Umsetzung und der Verwaltung bei allen Aufgaben des Forschungsdatenmanagements unterstützt. Er wurde im Rahmen eines DFG-Projektes als freie Software vom Leibniz Institut für Astrophysik Potsdam und der Fachhochschule Potsdam entwickelt. Es handelt sich um Open Source Software.
Beim RDMO erfolgt die Eingabe der projektspezifischen Daten nach einem Frage-Antwort-System und ist relativ komfortabel für den Nutzer. Man kann Antworten überspringen und später ergänzen sowie versioniert speichern. Der RDMO ermöglicht das zeitgleiche kollaborative Arbeiten an Daten mit selektiver Vergabe von Zugriffs- und Benennungsrechten sowie Speicherorten. Für eine optimale Nachnutzung der Daten sorgt die Dokumentation von Urheber- und Personenrechten auf Datensatzebene. Unter den Fragenkatalogen kann zwischen generischen, Fördermittelgeber-spezifischen und institutionsspezifischen gewählt werden.
Anzumerken bleibt, dass ein spezifisches RDMO-Template für die Ingenieurwissenschaften verfügbar ist.
Leider gibt es zum Stand 2024 wenige Institutionen in Thüringen, die den RDMO hosten. An der Universität Jena läuft im Moment eine Testinstanz. Mitarbeiter der Universität Erfurt können den RDMO über die Webseite „forschungsdaten.info“ nutzen und sich über den Shibboleth-Account einloggen. Ansonsten kann man sich bei mehreren frei verfügbaren RDMO-Instanzen registrieren oder seinen ORCID-Account nutzen.
M
Was ist ein ORCID-Account?
A
ORCID heißt Open Researcher and Contributor Identification und ist ein persistenter Identifikator, der Forschende mit ihren Publikationen und Forschungsdaten vernetzt. Forschungsergebnisse können damit einfach den Forschenden zugeordnet werden.
M
Jetzt ist natürlich interessant, welche DMP-Unterstützung
das lokale Forschungsdatenmanagement an der Hochschule Schmalkalden anbietet.
A
Zunächst bieten wir Unterstützung bei der Auswahl geeigneter DMP-Templates und der Bearbeitung von DMPs an.
Darüber hinaus ist im Rahmen der Digitalisierungsstrategie im Prozessinformationsportal der Hochschule Schmalkalden eine Darstellung zum „Prozess Forschungsdatenmanagement“ aufgenommen worden. Dort können sich Mitarbeiter der Hochschule Schmalkalden zum DMP informieren. Inhalte zur Erstellung des DMP, Kontaktstellen, Informationswege, Verantwortlichkeiten an der Hochschule Schmalkalden und Verweise auf weiterführende Informationen sind in einem Fließschema verarbeitet. Der Weg zum eigenen DMP ist praktisch vorgezeichnet. Zum Stand des Sommersemesters 2024 befinden sich die abzubildenden Prozesse noch in der Testphase.
Angesiedelt ist der „Prozess Forschungsdatenmanagement“ beim Dezernat Forschung und Transfer.
M
Und damit sind wir am Ende der heutigen Folge angelangt.
Das nächste Mal lernen wir etwas über die Veröffentlichung von Forschungsdaten,
Forschungsdatenrepositorien und über die Archivierung von Forschungsdaten. Bis dahin sagen wir auf Wiederhören.

Podcast Blechhammer
Wohin mit den Forschungsdaten? Veröffentlichen und Archivieren!
Svetlana Knaub möchte es genauer wissen.
M
Das Forschungsdatenmanagement an der HSM geht weiter.
Heute mit Informationen zu den Themen Veröffentlichung, Repositorien
und Langzeitarchivierung. Wo fangen wir an?
A
Vielleicht damit, dass die Grundvoraussetzung für die Nachnutzung von Forschungsdaten deren Veröffentlichung ist. Natürlich müssen diese dann auch auffindbar sein. Wie man das durch geeignete Metadaten realisiert, darüber haben wir uns in der letzten Episode unseres Podcasts unterhalten.
Zu Beginn sollte man auch auf die Vorbehalte gegenüber der Veröffentlichung von Forschungsdaten eingehen. Auch auf Vorbehalte zu Veröffentlichungen auf der Basis von Forschungsdaten anderer, was häufig mit Mehraufwand durch z.B. Anonymisierung begründet wird.
M
Welche Vorteile bei der Publikation von Forschungsdaten stehen denn diesen Vorbehalten gegenüber?
A
Die Veröffentlichung der eigenen Forschungsdaten schafft sowohl für Forschende als auch die Forschungsstellen eine höhere Reputation. Forschung wird nachvollziehbarer im Sinne der guten wissenschaftlichen Praxis. Gut zugängliche Forschungsdaten erfahren eine größere Verbreitung und Wahrnehmung. Aus Sicht von Aufwand und Finanzierung wird Forschung effizienter. Doppelarbeit wird vermieden. Die Dynamik der Forschungsprozesse wird erhöht, Ergebnisse werden schneller wirksam. Wichtig auch zu betonen, dass die Publikation von Forschungsdaten als eigenständige wissenschaftliche Publikationen zählen. Nicht zuletzt sind Vorgaben von Fördermittelgebern oder auch Fachjournalen zur Publikation von Forschungsdaten zu nennen, ebenso wie Informationsbedarfe der Fachcommunity. Für seriöse Forschung wird die Publikation von Forschungsdaten zunehmend erwartet.
M
Wir hatten bereits festgestellt, dass Forschungsdaten praktisch über die gesamte Laufzeit
eines Forschungsprojektes anfallen. Welche dieser Daten sind denn für eine Veröffentlichung interessant?
A
Natürlich werden nicht alle Forschungsdaten veröffentlicht. Ein Kriterium ist, ob die Daten auch nach Projektende verfügbar sein müssen, sei es aus rechtlichen oder Nachweisgründen im Sinne einer guten wissenschaftlichen Praxis. Es gibt auch „nichtreproduzierbare Daten“, die in jedem Fall erhaltenswert sind. Das hat nichts mit falschen Ergebnissen zu tun, sondern damit, dass sich die Bedingungen der Datenerhebung nicht wiederholen lassen. Beispiel: Umfragen. Natürlich spielt auch der Kostenfaktor eine Rolle, denn Daten kuratiert vorzuhalten kostet Geld.
Wobei wir zwischen Publizieren und Archivieren unterscheiden müssen. Der Sinn des Publizierens liegt darin, Forschungsdaten zu teilen und in der Breite zugänglich zu machen. Andere Wissenschaftler erhalten so die Möglichkeit, fremde Forschungsdaten in die eigene Arbeit zu integrieren und zu neuen oder weiterführenden Erkenntnissen zu gelangen.
M
Und es eröffnen sich Möglichkeiten für Kooperationen und neue Projekte.
A
Natürlich. Bei thematischen Schnittmengen besteht die Möglichkeit zur gemeinsamen Arbeit. Ressourcen zu bündeln steigert die Qualität der Forschung.
Zudem macht die Publikation von Forschungsdaten die Forschung transparenter. Ergebnisse werden auf Reproduzierbarkeit überprüft, was das Vertrauen in die Verlässlichkeit der Forschung stärkt.
M
Und in Abgrenzung zum Archivieren? Welche Ziele stehen beim Archivieren im Vordergrund?
A
Das Archivieren von Forschungsdaten, vor allem auch von unveränderten Rohdaten, sichert die Nachvollziehbarkeit der Forschung. Man spricht von Datenintegrität. Die Daten werden über einen langen Zeitraum, in der Regel mindestens 10 Jahre, gesichert, so dass der Datenverantwortliche jederzeit auf diese zugreifen kann. Dieser Zugriff kann mit mehr oder minder großem Aufwand verbunden sein. Mancherorts erfolgt die Archivierung zum Beispiel auf Bandlaufwerken. Solche Medien eignen sich nicht für kurzfristige Zugriffe im Tagesgeschäft. Wichtig in jedem Fall ist beim Archivieren auch die ausführliche Datendokumentation, also die Beschreibung der Daten. Darauf sind wir schon ausführlicher in der Episode über die Metadaten eingegangen. Es wird eher die Ausnahme als die Regel sein, dass nach 5 oder 10 Jahren die Forschenden, welche die ursprünglichen Daten erhoben haben, noch verfügbar sind. Insofern gewährleisten Archivierung und ausführliche Dokumentation langfristiges Verständnis und die Nutzungsmöglichkeit der Forschungsdaten.
M
Sowohl das Publizieren als auch das Archivieren von Forschungsdaten sind also Bestandteil der
guten wissenschaftlichen Praxis und bringen für die gesamte Forschung und Forschungscommunity Vorteile.
A
Ja, so können wir beides auf den Punkt bringen.
M
Was gibt es beim Publizieren und Archivieren von Forschungsdaten zu beachten?
A
Gerade für die Forschung an der Hochschule Schmalkalden mit industrienahen Projekten und Kooperationen mit der Wirtschaft wird Wert auf die Verwertungsrechte gelegt. Daten können mit einem Embargo belegt werden, so dass eine Nutzung durch Dritte vor Ablauf einer bestimmten Frist ausgeschlossen ist. Forschung für und mit Unternehmen sichert diesen auch immer Wettbewerbsvorteile, die diese, mit Recht, für sich reklamieren. Also sind gerade an der Hochschule Schmalkalden Rechte und Verantwortlichkeiten bei der Datenpublikation schon bei der Projektplanung zu regeln. Müssen publizierte Daten geändert oder ergänzt werden, ist auf eine korrekte und nachvollziehbare Versionierung zu achten. Die Datenformate sollten nichtproprietär, also nicht auf eine kommerzielle Software beschränkt, sein.
M
Und beim Archivieren?
A
Archivieren kann man in der lokalen Infrastruktur der Hochschule oder auch in extern gehosteten Speicherlösungen. Ähnlich den Backup-Strategien nach der 3-2-1-Regel empfiehlt sich eine Speicherlösung, die örtlich von den täglich genutzten Speicherstrukturen getrennt ist. Da mit dem Archivieren sämtliche Kopien der Daten auf anderen Speicherorten gelöscht werden können, ist hier auf besondere Sorgfalt und Zuverlässigkeit zu achten. Archivierte Daten müssen kuratiert werden, d.h. ihre Lesbarkeit auch über lange Zeiträume geprüft und gewährleistet sein.
M
Wenn ich mich entschlossen habe, meine Forschungsdaten zu publizieren, welche Möglichkeiten habe ich dazu?
A
Bekannt dürfte die geläufige Praxis zur Publikation im Anhang zu Artikeln in Fachjournalen sein. Daneben gibt es auch reine Datenjournale zur Publikation von Forschungsdaten, wo die Datenhistorie in Artikelform beschrieben wird. Die Methode der Wahl sind Repositorien, also spezielle Datenbanken zur Publikation und Verwaltung von Forschungsdaten. Diese können über Schnittstellen abgefragt werden.
Man unterscheidet generische, also disziplinübergreifende, und fachspezifische Repositorien. Vor der Veröffentlichung wird die Datenhistorie über Metadaten in einer Suchmaske beschrieben, die z.T. individuell erweitert werden kann.
M
Wie wähle ich ein geeignetes Repositorium für meine Forschungsdaten aus?
A
Dazu können mehrere Kriterien herangezogen werden.
Zum einen ist die Nutzung zertifizierter Repositorien sinnvoll und vertrauensbildend. Es sollten auch persistente Identifikatoren für die Datensätze vergeben werden, so dass die Daten und damit eventuell verlinkte Artikel schnell und einfach gefunden werden können. Ein weiterer Punkt ist die Frage nach möglichen Lizenzierungs- und Nutzungsrechten, die man bei der Veröffentlichung vergeben möchte. Auf das Thema Rechte und Lizenzen gehen wir in einer späteren Episode des Podcasts ausführlicher ein. Weiterhin die Frage: Ist der Zugang zu den Daten über das Repositorium offen oder beschränkt? Manche Repositorien verfügen über eine eigene Policy, die den Umgang mit den Forschungsdaten regelt.
M
Können Sie einige Beispiele für Forschungsdatenrepositorien nennen?
A
In dem Zusammenhang möchte ich auf das in der Entwicklung befindliche Thüringer Forschungsdatenrepositorium REFODAT verweisen. Stand Sommersemester 2024 befindet sich dieses in der Testphase und soll im Laufe des Jahres für Thüringer Universitäten und Hochschulen verfügbar sein.
Daneben liefert die Webseite „re3data.org“ eine Datenbank zu weltweit verfügbaren Repositorien unterschiedlicher Fachgebiete mit über 3000 Einträgen. Man gibt in die Suchmaske z.B. „Engineering“ ein und erhält über 700 Treffer für mögliche Repositorien.
Nicht unerwähnt sollte bleiben, dass bei der Auswahl von Repositorien die Betreiberinstitutionen bzw. Länder entsprechend vertrauenswürdig sind und auch langfristig stabile Bedingungen garantieren. Beim Upload großer Datenmengen sollte auch grenzübergreifend die benötigte Bandbreite anliegen.
M
Das waren eine Reihe nützlicher Informationen zur Thematik Veröffentlichung und Langzeitarchivierung von
Forschungsdaten sowie Repositorien. Da unsere Beiträge in der Kürze lediglich als Impulsgeber dienen können,
ist das lokale Forschungsdatenmanagement an der Hochschule Schmalkalden sicher gern bereit,
auf individuelle Fragen einzugehen bzw. zu beraten?
A
Wir stehen bei Fragen im Zusammenhang mit dem Forschungsdatenmanagement jederzeit gern zur Verfügung.
M
Danke für die nützlichen Informationen.
Unsere Themen für die nächste Episode sind Lizenzen und Datenschutz.
Wir bedanken uns für die Aufmerksamkeit und hören uns hoffentlich in der nächsten Folge wieder.

Podcast Blechhammer
Aufgepasst! Forschungsdaten schützen und lizenzieren.
Svetlana Knaub fragt nach, wie das am besten geht.
M
Heute beschäftigen wir uns mit den FDM-Themen Lizenzen, Datenschutz und Tools. Das Thema Lizenzen schließt direkt an unser letztes Thema an, bei dem es um die Veröffentlichung von Forschungsdaten ging. Wozu dient die Lizenzierung und welche Möglichkeiten gibt es, Forschungsdaten zu lizenzieren?
A
Als erstes müssen wir festhalten, dass die Mitarbeiter vom lokalen Forschungsdatenmanagement an der Hochschule Schmalkalden keine rechtsverbindliche Beratung anbieten dürfen, sondern nur über Sachverhalte und Möglichkeiten zum Thema Verwertungsrechte und Lizenzen informieren können. Für rechtsverbindliche Informationen sind die Stabsstellen Recht und Datenschutz an den Universitäten und Fachhochschulen zuständig.
Vielleicht starten wir mit dem Urheberrecht, dessen Schutz auch wissenschaftliche Arbeiten in Deutschland unterliegen. Es beinhaltet das absolute Recht auf den Schutz des geistigen Eigentums in ideeller und materieller Hinsicht. Wichtig ist hier immer der Begriff der geistigen Schöpfungshöhe, worunter die geistige Originalität der Arbeit zu verstehen ist. Reine Messdaten bzw. maschinell erstellte Rohdaten zum Beispiel unterliegen damit nicht dem Urheberrecht. Bearbeitete Daten, Texte und Grafiken aber schon. Damit wird deutlich, dass sich der rechtliche Schutzstatus von Forschungsdaten während der Projektbearbeitung ändern kann.
Das Urheberrecht ist in Deutschland unveräußerlich, verbleibt immer beim Autor und erlischt erst 70 Jahre nach dessen Tod. Es können vertraglich lediglich Nutzungsrechte abgetreten werden.
Für die Nachnutzung von Forschungsdaten sind Aussagen zu Verwertungsrechten wichtig und schaffen Sicherheit und Transparenz, unabhängig von der nationalen Gesetzgebung.
Häufig werden dazu sogenannte „Offene Lizenzen“ genutzt. Dazu zählen die Creative Commons Lizenzen, die Open Data Commons Lizenzen oder auch Softwarelizenzen.
M
Was genau sind die Inhalte der genannten Lizenzen?
A
Beginnen wir mit den „Creative Commons oder kurz CC-Lizenzen“: Diese werden in der Regel kostenlos von der gemeinnützigen Creative-Commons-Organisation in den USA in Form von Standard-Lizenzverträgen zur Verfügung gestellt. Sie sind auf eine Vielzahl unterschiedlicher Werke zugeschnitten und ermöglichen dem Autor auf einfache Art und Weise, seine Rechte zu wahren.
Je nach Restriktion unterscheidet man die Kernlizenzen:
CC0 = ohne beanspruchte Rechte, also praktisch Public Domain
CC BY = mit Namensnennung des Autors
CC BY-SA = mit Namensnennung, SA für “Share Alike” = Weitergabe unter gleichen
Bedingungen
CC BY-ND = mit Namensnennung, ND für „No Derivatives“ = Keine Veränderungen
des Werkes erlaubt
CC BY-NC = mit Namensnennung, NC für „Non Commercial“ = keine kommerzielle
Nutzung des Werkes erlaubt
und die Kombinationen
CC BY-NC-SA = mit Namensnennung, keine kommerzielle Nutzung und Weitergabe
unter gleichen Bedingungen und
CC BY-NC-ND = mit Namensnennung, kommerzielle Nutzung und Veränderung
des Werkes sind untersagt.
M
Sind diese CC-Lizenzen weltweit anwendbar und gültig?
A
Da sich die Rechtssysteme global im Urheberrecht unterscheiden, werden länderspezifisch angepasste oder „portierte“ CC-Lizenzen angeboten. Die Ports passen also die CC-Lizenzen auf lokales Recht so an, dass letztlich im internationalen Maßstab ein einheitlicher Rechtsrahmen gilt.
Die CC-Lizenzen sind versioniert bis Stand Sommersemester 2024 Version 4.0 mit internationaler Gültigkeit.
Es gibt aber durchaus Kritikpunkte an dem CC-Konzept, so z.B. im Hinblick auf Verständlichkeit für juristische Laien oder die Kombination unvereinbarer Lizenzen aus unterschiedlichen Quellwerken zu einem neuen Werk unter „share alike“-Auflage. Nutzt man also mehrere unterschiedlich lizensierte Datensätze für sein Projekt nach, müssen die Lizenzen der einzelnen Datensätze miteinander vereinbar sein. Beispielsweise ist ein unter CC0 publizierter Datensatz mit Public Domain-Freigabe nicht mit einem Datensatz vereinbar, der unter der Lizenz CC BY-ND = Keine Veränderungen publiziert wurde.
M
Weiterhin wurden die „Open Data Commons“-Lizenzen genannt. Was versteht man darunter?
A
Die Open Data Commons Lizenz stellt Lizenzverträge zu offenen Daten oder Datenbanken bereit. Sie werden von der Open Knowledge Foundation betreut. Der deutsche Ableger der globalen Organisation kümmert sich um „Offenes Wissen für die digitale Zivilgesellschaft“. Stand Sommersemester 2024 sind drei Lizenzen veröffentlicht.
Die Public Domain Dedication and Licence = PDDL ist das Pendant zur CCO-Lizenz der Creative Commons und ermöglicht den Verzicht auf die Geltendmachung aller Urheberrechte.
Die Open Database Licence = ODbL ist vergleichbar mit der CC BY-SA (share alike) und erlaubt Nutzung, Kopieren, Weitergeben und Verändern von Objekten aus der Datenbank. Der Aufbau einer neuen Datenbank durch Modifizieren und Transformieren der lizenzierten Datenbank ist gestattet, wenn:
- der Urheber der verwendeten Datenbank namentlich genannt wird,
- die Weitergabe der Datenbank unter gleichen Bedingungen erfolgt und
- die neu geschaffene Datenbank ohne Einschränkungen zur Verfügung steht.
Und schließlich noch die zur CC BY der Creative Commons komplementäre Open-Database-Common-Lizenz ODC BY mit der Verpflichtung zur Nennung des Namens und allen für Open Database Licence genannten Variationsmöglichkeiten.
M
Wie sieht es mit der Lizenzierung von Softwareforschungsdaten aus?
A
Stichworte „Schöpfungshöhe“ und „Originalität“: Softwarecodes sind durch das Urheberrecht geschützt, d.h. die Rechte liegen beim Programmierer. Analog zu anderen Werken werden durch Softwarelizenzen die Nutzungsbedingungen für Kopien, Modifikationen oder die Weitergabe festgelegt. Neben den Creative Commons und den Open Data Commons gibt es spezielle Lizenzen, z.B.:
Die „MIT-Lizenz“ vom Massachusetts Institute of Technology ist eine freizügige und häufig genutzte Open Source Lizenz. Sie kann im Rahmen der Weiterentwicklung von Software eingesetzt werden. Quellcodes mit MIT-Lizenz dürfen in proprietäre Software integriert werden.
Aufgrund ihrer Freizügigkeit kann die MIT-Lizenz mit vielen anderen Open Source Lizenzen kombiniert werden. Voraussetzung ist die Namensnennung des Urhebers und des ursprünglichen Lizenztextes in der modifizierten oder neu geschaffenen Software.
Die „GNU-General Public Licence“ gestattet dem Nutzer die Software zu nutzen, zu modifizieren und weiterzugeben. GNU-lizenzierte Software ist freie Software, bei deren unveränderter oder veränderter Weitergabe alle Rechte erhalten bleiben und mit weiterzugeben sind. Im Urheberrecht spricht man von der Copyleft-Klausel.
Auch die „Apache-Lizenz“ ist eine freie Open-Source-Software-Lizenz, aber ohne Copyleft, d.h. geänderte Versionen können unter anderer Lizenz weitergegeben oder vertrieben werden. Wichtig bleibt dabei der Verweis auf den ursprünglichen Lizenzgeber. Die Apache-Ursprungslizenz muss im neuen Werk enthalten sein.
Sie gestattet die freie Verwendung, Modifizierung und Weitergabe der so lizenzierten Software ohne Einschränkungen, ebenso den Vertrieb oder Verkauf. Zudem kann andere Software mit der Apache-lizenzierten Software kombiniert und das Produkt vertrieben oder verkauft werden.
Soweit vielleicht einige Beispiele zu Softwarelizenzen. Gern vermitteln wir an Interessenten auch Kontakte zu juristischem Fachpersonal, um sich über die Thematik zu informieren.
M
Was sollte man tun, wenn für Forschungsdaten, die man nachnutzen möchte, keine Lizenzen vergeben wurden?
A
Dann besteht die Möglichkeit, den Rechteinhaber bzw. Autor zu kontaktieren und die Nutzungsbedingungen anzufragen. Auf jeden Fall sollte man die Nachnutzung rechtlich abklären, da Urheberrechtsverletzungen durch Schadensersatzansprüche u.U. teuer werden können.
M
Was sind grundlegende Punkte, die man bei der Auswahl einer Lizenz für seine Daten beachten sollte?
A
Auch hier gilt der Grundsatz: So offen wie möglich, so restriktiv wie nötig. Die Daten sollen aus den bereits vorher genannten Gründen eine möglichst weite Verbreitung finden. Auch bei Open Source für die forschenden Kollegen kann bei wirtschaftlicher Nutzung mit kostenpflichtigen Einschränkungen gearbeitet werden. In diesem Zusammenhang kann man auch mehrere Lizenzen einrichten: Open Source für die akademische Nutzung, kostenpflichtig für die Wirtschaft.
M
Welche Tools stehen für die Auswahl und das Management geeigneter Lizenzen zur Verfügung?
A
Auch hier können wir nur einige Empfehlungen geben. Zunächst sei das kommerziell verfügbare Tool FOSSA zum Open Source Lizenz-Management genannt. Es kann in den Entwicklungsprozess von Software integriert und zur Überprüfung der Lizenzkompatibilität herangezogen werden. Damit kann man Code auf Lizenzinformationen und deren Kompatibilität scannen.
Fossology ist eine Open Source Toolbox, welche Lizenzinformationen aus Quellcodes extrahiert. Es ermittelt automatisch lizenzrelevante Aussagen aus dem Code und hebt die Textstellen hervor. Die gefilterten Informationen werden dokumentiert. Eingeschlossen sind dabei Lizenzen in Texten, Headern, Metadaten und Urheberrechtsvermerke.
Mit dem Tool Choose a Licence erhält man eine Entscheidungshilfe bei der Wahl einer Lizenz für die eigene Software.
M
Ein weiteres Kapitel unseres heutigen Podcasts ist das Thema Datenschutz. Was fällt alles unter den Datenschutz.
A
Der Datenschutz an der Hochschule spielt eine wichtige Rolle. Beim Umgang mit personenbezogenen Daten muss die Anonymität der Beteiligten gewahrt werden. Dafür ist die Anonymisierung oder Pseudonymisierung der Daten notwendig, so dass eine Zuordnung von Daten zu bestimmten natürlichen Personen ausgeschlossen werden kann oder nur mit unverhältnismäßig großem Aufwand möglich ist. So ist es sinngemäß im Bundesdatenschutzgesetz formuliert. Das trifft auf Daten zu, die z.B. im Gesundheitsbereich erhoben werden oder auch auf Daten, bei denen natürliche Personen im öffentlichen Raum in Video- oder Audioformaten festgehalten werden.
Vor diesem Hintergrund ist die Nationale Forschungsdateninfrastruktur NFDI dabei, für die Wirtschafts- und Sozialwissenschaften eine Plattform zu schaffen, die Hilfestellungen zu Entscheidungen über personenbezogene Daten liefert. Das BERD-Konsortium mit BERD für Business, Economic and Related Data entwickelt das Tool IVA mit IVA für „Interactive Virtual Assistant“, welches die Entscheidung, ob personenbezogene Daten vorliegen oder nicht, auf Basis eines Algorithmus erleichtert.
M
Was sagt der Gesetzgeber zur Wahrung der Persönlichkeitsrechte bei Forschungsdaten mit Personenbezug?
A
Der Schutz natürlicher Personen bei der Verarbeitung personenbezogener Daten ist ein Grundrecht. Dabei sind personenbezogene Daten alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen.
Liegt ein Personenbezug vor, muss von den betroffenen Personen eine Einwilligungserklärung zur Weiterverarbeitung der entsprechenden Daten unterzeichnet werden. Für diese Einwilligungserklärungen gibt es Mustervordrucke.
Auf Ebene der Europäischen Union gilt seit März 2018 die Datenschutzgrundverordnung DSGVO in allen EU-Staaten unmittelbar, d.h. die Verordnung steht über dem lokalen Recht der Nationalstaaten. Gewisse juristische Freiheiten werden den Nationalstaaten jedoch im Rahmen von Öffnungsklauseln eingeräumt.
In Zweifelsfall ist anzuraten, den Datenschutzbeauftragten der Hochschule zu konsultieren. Die Informationen dazu sind beim Dezernat Forschung und Transfer der Hochschule Schmalkalden verfügbar.
M
In der vorerst letzten Folge wollen wir uns mit den Besonderheiten des FDM beim kollaborativen Arbeiten beschäftigen.
Bis dahin.