Der Weg römischer Fundmünzen in das Semantic Web

Diese Webseite ist Bestandteil der Masterarbeit „Die Fundmünzen der römischen Zeit in Deutschland: Ein beispielhaftes Verfahren zur textbasierten Datenextraktion und Auszeichnung von Münzdaten für das Semantic Web“, die im Rahmen des Masterstudienganges der Digitalen Methodik in den Geistes- und Kulturwissenschaften an der Johannes Gutenberg-Universität Mainz entstand.

In der Masterarbeit wird an einem beispielhaften Datensatz ein Verfahren vorgestellt, das es ermöglicht textbasierte Fundmünzdaten in das Semantic Web zu übertragen. Der Beispieldatensatz befasst sich mit den 1.157 Einzelfunden des Fundkomplexes FMRD IV 3/2 3006,1 der Domgrabung/des Liebfrauen-Areals. Dies ist nur ein winzig kleiner Teil der Fundmünzen die gedruckt in tabellarisch orientierten Bänden vorliegen. Das Projekt „Die Fundmünzen der römischen Zeit in Deutschland“ (FMRD) erfasste in 48 Bänden weit über 300.000 Fundmünzen. Das Projekt wurde 1953 gegründet und war ursprünglich bei der Römisch-Germanischen Kommission (RGK) angesiedelt. Ab 1986 bis zu seinem Auslaufen 2009 wurde es an der Akademie der Wissenschaften und der Literatur in Mainz betreut. Ziel des Projektes war es, alle römischen (bzw. antiken) Fundmünzen aufzunehmen, die innerhalb Deutschlands gefunden wurden. Von diesem Gedanken angesteckt folgten dann die Länder Kroatien, Luxemburg, Niederlande und Slowenien mit eigenen Bänden unter der Schirmherrschaft des FMRD-Projektes.

Die schiere Masse an Fundmünzen, die in dem Projekt erfasst wurden, stellt einen außerordentlichen Datenschatz dar. Die Daten sind für archäologische wie auch numismatische Untersuchungen daher von besonderem Interesse. Publiziert sind die Daten jedoch bisher nur in gedruckter Form. Eine Arbeit mit den FMRD-Daten ist daher nur über den Weg des Druckbandes möglich. Diese müssen für beispielsweise statistische Untersuchungen manuell herausgeschrieben werden, um sie für Diagramme etc. zu verwenden und auszuwerten. Daher soll anhand des oben beschriebenen Beispieldatensatzes gezeigt werden, welche Möglichkeiten es gibt, die Daten als Linked Open Data zur Verfügung zu stellen. Linked Open Data wird aus dem Grund eingesetzt, weil die Daten über das Format RDF (Resource Description Framework) einfach ausgetauscht und abgefragt werden können.

Die Masterarbeit baut auf drei Hauptkapiteln auf: dem Datenmodell, der Datenextraktion und der Datentransformation:

Workflow

Das Datenmodell beschäftigt sich überwiegend mit dem Projekt Nomisma.org und der dort angebotenen Ontologie und deren Anwendung für den Beispieldatensatz. Bei der Datenextraktion wird ein Verfahren vorgestellt, das es ermöglicht, den Beispieldatensatz vom PDF bis eine CSV-Datei zu konvertieren. Bei der Datentransformation wird dann der Webservice XTriples vorgestellt, der es ermöglicht, anhand eines Datenmodells aus XML-Dokumenten RDF-Dokumente für ganze Fundmünzkomplexe zu erstellen. Diese Schritte werden anschließend in einer Pipeline zusammengeführt. Diese, fast rein skriptbasierte, Pipeline erhält als Input ein PDF zu einem FMRD-Band, bekommt die Seitenzahlen zu einem Fundkomplex übermittelt und gibt (mit ein paar wenigen manuellen Korrekturen der Daten) das fertige RDF-Dokument aus.

Verweis zum verwendeten Fundmünzkomplex:

M. Radnoti-Alföldi, Die Fundmünzen der römischen Zeit in Deutschland IV 3/2. Stadt und Reg.-Bez. Trier. Die Sog. Römerbauten (Mainz 2006) 119–206.