Daten Container

Auch wenn es nicht notwendigerweise der intendierte Use Case ist, kann man mit Docker sehr einfach auch umfangreiche Datenmengen mit Anwendungen zur vereinfachten Bereitstellungen (wie z.B. APIs) verpacken. Das kann besonders hilfreich sein wenn z.B. Normdaten aus verschiedenen Quellen für Datenanreicherungen zusammenführen will.

GND

Die Gemeinsame NormDatei (GND) beinhaltet Informationen zu Personen, Körperschaften usw., die bei der Nationalbibliothek hinterlegt sind.

Das Image basiert auf Apache Jena und nutzt den HDT Abzug. Derzeit unterstützt das notwendige Modul aber noch nicht Jena / Fuseki 5.0.

Der Container kann recht einfach gestartet werden:

docker run -it -p3030:3030  ghcr.io/cmahnke/data-containers/gnd:latest /bin/sh

Nach dem Starten kann der Datenbestand komfortabel im Broser recherchiert werden: http://localhost:3030/#/dataset/gnd/query

GeoNames

GeoNames beinhaltet viele Informationen zu geographischen vielen Entitäten, dazu zählen Koordinaten, Schreibungsvarianten, sowie Hierarchisierung nach Gebieten.

Der Container beinhaltet aber nur die Koordinaten und Schreibungsvarianten, z.B. um für einen Ort die Koordinaten abrufen zu können. Die Daten werfen dafür in eine Apache Solr Instanz eingespielt und können nach dem Starten

docker run -p 8983:8983 -it ghcr.io/cmahnke/data-containers/geonames

Einfach mit curl abgefragt werden, dabei wird das Ergebnis als JSON zurückgeben:

curl http://localhost:8983/solr/geonames/query?debug=query&q=n:G%C3%B6ttingen

Weitere Nutzung

Die Kommandos zum Starten können auch mittels docker-compose z.B. zusammen mit Werkzeugen zur weiteren Analyse oder Zusammenführung zusammengefasst bzw. automatisiert werden.

Der Code ist auf GitHub, die Container hier verfügbar.