Auch wenn es nicht notwendigerweise der intendierte Use Case ist, kann man mit Docker sehr einfach auch umfangreiche Datenmengen mit Anwendungen zur vereinfachten Bereitstellungen (wie z.B. APIs) verpacken. Das kann besonders hilfreich sein wenn z.B. Normdaten aus verschiedenen Quellen für Datenanreicherungen zusammenführen will.
GND
Die Gemeinsame NormDatei (GND) beinhaltet Informationen zu Personen, Körperschaften usw., die bei der Nationalbibliothek hinterlegt sind.
Das Image basiert auf Apache Jena und nutzt den HDT Abzug. Derzeit unterstützt das notwendige Modul aber noch nicht Jena / Fuseki 5.0.
Der Container kann recht einfach gestartet werden:
docker run -it -p3030:3030 ghcr.io/cmahnke/data-containers/gnd:latest /bin/sh
Nach dem Starten kann der Datenbestand komfortabel im Browser recherchiert werden: http://localhost:3030/#/dataset/gnd/query
GeoNames
GeoNames beinhaltet viele Informationen zu geographischen vielen Entitäten, dazu zählen Koordinaten, Schreibungsvarianten, sowie Hierarchisierung nach Gebieten.
Der Container beinhaltet aber nur die Koordinaten und Schreibungsvarianten, z.B. um für einen Ort die Koordinaten abrufen zu können. Die Daten werfen dafür in eine Apache Solr Instanz eingespielt und können nach dem Starten
docker run -p 8983:8983 -it ghcr.io/cmahnke/data-containers/geonames
Einfach mit curl
abgefragt werden, dabei wird das Ergebnis als JSON zurückgeben:
curl http://localhost:8983/solr/geonames/query?debug=query&q=n:G%C3%B6ttingen
Weitere Nutzung
Die Kommandos zum Starten können auch mittels docker-compose
z.B. zusammen mit Werkzeugen zur weiteren Analyse oder Zusammenführung zusammengefasst bzw. automatisiert werden.