Archive for November, 2013

Life with Calibre

Tuesday, November 26th, 2013

Calibre is undisputedly the number one when it comes to e-book management. It’s HUGE. It’s got a plethora of functions.

And it’s got quirks, design decisions which may not suit to your workflow. Certainly a lot of them don’t suit to mine.

  • Calibres own space. Every document imported into the library ends up copied into some private directory of calibre, and named according to some /Author/Title/Title scheme. The way I cope with this, is import into calibre, and save-to-disk again.
  • Metadata on the filesystem Metadata is stored not within the file, but in some database, and apparently in some opf-file with the book as well. Luckily, calibre tries to put metadata into the file when saving to disk. So the solution here is the same as above.
  • Name like Yoda, A When writing files, it misnames them to some library sort order, with the article appended at the end. To fix this, there’s a parameter in “Preferences” -> “Tweaks” -> “Control Formatting of Title and Series when used in Templates”, called save_template_title_series_sorting which needs to be set to strictly_alphabetic
  • No such Character There’s a set of characters Calibre does not want in file names. They are the same on all platforms, and while it’s not wise to use asterisks and such on unix filesystems, because they would wreak havoc on shell-processing, they would still work. The only character really not allowed is the “/”. But Calibre also replaces various ballast from Windows, like desirable critters like “:” and “+”. The way to fix this is to edit
    /usr/lib/calibre/calibre/__init__.py and have them removed from _filename_sanitize_unicode.
  • Publishing by the Month Before the advent of the e-books, publishing dates are by definition expressed in years. Copyright law also uses the year only. To get rid of the ridiculous month in the publishing date, go to “Preferences” -> “Tweaks” -> “Control how dates are displayed” and set gui_pubdate_display_format to yyyy
  • Not unique As librarians know, in the absence of ISBN, books are identified by author, title, publishing year and publisher. Now when saving pdf files, Calibre neither puts in an ISBN, nor the publishing year, nor the publisher. Apparently, this is a problem of podofo, which does not know these. Speaking of which:
  • podofail Sometimes podofo also fails to write some tags. It’s not quite clear when this happens, as all my pdf files do not have any encryption, and exiftool can write metadata to them without problems.

Over time, I’ve written a slew of scripts to read and set metadata, these are:

  • epub-meta (c) — A very fast EPUB metadata-viewer based on ebook-tools’ libepub from Ely Levy.
  • epub-rename (perl) — A script to rename epub-files according to the EPUB’s metadata. Needs epub-meta and ebook-meta (from calibre).
  • exif-rename (perl) — A script to rename files according to their EXIF-tags. Tested with PDF, DJVU, M4V, OGM, MKV and MP3
  • exif-meta (perl) — A script to set EXIF/XMP-metatags according to the filename.
  • exif-info (perl) — Displays metadata and textual content of PDF files. Thought as filter for Midnight Commander

For further technical information and rants, you might want to read How to Enter EPUB Metadata Display EPUB metadata and rename EPUB files accordingly and Your name is “Windows User” and your scientific Paper is called “Microsoft Word – Untitled1″, also on this blog.

Closed Data

Tuesday, November 19th, 2013

Es scheint als ob es zu dem Thema keinen griffigen Titel gibt, es sei denn so ein halbseitiges Untertitel-Ding, welches im 18Jh beliebt war:

“Closed Data, oder wie die Öffentlichkeit dem Staat Forschung und Datenerhebhung finanziert, und wie dieser uns für die Resultate nochmals bezahlen lässt; oder wie er die Daten an Dritte verkauft die sie dann wiederum an uns verkaufen”

Na, immerhin, damit ist gleich gesagt um was es geht.

Wir Bürger eines Staates finanzieren eine ganze Menge wissenschaftliche Forschung über die Steuern, und selbst da wo der Hintergrund nicht wissenschaftlich ist, sondern ganz einfach begründet in Verwaltungstechnischer Notwendigkeit — Zensus, Vermessung, Steuern, Rechteausübung, Justiz — fallen Daten an die wissenschaftlich interessant sind.

Strassen-, Zonen-, und Katasterpläne, Höhenmodelle, hydrographische Modelle, demographische Daten, meteorologische Daten, kriminalstatistische Daten und so weiter. Und dadurch dass diese Vorgänge schon seit längerem laufen, auch historische Daten. Für alle diese Daten haben wir bereits einmal bezahlt, in dem wir ein Bundesamt oder eine Kantons- oder Stadtverwaltung damit betraut haben, und es dafür mit Steuern bezahlen.

Bildungs- und medizinische Einrichtungen produzieren nicht nur Daten, sondern forschen auch wissenschaftlich in sämtlichen Bereichen. Auch solche Institutionen werden aktiv vom Steuerzahler unterhalten. Der Forscher wird bezahlt, dafür dass er für sein Institut, und schlussendlich für die Allgemeinheit Forschung betreibt.

Ein kleiner Teil dieser Daten sind Datenschutztechnisch relevant: Daten die sich auf lebende Personen beziehen: Steuererklärungen, medizinische Verläufe, etc. Bei diesen ist der Halter zu Geheimhaltung verpflichtet, so dass bei allfälliger Veröffentlichung oder Weitergabe nicht auf die Person geschlossen werden kann. Diese Daten haben aber ebenfalls wissenschaftlichen Wert, wenn sie in passend anonymisierter Form vorliegen, z.b. um Gesundheitsrisiken statistisch auswerten zu können.

Damit ist eigentlich klar, dass hochauflösende Karten zu jeglichem Thema, anonymisierte Personenbezogene Daten, Umweltdaten jeglicher Art, und wisschenschaftliche Forschungsergebnisse der Allgemeinheit gehören.

Möchte der Bürger nun aber Zugriff auf diese Daten, so stellen sich ihm plötzlich Hürden in den Weg:

  • Historisch gewachsene Bürokratie. Daten müssen manchmal ausgewertet (z.b. zusammengestellt, anonymisiert, katalogisiert) werden bevor sie veröffentlicht werden können, und historisch gesehen war die Veröffentlichung selbst mit nicht geringen Kosten für Druck, Kopie oder Sendung verbunden. Dies hat dazu geführt dass Institutionen ihre Daten als prinzipiell “intern” angesehen haben, und jeden der zugreifen wollte als Bittsteller, welcher bitte zuerst warten und dann die Veröffentlichungskosten tragen sollte.
  • Finanzieller Druck. Institutionen, seien es Ämter oder Forschungseinrichtungen, stehen unter einem finanziellen Druck von oben. Die Betrieber möchten möglichst wenig Geld ausgeben, und so erscheint es am einfachsten sich nicht nur die externen Kosten der Veröffentlichung bezahlen zu lassen, sondern da auch gleich Einnahmen zu generieren. Sobald die Publikationskosten gegen Null tendieren, was seit Grössenordnung 1995 mit dem Internet der Fall ist, dann sieht man plötzlich wie eine Institution Geld verlangt, für etwas was schon lange bezahlt ist. Weshalb genau kosten Schweizer Karten 1:25’000 in elektronischer Form SFR 14 pro “Blatt” [1]?
  • Propaganda. Der Schritt von “für die Publikation müssen wir die Unkosten der Veröffentlichung selber erstattet haben” zu “für die Publikation wollen wir die Unkosten der ganzen Forschung erstattet haben” ist ein kleiner, aber sehr relevanter. Plötzlich sind die Daten nicht mehr der Öffentlichkeit, sondern zum Rechtsgut derjenigen geworden die sie erstellt haben (auch wenn die Öffentlichkeit sie dafür eigentlich bezahlt hat). Es werden Copyright-Vermerke draufgeknallt, und man versucht die ganze Verwertungskette zu kontrollieren. Gefördert wurde dieses Denken durch die wachsende Propaganda seitens privater Rechteverwerter seit den 1980er Jahren, die es auch geschafft haben, das Urheberrecht seither nicht weniger als X mal zu verschärfen — jedesmal auf Kosten der Öffentlichkeit. Auch hier wieder als Beispiel die Swisstopo, respektive deren Lizenzen [2].
  • Rentensuche. Noch wildere Blüten betreibt das Geschäft mit den Öffentlich finanzierten Daten im akademischen Bereich. Hier haben sich einerseits wissenschaftliche Verlage etabliert, die die Aufmerksamkeit und Reputation Ihrer Leser an potentielle Autoren verkaufen, welche dann nicht nur die Publikationskosten in einem Journal bezahlen, sondern auch noch Reviews der Arbeiten anderer Autoren gratis durchführen damit schlussendlich die Verlage das Journal den Bildungseinrichtungen zu horrenden Abonnementspreisen wieder zur Verfügung stellen können. Eine komplett parasitäre Einrichtung welche eigentlich nur via Bildungsbudgets von der Öffentlichkeit eine Rente bezieht.
  • Futterneid. Die Daten die die eine Institution oder der eine Forscher hat, die sollen andere entweder nicht haben, oder nicht benutzen können ohne dafür zu zahlen. Und natürlich ohne zu berücksichtigen dass die Daten eigentlich schon von der Öffentlichkeit finanziert wurden. Auch hier spielt wieder das Urheberrecht mit, oder wenigstens die von den obig erwähnten Rechteverwertern geprägte Weltbild. Aber noch viel interessanter ist hier ein anderes System, dass es erlaubt allen anderen die Benutzung von eigenen Ideen zu verbieten (Nota bene: Es erlaubt nicht die eigenen Ideen selber zu benutzen; es ist ein reines Veto-Recht gegenüber anderen). Das Patentsystem. Während akademische Forschung früher das früher zur Privatsache erklärt hat, ist es durch das Zusammenspiel der hier erwähnten Faktoren zum Usus geworden als Einrichtung Patente zu fördern, so dass schlussendlich die Öffentlichkeit eine Erfindung die sie bezahlt hat, nicht einmal mehr Nutzen darf ohne Lizenzgebühren zu bezahlen.

Diese ganzen Mechanismen machen es schwierig für Bürger die Daten die mit ihrem eigenen Geld erhoben wurden zu bekommen. Als ich 1996 im Rahmen einer soziologischen Arbeit [3] Daten gesucht habe, konnte ich die in der Schweiz nur entweder auf Papier oder sehr teuer “einzelne Anfrageresultate” auf Diskette bekommen; schlussendlich habe ich stattdessen US-Daten verwendet.

Ich bin nicht der einzige der schlussendlich irgendwie ausgewichen ist. Das http://www.openstreetmap.org Projekt besteht aus Daten die von Leuten ehrenamtlich per GPS gesammelt wurden, obwohl genau dieselben Daten schon in Grundbuchämtern und den Topografischen Institutionen vorhanden gewesen wären.

Wie hingegen die Welt aussieht wenn Bürger und interessierte Stellen Zugriff auf solche Daten haben, das sieht man in den Beispielen auf http://opendata.ch/ Schlussendlich ist die Summe eben grösser als die Anzahl ihrer Teile; und was alles aus irgendwelchen Daten entstehen kann können wir uns im vornherein nicht wirklich genau vorstellen, also ist die einzig sinnvolle Reaktion eben den Zugriff auf diese Daten möglicht vielen Leuten zu ermöglichen.

[1] Swisstopo
[2] Swisstopo: Lizenzen
[3] Attitudes towards Victimless Crimes, Peter Keel, 1996