Das Layout dieser Seite wird mit CSS umgesetzt. Wenn Sie diesen Hinweis sehen, kann Ihr Browser CSS nicht darstellen.
Die Seite bleibt trotzdem voll funktionsfähig.
Hier finden Sie einen standard-konformen Browser: www.mozilla.org.
Titelschrift:Nachrichten aus dem Archiv

Mike Zuchet

Pilotprojekte zur Langzeitarchivierung digitaler Email-Korrespondenz im Archiv der sozialen Demokratie (AdsD)

Der Einsatz von Emails für die interne und externe Kommunikation ist heute so selbstverständlich wie die früher übliche Umlaufmappe oder der klassische Brief in Papierform. Glaubt man verschiedenen Studien, die sich mit der Relevanz der Email als Kommunikationsmittel in Unternehmen und Organisationen auseinandergesetzt haben, liegen zwischen 35 und 75 % aller relevanten Informationen nur noch in dieser digitalen Form vor und finden keinen papierenen Ausdruck mehr. Aus diesem Grund und weil der Gesetzgeber fordert, daß steuerlich relevante Emails sechs resp. zehn Jahre revisionssicher vorgehalten werden müssen, liegt das Thema der Langzeitarchivierung digitaler Email-Korrespondenzen mehr als auf der Hand. Das Archiv der sozialen Demokratie (AdsD) der Friedrich-Ebert-Stiftung, das sich seit längerer Zeit mit der Langzeitarchivierung digitaler Überlieferungen befasst, nahm dies zum Anlass, sich intensiv mit diesem Thema auseinander zu setzen. Es handelte sich im wahrsten Sinne des Wortes um Pionierarbeit und das AdsD darf dabei für sich in Anspruch nehmen, als erstes Archiv im deutschsprachigen Raum in diesem Bereich aktiv geworden zu sein. 

Zusammen mit dem Bundesvorstand der Vereinten Dienstleistungsgewerkschaft (ver.di) wurden zwei Pilotprojekte gestartet, die die Machbarkeit der Übernahme, Aufbereitung und des Zugriffs digitaler Email-Korrespondenzen nach OAIS (ISO 14721:2003) im AdsD überprüfen sollten. Nach intensiven Gesprächen, die in erster Linie als ´vertrauensbildende Maßnahmen´ dienten, und der Ausarbeitung einer speziellen Datenschutzerklärung seitens ver.di konnte das AdsD im Oktober 2010 die gesamte vorliegende Email-Korrespondenz der Leitung der Abteilung Grundsatz und im November 2010 des Büros des Bundesvorsitzenden übernehmen. Bei dem verwendeten Email-Programm handelte es sich um Microsoft Outlook 2010. Im ersten Fall handelte es sich um ein Volumen von ca. 14.000 Emails, im zweiten Fall um ca. 9.000 Emails. Microsoft Outlook 2010 legt sowohl die eigentliche Nachricht (Email) als auch die Anhänge in einer proprietären Personal Storage-Datei (.pst) ab, die je nach Mail-Volumen mehrere Gigabyte (GB) groß werden kann. Es sei an dieser Stelle angemerkt, dass das erarbeitete Konzept nicht nur dazu in der Lage ist, Email-Korrespondenz aus der besagten Programmumgebung zu übernehmen und aufzubereiten, sondern aus nahezu allen gängigen Email-Programmen.

Umzug des SPD-Parteivorstandes von Hannover in die 'Baracke' nach Bonn, 1951
	  © AdsDNach der Überführung der PST-Dateien in das AdsD wurden zuerst Kopien der Ursprungsdateien auf mehreren voneinander unabhängigen Datenträgern erstellt. Um die Datenintegrität bei den Kopierschritten nachhalten zu können, wurden Prüfsummenverfahren (SHA-1) eingesetzt. Da sämtliche Schritte fehlerfrei verliefen, wurden die PST-Dateien in ihrem Entstehungsprogramm (MS Outlook 2010) geöffnet. Hier wurde jede Email mit Hilfe eines eigens im AdsD entwickelten VBA-Scripts exportiert und als MSG-Datei abgelegt. In Anbetracht der derzeitigen Funktionen und Importmöglichkeiten des Datenbanksystems Faust 6.0 professional, das derzeit im AdsD eingesetzt wird, wurde das VBA-Script speziell dahingehend programmiert, daß der Name jeder MSG-Datei aus einer fortlaufenden Nummer, dem Datum und der Uhrzeit des Eingangs in das Email-Programm generiert wurde (nn mm.dd.yyyy hh.mm.ss, z.B. 01 12.12.2004 07.35.55). Als nächstes wurde mit Hilfe des Tools Solid PDF Tools V6 jede MSG-Datei in eine PDF/A-Datei (PDF/A - 1b) konvertiert, um Aufbau und Struktur der Emails 'einzufrieren' und somit die informationelle und strukturelle Authentizität dieser digitalen Quelle zu gewährleisten. Jede PDF/A-Datei wurde mit einer Prüfsumme versehen (SHA-1), um wie im Falle der PST-Dateien, Änderungen festzustellen und die Datenintegrität langfristig zu gewährleisten. Da es nicht nur um die Email ging, sondern auch um den jeweiligen Anhang – oftmals fungierte die Email nur als ´Transportmittel für eine zu übermittelnde Datei -, wurden die Anhänge aus der PST-Datei extrahiert und in das Langzeitarchivierungsformat PDF/A konvertiert, soweit dies technisch möglich war. Da jede Langzeitarchivierung digitaler Überlieferungen mit der quantitativen und qualitativen Existenz von Metadaten steht oder fällt, war es nun notwendig, auf die Metadaten der einzelnen Emails zuzugreifen, sie aus der proprietären Hülle der PST-Datei zu extrahieren und sie in ein programmunabhängiges Dateiformat zu überführen. Die Wahl fiel dabei auf das XML-Format, nicht zuletzt deshalb, weil Faust 6.0 professional über entsprechend konfigurierbare Importfilter verfügt und es sich bereits bei früheren Datenimporten als zuverlässiges Austauschformat bewährt hatte.

Sowohl die überlieferten Emails der erwähnten Abteilung Grundsatz als auch des Büros des ver.di-Bundesvorsitzenden lagen glücklicherweise strukturiert in entsprechenden Email-Ordnern vor. Die jeweiligen Strukturen wurden übernommen und mit Hilfe eines Thesaurus in Faust-Datenbanken nachgebildet, was der Ordnung und dem Zugriff außerordentlich dienlich ist.

Nach Abschluss der aufgeführten Arbeitsschritte, die an dieser Stelle nur angedeutet werden konnten, lagen sämtliche Komponenten vor, um sie in das Datenbanksystem Faust 6.0 professional zu überführen. Als erstes wurden die PDF/A-Dateien, die als authentische Email-Abbilder fungierten, sukzessive importiert, wobei nicht die PDF/A-Datei selbst Bestandteil der Datenbank wurde, sondern nur die Referenz zum jeweiligen Speicherort. Als nächstes wurden die dabei generierten Datensätze um die dazugehörigen Metadaten (z.B. Absender, Empfänger, Betreff, Datum des Eingangs resp. Ausgangs, Anhang etc.) ergänzt. Damit dieser Schritt reibungslos funktionierte und es zu keinen falschen Verknüpfungen von Email-Abbildern und Metadaten kam, war es außerordentlich wichtig und unumgänglich, daß das oben erwähnte VBA-Script an besagter Stelle zum Einsatz kam. Die vorliegenden Dateianhänge wurden von einer separaten Faust-Datenbank erfasst. Beide Datenbanken – a) Referenz zum Email-Abbild samt Metadaten und b) Referenz zu den Dateianhängen - wurden über Assoziativ-Referenzen miteinander verknüpft. Sie ermöglichen es einerseits, daß der jeweilige Dateianhang vom Faust-Datensatz aus, der das Email-Abbild repräsentiert, angesteuert und anschließend angesehen werden kann. Andererseits ist es ebenso möglich, von einem recherchierten Anhang zur entsprechenden Email zu gelangen. Da sowohl die PDF/A-Dateien der Email-Abbilder als auch die Dateianhänge volltextindiziert sind, kann auch direkt in den Emails und den Dateianhängen recherchiert werden. Damit existieren nun Recherchemöglichkeiten, die weit über die Möglichkeiten im Ursprungsprogramm hinausgehen.