Politisches Internet-Archiv

2. DFG-Workshop
2.Projektvorstellung

Rudolf Schmitz

Druckversion öffnen

Das Politische Internet - Archiv

Auch ich darf Sie herzlich begrüßen und Ihnen das Projekt mit dem ausführlichen Namen „Erfassung, Erschließung und Sicherung von Websites politischer Parteien der Bundesrepublik Deutschland sowie ihrer Fraktionen in den Parlamenten“ vorstellen.

Die Situation, aus der heraus Ende 2002 der Projektantrag formuliert wurde, lässt sich kaum besser verdeutlichen als durch ein Positionspapier der DFG-Arbeitsgruppe ‚Informationsmanagement der Archive’, das etwa zur gleichen Zeit entstanden sein dürfte.

Die Autoren des Papiers warnen davor, dass die Bildung einer authentischen historischen Überlieferung aus elektronischen Unterlagen z. Zt. nicht gewährleistet ist und irreparable Lücken in der Überlieferung authentischer Quellen drohen, und sie stellen eindringlich, ja fast dramatisch, fest:

„Der Informationsgesellschaft droht der Verlust ihres Gedächtnisses. Die Sicherung elektronischer Unterlagen von öffentlichen und privaten Einrichtungen erfordert archivische Infrastrukturen und Kompetenzen, die zurzeit in Deutschland nicht in ausreichendem Maße vorhanden sind. Für die Archivierung elektronischer Unterlagen sind bisher weder in nationalem noch internationalem Maßstab zufrieden stellende Lösungen gefunden worden. In Zeiten des eGovernment ist damit der gesetzliche Auftrag an die öffentlichen Archive, kulturelle Überlieferung dauerhaft zu sichern, ernsthaft gefährdet. Wird nicht gegengesteuert, dürften in wenigen Jahrzehnten Forschungen zum frühen 21. Jahrhundert erheblich eingeschränkt sein.“1

Bemerkenswert ist die Rigorosität mit der bestimmte Folgerungen aus der so beschriebenen Situation gezogen werden. Dazu gehört auch, dass den Archiven empfohlen wird, die notwendigen Kompetenzen zu erwerben, vor allem - wie es wörtlich heißt -, „durch die Beschäftigung von oder Kooperation mit Informatikern.“

Die Informatik wird durch die Erschließung der neuen elektronischen Quellengattungen sozusagen zur zentralen historischen Hilfswissenschaft.

Angeregt wird in dem Papier die Gründung von Archivverbünden sowie eine engere Kooperation zwischen Archiven und Bibliotheken. Und es wird darauf hingewiesen, dass man das sich ändernde Rechercheverhalten der Archivbenutzer mit zu berücksichtigen habe. Es ist sicher nicht ganz falsch, wenn man vermutet, dass hier an eine Generation von Archivbenutzern gedacht wird, die mit den Suchmaschinen im Internet aufgewachsen ist.

Bei der Aufzählung förderungswürdiger Programme werden übrigens Projekte zur „Archivierung von Internet- und Intranetseiten“ ausdrücklich genannt.

Nun schmälert es sicher nicht das Verdienst der Autoren dieses Papiers, wenn man feststellt, dass es da doch schon den ein oder anderen Ansatz zur Archivierung von digital generiertem Archivgut gab. Dazu gehört auch das Spiegelungsprojekt des Archivs der sozialen Demokratie, das sich schon 1999 der Herausforderung gestellt hat, die Internetseiten der SPD und ihrer Fraktionen in den Parlamenten zu archivieren.

Es ist eigentlich wenig verwunderlich, dass die Archive der politischen Stiftungen in dieser Frage vorgeprescht sind. Der Grund liegt darin, dass die Parteien sehr frühzeitig – Ende 1996 waren alle Parteien mit eigenen Angeboten im Internet präsent - und umfassend von den Möglichkeiten des neuen Mediums Gebrauch gemacht haben. Und diese neuen Möglichkeiten wurden und werden planmäßig in die Überlegungen zur Struktur der Parteien und zur Konzeption der politischen Arbeit einbezogen.

Dazu zwei kurze Generalsekretärszitate.

Mit ausdrücklichem Bezug auf das Internet stellt der damalige SPD-Generalsekretär, Franz Müntefering, in seinem Thesen-Papier „Demokratie braucht Partei“ im April 2000 fest:

„Wir wollen die Entwicklung selbst gestalten und nicht nur reagieren, wir werden die Potentiale des Netzes zum Dialog mit Interessierten, auch jenseits der Partei, zur Mobilisierung von Sachverstand, zur politischen Ansprache derer, die nicht in festen Strukturen arbeiten wollen, produktiv nutzen. (...)

Wir werden Schritt für Schritt eine komplett neue Angebotsstruktur im Netz aufbauen, die auf Beteiligung und Einbeziehung setzt und die Ressourcen mobilisiert, die gerade auch bei jungen Mitgliedern vorhanden sind."2

Und 2005 wird auf den Seiten der CDU eine Stellungnahme von Volker Kauder wie folgt wiedergegeben:

„Mit Blick auf die Zugriffszahlen versicherte Kauder, dass die elektronischen Medien aus einem modernen Wahlkampf nicht mehr wegzudenken seien: Allein im Monat Juli habe die Homepage www.cdu.de 4,2 Mio. Pageviews registriert. Im umgekehrten Verhältnis zur Reichweite stehen dabei die Kosten: So macht der Online-Wahlkampf nur ein Prozent des CDU-Wahlkampfetats... aus.“3

Von Anfang an war es das Ziel des Spiegelungsprojekts, nicht nur bestimmte Inhalte (content) des Internets zu sichern, sondern definierte Websites unter Wahrung ihrer Strukturen und Funktionalitäten in einer browserfähigen Form zu archivieren.

Die Aufgabe, die mit Hilfe eines Offline-Browser, der Spiegelungs-Software, gelöst werden muss, besteht darin, aus einem gewählten Internetausschnitt eine in sich vollständige, funktionsfähige und adäquate Einheit auf einem Datenträger zu machen.

Über den Offline-Browser werden die Grenze, bis zu der die Links erfasst werden sollen, bestimmt und die Art der Umsetzung von der Internet- in die Datenstruktur. Es werden also Eingriffe auch in die Struktur der Seiten notwendig. Die Regeln, nach denen diese Eingriffe erfolgen, werden durch die Einstellungen des Offline-Browsers festgelegt. Als Ergebnis wird so eine browserfähige Kopie des gewählten Internetausschnitts erzeugt, deren Authentizität sich aus den Regeln herleitet, die bei ihrer Erstellung beachtet wurden.

Legt man die folgende Unterscheidung zugrunde:

  • Offline Formate (DOC, JPG oder PDF),
  • browsergestützte Formate (HTML)
  • und servergestützte Formate (ASP, PHP)

so lassen sich die Eingriffe während des Spiegelungsprozesses beschreiben als:

  • Umwandlung servergestützter Formate (dynamisch generierte Seiten) in browsergestützte Formate,
  • Spiegelung auch der so genannten eingebetteten Dateien (offline - Formate), die aus einem ganz anderen Bereich stammen als dem des ausgewählten Ausschnitts,
  • Ersetzung der absoluten Links durch relative.

Grenzen der Erfassung gibt es natürlich auch. Datenbanken etwa sind nicht zu spiegeln, Streaming Files und Session-IDs können problematisch sein. Alles andere aber ist zu spiegeln: dynamisch generierte Seiten, JavaScripte und auch Flash-Animationen. Aber das alles geschieht in einem ständigen Wettlauf zwischen den Entwicklern von Offline-Browsern und den Webdesignern. Eine fertige Lösung für die mit der Spiegelung verbundenen Probleme gibt es also nicht - und kann es auch nicht geben.

Allerdings darf der Begriff „Spiegelung“ nicht den Eindruck erwecken, man brauche bei dieser Art der Erfassung lediglich eine feste Größe, etwa einen Server, den man dann abspiegelt. Es gibt weder im physischen noch im logischen Sinn solche vorgegebenen Einheiten, auf die man sich positiv beziehen könnte. Gäbe es solche Einheiten, dann wären auch andere Methoden der Erfassung denkbar: etwa die Übernahme kompletter Content-Management-Systeme oder das Übertragen von Daten mittels FTP. Solange die Websites aber auf verschiedenen Servern laufen und solange nicht nur verschiedene sondern auch unterschiedliche CM-Systeme an einem Internetauftritt beteiligt sind, scheint mir die Spiegelungsmethode der einzig gangbare Weg der Erfassung zu sein. In allen anderen Fällen müsste man nachträglich aus den übernommenen Inhalten wieder Websites rekonstruieren. Eine Aufgabe, die kaum lösbar erscheint, ganz sicher aber mit einem enormen Aufwand an Arbeit und Kosten verbunden wäre.

Aber auch wenn es im Netz keine vorgegebenen „Einheiten“ gibt, so muss doch das Resultat der jeweiligen Spiegelung eine solche Einheit darstellen.

Nachdem sich die fünf Archive auf den Ansatz der Spiegelung bei der Archivierung von Websites in einigen informellen Treffen und kleineren Workshops verständigt hatten, startete das gemeinsame DFG-Projekt im September 2004. Gemeinsam heißt, dass die Projektentwicklung gemäß der Planung des DFG-Antrages von den Archiven gemeinsam vorangetrieben wird, während die Realisierung der erarbeiteten Optionen, in der Verantwortung der einzelnen Archive liegt. Und natürlich liegt auch die Durchführung des Projekts, der Aufbau der einzelnen Internet-Archive, in der Zuständigkeit der einzelnen Archive. Ich erwähne das, weil hin und wieder die Erwartung oder Befürchtung geäußert wird, wir würden an einem einzigen großen Archiv der politischen Parteien in Deutschland arbeiten. Das ist nicht der Fall. Auch die Bereitstellung der archivierten Webseiten erfolgt ausschließlich innerhalb des jeweils zuständigen Archivs.

Im Zentrum der bisherigen Arbeit im DFG-Projekt standen die technischen und technologischen Probleme, die mit der Erfassung von Websites verbunden sind. Dabei ging es zunächst um Fragen:

  • der Dynamisierung und Automatisierung des Spiegelungsprozesses, um -wo immer möglich - einen Verzicht auf zeitraubende Handarbeit zu erreichen,
  • der Feststellung der Grenzen des Spiegelungsverfahrens,
  • des Auslotens von Möglichkeiten der Erfassung besonders geschützter Webbereiche
  • und um die Erprobung alternativer Erfassungsverfahren.

In einer zweiten Phase, in der es vor allem um die Erschließung, Sicherung und Präsentation der archivierten Internetseiten ging, wurden folgende Problemfelder bearbeitet:

  • Indexierung der gespiegelten Seiten mit der Schaffung von synchronen und diachronen Recherchemöglichkeiten,
  • Klärung von Fragen der Langzeitarchivierung,
  • Migration von speziellen Formaten,
  • Entwicklung von Präsentationsformen der archivierten Seiten und
  • Überprüfung der Notwendigkeit bzw. Möglichkeit der automatisierten Erfassung von Metadaten sowie Entwicklung von Verfahren zur Erfassung von Metatags und zur Erschließung über Metatags.

Was jetzt noch vor uns liegt, betrifft vor allem die Klärung von Fragen, die mit der Verzeichnung der Archiv-Objekte zusammenhängen. Also die Anbindung an die jeweilige Datenbank und die Entwicklung von modellhaften Erschließungskriterien, Erfassungsmasken sowie Zitierweisen.

Was die einzelnen Arbeitsschritte angeht, haben die Gutachter der DFG lediglich noch einmal bestätigt, dass sie eine Indexierung mit dem Zugang über eine entsprechende „Suchmaschine“ für selbstverständlich halten. Sie haben uns aber auch mit zwei Forderungen konfrontiert, die eine erhebliche Erweiterung des Archivierungsauftrags darstellen.

  • die innerparteilichen Auseinandersetzungen unter Einschluss auch innerparteilicher Oppositionsgruppen zu dokumentieren und
  • neben den Bezirken und Unterbezirken bzw. Kreisverbänden auch die Ortsvereine zu berücksichtigen.

Die Dokumentation innerparteilicher Strömungen verschärft allerdings das Problem der Willkür, das immer mit der Berücksichtigung informeller Zusammenschlüsse verbunden ist. Hier lassen sich von Fall zu Fall sicher nachvollziehbare Lösungen anbieten, auch wenn das Problem methodisch nicht gelöst werden kann. Dazu sind Kategorien wie „politische Strömungen“ einfach zu unklar.

Schwerer wiegt dagegen das Ansinnen, auch die Ortsvereine (im Fall der SPD mehr als 12.000 ) zu berücksichtigen. Von unserem Projekt blieben bisher alle Internetangebote der SPD oberhalb der Bundesebene und unterhalb der Unterbezirksebene ausgeschlossen. Das schmerzte besonders im Fall der Ortsvereine, zumal auch hier die Tendenz zu beobachten ist, dass die Ergebnisse der oft mit großem Aufwand betriebenen Spurensuche zur eigenen Geschichte nicht mehr als Broschüren veröffentlicht, sondern ins Internet gestellt werden. Die Aufnahme der Ortsvereine führt nun allerdings zu dem von uns befürchteten Anstieg der zu bewältigenden Datenmenge.
Zwei Zahlen zur Verdeutlichung: Waren bisher zwischen 70 und 100 verschiedene URLs in die Spiegelung eines Landesverbandes mit aufzunehmen, so sind es jetzt mehr als 500 (im Falle Bayerns sogar über 1500). Gleichzeitig wächst der Datenumfang überproportional um mehr als das 10fache und beträgt jetzt ungefähr vier Gigabyte. Welche Konsequenzen daraus zu ziehen sind in Hinsicht auf die Präsentation des Projekts und die Intervalle der Erfassung, muss noch diskutiert werden. Langfristig wird man wahrscheinlich die Anwendung von Methoden nicht verhindern können, die in Analogie zur Behandlung von Massenakten entwickelt werden müssten.

Wenn man sich die Aufgabe stellt, die Internetpräsenz einer politischen Großorganisation wie der SPD zu archivieren, so hat man selbst bei rigoroser Beschränkung auf die satzungsgemäßen Gliederungen, Gremien und Initiativen weit über 25.000 verschiedene URLs zu bearbeiten. Das schließt die Bundesebene, die Landesebene und die Ortsvereinsebene ebenso ein wie die Seiten der entsprechenden Fraktionen und ihrer Abgeordneten.

Es erscheint mir weder technisch machbar noch unter archivischen Gesichtspunkten wünschenswert, eine solche Aufgabe innerhalb eines einzigen Projekts bewältigen zu wollen. Im Gegenteil. Aus archivischer Sicht wird die Erfassung nach dem Provenienzprinzip sicher als der Normalfall zu gelten haben, was aber bedeutet, einige tausend unterschiedliche Archivierungsprojekte anlegen und durchführen zu müssen. Schon das ist einer der Gründe warum wir im AdsD vom Normalfall abweichen. Außerdem würde ein solches Vorgehen in erheblichem Umfang zu Redundanzen führen und Willkürlichkeiten in der Abfolge der bearbeiteten Projekte zumindest nicht ausschließen können.

Im AdsD werden also möglichst umfassende Archivierungsprojekte gebildet, die durchaus unterschiedliche Provenienzen einschließen, solange sie in einem vertretbaren Zeitraum gespiegelt werden können. So wird etwa der Landesverband NRW zusammen mit den vier Bezirken, den Kreisverbänden und Ortsvereinen in einem Projekt erfasst.

Die Gründe, warum wir so verfahren sind folgende:

  • Der größere Zusammenhang dient der Interpretierbarkeit der einzelnen Dokumente.
  • Die archivierten Websites eines Projekts werden so präsentiert, wie sie auch der damalige Internetbesucher gesehen hat: gleichzeitig.

Außerdem gilt es Redundanzen zu vermeiden. Große Teile der Websites etwa von Abgeordneten sind nur voll funktionsfähig im Zusammenhang mit den Websites der entsprechenden Fraktion. Das heißt aber, dass man bei jeder einzelnen Spiegelung der Website eines Abgeordneten auch Teile der Fraktionsseiten mit spiegeln müsste, die man dann ihrerseits noch einmal in einem eigenen Projekt zu erfassen hätte, wenn man die Provenienz schon bei der Erfassung als Bezugsgröße zugrunde legen würde.

Das Gleiche gilt auch für bestimmte Inhalte, den sogenannten „eingebetten Dateien“, die aus einem anderen Bereich stammen als dem im Projekt definierten.

Bei der späteren Erschließung, der Abgrenzung der einzelnen Bestände und der Verzeichnung, sollten die Provenienzen natürlich in bewährter Manier zugrunde gelegt werden. Nur muss man, meiner Ansicht nach, die Logik der Erschließung nicht zwangsläufig auch zur Logik der Erfassung machen. Umfassendere Archiv-Objekte erleichtern natürlich auch die spätere archivtechnische Bearbeitung ganz wesentlich.

Im Unterschied zur Aktenübernahme im konventionellen Bereich, bei der der Übernahmezeitpunkt in der Regel ein eher äußerliches Datum bleibt, spielt, wie ich eben bereits angedeutet habe, bei der Spiegelung von Webpräsenzen die Zeit eine konstituierende Rolle, und zwar als

  • Zeitpunkt (Intervallspiegelung),
  • Zeitraum (Dauer des Spiegelungsprozesses, die so bemessen sein sollte, dass nicht Seiten als Teile einer Site präsentiert werden, die nie gleichzeitig im Internet standen),
  • Zeitfolge bzw. Gleichzeitigkeit (Welche Spiegelungen sollen zeitgleich erfolgen und bei welchen ist der Informationswert größer, wenn sie in zeitlicher Distanz erfolgen?) oder
  • Ereignis (Anlassspiegelung: Wahlen, Parteitage).

Erfasst wird bisher in Intervallen mit dem Ziel einer dreimaligen bzw. zweimaligen Spiegelung der Webseiten auf Bundes- bzw. Landesebene. Die Idee einer kontinuierlichen Erfassung, die auch bei uns heftig diskutiert wurde, scheint mir – im Moment jedenfalls – technisch nicht realisierbar.

Die Bereitstellung der Archiv-Objekte erfolgt im AdsD über einen neuen Server, auf den die Daten zur Zeit aufgespielt werden, und demnächst auch wieder über die Datenbank Faust.

Erschlossen werden die Archiv-Objekte aber nicht nur durch die Verzeichnung und den Index auf dem Server, sondern auch durch die Dokumentation der entsprechenden Metadaten.

Auch ein Minimal-Set müsste zumindest die folgenden Kategorien beinhalten:

Metadaten

a) Erfassungsdaten  
   
1. Steuerungsdaten (Authentizität) 2. Speicherdaten (Identität)
  OffLine-Browser (Typ, Version)
Datum der Spiegelung
(Abbruch der Spiegelung)
aufgenommene URLs
Programmeinstellungen *
Fehler beim Spiegeln
Gebrochene Links
(Nachbearbeitungen)
Umgebungsdaten *
  Umfang des Projekts
Anzahl der Dateien
Speicherverzeichnis
Projektname / Signatur


       
b) Erschließungsdaten    
  Seiteninformation (Metatags)
Seiten-, Dateiinformationen des Servers
   
       
c) Evidenzdaten    
  Anbieterdaten (Denic)
Benutzerdaten
   
       
d) Sicherungsdaten    
  Formate
Medien
Methoden
   

*Abweichungen von definierten Standards

(Eine schematische Darstellung des gesamten Workflow bietet die beiliegende Grafik , die uns durch den gesamten Workshop begleiten wird, so dass man sich bei den einzelnen Beiträgen immer auch über den jeweils behandelten Abschnitt im Archivierungsprozess orientieren kann).

Wir gehen bei unserer Arbeit natürlich davon aus, dass das Internet als neue Quellengattung nicht nur archivwürdig, sondern auch archivfähig ist.

Die Archivfähigkeit hängt allerdings davon ab, ob es uns gelingt, für die bereits genannten Probleme Lösungen zu erarbeiten, die mit vertretbarem technischen und zeitlichen Aufwand zu betreiben sind. Erst die Lösung dieser Probleme unter den Aspekten der Authentizität, der Recherchierfähigkeit, Langfristigkeit und Benutzbarkeit eröffnet die Möglichkeit zum Aufbau eines Internet-Archivs.

Dass das Internet archivwürdig ist, wird, so denke ich, wohl niemand mehr ernsthaft bestreiten. Zu offensichtlich ist der Prozess, in dessen Verlauf das Internet schon jetzt die traditionellen Medien nicht nur zu ergänzen, sondern geradezu zu marginalisieren scheint.

Aber in Deutschland ist bisher noch völlig ungeklärt, ob man bei der Internet-Archivierung einen zentralistischen Weg gehen will oder einen, der die ausgeprägte Vielfalt der Archivlandschaft mit einbezieht. Beide Lösungen haben Vor- und Nachteile, die noch diskutiert werden müssen.

In unserem Projekt sind es die zuständigen Archive, die jetzt auch die Webpräsenzen der Organisationsebenen und Personen spiegeln, deren Schrift- und Sammlungsgut ohnehin im Fokus ihrer Archivierungsarbeiten stehen. Die Berücksichtigung bestimmter Anlässe sowie die Festlegung von Intervallen beruht ebenso wie die Entwicklung von Kriterien für die Aufnahme bestimmter Seiten auf der genauen Kenntnis der Organisationen und ihrer Strukturen, sowie der Personen und ihrer Funktionen. Während bei diesem Ansatz eine bestimmte Auswahl aus dem Internet archiviert wird, müsste ein zentraler Ansatz auf eine vollständige Erfassung des gesamten Internet oder einer Top-Level-Domain angelegt werden, da keine oder nur unzureichende Kriterien für eine Auswahl vorhanden wären. Die Nationalbibliotheken, die sich in der IIPC4 zusammengeschlossen haben, verfolgen ähnlich wie das „Internet Archive“5 einen solchen „comprehensive approach“. Das angewandte Verfahren ist vor allem unter dem Aspekt der Authentizität von großem Interesse, weil es auf eine Umwandlung der absoluten Links verzichtet. Allerdings muss man bei der Verfolgung dieser Links innerhalb des Archivs auf Zeitsprünge von mehreren Monaten, manchmal sogar Jahren gefasst sein.

Liegen die Stärken des dezentralen Ansatzes eher in der Erfassung, so hat der zentrale Ansatz den Vorteil einer einheitlichen Präsentation des Archivguts etwa auf der nationalen Ebene. Dezentrale Internet-Archive müssten erst zu einer einheitlichen Präsentation zusammengeführt werden, was mit erheblichen Schwierigkeiten technischer und organisatorischer Art verbunden sein dürfte.

Beide Ansätze sollten deshalb eher als Ergänzungen denn als Alternativen gesehen werden.

Vielen Dank für Ihre Aufmerksamkeit!


1 DFG-Arbeitsgruppe Informationsmanagement der Archive 15.11.2003
Die deutschen Archive in der Informationsgesellschaft – Standortbestimmung und Perspektiven, S.1
URL: http://www.dfg.de/forschungsfoerderung/wissenschaftliche_infrastruktur/lis/download/ strategiepapier_archive_informationsgesellschaft151103.pdf
2 AdsD, Internet-Archiv, URL: http://intar.fes.de/IntAr/SPD_B_P_2001_11_14/ www.spd.de/events/
demokratie/muentefering.html
3 URL: http://213.174.55.21/andreas-laemmel.de/www_laemmel/ 6c23f690da75b90d954fe4d90e42a73d.php?aktuelles_id=306&page=1
4 International Internet Preservation Consortium
URL: http://www.netpreserve.org/about/index.php
5 URL: http://www.archive.org/

Zurück zum Anfang

Fenster schliessen

Friedrich-Ebert-Stiftung, AdsD