Web 1.0

01.09.2021

Ja, richtig gelesen: Hier soll es nicht um die Gegenwart oder die Zukunft von Web 2, 3 oder 4.0 gehen. Sondern um die Vergangenheit. Denn auch das World Wide Web als Massen- und Alltagsphänomen ist nicht mehr ganz jung. 1993 wurde mit Mosaic, dem ersten Browser, der automatisch Grafiken in der Anzeige von HTML-Seiten integrierte, „das Internet“ auch für Leute außerhalb des Militärs und der Universitäten anschlussfähig.

Bild: Screenshot Heritrix-Startseite von AdsD

Fast 30 Jahre Kommunikation im Internet – da stellt sich für Archive und Bibliotheken die Frage: Wie bewahrt man das? Dass Webseiten archivwürdig sind, war für das Archiv der sozialen Demokratie (AdsD) schnell klar. Schon allein die Nutzung des Webs für den Wahlkampf macht das deutlich: So, wie wir Wahlplakate sammeln, sollte doch auch der Wahlkampf im Netz dokumentiert werden und für die Nachwelt erhalten bleiben.

Allerdings stellen sich bei der Archivierung von Webseiten einige Fragen, die sich bei der Archivierung eines Wahlplakats nicht stellen. Da ist zunächst einmal die Frage: Was macht eine Webseite eigentlich genau aus? Reicht ein Screenshot? Oder soll die Verlinkung mit erhalten bleiben? Aber die Verlinkung bis wohin? Wo ist denn die Grenze einer Webseite? Mit diesen Fragen einher gehen die technischen Fragen: Wie sammelt man die Webseite ein? Wie speichert man sie ab – und das möglichst so, dass sie auch in Jahren und Jahrzehnten – und darüber hinaus – noch angesehen werden kann?

Abwarten ist bei Webseiten jedenfalls keine Lösung, dafür ist das Medium zu vergänglich. Glücklicherweise war das AdsD mit diesen Fragen nicht allein. Die gesamte internationale Bibliotheks- und Archiv-Community und alle anderen, die erkannt hatten, dass hier wertvolle Informationen geräuschlos für immer verloren gehen können, suchten nach Lösungen. International war hier das Internet Archive der große Vorreiter. In Deutschland gehörten die Archive der politischen Stiftungen, darunter das AdsD, zur Avantgarde.

Für die Archivierung von Webseiten gibt es verschiedene technische Ansätze, wobei auch im AdsD im Laufe der Jahre unterschiedliche Software verwendet wurde. Aktuell werden bei uns die meisten Seiten mit dem vom Internet Archive entwickelten heritrix-Crawler eingesammelt. „Crawler“ (auch Harvester genannt) sind Software, die von einem oder mehreren Ausgangspunkten nach vorgegebenen Regeln Links nachverfolgen. Bei einem „crawler“, der für die Archivierung eingesetzt wird, wird damit von jedem gefundenen Element (z.B. HTML-Seiten, Grafiken, Audio-Files, PDFs) eine Momentaufnahme gespeichert.

Neben den abgerufenen Inhalten speichert der heritrix-Crawler Informationen, die bei der Kommunikation zwischen „crawler“ und Webserver anfallen, also z.B. genaue Abfragezeit und die HTTP-Antwort-Codes des Webservers. Die Inhalte und diese Zusatzinformationen werden im WARC-Format verpackt. Das WARC-Format ist ein speziell für die Webarchivierung entwickeltes Container-Format. Die WARCs können über spezielle Software, bei uns z.B. pywb, in einem Browser wieder (weitgehend) so angezeigt werden, wie sie ursprünglich auf der Webseite zu sehen waren. Die WARC-Files können als strukturierte Dateien aber auch mit verschiedenen Methoden der digital humanities ausgewertet werden.

Zusätzlich zu den WARC-Dateien speichern wir verschiedene Log- und Report-Dateien, um möglichst nachvollziehbar zu machen, wie der „crawl“ der Webseite abgelaufen ist. Diese zusätzliche Dokumentation ist der Versuch, mit einem Problem umzugehen, das dem Quellentyp Webseite eingeschrieben ist: Es gibt keine Möglichkeit, wirklich zu prüfen, ob eine Webseite dem Original entspricht, weil die Webseite in der angezeigten Form immer erst entsteht, wenn sie aufgerufen wird. Es hängt z.B. von Browser und Zeitpunkt ab, was genau auf der Webseite angezeigt wird. Da der „crawl“ einer umfangreicheren Webseite mehrere Tage dauert, kann es sein, dass es in der archivierten Webseite (ohne den Blick auf die Metadaten) so aussieht, als wären Inhalte gleichzeitig angezeigt worden, die live nacheinander zu sehen waren.

Neben solchen Schwierigkeiten, die deutlich machen, dass auch in der digitalen Ära die Quellenkritik wichtig bleibt, gibt es technische Hürden. Denn der Versuch, Webseiten zu archivieren, läuft der Entwicklung des Internets zwangsläufig immer hinterher. Probleme bereiten z.B. dynamische Inhalte, die auf der Interaktion der Besucher_innen mit der Webseite beruhen, das zuverlässige „crawling“ von Bildinhalten, die erst nachträglich geladen werden oder das Einsammeln von Videos, die auf YouTube gehostet werden. Für einzelne Webseiten findet deshalb inzwischen auch der „crawler“ browsertrix bei uns Anwendung.

Und dann wartet da ja noch die nächste Generation des Webs auf uns – die Sozialen Medien. Die Sicherung dieser Inhalte stellt uns vor neue Herausforderungen. Doch gerade weil der ideale Weg der Webarchivierung veraltet sein würde, sobald er erfunden worden wäre, bleibt in der Webarchivierung nur der pragmatische Weg – wir tun, was wir können und sammeln fleißig seit 1999. Ansehen kann man sich unsere digitalen Schätze im Lesesaal des AdsD.

Annabel Walz

Verwendete Literatur:

Detlef Borchers, 10 Jahre Mosaic, in: heise-online, am 10.11.2002, zuletzt abgerufen am 27.08.2021.
Niels Brügger, The archived web. Doing history in the digital age, Cambridge (MA)/London 2018.
Rudolf Schmitz, Das Politische Internet-Archiv, in: Rudolf Schmitz/Günther Schefbeck (Hrsg.), The www as a challenge and as a chance for parliamentary and party archives: Beiträge der Tagung: SPP/ICA ; annual meeting 2. - 4.11.2006 in Bonn (Beiträge aus dem Archiv der sozialen Demokratie 5), Bonn 2008, S. 9-28.
Konstanze Weimer/Astrid Schoger, Das Dateiformat WARC für die Webarchivierung (nestor Thema 15), München 2021, [urn:nbn:de:0008-2021042614].