Referat Infrastrukturen und digitale Grundsatzfragen

Web- und Social Media-Archivierung

Was wird gesammelt?

Das Archiv der sozialen Demokratie archiviert Netzquellen seit Ende der 1990er Jahre.  Die Auswahl der archivierten Quellen wie auch die Technik, die dafür eingesetzt worden ist, hat sich im Laufe der Jahre verändert. Aktuell sammelt das AdsD ausgewählte Webseiten der SPD und der Gewerkschaften. Die Grenzen der Webseite werden darüber definiert, dass die Unterseiten einer bestimmten Domain gesichert werden, also z.B. alle Seiten, die mit www.spd.de beginnen. In der Bibliothek werden zudem Pressemitteilungen von Parteien und Gewerkschaften weltweit eingesammelt und bereitgestellt.

Aufgrund der zunehmenden Bedeutung der sozialen Medien in der politischen Kommunikation hat das AdsD zwischen Herbst 2021 und Frühjahr 2023 ausgewählte Twitter-Kanäle archiviert. Das Twitterarchiv umfasst 37 Twitterkanäle der SPD und der Gewerkschaften, die jeweils ab der Erstellung des Kanals bis Ende Februar 2023 gesichert worden sind. Da der Netzwerkcharakter ein besonderes Distinktionsmerkmal für die sozialen Medien darstellt, sind bei der Archivierung auch die Antworten auf die abgesetzten Tweets gesichert worden.

 

Wie werden Webseiten und Social Media gesichert?

Es gibt verschiedene Wege, um Webseiten zu sichern, wobei es darauf ankommt, was genau von einer Gedächtnisinstitution als bewahrenswert definiert wird. Bei den Webseiten ist es Ziel der Archivierung im AdsD, auch Verlinkung und Look-and-Feel der ursprünglichen Webseite zu erhalten. Dazu werden sogenannte Crawler bzw. Harvester eingesetzt, eine Software, die nach definierten Regeln Links verfolgt und das Vorgefundene speichert. Da sich die Webseitentechnologie beständig weiterentwickelt, müssen auch die Crawler ständig weiterentwickelt und angepasst werden.

Aktuell wird im AdsD für die meisten Webseiten der Crawler Heritrix (Version 3.4) eingesetzt. Da bei einzelnen Webseiten diese Crawls zu unvollständig sind, wird für solche Seiten der browsertrix-crawler verwendet. Die Speicherung erfolgt in beiden Fällen im WARC-Format, einem speziell für die Webarchivierung entwickelten Container-Format. Weitere Details zum Prozess der Webarchivierung finden sich in diesem Blog-Beitrag. Der Heritrix-Crawler erstellt während des Prozesses der Archivierung außerdem Log-Dateien, anhand derer sich der Verlauf des Einsammelns der Webseite nachvollziehen lässt.

Für die Twitter-Archivierung verwendete das AdsD ein vom Landschaftsverband Westfalen-Lippe in Zusammenarbeit mit dem Stadtarchiv Münster entwickeltes Skript, das auf der Software twint basiert. Beim Sicherungsvorgang wurde hier eine JSON-Datei gespeichert, die den Inhalt des Tweets, aber auch Metadaten wie die Anzahl der Likes und den genauen Datumsstempel enthält. Zusätzlich wurden die angehängten Bilder gespeichert. Das Look-and-Feel der Social-Media-Plattform wurde dagegen nicht erhalten.

Wie kann man diese Quellen nutzen?

Die archivierten Webseiten und Social-Media-Kanäle können im Lesesaal des AdsD über die zur Verfügung gestellten Rechner eingesehen werden. Dabei werden die Webseiten über die Software pywb dargestellt, so dass man in den Webseiten Links wie üblich nachverfolgen kann, sofern der Link auf Material verweist, das sich im Webarchiv befindet. Die archivierten Twitterkanäle können monatsweise über die Oberfläche des Webarchivs aufgerufen werden. Aus urheberrechtlichen Gründen ist beides nur im Lesesaal vor Ort möglich. Für die archivierten Webseiten ist über die Software SolrWayback auch eine Volltextsuche möglich.

Bei archivierten Webseiten und Social-Media-Quellen handelt es sich um strukturierte Daten, die bereits zahlreiche Metadaten eingebettet enthalten. Als solche sind sie besonders gut für maschinell gestützte Auswertungsmethoden geeignet. SolrWayback bietet dabei z.B. auch die Möglichkeit, Datensets im CSV- oder JSON-Format zu exportieren. Zusätzlich ist je nach Nutzungsabsicht auch der Einblick in Log- und Reportdateien der Crawls notwendig. Wenn dies für die Nutzung notwendig ist, können Nutzer_innen deshalb auch digital vollständige Kopien der WARC-Dateien bzw. von Datensets sowie der bei der Archivierung entstandenen Umfeld-Dateien erhalten, sofern dies durch die Verträge mit den Hinterleger_innen ermöglicht wird.

nach oben