Bewahren Sie wichtige Online-Inhalte mit Bellingcats Auto Archiver auf

Soul Hackers 2 Erscheinungsdatum Ankuendigungstrailer enthuellt

Open-Source-Forschung stützt sich oft auf Social-Media-Beiträge, die Videos und Bilder enthalten. Diese Beiträge können jedoch von Plattformen entfernt oder von denjenigen gelöscht werden, die sie posten. Aus diesem Grund haben wir bei Bellingcat ein Tool entwickelt – das Auto-Archivierer — um der Open-Source-Community sowie Journalisten und Forschern zu helfen, Online-Inhalte einfach zu archivieren. Mit dem Tool können Beiträge und ihre Video- oder visuellen Anhänge archiviert werden, indem einfach ein Link in ein Google Sheets-Dokument eingegeben wird.

Wir haben bereits darüber geschrieben, wie Open-Source-Materialien manuell archiviert werden, sowie speziell Telegram-Inhalte. Diese Methoden sind angesichts der anhaltenden russischen Invasion in der Ukraine von besonderer Bedeutung. Unser Auto Archiver ergänzt diese Praktiken, indem er unabhängig von Plattform oder Medientyp einen einheitlichen und optimierten Archivierungsprozess erstellt.

Der Auto Archiver ist ein laufendes Projekt, das zuerst von Logan Williams, Datenwissenschaftler von Bellingcat, mit Bellingcats Investigative Tech Team und unseren Community-Mitarbeitern erstellt wurde, die nun regelmäßig daran arbeiten, Verbesserungen an der Software vorzunehmen. Bisher haben wir es verwendet, um Inhalte zu erfassen, die Vorfälle von zivilem Schaden während der russischen Invasion in der Ukraine sowie in anderen sich schnell entwickelnden Situationen wie dem tadschikisch-kirgisischen Grenzkonflikt im September 2022 darstellen.

Ein Screenshot einer Auto Archiver-Hinrichtung für den tadschikisch-kirgisischen Grenzkonflikt.

Aber nicht nur Bellingcat verwendet den Auto Archiver – Organisationen wie die Zentrum für Informationsresilienz und OSR 4-Rechte haben es auch verwendet, um ihren Forschern zu helfen, Inhalte aus laufenden Konfliktsituationen systematisch zu archivieren. OSR 4 Rights stellt sogar ein Online-Formular bereit, um den Archiver über einen Link zu testen über ihre Website.

Abhängig von Ihrem technischen Kenntnisstand kann die Einrichtung des Auto Archivers zunächst einschüchternd wirken. Aber keine Sorge – am Ende dieses Artikels haben wir erklärt, wie man mit dem Auto Archiver loslegt.

Was kann der Auto Archiver?

Bevor wir uns mit der Einrichtung befassen, schauen wir uns die Grundlagen der Funktionsweise des Auto Archivers an.

Das Tool ist im Wesentlichen ein One-Stop-Shop für Ihre Archivierungsanforderungen. Nehmen wir an, es gibt online einen Inhalt, den Sie archivieren möchten, eine Webseite oder einen Social-Media-Beitrag mit Videos und Bildern: Alles, was Sie tun müssen, ist seine URL zu greifen und sie in eine neue Zeile in der Google-Tabelle einzugeben, wo die Auto Archiver wurde angewiesen, nach Links zu suchen. Wenn der Auto Archiver einen Link sieht, der noch nicht archiviert wurde – oder mit anderen Worten einen leeren Status in der entsprechenden Zelle im Blatt hat – ist er so programmiert, dass er nach der besten Archivierungsstrategie sucht. Dies hängt von der eingegebenen Plattform und dem Inhaltstyp ab. Da Plattformen unterschiedliche Formate und Barrieren haben, kombiniert der Auto Archiver vorhandene Video-Download-Tools wie z yt-dlp – ein Befehlszeilentool, mit dem Sie YouTube-Videos herunterladen können – mit individuellen Archivierungstools für soziale Medien.

Zum Zeitpunkt des Schreibens existieren diese für Telegram, Tiktok, Twitter und VKontakte. Wenn all dies fehlschlägt, wird der Link an die Wayback-Maschine gesendet. Dies bedeutet jedoch, dass Videoinhalte wahrscheinlich nicht archiviert werden (eine der Einschränkungen bei der Verwendung der Wayback-Maschine allein für die Online-Aufbewahrung) und als eingeschränkter Fallback-Mechanismus angesehen werden sollten. Der Auto Archiver macht immer einen Screenshot des Inhalts und hängt ihn zusammen mit dem archivierten Inhalt selbst und anderen Metadaten, die sich auf den archivierten Inhalt beziehen, an die Linkzeile an, wenn dies so konfiguriert ist.

Erste Schritte mit dem Tool

Obwohl der Auto Archiver nach der Einrichtung sehr einfach zu verwenden ist, müssen einige Schritte durchlaufen werden, die kleine Aspekte des technischen Wissens erfordern, bevor Sie mit der Verwendung beginnen können.

In unserem GitHub erklären wir ausführlicher, wie Sie den Auto Archiver einrichten Code-Repository. Aber wir werden einige der Grundlagen unten durchgehen. Vergessen Sie nicht, sich auch das unten eingebettete Video anzusehen.

Alles, was Sie brauchen, um zu beginnen, ist ein Computer – jeder Computer, von Ihrem persönlichen Laptop bis zu einem riesigen Gaming-PC – mit Internetzugang. Von dort aus gibt es noch ein paar andere Dinge, die Sie benötigen:

  • Eine Konfigurationsdatei, die beschreibt, wie und wo Inhalte archiviert werden (wird im folgenden Abschnitt erläutert)
  • EIN Google-Dienstkonto ist die einzige Dienstkonfiguration, die unbedingt erforderlich ist, damit der Archiver funktioniert; Dies ist eine spezielle Art von Google-Konto für nichtmenschliche Nutzer (dh eine automatisierte Anwendung). In diesem Fall ist der Archiver der nichtmenschliche Benutzer, der mit einem Google Sheet interagiert. Beim Bereitstellen des Archivers auf einem neuen Blatt ist es immer erforderlich, der für das Dienstkonto erstellten E-Mail-Adresse Editorrechte zu erteilen. Dies Verknüpfung erklärt, wie Sie einen einrichten können.
  • Installation von Python 3.8 oder höher
  • ffmpeg (für Videooperationen wie das Erfassen von Miniaturansichten)
  • Firefox und Geckodriver (um Screenshots von Webseiten zu machen)
  • Sobald Sie diese Einrichtung vorgenommen haben, können Sie den Archiver über die aufrufen Befehlszeile Dadurch wird eine Verbindung zur konfigurierten Google-Tabelle hergestellt und die Archivierung gestartet. Dieser Schritt besteht im Wesentlichen darin, die richtigen Anweisungen in die Befehlszeile einzufügen, auf die Sie zugreifen können, indem Sie auf einem Mac die Befehlstaste + Leertaste drücken und dann „Terminal“ eingeben. Drücken Sie auf einem Windows-Computer die Windows-Taste + X, bevor Sie auf die Option „Befehlszeile“ oder „Powershell“ klicken. In diesem Fall lautet die Anweisung zur Eingabe in die Befehlszeile:

    python auto_archive.py –config your-config-file.yaml

    Ihr Computer macht sich nun an die Arbeit und erwartet in der entsprechenden Tabelle eine Kopfzeile mit zwei obligatorischen Spalten: eine zum Auslesen von Links, eine zum Anzeigen des Archivierungsstatus. Andere Spalten sind optional, bieten jedoch Funktionen, die die Benutzerfreundlichkeit des archivierten Inhalts verbessern, darunter:

  • Link zum archivierten Inhalt
  • Link zu einem Screenshot der Webseite
  • Titel der Webseite oder des Beitrags
  • Upload-Zeitpunkt des Beitrags
  • Zeitstempel des Archivierungsvorgangs
  • Kryptografischer Hash des Inhalts – nützlich, um später auf Manipulation zu testen. Beachten Sie jedoch, dass die bloße Speicherung dieses Werts in einem Google Sheet nicht unbedingt alle forensischen Anforderungen für die spätere Verwendung des Videos in Gerichtsverfahren erfüllt
  • Wenn ein Video vorhanden ist
  • Miniaturansicht eines Videos
  • Rahmen Sie Miniaturansichten entlang des Videos ein
  • Dauer des Videos
  • Ein Screenshot einer Auto Archiver-Ausführung über verschiedene Arten von URLs.

    Ein Screenshot einer HTML-Ausgabe nach dem Archivieren eines Twitter-Posts mit einem einzelnen Bild.

    Konfigurations- und Dienstschlüssel

    Da ist ein Beispiel Konfigurationsdatei verfügbar in unserem GitHub-Repository, das als Ausgangspunkt für neue Bereitstellungen des Auto Archivers verwendet werden kann. In dieser Datei wird die Ausführung konfiguriert – mit anderen Worten, Details zur Einrichtung des Archivers –, wo Sie eine Speicheroption auswählen können (siehe unten), wo die API-Schlüssel und Geheimnisse für Dienste wie die Wayback-Maschine gespeichert werden, und auch wo alternative Namen für die Spalten angegeben werden können, falls ein Benutzer seine eigenen Spalten umbenennen möchte.

    Ein Screenshot von Bellingcats GitHub-Seite, der den Konfigurationscode und die von ihm genutzten Dienste beschreibt.

    Das Ändern von Spaltennamen hat sich als nützlich erwiesen, wenn der Auto Archiver zu einem Blatt hinzugefügt wird, nachdem Personen damit begonnen haben, daran zu arbeiten, und Spaltennamen bereits vordefiniert wurden. Wenn Sie mit einem leeren Blatt beginnen möchten, können Sie verwenden diese Vorlage; Es ist bereits mit den Standardspaltennamen in der ausgerichtet Beispiel Konfigurationsdatei. Eine Speicherkonfiguration ist immer erforderlich, um sicherzustellen, dass der Inhalt gespeichert wird, aber der lokale Speicher kann verwendet werden, um schnell mit dem Testen der Tools zu beginnen. Weitere Einzelheiten zu den mit Auto Archiver verfügbaren Speicheroptionen finden Sie in den folgenden Abschnitten dieses Artikels.

    Um benutzerdefinierte Social-Media-Archiver nutzen zu können, müssen Sie noch einige andere Dinge tun. Sie benötigen eine gültige VKontakte Benutzername und Passwort, Telegramm API-Schlüssel und ein Bot-Tokenund ein Twitter API V2-Bearer-Token. Vermeiden Sie aus Sicherheits- und praktischen Gründen die Verwendung persönlicher Konten, da diese aufgrund automatischer Kontrollsysteme gesperrt werden können und immer einem höheren Risiko ausgesetzt sind, aus Konfigurationsdateien gelesen zu werden.

    Für den Fallback-Archiver ist ein Konto beim Internetarchiv erforderlich, bevor die Geheimnisse für die abgerufen werden können Wayback-Maschine API.

    Obwohl die Bereitstellung der oben genannten Anmeldeinformationen optional und nicht erforderlich ist, damit der Auto Archiver funktioniert, ist dies ein Schritt, der die Art der Inhalte erhöht, die abgerufen und aufbewahrt werden können. Auch dies kann jedoch ein Prozess sein, der eher für technisch versierte Benutzer relevant ist und sich aus Ihren speziellen Archivierungsanforderungen ergeben kann.

    Es ist auch möglich, mehrere Blätter mit derselben Konfigurationsdatei und denselben Schlüsseln für externe Dienste zu archivieren: durch Überschreiben des Namens des Blatts, nach dem gesucht werden soll, über die Befehlszeilenoptionen (mit diesem Befehl: python auto_archive.py –config your-config-file. yaml –sheet „my sheet name“) oder durch Erstellen einer neuen Konfigurationsdatei, wenn andere Speicher oder Geheimnisse verwendet werden.

    Wie werden die Inhalte gesichert?

    Der vom Archiver gefundene Inhalt wird in den konfigurierten Speicher kopiert – d. h. in den Speicherplatz, den Sie in der Konfigurationsdatei eingerichtet haben. Derzeit gibt es drei Speicheroptionen: einen Google Drive-Ordner, einen externen Online-Objektspeicher wie einen S3-Bucket (z. B. Digital Ocean Spaces oder Amazon S3) oder den lokalen Speicher auf dem Computer, auf dem der Archiver ausgeführt wird.

    Der Zugriff auf das archivierte Material kann eingeschränkt werden, indem der Speicherort privat oder eingeschränkt wird. Wenn Sie S3-Speicher verwenden, legen Sie die private Konfigurationsoption in der Konfigurationsdatei fest. Wenn Sie Google Drive verwenden, verwalten Sie den Zugriff wie bei jedem anderen Drive-Ordner.

    Standardmäßig werden Dateien mit einem vorhersehbaren Pfad und Namen gespeichert, aber wenn Sie die „zufällige“ Benennungseinstellung in der Konfigurationsdatei verwenden, erhalten Sie stattdessen eine lange und unvorhersehbare Zeichenfolge. Diese Option kann verwendet werden, um archivierte Inhalte online zu teilen, da nur Personen mit Zugriff auf die Links sie anzeigen können.

    Automatisierung und Leistung

    Sobald der Auto Archiver die Durchsicht eines Blatts beendet hat, hält er seine Ausführung an, sodass alle später hinzugefügten Links nicht archiviert werden. Der einfachste Weg, dies zu beheben, ist die Planung einer Aufgabe auf Ihrem Computer. Unter Windows kann dies über Geplante Aufgaben in der Systemsteuerung erfolgen. Auf Mac- oder Linux-Rechnern können Sie ein cron – ein Befehlszeilentool zum Planen wiederkehrender Aufgaben – verwenden, um es so oft auszuführen, wie Sie es benötigen. Ein Beispiel für einen crontab-Eintrag, um den Archiver alle 10 Minuten auszuführen, würde folgendermaßen aussehen:

    10 * * * * python auto_archive.py –config your-config-file.yaml

    Seit Russland im Februar 2022 in die Ukraine einmarschiert ist, haben wir Tausende von Online-Seiten, Videos und Bildern des andauernden Krieges archiviert. Dieses wachsende Archiv wird für aktuelle und fortgesetzte Ermittlungsbemühungen verwendet, aber es wird auch als langlebiges Archiv der Gräueltaten dieses Krieges dienen. Wir ermutigen die breitere Open-Source-Community, diesen Ansatz mit anderen Konflikten und Situationen zu wiederholen, insbesondere solchen, in denen derzeit nur begrenztes öffentliches Interesse besteht. Dadurch wird sichergestellt, dass zukünftige Rechenschaftsprozesse über genügend Open-Source-Material verfügen, um es zu dokumentieren und zu untersuchen.

    Unsere interaktive TimeMap-Funktion, die unten eingebettet ist und Vorfälle von zivilem Schaden protokolliert, die während des Krieges in der Ukraine aufgetreten sind, nutzt den Auto Archiver – obwohl angemerkt werden muss, dass wir nicht alle archivierten Inhalte öffentlich anzeigen, um die zu schützen Datenschutz einiger Uploader und weil unsere Ermittler die auf dem Blatt aufgezeichneten Vorfälle noch überprüfen müssen, bevor sie der Karte hinzugefügt werden können.

    Eine vollständige Anleitung zur Installation und Bereitstellung finden Sie in der Code-Repositoryund wir freuen uns über Feedback und Fragen, die Sie als senden können GitHub-Probleme oder indem Sie das Bellingcat Investigative Tech Team über dieses Kontaktformular kontaktieren.

    Bellingcat ist gemeinnützig und die Fähigkeit, unsere Arbeit auszuführen, hängt von der freundlichen Unterstützung einzelner Spender ab. Wenn Sie unsere Arbeit unterstützen möchten, können Sie das tun hier. Sie können auch unseren Patreon-Kanal abonnieren hier. Abonnieren Sie unsere Newsletter und folgen Sie uns auf Twitter hier.



    bllc-allgemeines