taz.de

       # taz.de -- Archive im Internet: Das verschwundene Web
       
       > Im Netz hält nichts ewig: Server gehen offline, Websites werden ganz oder
       > teilweise gelöscht. Internet-Archive können nur helfen, wenn
       > Seitenbetreiber mitspielen.
       
 (IMG) Bild: Digitales Gedächtnis: Internet Archive.
       
       Das Netz gilt als Medium mit besonders langem Gedächtnis. Einmal
       eingestellte Inhalte seien kaum aus dem Internet zu bekommen, heißt es
       gerne, vom unschönen Unifoto bis zum misslichen Blogposting. Doch das
       stimmt nicht.
       
       Zwar bieten viele Suchmaschinen die Möglichkeit, auch auf scheinbar
       Gelöschtes zuzugreifen und soziale Netzwerke wie Facebook brauchen
       erstaunlich lange, bis Bilder und andere Inhalte komplett getilgt sind.
       Aber normaler Content, der nicht von Nutzern explizit zwischengespeichert
       wurde, kann durchaus aus dem Netz entfernt werden - und das passiert
       täglich.
       
       Seiten können aus den verschiedenen Gründen aus dem Web verschwinden. Dabei
       muss nicht unbedingt ein Server eine Zeit lang offline gehen oder ganz
       abgeschaltet werden, weil ein Betreiber keine Lust oder kein Geld mehr hat.
       Manchmal reicht es aus, dass ein Website-Besitzer schlichtweg vergisst, die
       Registrierung seiner Domain zu verlängern - schon werden alte Links
       ungültig und niemand gelangt mehr an altbekannte Daten, weil eine Adresse
       neuen Besitzern zugewiesen wurde.
       
       Die einfachste Form der Archivierung im Netz ist das sogenannte Caching,
       bei dem Suchmaschinen beim Durchforsten des Netzes Kopien von Seiten
       erfassen und diese dann mittels Links in ihren Suchergebnissen verfügbar
       machen. Dabei werden meist Texte erfasst, keine Bilder; können diese nicht
       mehr vom Originalort nachgeladen werden, weisen die gespeicherten Seiten an
       diesen Stellen Lücken auf. Auf diese Weise wird so manches Angebot
       unleserlich.
       
       Aber auch dieses Caching erfolgt nur, wenn der Seitenbetreiber es nicht
       explizit unterbindet. Festgelegt wird dies in der sogenannten
       [1][robots.txt-Datei]. Dieses kleine Textfile bestimmt, was Suchroboter
       (Robots) dürfen und was nicht. Die enthaltenen Vorgaben werden von den
       meisten Suchmaschinenbetreibern ausgelesen und beachtet - Google tut das
       genauso wie Bing oder Yahoo.
       
       ## Internet Archive
       
       In der robots.txt-Datei lässt sich beispielsweise die Angabe "NOARCHIVE"
       integrieren, das das Caching grundsätzlich untersagt. Der Seitenbetreiber
       kann dabei festlegen, ob dies nur für bestimmte Verzeichnisse oder Seiten
       oder für den gesamten Server gelten soll. So manche Nachrichtenseite setzt
       mittlerweile auf "NOARCHIVE" - aus den unterschiedlichen Gründen. Manchmal
       möchte ein Anbieter nicht, dass Nutzer ältere Versionen seiner
       Informationen abfragen können, manchmal wird befürchtet, dass Nutzer auf
       Caching-Versionen zugreifen, die dann keine bezahlte Werbung mehr
       enthalten. Auch die Beschränkung der Macht Googles wird gelegentlich
       angeführt.
       
       Die Folgen können sein, dass ein restriktives "NOARCHIVE" auch große
       Projekte wie das [2][Internet Archive (IA)] ausbremst, das versucht, ein
       möglichst akkurates Bild der Netzentwicklung zu liefern - von den Anfängen
       des Web seit 1993 bis zum heutigen Tag. Wer beispielsweise ein Caching
       durch Google verhindern, die Archivierung durch das Internet Archive aber
       beibehalten will, kann auch das tun: Dazu muss er in seiner robots.txt nur
       den Google-Roboter aussperren, die Technik des IA aber durchlassen.
       
       Die robots.txt-Datei bietet auch sonst einige Möglichkeiten, Daten aus dem
       Netz verschwinden zu lassen. So lässt sich hier ein "NOINDEX"-Tag setzen,
       das Suchmaschinen verbietet, ein Angebot überhaupt in seinen Index
       aufzunehmen. Da Webserver ohne Suchmaschinenerfassung im Netz so gut wie
       nicht existieren (nur Direktlinks würden die Auffindbarkeit ermöglichen),
       ist auch das ein Weg, historische Inhalte im Netz zu tilgen.
       
       ## Öffentlich-rechtlicher Sonderweg
       
       Bei den öffentlich-rechtlichen Sendern in Deutschland hat man mit dem Thema
       seit dem vergangenen Jahr intensiv zu tun. Da nach dem aktuellen
       Staatsvertrag viele Inhalte nur noch eine bestimmte Zeit online bleiben
       dürfen, musste eine eigene "Depublizierungs-Infrastruktur" geschaffen
       werden, die Inhalte löscht und, wenn möglich, auch aus Suchmaschinen tilgt.
       
       Netzbürger, die ja mit ihren GEZ-Gebühren für die Inhalte bezahlt hatten,
       möchten da nicht mitspielen. Projekte wie [3][Depub.org] versuchen sich
       deshalb mit einer Gegenstrategie: Sie archivieren einfach selbst - trotz
       potenzieller Urheberrechtsverletzungen.
       
       5 Apr 2011
       
       ## LINKS
       
 (DIR) [1] http://www.robotstxt.org/
 (DIR) [2] http://www.archive.org
 (DIR) [3] http://www.heise.de/newsticker/meldung/depub-org-gesperrt-Update-1104985.html
       
       ## AUTOREN
       
 (DIR) Ben Schwan
       
       ## ARTIKEL ZUM THEMA
       
 (DIR) Kooperation mit Microsoft: Facebook sucht mit
       
       Microsoft ist Großinvestor bei Facebook. Deswegen kann die Software-Firma
       den "Like"-Knopf in die Suchmaschine Bing einbauen. Und sie darf noch mehr.
       
 (DIR) Yahoo und Delicious: Resteverwertung bei Yahoo
       
       Einst kaufte das US-Portal Yahoo viele populäre Webdienste, mittlerweile
       konzentriert sich das Unternehmen aufs Kerngeschäft. Doch mancher Dienst
       überlebt.
       
 (DIR) Video der Woche: Aus alt mach lustig
       
       Das ZDF übt sich in Selbstironie: Einige der muffigsten Sendungen werden
       persifliert - in kurzen Mash-Up-Clips aus altem Bildmaterial. Das ist zum
       Teil erstaunlich witzig.