Google Archive

Eigener XMPP-Server: Ernüchterung bei Transports 3

Jens Tautenhahn5. November 20165. November 20163 Kommentare

Seit mehreren Wochen läuft hier ein eigener XMPP-Server auf Basis von Prosody. Die Benutzung des reinen XMPP-Chats (ohne Transports) mit Gajim unter Gnome und Windows, Xabber und Conversations auf Android und Pidgin unter Windows klappt hervorragend. Was jedoch bis auf zwei Ausnahmen nicht stabil funktionieren wollte, sind die Transports in andere Messenger-Netzwerke.

Als Schnittstelle zwischen Prosody und den Modulen für die anderen Netze habe ich Spectrum2 gewählt. Stabil ließen sich nur Transports zu Twitter und zum IRC betreiben. Das liegt aber nicht an der verwendeten Software, sondern an den Anbietern selbst. ...weiterlesen "Eigener XMPP-Server: Ernüchterung bei Transports"

Google – Indexierung von Ressourcen verbieten

Jens Tautenhahn3. Juni 201526. Januar 2016

So merkwürdig der Titel klingt, denn im allgemeinen möchte man die Seiten seiner Webseite ja eher gerne in den Google-Suchmaschinen-Index aufgenommen sehen, so ergibt sich doch ab und an die Anforderung, eine Seite oder z.B. Bilder nicht in den Google-Index aufnehmen zu lassen.

Verzeichnisse mit robots.txt ausschließen

Früher konnte man das relativ einfach durch einen Eintrag in der Datei robots.txt, welche im Hauptverzeichnis der Webseite liegen muss regeln. Zu beachten ist jedoch, dass die Crawler der verschiedenen Suchmaschinen sich nicht daran halten müssen. Google jedenfalls beachtete den Inhalt dieser Datei. So z.B. konnte man mit folgendem Eintrag ein bestimmtes Verzeichnis ausschließen:

User-agent: *
Disallow: /verzeichnis/

In der ersten Zeile wird festgelegt, für welche Crawler folgende Angaben gelten sollen. Hier im Beispiel durch die Angabe eines Sterns für alle Crawler. In der zweiten Zeile erfolgt dann die Angabe eines Verzeichnisses, welches vom Crawler nicht besucht werden soll.

Einsatzgebiete für diese Methode könnte etwa sein, das Verzeichnis mit JavaScript-Dateien vom Crawlen auszuschließen.

Leider kann diese Methode seit kurzem nicht mehr verwendet werden, wenn Pfade in der robots.txt eingetragen werden sollen, deren Inhalte für das Rendern der Webseite in einem Browser erforderlich sind, so z.B. oben erwähnte JavaScript-Dateien. Google versucht seit längerem, die Seiteninhalte anhand ihrer grafischen Darstellung zu analysieren. Dazu muss die entsprechende Seite natürlich von Google gerendert werden. Ressourcen, auf die nicht zugegriffen werden kann, erzeugen dann eine Fehlermeldung.

Seiten mit META-Angaben ausschließen

Die bewährte Methode, um Seiten von der Indexierung auszuschließen, ist eine spezielle META-Angabe im Kopf der HTML-Datei zu machen. Innerhalb des Elements <head> trägt man dazu z.B. Folgendes ein:

<meta name="robots" content="noindex" />

Damit wird der Googlebot angewiesen, die Datei nicht zu indexieren. Ohne weitere Angaben folgt der Crawler jedoch den Links in der Datei, um andere Seiten zu finden. Weitere Möglichkeiten, um dem Googlebot z.B. auch das Folgen der Links zu verbieten finden sich in der unten angegebenen Google-Hilfeseite.

Problematisch bei dieser Methode ist, dass sie nur auf HTML-Dateien angewendet werden kann. Bilder und JavaScript-Dateien haben keinen solchen Eintrag. Hier bleibt nur folgendes Verfahren:

Ressourcen mit HTTP-Headerangaben ausschließen

Für diese Methode wird der Zugang zur Webserverkonfiguration benötigt. Der Webserver muss angewiesen werden, für die auszuschließenden Seiten oder Dateien einen speziellen Antwort-Header einzufügen. Um die Seite oder Datei komplett vom Index auszuschließen muss z.B. folgender HTTP-Header gesendet werden:

X-Robots-Tag: noindex

Die Angaben hinter X-Robots-Tag sind dabei die gleichen, wie sie auch in der robots.txt verwendet werden können.

Apache - X-Robots-Tag einfügen

An ensprechender Stelle der Webserverkonfiguration muss z.B. Folgendes eingetragen werden:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

Zu beachten ist, dass für die Direktive "Header" das Modul mod_headers im Apache geladen sein muss.

Nginx - X-Robots-Tag einfügen

Analog wird in die Serverkonfiguration von Nginx Folgendes eingetragen:

location ~* \.(png|jpe?g|gif)$ {
	add_header X-Robots-Tag "noindex";
}

Überprüfen kann man die korrekte Ausgabe der HTTP-Header anschließend mit dem Browser. In Firefox und auch Chrome kann durch Drücken von F12 ein Fenster für Webentwickler geöffnet werden. Im Tab Netzwerk und nach dem Neuladen der jeweiligen Webseite kann man sich alle gesendeten wie auch vom Webserver empfangenen HTTP-Header anschauen.

Weitere Informationen zu diesem Thema findet man auf einer entsprechenden Hilfeseite von Google.

Tiny Tiny RSS – Alternative für Google Reader

Jens Tautenhahn17. März 20138. Juni 2015

Das Ende des Google Reader ist beschlossene Sache. Google hat damit, zumindest bei mir, ein ganzes Stück Vertrauen verloren, wenn vielbenutzte Services einfach so mir nichts dir nichts eingestellt werden. Seit 2005 gibt es den Google Reader mit einer nicht zu unterschätzenden Userbasis. Leider scheint sich Google auch nicht von einer Petition zum Erhalt des Google Readers überzeugen zu lassen, die mittlerweile schon über 120.000 Unterzeichner hat. Also gilt es, einen Ausweg zu finden, um weiterhin die täglichen News stressfrei sichten zu können.

Da bei mir die Nutzung auf mehren Geräten eine große Rolle spielt, kamen lokale Programme nicht in Frage. Wenn ich auf dem einen Gerät einen Artikel gelesen habe, möchte ich diesen nicht auf einem anderen Gerät wieder als neu angezeigt bekommen. Eine Synchronisation kann also nur über einen Service erfolgen, der unabhängig vom Gerät arbeitet. Allerdings wollte ich auch nicht auf einen externen Dienstleister setzen (so wie Google mit ihrem Reader), sondern eine Software selber hosten, die mir die Reader-Funktionen bereitstellt. Nach längerer Suche bin ich auf Tiny Tiny RSS gestoßen, welches leicht zu installieren und mit ein paar Änderungen im CSS sogar noch ähnlich dem Google Reader Design dargestellt werden kann.

Google Kalender in Thunderbird einbinden 6

Jens Tautenhahn21. November 20126 Kommentare

Mit dem Add-On Lightning können in Thunderbird nicht nur lokale Kalender bearbeitet werden, sondern es können auch Kalender aus dem Netzwerk eingebunden werden. So z.B. der Google-Kalender.

Bisher erfolgte die Einbindung bis zu Lightning Version 1.8 unter Zuhilfenahme des Add-Ons "Provider for Google Calender", welches eine bidirektionale Verbindung zum Google-Kalender ermöglichte. Mit Lightning allein war nur ein lesender Zugriff auf den Google-Kalender möglich.

Mit dem Update auf Thunderbird 17.0 wird auch Lightning auf die Version 1.9 aktualisiert. Leider arbeitet diese Version nicht mehr mit dem Add-On "Provider for Google Calender" zusammen. Die Google-Kalender werden nicht mehr in der Kalenderansicht angezeigt. ...weiterlesen "Google Kalender in Thunderbird einbinden"

Piwik – Suchbegriff nicht definiert 2

Jens Tautenhahn19. März 20129. Oktober 20122 Kommentare

Seit geraumer Zeit wird in der Piwik-Statistik immer wieder der Text Suchbegriff nicht definiert als Keyword, über den Besucher von einer Suchmaschine auf dieser Seite gelandet sind, ausgegeben. Dabei hat der Besucher natürlich nicht selbst diesen Begriff eingegeben, sondern ~~Google hat das Verfahren geändert, mit dem der besuchten Webseite mitgeteilt wird, wonach gesucht wurde~~ durch die Umstellung der Google-Suche auf HTTPS wird der Referer (in dem der Suchbegriff enthalten ist) bei einer Zielseite, die nur HTTP spricht, nicht durch den Browser übermittelt. Das ist lt. RFC 2616 § 15.1.3 so spezifiziert.

Statistik- oder Analysesoftware von Drittanbietern sind dagegen machtlos und es können keine vernünftige Auswertung nach den gesuchten Keywords mehr erstellt werden. Auf der Webseite zu Piwik findet sich dazu auch eine Antwort.