Kontakt: 0221 6778 237 0

Steuern der Roboter

Wir sind die Roboter. Und wir Crawlern mechanisch. Unter Umständen möchte man aber die Roboter höflich um Zurückhaltung bitten. Nicht alles, was man auf einen Server legt, soll so auch in die weite Welt hinaus posaunt werden. Wenn man eine Site dem Roboter schmackhaft machen möchte, dann sollte man die gesamte, absolute URL bei Links angeben. Damit hat der Robot leichte Arbeit beim Verschlüsseln. Für Transportaufgaben und auch zum Schutz vor Spionage, Zersetzung, Hijacking und all dem Rest kann man mit der Offenlegung etwas sparsamer sein. Zum einen kann man mit relativen Adressen arbeiten. Ein Directory gilt als Stammverzeichnis, von diesem Directory her wird alles gezählt. Das kann man im Server angeben, das Code Wort im Apache hierfür lautet: Document Root. Neben der Definition des Document Roots im HTTP Server kann man auch innerhalb der HTML Dokumente mit dem BASE Tag arbeite. Zum einen wird die Definition des Document Roots schön dynamisch. Man kann die Definition eben on the fly ändern. Ohne den Server herunterzufahren. Das Beste an dem Tag ist, man kann ihn auch benutzen, wenn man nur Gast auf dem Server ist. Der andere Vorteil vom Base-Tag ist, dass er ein target als Argument hat. Damit kann man dann festlegen, ob der HTML Code innerhalb eines Frames ausgeführt werden kann oder nicht. Manche schlauen Zeitgenossen lassen nämlich fremden Code in einem sogenannten Inneren Frame laufen. Das Verfahren ist auch als Deeper Inner Link bekannt. Damit sieht man als unbedarfter Benutzer nicht, wer der Autor des Materials ist. Somit kann ein Ideenklau durchgeführt werden. Kartenhersteller lassen so was Abmahnen. Als Privatier kann man auch den Deeper Inner Link durch so einen Base Tag aufheben. Sonst zieht jemand Fremdes aus den eigenen Leistungen Gewinn. Auch die Datei Robots.txt sollte an dieser Stelle erwähnt werden. Diese gibt an, welche Teile der Site nicht Verschlagwortet werden sollen. Ständig ändernde Contents sind nicht für Roboter geeignet. Wenn man News auf seiner Site hat, dann werden die vielleicht von den Crawlern erfasst und Besucher kommen dann auf die Site und sind frustriert. Deswegen sollte man sich schon überlegen, was die Robots zu futtern kriegen sollen.

Schreibe einen Kommentar

Kontakt

Aachener Str. 1253, Bürogebäude 1, 50858 Köln
Telefon:+49 (0) 221 6778 237 0
Fax: +49(0) 221 6778 237 9