Es ist verständlich, daß sich Internet-Nutzer schon mal beim Eintippen einer Internet-Adresse in der Browser-Zeile vertun und zum Beispiel alles kleinschreiben, was durchaus völlig falsch sein kann.
Daß aber die von Profis programmierten Roboter von Suchmaschinen ähnliche Fehler machen, zeigt das Unvermögen, die Internet-Normen zu lesen oder zu verstehen.
Auf dieser Extra-Seite wird auf das Erfordernis der Klein/Großschreibung bei Angaben von Internet-Pfaden (URL) hingewiesen. Dazu werden hier 2 Blog-Artikel von 2008 in überarbeiteter und ergänzter Form wiederholt. Möge das dazu beitragen, Fehler bei der Pfad-Eingabe zu vermeiden.
Kleingroßschreibung bei URLs Was leider sehr viele nicht wissen: Bei Angabe von Pfaden (URL) zu Seiten und Dokumenten im Internet kommt es immer auch auf die Kleingroßschreibung an. Ein Beispiel:
Nur bei der Domain-Angabe spielt die Kleingroßschreibung keine Rolle. Das ist alles, was zwischen dem Doppel-Slash und dem ersten Slash steht. Aber nach diesem Slash (Schrägstrich) beginnt der Bereich, wo ganz genau auf die Kleingroßschreibung der Pfad- Komponenten geachtet werden muß. ![]()
Ignoriert man das, was allzuoft sogar ‚Crawler‘ von Suchmaschinen tun, dann wird die gewünschte Seite nicht gefunden. Man erhält dann eine Fehler-Anzeige vom Typ "404" File does not exist.
Jeder blamiert sich so gut er kann
TORONTO 22.5.2008 (khd). Prüft man regelmäßig die Fehler-Logdatei des eigenen Web-Angebots, dann kann man sich nun fast schon täglich nur noch sehr wundern. Denn immer häufiger werden dort in großer Zahl 404-Fehler registriert, die falsch programmierte ‚Crawler‘ von unbekannten Suchmaschinen produzieren. In früheren Jahren trat das höchst selten auf. Aktuellstes Beispiel für einen solchen unfähigen Robot ist der MSR-ISRCCrawler (IP = 131.107.65.41).
Neuere Robots mißachten Internet-Regeln / Besonders auffällig war jetzt Toplistbot
Ganz offensichtlich haben die Robot-Programmierer vorgesehen, daß der gesamte Pfad zu einer Webseite immer kleingeschrieben werden muß. Und das führt dann zu Fehlabrufen, wenn im realen Pfad auch Großbuchstaben vorkommen und der Web-Service auf einem Computer unter einem Unix-Betriebssystem läuft. Irgendwie haben diese Leute noch immer nicht die Computerwelt sowie die Normung des Internets (RFCs) verstanden.
Den Vogel schoß aber Toplistbot ab
In den letzten Tagen wühlte sich ein Robot namens Toplistbot durch das gesamte Web-Angebot. Er produzierte dabei riesige Fehler-Logdateien. Und das lag daran, daß er nicht nur jede Seite abrief, sondern auch noch jeden HTML-Anker einer Webseite einzeln abrufen wollte. Das ist sowieso schon sinnlos, denn hat man eine Seite geholt, dann wurden auch alle HTML-Anker mitgeliefert.
Mißlich war nun allerdings beim Holversuch der einzelnen HTML-Anker, daß dieser Toplistbot nichts vom Startzeichen # der HTML-Anker wußte, mit dem alle Ankerangaben beginnen müssen. Ein Beispiel: So versuchte dieser Crawler es mit (...) /Sci/Nat/Klima-Fakten_1.htmlKyoto-Protokoll, wo doch (...) /Sci/Nat/Klima-Fakten_1.html#Kyoto-Protokoll richtig gewesen wäre. Er ließ also konsequent das # bei seinen Anfragen weg, was natürlich zu einer enormen Anzahl von 404-Fehlern führte.
Wer aber veranstaltet einen solchen Blödsinn? Die befragten Robot-Datenbanken wußten nicht recht weiter. Offensichtlich ist Toplistbot ein völlig neuer Robot. In den Fehler-Logdateien trug er sich mit den IP-Adressen 85.176.101.30 und 85.176.124.157 ein. Und diese gehören als Knoten *.adsl.alicedsl.de zum Netzwerk von Alice (Hansenet). Ob aber Alice selbst damit etwas zu tun hat, bedarf der weiteren Recherche. Jetzt ist dieser Crawler in der robots.txt gesperrt. Hoffentlich hält er sich wenigstens an diese Regel.