Indizierung durch Suchmaschinen - Viel doppelter Inhalt

  • Zitat

    Original geschrieben von Martin Reicher
    Ahhh... offenbar sind alle beliebigen Kombinationen möglich.


    Korrekt, das meinte ich mit Wildcard.


    Zitat

    Wie schafft es die von mir genannte URL dann eigentlich zu Google?


    Suchmaschinen folgen Links. Die ww- wwd und %3E%3E%3Ewww-Subdomains werden wohl einfach Schreibfehler gewesen sein, die meisten anderen werden wohl von Leuten gezielt gelegt worden sein, die den Konfigurationsfehler bemerkt haben und sich einen Spaß (auf Kosten des Forums) erlaubt haben.


    Zitat

    Probieren die alle möglichen ([mehr oder weniger] sinnvollen) Kombinationen aus? Sonst könnte das Suchergebnis ja auch zu aozbjlkjlkj.telefon-treff.de leiten...


    Nein, das wäre wenig performant, bei der Menge an Zeichen gäbe es einfach viel zu viele Kombinationen und bei normalen Websites auch kaum zielführend. Sobald aber eine auch nur halbwegs bekannte Seite einen Link auf diese Domain setzt, wird auch diese indiziert. Jemand der das Forum hier nicht mag, kann mit massenhaften Links auf solche nicht kanonischen Domains übrigens den Server kurz- bis mittelfristig ziemlich auslasten und längerfristig das Ranking ziemlich kaputt machen.


    Chris hat da mit seinen Beispielen (sicherlich unbebsichtigt) auch seinen Anteil daran. Ich würde diese Links möglichst schnell wieder verschwinden zu lassen, auch wenn sie in der Menge der anderen, Google bereits bekannten Subdomains, eh nur einen kleinen Anteil haben werden. Ich hatte mit Absicht keinen solchen Link angegeben.


    Chris, du hast doch bestimmt einen besseren Draht nach "oben"? Ist diese Konfiguration (sowie die ungünstige robots.txt) wirklich erwünscht? Sind euch die Konsequenzen bewusst und egal?

  • Zitat

    Original geschrieben von A. Brettermeier
    Chris, du hast doch bestimmt einen besseren Draht nach "oben"? Ist diese Konfiguration (sowie die ungünstige robots.txt) wirklich erwünscht? Sind euch die Konsequenzen bewusst und egal?


    Ich werde mal schauen, die Wildcards abzustellen.

  • Einfach so abstellen wäre keine gute Idee, wie Abi99 schon korrekterweise angemerkt hatte. Eine 301-Umleitung auf din kanonischen Hostnamen eurer Wahl (also vermutlich telefon-treff.de oder eben http://www.telefon-treff.de) wäre deutlich sinnvoller. Siehe dazu auch http://httpd.apache.org/docs/2…pping.html#canonicalhost.


    Folglich wäre etwas wie

    Code
    RewriteCond %{HTTP_HOST} !^www\.telefon-treff\.de [NC]
    RewriteCond %{HTTP_HOST} !^$
    RewriteRule ^/?(.*) http://www.telefon-treff.de/$1 [L,R,NE]


    oder

    Code
    RewriteCond %{HTTP_HOST} !^telefon-treff\.de [NC]
    RewriteCond %{HTTP_HOST} !^$
    RewriteRule ^/?(.*) http://telefon-treff.de/$1 [L,R,NE]


    geeignet.

  • @Betreiber: Danke! :)


    Wäre mal interessant zu erfahren, wie die umgesetzte Regel aussieht, denn die von Mozilla ist nicht genommen worden. Mozillas Regel ist in meinen Augen auch schlecht, weil sie die FQDN gekillt hätte. Im Gegensatz zu der Webseite sehe ich keinen Grund die FQDN zu killen – und wird aktuell auch hier in Telefon-Treff.de nicht gemacht. Folglich muss es hier eine andere Regel sein.

  • Carsten, was ist denn nun mit der unsinnig sortierten und ansonsten auch ungünstigen robots.txt und den ganzen postid-URIs? Ich fände es toll, wenn ich für eine unscharfe Suche, die vBulletin nicht bietet, alternativ auf eine normale Suchmaschine zurückgreifen könnte. Leider ist durch die genannten Probleme der Index dort unnötig unvollständig und zugleich mit Duplikaten durchsetzt. So ist dieses Thema hier unter 48 unterschiedlichen URIs durch Google indiziert worden, obwohl es gerade einmal über zwei Seiten geht: https://www.google.com/search?…pelter+Inhalt%22&filter=0


    Falls du Angst hast, die robots.txt anzufassen, könntest du alternativ die Links auf die einzelnen Beiträge auch mit einem rel="nofollow" ergänzen. Das hilft dann zwar nicht mehr für die bestehenden Links, denen die Suchmaschinen gefolgt sind, aber es wäre zumindest besser als nichts.


    Zitat

    Original geschrieben von Abi99 Wäre mal interessant zu erfahren, wie die umgesetzte Regel aussieht, denn die von Mozilla ist nicht genommen worden.


    Wie kommst du zu der Annahme? Die erste Bedingung beinhaltet doch eben kein $ am Ende, obwohl das aufgrund der von dir angesprochenen Problematik durchaus sinnvoll wäre.


    Zitat

    Mozillas Regel ist in meinen Augen auch schlecht, weil sie die FQDN gekillt hätte. Im Gegensatz zu der Webseite sehe ich keinen Grund die FQDN zu killen


    Im Interesse von kanonischen URIs ist es sehr wohl sinnvoll, solche Duplikate zu vermeiden. Hinzu kommen die erwähnten Probleme mit den Cookies und den virtuellen Hosts, die nicht zusätzlich auf die vollständige, aber eben sehr exotische konfiguriert wurden. Andersherum gefragt: Welchen Vorteil siehst du darin, die Inhalte unter dieser zusätzlichen Form anzubieten und nicht stattdessen auf eine kanonische Form umzuleiten?

  • In dem Zusammenhang: Unser Reverse-DNS steht noch auf „telefon-treff.de” anstatt „www.telefon-treff.de”. Ist das gewollt?

    Zitat

    Original geschrieben von A. Brettermeier
    Die erste Bedingung beinhaltet doch eben kein $ am Ende

    Hatte den regulären Ausdruck falsch gelesen. :gpaul:

    Zitat

    Original geschrieben von A. Brettermeier
    Hinzu kommen die erwähnten Probleme mit den Cookies und den virtuellen Hosts, die nicht zusätzlich auf die vollständige, aber eben sehr exotische konfiguriert wurden

    Ein System kann – ohne den Inhalt anzuschauen – erkennen, dass beide URLs äquivalent sind. Gegenbeispiel: Sonst gingen alle HTTPS-Seiten nicht, wenn man einen Punkt am Ende des Hosts angibt. Beispiel: https://www.apple.com./ tut hervorragend. Fehlkonfigurationen löst man an der Wurzel und nicht am Symptom, besonders dann, wenn alles unter der eigenen Kontrolle steht. Weiteres Für-Beispiel: Ausgehend von 213.203.218.90 kann Google über den Reverse-DNS sehen, dass diese IP mit „http://www.telefon-treff.de“ identisch ist (wenn denn der Reverse-DNS richtig säße). Quelle, via, via. Übrigens: Würde diese IP-Adresse nicht auch in die Rewrite-Condition zu „http://www.telefon-treff.de“ fallen, könnte man Telefon-Treff.de auch ohne DNS erreichen! Das wäre gar nicht so unpraktisch, wenn unterwegs mal wieder DHCP den DNS-Server nicht zuweisen wollte. Daher mein Motto: Nur etwas rewriten, wenn man sich absolut sicher ist, dass man das will.


    Lass uns hier darauf konzentrieren, die Mods davon zu überzeugen nicht nur den Host-Abschnitt, sondern auch noch den Path-Abschnitt in den Griff zu bekommen. :)
    Alles andere gerne über private Nachrichten.

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!