kann ich diese robots.txt Datei mit Allow Funktion problemlos einsetzen?

  • Hallo liebe Community,

    Ich habe eine robots.txt Datei für mein Forum erstellt und frage mich ob diese kompatibel für das Forum ist oder ob ich dabei etwas unbeachtet gelassen habe.

    Die Robots Datei ist mit "Allow" vor allem geschieben, also anders als üblich wollte ich es so versuchen nur die Seiten zu erlauben die die Suchmaschine indexieren soll, also nach den Einschlussverfahren.

    Da man ja anderweitig Seiten ausschließt also mit Disallow die Beispiele im Internet oft gemacht sind frage ich mich ob man das so machen kann wie ich das gemacht habe und was daran problematisch auf Dauer oder gar völlig unkompatibel für z.B. eine Google Indexierung ist oder ob es deutlich geeignetere Wege gibt?

    Würde mich sehr freuen wenn ihr mir da weiterhelfen könnt.


    Hier der Code:


    Danke fürs darüberschauen und Gruß,
    Maggi

  • bei mir auch soweit aber vielleicht hat das einen hacken und ich habe das ja selbst erstellt und wenig Erfahrung mit den ganzen programmieren.

    Dachte das wäre ja eine schöne Lösung wenn das funktioniert und keine größeren Probleme auftauchen..

    Gruß

  • Habe bei allen Usern die Privatsphäre auf nur für Mitglieder sichtbar gestellt, also stören tut es sogesehen weniger aber an sich sehe ich auch keinen Sinn und möchte keine Profile in den Suchergebnissen haben...

    Dachte weil das im Sitemap Plugin drin ist hat das vielleicht einen Sinn und das es von Vorteil sein könnte wenn Google Zugriff zu relativ viel Seiten Bausteinen bekommt? Oder geht es nur darum ob es in den Suchergenissen erscheint und die Bots suchen sich auch so ihren Weg?

    Wenn das herausmachen keine Nachteile hat würde ich das dann noch korrigieren.. verstehe da auch weniger den Sinn nur war ist Standard bei der Sitemap..

    Gruß

  • Dann bekommst du aber jedes Mal beim Indexieren einen 404 ausgewiesen. Ich würde es aus der Sitemap rausnehmen und in der Robots mit disallow belegen.

    Die bösen Jungs bekommst ja eh nicht per robots zu fassen.

  • Schon gemacht.. Wegen den Themen im Sitemapplugin lohnt es sich da die Frequenz auf "täglich" oder "stündlich" zu stellen, gibt es da eine optimale Einstellung? Die Beiträge sollen ja relativ schnell auf Google erscheinen wenn das mal klappt oder entstehen bei zu schneller Einstellung da Nachteile?

    Habe jetzt erstmal von "wöchentlich" auf "täglich" umgestellt.


    Funktioniert also wenn man nur die Zeile mit "user" herauslöscht.. schon getestet :)

  • Nein das macht keinen Sinn. Nur weil du eine Sitemap hast, der Crawler von Google um deine Existenz weiß, wird da noch lange kein Suchergebnis zu erzielen sein. Das kommt erst wenn du Google oder anderen "wichtig" genug bist, bez. die Seiten im Index von Google landen. SEO ist so eine Sache für sich, jeder hat da n andere Meinung. Ich bin der Überzeugung, sofern man kein Kapital in die Hand nimmt geht das nur über brauchbaren Content und vor allem Zeit.

  • Das Forum ist relativ gut gelistet und schon etwas online, zumindest damit er das Aktuell hält wenn ein neuer Beitrag kommt, ist doch die Frequenz wichtig? Alten Content will Google da vielleicht auch weniger? Also bei Wöchtentlich bedeutet das einmal die Woche werden Sitemap und Beiträge aktuallisiert?

  • Die Sitemap dient ja nur dazu, dass Google einfacher crawlen kann. Ja, wenn du wöchentlich eingestellt hast dann wird die Sitemap wöchentlich um neue Beiträge/ Themen aktualisiert. Wobei mich wundert, dass du Beiträge schreibst, die gibt es doch gar nicht? Themen und Foren ja. Bei Foren macht es Sinn einen langen Zeitraum zu wählen, bei Themen eher wöchentlich. Stimmt das darauf ab, wie oft Google Dich besuchen kommt und dabei auch die Sitemap ausliest.

  • Wie erkennt man das wie oft Google einen besucht? Bei mir ist Google immer im Forum :D also zumindest wird ständig alle 10 Minuten gecrawlt 4-6 Crawler, kann sein das die Seite auch da Probleme macht weil das vorher mit der Sitemap und alles ganz blöd von mir gelöst wurde und ich jetzt erst alle meine weiteren Domains auf die Hauptseite verschoben habe, also war sicher viel Doppelter Content und so dabei..


    Wie findest du die Sitemap in dieser Form? Ist das eine gute oder super Lösung? Keine Ahnung wie ihr das gelöst habt, aber so sollte die Sitemap auch Veränderungen bei Plugins etc. stand halten. Das habe ich eben alles kaum beachtet vorher viele Bereiche waren zugänglich und so...

  • Normalerweise erkennst du das in der Searche Console von Google oder einer anderen Suchmaschine. Bei Bing müsste es Webmaster oder so sein.
    In der Searche Console kannst du die Sitemap z. B. an den Index senden. Das passiert aber nicht sofort.

    Sitemap, ist Sitemap. Na gut, Profis erkennen da sicherlich noch Unterschiede. In unserer Community ist es über das PlugIn im Store gelöst, bei Google an den Index geschickt und fertig. Wenn google dich crawlt ist doch schon mal gut - jetzt brauchst du nur lohnenswerten Content. Bei Seitenreport.de kannst du eine oberflächliche Bewertung durchführen. Das gibt dir vielleicht einen groben Anhaltspunkt. Eine Sitemap bringt halt noch keinen Erfolg, es vereinfacht nur die Suche nach Inhalt.

  • Bei Google kann man den tackt auch händisch hochstellen, zumindest das Maximum wann es gelistet wird und wo ist eine andere Frage oder wieschnell Google dann zugreift oder ob das Sinnvoll ist. Bei Bing hatte ich bisher kaum Zugriffe denke da lag daran, das keine gute Robots Datei drauf war und viel unnötiges durchsucht wurde, ich hatte früher hunterte Crawling fehler bei jeder kleinsten änderung von der Seite und hoffe das so in den Griff zu bekommen.

    Zumindest mal ein Anfang bin da mit den Suchergebnissen relativ zufrieden und steigert sich auch. Normal so um 120 Suchanfragen am Tag. Kann sicher besser sein und für Content und vor allem Qualität möchte ich schon sorgen, damit es interessant wird. Nur die Grundlagen waren vorher etwas wackelig bei mir jetzt kämpfe ich mich erstmal etwas durch die Einstellungen damit das mal sauber ist... Läuft ja jetzt schon über ein Jahr das Forum..

  • Hi,

    Hier nochmal die überarbeitete robots.txt Datei mit Sitemap diesmal. Sitemap Zeile 7 sollte funktionieren(neu eingefügt) und müsste eben entsprechend von der Domain geändert werden, wenn man die Robots Datei so übernehmen möchte bräuchte man nur noch das Plugin für
    die Sitemap dazu:

    woltlab.com/pluginstore/file/2174/

    Habe jetzt nur "board"(Foren) und "thread"(Themen) , das Dashboard und die Hauptseite erlaubt, auf höhe von Zeile 8 kann man etwa Lexikon und andere Inhalte hinzufügen.

    Oben habe ich vorher das noch erlaubt gehabt:

    Allow: /index.php?thread/
    Allow: /index.php/Thread/

    Habe das aber herausgenommen und bei den wichtigen Themen im Forum wo interne Links zum Forum sind die neue Schreibweise gemacht, da befürchte ich das in der Robot diese Zeilen dann doppelten Content bei der Indexierung erzeugen können, wegen der älteren Linkumschreibung.

    Vielleicht ist es auch besser diese wie oben mit aufzunehmen?

    Vielleicht gibt es noch Beiträge was man verbessern könnte?

    Gruß


    Hier die Neue Datei Sitemap habe ich geändert..

  • Edit:
    Die robots.txt datei hat sich oben um ein paar URL-Parameter die Blockert werden erweitert das soll es dem Google Bot erleichtern wirklich nur die Seiten zu crawlen die nötig sind, also 1 mal das Thema etwa und die jeweiligen einzelnen Seiten.

    Auch sind unten die Resourcen hinzugekommen, die die Suchmaschinen zum Rendern braucht wie etwa das Design(Bilder) und andere.


  • Edit:
    Die robots.txt datei hat sich oben um ein paar URL-Parameter die Blockert werden erweitert das soll es dem Google Bot erleichtern wirklich nur die Seiten zu crawlen die nötig sind, also 1 mal das Thema etwa und die jeweiligen einzelnen Seiten.

    Auch sind unten die Resourcen hinzugekommen, die die Suchmaschinen zum Rendern braucht wie etwa das Design(Bilder) und andere.


    Ich denke nicht das du die /wcf/images oder /wcf/style/ Ordnung erlauben musst, wenn du nicht den /wcf/ Ordner gesperrt hast.

    DEBIAN 8 | Apache 2.4 | PHP 7.0 | MEMCACHED

  • Jakarta Commons-HttpClient ignoriert die robots.txt unter Garantie.

    Ferner fehlt hier m.M. nach /acp. Das wcf kannst du theoretisch auf mit aufnehmen, da der Zugriff darauf keinen wirklichen Mehrwert für Suchmaschinen bietet.

  • Ich denke nicht das du die /wcf/images oder /wcf/style/ Ordnung erlauben musst, wenn du nicht den /wcf/ Ordner gesperrt hast.

    Hi @Flezone,
    Ist ja im Grunde genau andersherum als mit dem Disallow Befehl.. Im Grunde verbiete ich alles auch den Ordner /wcf/ und mit /wcf/images/ und /wcf/style/ lasse ich diese fehlenden Resourcen die die Suchmaschine beim Rendern gefehlt hat zu. Eben ohne den kompletten Zugriff auf /wcf/ also nur die Beiden unterordner.
    So muss ich mal etwas abwarten ob beim Webmastertools noch eine Meldung bringt, aber vorher waren diese Beiden Ordner auch gesperrt wie das Komplette /wcf/ von daher habe ich das zugelassen.

    Der Vorteil an der Allow Funktion ist das man so wirklich nur die Resourcen erlauben kann die man einschließen möchte und wenn sich dann im Forum etwas ändert wo die Suchmaschiene sich verlaufen könnte oder etwas unsinniges Indexieren, dann wird das automatisch blockiert, also ich kann so einfach bestimmen was ich zulassen möchte, etwa nur die Themen, Foren und einzelne Startseiten. Ganz oben bei den Disallow Befehlen mit /*?postID zum Beispiel kann ich so auch sagen das es unnötig ist jeden einzelnen Beitrag zu indexieren da diese Seite nur in etwas anderer Zentrierung schon so indexiert wird, so kann man Suchmaschienenresourcen sparen die dann den Rest besser und schneller Indexiert. Da kann man auch bei webmaster-tools ein paar Einstellungen machen URL-Parameter nennt sich das dort.
    Bei den Punkten bin ich mir etwas unsicher da es vielleicht Sinnvoll ist da zumindest einzelne wie die letzten Beiträge zuzulassen, mal sehen..


    Hi @SoftCreatR,

    Jakarta Commons-HttpClient ignoriert die robots.txt unter Garantie.

    Kenne mich da leider zu wenig aus und weis nochtmal was das für ein Suchroboter sein soll? Habe früher als ich Strato hatte beim Ranking Coach diese Vorgabe von der Robots Datei bekommen von daher habe ich das soweit drin gelassen weil ich dachte das da vielleicht ein Sinn dahinter ist. Wie kommst du darauf das dieser Client die robots.txt ignoriert und weist du vielleicht von wo dieser kommt also welchen Sinn dieser hat?


    Ferner fehlt hier m.M. nach /acp. Das wcf kannst du theoretisch auf mit aufnehmen, da der Zugriff darauf keinen wirklichen Mehrwert für Suchmaschinen bietet.

    Wie gerade oben erklärt ist der /acp/ order und die anderen automatisch schon blockiert, also diese robot.txt funktioniert im Grunde umgekehrt als die übliche die nur mit den Disallow Befehl auskommt. Üblicherweise zumindest bei vielen Beispielen im Netz, schließt man mit der Robots über Disallow einzelner Ordner nur den Teil der Seite aus den man nicht indexieren möchte, in meinem Fall schließe ich unten alles aus und oben schreibe ich dann die Ordner mit Allow hinein die ich zulassen möchte. Über Allow kann ich dann mit Disallow noch einzelne Resoucen/Seiten der weiter unten erlaubten Ordner ausschließen.

    Also etwas andere Logik und Aufbau, finde es aber logisch und praktisch so zu machen :) eine kreative Lösung die man denke ich einfach anpassen kann auch für andere Foren und denke auch sehr Suchmaschienenfreundlich..

    Grüße

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!