<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>trafficmaxx Suchmaschinenoptimierung + Online Marketing &#187; robots</title>
	<atom:link href="http://www.trafficmaxx.de/blog/tag/robots/feed" rel="self" type="application/rss+xml" />
	<link>http://www.trafficmaxx.de</link>
	<description>trafficmaxx Suchmaschinenoptimierung + Online Marketing</description>
	<lastBuildDate>Thu, 26 Jan 2012 11:04:00 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
<atom:link rel="hub" href="http://pubsubhubbub.appspot.com"/>		<item>
		<title>PR-Sculpting: robots.txt, noindex oder nofollow</title>
		<link>http://www.trafficmaxx.de/blog/know-how/pr-sculpting-robotstxt-noindex-oder-nofollow</link>
		<comments>http://www.trafficmaxx.de/blog/know-how/pr-sculpting-robotstxt-noindex-oder-nofollow#comments</comments>
		<pubDate>Mon, 25 May 2009 15:56:14 +0000</pubDate>
		<dc:creator>Jan</dc:creator>
				<category><![CDATA[Know-how]]></category>
		<category><![CDATA[SEO]]></category>
		<category><![CDATA[nofollow]]></category>
		<category><![CDATA[PageRank]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[robots.txt]]></category>

		<guid isPermaLink="false">http://www.trafficmaxx.de/blog/?p=844</guid>
		<description><![CDATA[Auf vielen Websites gibt es Inhalte, die aus verschiedensten Gr&#252;nden nicht f&#252;r die Suchmaschinen bestimmt sind, seien es &#8220;private&#8221; Daten, die nicht gefunden werden sollen oder Seiten, die keine relevanten Informationen enthalten. Grunds&#228;tzlich gibt es drei M&#246;glichkeiten, Suchmaschinen-Robots zu beeinflussen: NoFollow-Links (Links mit dem Attribut rel=&#8221;nofollow&#8221;) das NoIndex-Metatag die Datei robots.txt Jede dieser drei Optionen [...]]]></description>
			<content:encoded><![CDATA[<p>Auf vielen Websites gibt es Inhalte, die aus verschiedensten Gr&#252;nden nicht f&#252;r die Suchmaschinen bestimmt sind, seien es &#8220;private&#8221; Daten, die nicht gefunden werden sollen oder Seiten, die keine relevanten Informationen enthalten.</p>
<p>Grunds&#228;tzlich gibt es drei M&#246;glichkeiten, Suchmaschinen-Robots zu beeinflussen:</p>
<ul>
<li>NoFollow-Links (Links mit dem Attribut rel=&#8221;nofollow&#8221;)</li>
<li>das NoIndex-Metatag</li>
<li>die Datei robots.txt</li>
</ul>
<p>Jede dieser drei Optionen hat ihre Existenzberechtigung, muss aber f&#252;r sich genommen erkl&#228;rt werden:</p>
<h3>NoFollow-Links</h3>
<p>&#220;ber das rel-Attribut kann man einen individuellen Link f&#252;r Suchmaschinen entwerten.</p>
<p><span style="font-family: monospace;">&lt;a href=&#8221;agb.html&#8221; <span style="color: #ff0000;">rel=&#8221;nofollow&#8221;</span>&gt;AGB&lt;/a&gt;</span></p>
<p>Auch wenn diese L&#246;sung sehr praktisch erscheint, hat sie doch einen entscheidenden Nachteil. Sollte eine Suchmaschine auf anderem Wege (z.B. durch einen externen Link) zu der entsprechenden Seite finden, so kann diese dennoch in den Index gelangen.</p>
<p><img class="aligncenter size-full wp-image-845" title="nofollow" src="http://www.trafficmaxx.de/wp-content/uploads/2009/05/nofollow.jpg" alt="nofollow" width="350" height="161" /></p>
<p>Vorteil des nofollow-Attributs ist auf der anderen Seite die M&#246;glichkeit, den Fluss des &#8220;Link-Juice&#8221; zu anderen Seiten detailliert regulieren zu k&#246;nnen.</p>
<h3>NoIndex-Metatag</h3>
<p>Soll eine Seite nicht in den Index kommen oder sogar aus diesem wieder entfernt werden, so empfiehlt sich ein entsprechendes Meta-Tag:</p>
<p><span style="font-family: monospace;">&lt;meta name=&#8221;robots&#8221; content=&#8221;<span style="color: #ff0000;">noindex</span>,follow&#8221;&gt;</span></p>
<p>In diesem Fall darf der Crawler die Seite zwar besuchen, aber nicht in den Suchindex aufnehmen  (<em>noindex</em>). Vorhandene Links d&#252;rfen jedoch verfolgt und gewertet werden (<em>follow</em>).</p>
<p><img class="aligncenter size-full wp-image-846" title="noindex" src="http://www.trafficmaxx.de/wp-content/uploads/2009/05/noindex.jpg" alt="noindex" width="350" height="177" /></p>
<p>Da es etliche Content Management Systeme nicht erlauben, auf Seitenebene ein robots-Metatag zu pflegen, gestaltet sich die praktische Anwendung des Tags oft etwas schwierig. Einige Suchmaschinen unterst&#252;tzen aber z.B. auch robots-Anweisungen, die als Header im HTTP-Verkehr ausgegeben werden.</p>
<h3>Robots.txt</h3>
<p>Dritte M&#246;glichkeit der &#8220;Wegweisung&#8221; ist die Datei <em>robots.txt</em>. &#220;ber diese kleine Text-Datei kann jedem Robot vorgegeben werden, welche Dateien oder Verzeichnisse er nicht besuchen darf.</p>
<p><code>User-agent: *<br />
<span style="color: #ff0000;">Disallow: /agb.html</span><br />
Disallow: /admin/<br />
Disallow: /*.mp3$</code></p>
<p>Der gr&#246;&#223;te Vorteil der <em>robots.txt</em> ist die globale Wirkung. Es lassen sich so sowohl einzelne Dateien (<em>/agb.html</em>), aber auch ganze Verzeichnisse (<em>/admin/</em>) oder Dateitypen (<em>Disallow: /<code>*.mp3$</code></em>) sperren. Dabei ist gleichg&#252;ltig, ob eine URL durch einen internen oder externen Link gefunden wurde.</p>
<p><img class="aligncenter size-full wp-image-848" title="robots-txt" src="http://www.trafficmaxx.de/wp-content/uploads/2009/05/robots-txt.jpg" alt="robots-txt" width="350" height="175" /></p>
<p>Die Sperrung via robots.txt verbietet allerdings in erster Linie nur Besuche von Seiten durch Suchmaschinen-Robots. Daher kann es vorkommen, dass z.B. eine popul&#228;re Seite dennoch in den Suchergebnissen erscheint, auch wenn diese schon lange nicht mehr von Suchmaschinen abgerufen wurde.</p>
<h3>Fazit</h3>
<p>Jeder der drei &#8220;Wegweiser&#8221; hat seine Berechtigung, seine Vor- und Nachteile, so sollte von Fall zu Fall entschieden werden, was in der jeweiligen Situation angemessen ist.</p>
<p>So oder so sollte man aber immer im Hinterkopf haben, dass all diese M&#246;glichkeiten f&#252;r &#8220;ehrliche&#8221; Suchmaschinen-Crawler bestimmt sind. Gerade Adress- oder E-Mail-Sammler werden sich von einem <em>&#8220;Disallow&#8221;</em> nicht aufhalten lassen.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.trafficmaxx.de/blog/know-how/pr-sculpting-robotstxt-noindex-oder-nofollow/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google nimmt es mit der robots.txt nicht so genau</title>
		<link>http://www.trafficmaxx.de/blog/google/google-nimmt-es-mit-der-robotstxt-nicht-so-genau</link>
		<comments>http://www.trafficmaxx.de/blog/google/google-nimmt-es-mit-der-robotstxt-nicht-so-genau#comments</comments>
		<pubDate>Fri, 21 Nov 2008 13:30:14 +0000</pubDate>
		<dc:creator>Simon</dc:creator>
				<category><![CDATA[Google]]></category>
		<category><![CDATA[Know-how]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[robots.txt]]></category>

		<guid isPermaLink="false">http://www.trafficmaxx.de/blog/?p=303</guid>
		<description><![CDATA[Diese Vermutung geistert schon seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs. Folgendes Beispiel des Google-eigenen Projektes Google Scholar (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen. Die angelegte robots.txt schlie&#223;t unter anderem den Bereich der Google Scholar News komplett aus: User-agent: * [...] Disallow: /news Der Google Index [...]]]></description>
			<content:encoded><![CDATA[<p>Diese <a href="http://www.seroundtable.com/archives/003336.html" target="_blank">Vermutung</a> <a href="http://seo-marketing-blog.de/goatix/google-ignoriert-robotstxt-spielt-sprachwirrwarr/" target="_blank">geistert</a> <a href="http://www.google.com/search?hl=en&amp;q=google+ignoriert+robots.txt&amp;btnG=Search" target="_blank">schon</a> seit einiger Zeit durch die weltweite Gemeinde der Webmaster und SEOs.</p>
<p>Folgendes Beispiel des Google-eigenen Projektes <a title="Google Scholar" href="http://scholar.google.de/" target="_blank">Google Scholar</a> (Suche nach wissenschaftlichen Arbeiten und Dokumenten) scheint diese Behauptung zu belegen.</p>
<p>Die angelegte <a title="Robots.txt von Google Scholar" href="http://scholar.google.de/robots.txt" target="_blank">robots.txt</a> schlie&#223;t unter anderem den Bereich der Google Scholar News komplett aus:</p>
<p><code>User-agent: *<br />
[...]<br />
Disallow: /news</code></p>
<p>Der <a title="Site Abfrage" href="http://www.google.com/search?q=site%3Ascholar.google.de%2Fnews" target="_blank">Google Index</a> zeigt hingegen folgende Ergebnisse an:<br />
<a href="http://www.trafficmaxx.de/wp-content/uploads/2008/11/scholar_index.gif"><img class="size-medium wp-image-304 alignnone" title="Site Abfrage auf scholar.google.de/news" src="http://www.trafficmaxx.de/wp-content/uploads/2008/11/scholar_index-300x19.gif" alt="Site Abfrage auf scholar.google.de/news" width="300" height="19" /></a></p>
<p>Google indiziert also &#252;ber 64.000 Seiten mit den URLs http://scholar.google.de/news obwohl diese laut robots.txt Datei ausgeschlossen sein sollten.</p>
<p>Auch die Google Webmaster Tools best&#228;tigen, dass die entsprechenden URLs eigentlich nicht im Index erscheinen sollten:<br />
<a href="http://www.trafficmaxx.de/wp-content/uploads/2008/11/scholar_wt2.gif"><img class="alignnone size-medium wp-image-307" title="robots.txt Analyse der Google Webmaster Tools" src="http://www.trafficmaxx.de/wp-content/uploads/2008/11/scholar_wt2-300x67.gif" alt="" width="300" height="67" /></a></p>
<p>Es scheint also ratsam, sich beim Ausschlie&#223;en von wichtigen Dateien nicht allein auf die Wirkung der robots.txt zu verlassen.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.trafficmaxx.de/blog/google/google-nimmt-es-mit-der-robotstxt-nicht-so-genau/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Neue robots.txt-Features: mehr Macht den Webmastern</title>
		<link>http://www.trafficmaxx.de/blog/google/neue-robotstxt-features-mehr-macht-den-webmastern</link>
		<comments>http://www.trafficmaxx.de/blog/google/neue-robotstxt-features-mehr-macht-den-webmastern#comments</comments>
		<pubDate>Fri, 17 Aug 2007 11:29:44 +0000</pubDate>
		<dc:creator>Henning</dc:creator>
				<category><![CDATA[Google]]></category>
		<category><![CDATA[googlebot]]></category>
		<category><![CDATA[robots]]></category>
		<category><![CDATA[robots.txt]]></category>

		<guid isPermaLink="false">http://www.trafficmaxx.de/blog/google/neue-robotstxt-features-mehr-macht-den-webmastern</guid>
		<description><![CDATA[Google bringt seinem &#8220;Googlebot&#8221; neue Kunstst&#252;ckchen bei und erm&#246;glicht eine wesentlich detailliertere Steuerung von f&#252;r die Suchmaschinen erlaubten und unerlaubten Inhalten. Waren bisher noch vollst&#228;ndige URLs mit Protokoll- und Hostangabe notwendig, um die Position von URL-Daten nach Sitemaps-Standard in der robots.txt-Datei anzugeben, kann der Googlebot jetzt auch relative Pfade verarbeiten. Erheblich verbessert wurde auch das [...]]]></description>
			<content:encoded><![CDATA[<p>Google bringt seinem &#8220;Googlebot&#8221; neue Kunstst&#252;ckchen bei und erm&#246;glicht eine wesentlich detailliertere Steuerung von f&#252;r die Suchmaschinen erlaubten und unerlaubten Inhalten.</p>
<p>Waren bisher noch vollst&#228;ndige URLs mit Protokoll- und Hostangabe notwendig, um die Position von URL-Daten nach Sitemaps-Standard in der robots.txt-Datei anzugeben, kann der Googlebot jetzt auch relative Pfade verarbeiten. Erheblich verbessert wurde auch das robots.txt-Analysetool in den Google Webmaster Tools, das sich nun zu evtl. auftretenden Fehlern genauer &#228;u&#223;ern kann.</p>
<p>Ebenfalls noch recht neu ist das &#8220;unavailable_after&#8221;-Kommando f&#252;r den Googlebot, durch welches einzelne Dateien mit einem Ablaufdatum versehen werden k&#246;nnen. Der Wert wird wie folgt entweder in das &#8220;Googlebot&#8221;-Metatag eingef&#252;gt &#8230;</p>
<pre><span style="font-family: courier new">&lt;meta name="googlebot" content="unavailable_after:
15-Aug-2007 00:00:00 CET" /&gt;</span>
 &nbsp;
</pre>
<p>
&#8230; oder &#8211; und das ist ebenfalls ein Novum &#8211; &#252;ber den HTTP-Header &#8220;X-Robots-Tag&#8221; &#252;bertragen, wodurch man im Prinzip beliebige Dateien mit Robots-Steuerinformationen wie &#8220;noindex&#8221; oder &#8220;nofollow&#8221; versehen ausliefern kann:</p>
<pre><span style="font-family: courier new">X-Robots-Tag:  unavailable_after: 15-Aug-2007 00:00:00 CET

</span></pre>
<p>
Via: <a href="http://googlewebmastercentral.blogspot.com/2007/08/new-robotstxt-feature-and-rep-meta-tags.html">New robots.txt feature and REP Meta Tags</a> aus dem Webmaster Central Blog<a href="http://googlewebmastercentral.blogspot.com/2007/08/new-robotstxt-feature-and-rep-meta-tags.html"><br />
</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.trafficmaxx.de/blog/google/neue-robotstxt-features-mehr-macht-den-webmastern/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

<!-- Performance optimized by W3 Total Cache. Learn more: http://www.w3-edge.com/wordpress-plugins/

Page Caching using apc
Database Caching 1/26 queries in 0.014 seconds using apc
Object Caching 328/482 objects using apc

Served from: www.trafficmaxx.de @ 2012-02-08 21:13:14 -->
