Thibault Milan Get In Touch

Get In Touch

Prefer using email? Say hi at hello@thibaultmilan.com

Optimiser son robot.txt Wordpress

On est tous dingue de référencement, que l’on l’admette ou non. Et dans cette course à l’optimisation du contenu pour un indexage optimale, Google avait déjà publié un livret blanc pour nous aider. Un des points importants de cette optimisation est la bonne rédaction du fichier robot.txt. ce petit fichier va en effet définir les droits que vous donnez aux robots d’indexion de google, mais aussi des autres, gràce à l’user-agent.

Lorsqu’on utilise un blog, Wordpress mais aussi autre, on est souvent confronté à des adresses multiples pour un seul article. Alors certes des plugins existent afin d’éviter que les robots interprètent cela comme du duplicate content, en utilisant de la ré-écriture d’url, mais dans un soucis toujours d’être bien sur de ce qui se passe, voici un fichier type de robot.txt qui interdit notamment l’accès aux fichiers sources (le cœur) de Wordpress (qui normalement n’est plus indexé puisque necessite une identification, mais bon là encore, prudence). De plus les urls alternatives, commentaires, tracbacks et compagnies seront également exclues de l’indexage.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category//
Disallow: /trackback
Disallow: */feed
Disallow: */comments
Disallow: /
?*
Disallow: /?
Allow: /wp-content/uploads# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /# digg mirror
User-agent: duggmirror
Disallow: /Sitemap: http://www.domain.tld/sitemap.xmlMerci à Parenthèse.be pour l’info !

Comments