Exemple de configuration du fichier robots.txt pour Magento 2 et magento 1

Le fichier robots.txt est une base du référencement technique. Commençons par un rappel de son rôle, le fichier robots.txt a pour objectif d'aiguiller un bot (comme googlebot) lors de sa venue sur votre site et de lui dire ce qu'il a le droit de consulter ou non. Cela en fait un outil précieux pour limiter la découverte de contenus inutiles. Dans ce tutoriel nous allons voir comment le configurer spécifiquement pour Magento 2 et Magento 1 et également comment le mettre en place ainsi que les limites de son utilisation.

robots.txt pour Magento

Pourquoi mettre en place un fichier robots.txt sur Magento ?

Le fichier a deux objectifs, tout d'abord, indiquer l'emplacement du fichier sitemap.xml comme nous l'avons vu dans le tutoriel du sitemap.xml mais également d'empêcher le robot de crawl (d'exploration) de Google d'aller découvrir des Urls qui ne servent à rien voir desservent le SEO de votre site e-commerce Magento.

Parmi ces urls, on peut compter :

  • Les formulaires d'avis sur les produits (/review/)
  • Les urls d'envoi de fiche produit à des amis (/sendfriend/)
  • Les urls d'ajout à la wishlist (/wishlist/)
  • Les urls de connexion utilisateur (/customer/)
  • Les résultats de recherche interne (/index.php/catalogsearch/result/)
  • Les filtrages de catégorie 
  • les choix d'affichage en mode liste ou vignette
  • Les tris de page catégorie
  • etc

Exemple de contenu du fichier robots.txt pour Magento :

Les codes "techniques" des urls à "bloquer" n'ont pas beaucoup évoluées depuis le passage de Magento 1 à Magento 2. Vous pouvez donc garder le même fichier pour les deux versions de Magento.

# Website Sitemap
Sitemap: https://www.maca-bio.com/sitemap/sitemap.xml

# Crawlers Setup
User-agent: *


# Paths (clean URLs)
Disallow: /catalogsearch/result/
Disallow: /catalog/product_compare/
Disallow: /catalog/category/view/
Disallow: /catalog/product/view/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /control/
Disallow: /contacts/
Disallow: /customer/
Disallow: /customize/
Disallow: /newsletter/
Disallow: /poll/
Disallow: /productalert/
Disallow: /review/
Disallow: /sendfriend/
Disallow: /tag/
Disallow: /wishlist/
Disallow: /index.php/catalogsearch/result/
Disallow: /index.php/catalog/product_compare/
Disallow: /index.php/catalog/category/view/
Disallow: /index.php/catalog/product/view/
Disallow: /index.php/catalogsearch/
Disallow: /index.php/checkout/
Disallow: /index.php/control/
Disallow: /index.php/contacts/
Disallow: /index.php/customer/
Disallow: /index.php/customize/
Disallow: /index.php/newsletter/
Disallow: /index.php/poll/
Disallow: /index.php/review/
Disallow: /index.php/sendfriend/
Disallow: /index.php/tag/
Disallow: /index.php/wishlist/
Disallow: /catalog/bestsales/
Disallow: /catalog/product_new/list/


# Paths (no clean URLs)
# Disallow: /*.js$
Disallow: /*.php$
Disallow: /*?p=*&
Disallow: /*?SID=
Disallow: /*?limit=all
Disallow: /*product_list_limit=*
Disallow: /*product_list_order=*

Attention : Ce fichier doit être compléter avec les noms des attributs présents dans vos filtrages de facette par exemple.

Est-ce suffisant pour bloquer ces urls de l'indexation

Malheureusement ce fichier est un bon début mais pas suffisant, pour preuve, la Google Search Console contient dans ses rapports une section intitulée : "Indexée malgré le blocage par le fichier robots.txt"

On comprend dès lors que le fichier robots.txt n'est donné qu'à titre indicatif. Si vous voulez aller plus loin, nous avons deux conseils à vous donner :

  1. N'exposez pas à Google des urls que vous ne souhaitez pas voir crawler, comprenez par là, ne faites pas de liens <a href> vers ces urls et privilégiez des liens obfusqués en JavaScript par exemple. (C'est d'ailleurs la spécialité de l'agence 410 Gone en tête de notre top des agences Magento.)
  2. Bloquez ld'indexation de ces urls à l'aide d'une agence ou d'un développeur au niveau des en tête http grâce à l'en-tête : X-Robots-Tag: noindex
    Cette dernière solution sera le moyen le plus efficace d'expliquer à Google qu'une url ne doit pas être indexée.

Autres contenus :

Tout savoir sur Magento et Adobe Commerce