Balise meta robots

Définition

La balise meta robots est une balise HTML invisible pour l’internaute mais qui permet de changer le comportement des moteurs de recherche. Selon la directive de la balise, elle indique aux robots de Google s'il doit indexer (ou pas) et ou suivre les liens (ou pas) d’une page.

Qu'est-ce que la balise meta robots ?

La balise meta robots est présente sur tous les sites internet. Elle permet de donner des restrictions aux robots des moteurs de recherche sur une page. A l’instar de toutes les balises meta données, ce morceau de code HTML est placé dans l’entête de la page sous les formes suivantes :

  • <meta name="robots" content="index,follow" />
  • <meta name="robots" content="noindex,nofollow" />

Il est aussi possible de spécifier les directives pour un robot en particulier. Pour cela, il suffit de remplacer le nom d’agent name="robots" par name="googlebot" ou tout autre nom de robot.

En pratique, la balise meta robots peut, par exemple, donner l’autorisation aux robots de parcourir ou pas des liens internes d’un site. Elle démontre également son intérêt pour les liens sortants externes, au profit du référencement naturel du site.

Autre cas de figure, si on insère par erreur l’indication « noindex » dans le header d’une page stratégique ou même de la page d’accueil. Cette valeur n’empêche pas l’exploration de la page par Google mais la page en question ne sera tout simplement pas visible dans les résultats des moteurs de recherche.

Les différentes directives de la balise meta robots

La balise meta robots représente un critère essentiel dans la gestion de l’indexation de son site. Voici les directives les plus utilisés sur les sites internet :

La commande « noindex, nofollow » est égale à la valeur « none » au format <meta name="robots" content="none" />. Elle indique aux robots de ne pas suivre les liens sur la page et que celle-ci n’est pas à indexer. Cette instruction est surtout utilisée lorsque des pages sont dupliquées pour éviter tout risque de pénalité Google.

A l’inverse, la directive « index, follow » va inciter les moteurs à parcourir et suivre l'ensemble des liens et qu’on souhaite indexer le contenu de la page web. Elle est l’équivalent de la valeur « all » au format <meta name="robots" content="all" />. Cependant, le robot de Google part du principe que le site est paramétré en « index » et en « follow ». Donc, à défaut de consigne « noindex, nofollow », la page est automatiquement indexée dès sa publication.

Pour le webmaster, il existe une indication, la meta robots « noarchive », qui interdit l’accès des robots à la version en cache d’un site ou d’une page. Ce qui est très utile, par exemple pour les sites de journaux, qui proposent des contenus en version archivée payante.