Trucsweb.com

Trucsweb.com

Promotion

Préparer votre site pour les moteurs de recherche

RDFFav

Fichier robots.txt - (Default access policy)

Le fichier robots.txt : permet d’indiquer aux moteurs de recherche les fichiers ou répertoires (dossiers) à indexer ou à ne pas indexer. (Default access policy) Vous devez mettre le fichier robots.txt sur le serveur dans le répertoire principal (racine). Avant même d’indexer votre site, la grande majorité des moteurs de recherche liront ce petitdefault access policy fichier robots.txt robots moteurs recherche répertoires dossiers indexer exclure exclusions racine spécifier directives user-agent astérisque disallow url allow unix promotion référencer référencementFichier robots.txt  - (Default access policy)

  • · Niveau : DÉBUTANT
  • · Compatibilité : Tous les navigateurs

Le fichier robots.txt : permet d’indiquer aux moteurs de recherche les fichiers ou répertoires (dossiers) à indexer ou à ne pas indexer.

(Default access policy) Vous devez mettre le fichier robots.txt sur le serveur dans le répertoire principal (racine). Avant même d’indexer votre site, la grande majorité des moteurs de recherche liront ce petit fichier. Vous pouvez spécifier des directives pour un moteur de recherche en particulier ou pour tous les moteurs en utilisant l’astérisque.

Format du fichier:
Le fichier contient une ou plusieurs lignes « record » séparées par une ou plusieurs fins de ligne (CR,CR/NL, ou NL).

Comme ceci :"<VARIABLE>:<ESPACEOPTIONNEL><VALLEUR><ESPACEOPTIONNEL>".
Attention, les minuscules et majuscules sont prises en compte.

Il y a trois variables principales :

- User-agent : La valeur de cette variable contient le nom du moteur à qui est destiné le fichier robots.txt Vous pouvez indiquer plusieurs moteurs. Il faut absolument que cette variable soit présente. Il est recommandé d’utiliser des minuscules et de ne pas mettre la version du moteur, seulement le nom. La valeur astérisque " * " indique que le fichier s’applique pour tous les moteurs de recherche.

- Disallow : La valeur de cette variable indique aux moteurs de recherche les fichiers ou répertoires (dossier) à ne pas visiter donc à ne pas indexer. Elle peut contenir un URL partiel ou complet. Exemple : Disallow: /help empêche l’indexation de /help.html et /help/index.html, alors que Disallow: /help/ empêchera l’indexation de /help/index.html mais autorisera l’indexation de /help.html. Aucune valeur, indique aux moteurs de recherche l’accès total. Cette variable doit être absolument présente.

- Allow : Malgré son utilisation qui ne me semble pas standard, je vois quelque fois cette variable utilisée comme Disallow mais, pour permettre l’indexation de certain fichier ou répertoire (dossier). Attention quand même.
Un ficher robots.txt sans aucune valeur est considérée comme inexistant.
Vous pouvez indiquer des remarques à l’aide du symbole # sous serveur UNIX.

Exemple :

# Empêche l’indexation d’un répertoire, du fichier fichier.html, de tout le répertoire
# tmp et tout fichier tmp.* pour le moteur webcrawler et infoseek.
User-agent: webcrawler # seulement webcrawler
User-agent: infoseek # seulement infoseek
Disallow: /cgi-bin/ # Avec un URL virtuel
Disallow: /tmp
Disallow: /fichier.html
# N’indexe pas du tout le site.
User-agent: * # Tout les moteurs de recherche
Disallow: /
ATTENTION, un mauvais usage de ce fichier peut empêcher les moteurs de recherche d’indexer à tout jamais votre site. C’est pourquoi je vous suggère de le tester avec ce service gratuit :


Vérificateur de la systaxe du fichier robots.txt (lien brisé)

Deux adresses utiles sur le fichier robots.txt.
robots-txt.com
http://info.webcrawler.com/mak/projects/robots/norobots.html (lien brisé)
http://info.webcrawler.com/mak/projects/robots/norobots-rfc.html (lien brisé)

Attention aux robots (note du 9 août 2023)

Méfiez-vous des robots à l’ère du Far-Web. Plusieurs robots d’indexation se moquent systématiquement des directives du fichier « robots.txt » contrairement à ce qu’ils prétendent ! Ils peuvent faire des milliers de requêtes en quelques secondes en utilisant un IP différent à chaque requête, un IP de n’importe où dans le monde sauf de l’endroit où ils prétendent venir ! Est-ce vraiment des robots chinois ? Impossible de le dire, va savoir si on n’essaie pas de leur faire porter le chapeau qui leur sied à merveille ! Mais garder toujours à l’esprit que ce fichier « robots.txt » est une arme à deux tranchants. Elle permet aussi d’indiquer en clair ce que vous désirez cacher ! C’est comme crier à tout vent, « N’ouvrez pas cette porte, elle cache certainement un trésor ! ». Des robots qui utilisent un IP différent à chaque requête dans la même seconde et qui ne respecte pas les conventions ne sont probablement pas honnêtes...

Django (Oznog) Blais
Dernière mise à jour :

Commentaires

Ajouter un commentaire
Votre adresse de courriel ne sera pas publiée. * L'astérisque indique les champs obligatoires.
Votre évaluation du tutoriel

       Visites : 3979 - Pages vues : 10491
X

Trucsweb.com Connexion

Connexion

X

Trucsweb.com Mot de passe perdu

Connexion

X

Trucsweb.com Conditions générales

Conditions

Responsabilité

La responsabilité des Trucsweb.com ne pourra être engagée en cas de faits indépendants de sa volonté. Les informations mises à disposition sur ce site le sont uniquement à titre purement informatif et ne sauraient constituer en aucun cas un conseil ou une recommandation de quelque nature que ce soit.

Aucun contrôle n'est exercé sur les références et ressources externes, l'utilisateur reconnaît que les Trucsweb.com n'assume aucune responsabilité relative à la mise à disposition de ces ressources, et ne peut être tenue responsable quant à leur contenu.

Droit applicable et juridiction compétente

Les règles en matière de droit, applicables aux contenus et aux transmissions de données sur et autour du site, sont déterminées par la loi canadienne. En cas de litige, n'ayant pu faire l'objet d'un accord à l'amiable, seuls les tribunaux canadien sont compétents.

X

Trucsweb.com Trucsweb

X

Trucsweb.com Glossaire

X

Trucsweb.com Trucsweb

X

Trucsweb.com Trucsweb

Conditions

Aucun message!

Merci.

X
Aucun message!
X

Trucsweb.com Créer un compte

Créer un compte

.
@