Accueil / Blog / Métier / 2016 / Compte-rendu du SEOCampus Paris 2016, jour 1

Compte-rendu du SEOCampus Paris 2016, jour 1

Par Simon Georges — publié 07/04/2016, édité le 13/04/2016
Résumé de conférences techniques durant la première journée du SEOCamp'us.
Compte-rendu du SEOCampus Paris 2016, jour 1

Sommaire

"SEO Horror Stories"

Cette conférence d'Aleyda Solis (les diapos sont en ligne) fait suite à un hashtag lancé pour Halloween 2015, et expose un retour d'expérience sur les problèmes à éviter absolument en SEO.

Les titres de ces chapitres sont des erreurs à ne pas faire, et pas des conseils à suivre.

Bloquer le crawling du site (par erreur)

Un site est vivant, des changements arrivent. Notamment, il est possible que le robots.txt bloque totalement le parcours des robots sur le site.
Aleyda recommande de surveiller les changements sur le robots.txt (par des outils externes en Saas, par exemple).

Erreurs dans la désindexation / canonicalisation

Là encore, des choses peuvent arriver durant la vie du site, et il est possible notamment que de mauvaises balises META ROBOTS soient positionnées, qui pénalisent l'indexation du site. La solution recommandée est à nouveau le monitoring du contenu ou de l'HTML du site.

Environnement de test / pré-production ouverts sur internet

La plupart des sites sont aujourd'hui testés avant mise en production sur des environnements de test ou de pré-production. Sans attention particulière, ces sites seront indexés par les moteurs de recherche.

Pour éviter ça, il ne faut pas changer le robots.txt ou ajouter une balise META robots NOINDEX, car vous courez le risque de déployer les "mauvaises" balises dans l'environnement de production. Il faut plutôt bloquer le site avec authentification, pour permettre au travail du SEO de se réaliser dans les conditions réelles, mais sans que les robots accèdent au site.

En plus, créez une "Google Alert" avec les chemins de vos serveurs de test / pré-production pour être avertis de la moindre indexation de contenu provenant de ces plate-formes.

Contenu dupliqué en interne sur le site

Là encore, dans la vie d'un site, la structure évolue. Il est possible que des pages soient alors recopiées dans la nouvelle structure, ou réécrites en oubliant qu'une ancienne page similaire existait, au gré par exemple des changements de personnel intervenant dans un service.

Pour éviter ça, la solution est de parcourir régulièrement votre site avec des outils de crawl.

Redirections inutiles

La plupart des CMS ont désormais des mécanismes qui redirigent les anciennes URLs des contenus automatiquement dès lors qu'une URL change. Mais en combinant ces redirections avec d'autres ajoutées manuellement, on peut créer des boucles complètes de redirections, des redirections qui ne pointent finalement pas vers la bonne page, ou tout simplement des redirections en chaîne qui pénalisent vos pages.

La solution est identique au cas précédent : parcourez régulièrement votre site pour détecter ces problèmes le plus tôt possible.

Ne pas vérifier ses logs

Le crawl automatique du site depuis votre IP peut donner des résultats différents de celui depuis un moteur de recherche (cas de redirection des pages en fonction du pays, par exemple...).

Pour s'assurer de comment le robot perçoit vos pages, la meilleure solution est d'analyser votre log d'accès au site.

Dans le cas d'une migration, l'analyse de logs avant et après la migration peut vous permettre d'identifier rapidement des problèmes ou des différences de comportement.

Penser que la perte de trafic vient du SEO

Votre site peut perdre du trafic pour d'autres raisons que le référencement naturel : par exemple, un envoi d'e-mailing n'a pas été effectué contrairement à d'habitude, et c'est ce trafic là que vous perdez.

Mais pour vous garantir de suivre les pertes de trafic dues au SEO, il est recommandé de créer une alerte dans Google Analytics sur la perte de trafic organique, et si vous constatez réellement une perte de trafic SEO, alors vous pouvez suivre la checklist : "Pourquoi mon trafic diminue ?" (traduction française de la checklist référence d'Aleyda).

Bloquer les contenus sur CDN

Il est compréhensible de ne pas souhaiter ouvrir l'intégralité des fichiers du CDN au référencement. Mais pour permettre tout de même aux robots de parcourir vos images (pour l'indexation) ou vos feuilles de styles (pour la détermination de la compatibilité mobile de votre site), vous pouvez ajouter sur ces fichiers un en-tête HTTP rel="canonical" (la plupart des CDN permettent de faire ça) pointant vers votre domaine, vous permettant ainsi de configurer via le robots.txt de votre domaine le parcours des fichiers. Ces fichiers ne seront servis qu'aux robots, pour les visiteurs habituels de votre site, c'est le CDN qui servira les fichiers.

Prédire le trafic mobile en se basant sur le comportement courant

Il est possible que vous n'ayez pas de trafic mobile parce que justement vous n'êtes pas optimisés pour. Plutôt que de se dire qu'il n'y a pas de besoin d'optimiser votre site pour du mobile, il faut plutôt vérifier le type de trafic de vos concurrents ou des références de votre industrie, et agir en conséquence.

Soyez proactifs !

De façon plus générale, plutôt que d'attendre que les problèmes aient des conséquences sérieuses pour réagir, soyez proactifs, et mettez en place des outils de surveillance de votre site, pour être averti immédiatement, un moment où le problème est encore corrigeable avant de pénaliser votre positionnement.

À noter que l'ensemble des problèmes cités dans cette conférence sont vérifiés durant nos audits techniques de référencement.

Javascript et indexation

Cette conférence de Madeline Pinthon présente un retour d'expérience sur l'état de l'indexation des sites comprenant beaucoup de Javascript.

L'évolution de la communication de Google

Dans cette partie, Madeline affiche une version les différentes annonces de Google concernant les possibilités (ou non) de comprendre le Javascript, car de nombreuses modifications ont eu lieu ces dernières années. Techniquement, ce qui nous intéresse, c'est l'état actuel, et nous allons donc nous baser au niveau des conseils sur la dernière communication officielle de Google : le 4 mars 2016, John Mueller a publié sur Google+ quelques recommandations sur l'état de l'art de l'implémentation Javascript pour permettre son indexation  :

  • Ne plus utiliser l'ancienne recommandation "ajax-crawling scheme" utilisant les "fragments" (voir la documentation officielle) ;
  • Tester le rendu dans la Search Console de Google ;
  • Ne pas bloquer les fichiers javascript dans le robots.txt.

Cependant, on constate régulièrement des différences entre ce que Google prétend ou demande aux webmasters et son fonctionnement "réel".

Les tests

Madeline a effectué et réuni de nombreux tests utilisant Javascript. Globalement, pour les tests simples, ça se passe bien, et Google respecte ses indications : changement de balise TITLE, ajout de paragraphe, insertion de liens, redirections (via window.location), Google crawle et indexe correctement tous ces contenus.

Le cas des frameworks

Pour les cas plus complexes (contenu apparaissant après action utilisateur, site plus complexe (par exemple réalisé avec un framework type AngularJS, ou contenant de nombreux fichiers Javascript), le contenu ne s'indexe pas. Pour ces cas-là, la préconisation actuelle est donc toujours d'utiliser la technique des "escaped fragments" (pourtant officiellement découragée par Google).

De toute façon, Google est le seul moteur de recherche à actuellement tenter de comprendre un peu le JS, les autres moteurs sont à la traîne, donc si votre site dépend de façon non négligeable d'autres moteurs pour son trafic, une refonte utilisant ce type de technique est à proscrire.

Ne négligez pas l'accessibilité

Un palliatif consiste à utiliser l'accessibilité (et c'est de toute façon ce que vous devriez faire sur tous vos sites !) : créer une sitemap comprenant l'ensemble des URLs du site pour faciliter leur découverte par les moteurs, ajouter des micro-données pour aider les moteurs à comprendre les pages dont ils ne peuvent interpréter le Javascript.

Les outils

Pour Google, la référence est la Search Console (nouveau nom des anciens "Webmaster Tools" : la fonctionnalité "explorer comme Google" vous fournit une indication du rendu de votre page (attention, ce test est nécessaire (une page mal rendue sera mal parcourue et indexée), mais pas suffisant (une page peut-être bien rendu dans cet outil, et pourtant mal interprétée par le robot).

Cependant, cela vous donnera quelques indications : si Google indique dans la Search Console un fichier Javascript bloqué par les robots comme "important", il est probablement nécessaire d'autoriser le crawl spécifique de ce fichier. Pour les autres (importance moyenne ou faible), vous pouvez à priori les laisser bloqués.

Le meilleur outil actuel pour exécuter du Javascript correctement : PhantomJS, mais son utilisation reste très technique. Ça tombe bien, c'est notre spécialité !

Aucun crawler en ligne ne permet aujourd'hui l'exécution de Javascript, même si ils y travaillent.

Le futur

ReactJS, AngularJS 2.0 peuvent changer les choses en intégrant une couche que l'on nommera abusivement de "prérender" (équivalente à ce qu'on obtient aujourd'hui avec l'utilisation de prerender.io). C'est à dire que dans une application correctement développée, le Javascript s'applique sur une page dont l'HTML contient déjà du contenu (et ne la génère pas entièrement).

L'indexation des applications Javascript est de toute façon probablement un des sujets majeurs des mois / années à venir en SEO. À suivre donc !

À retenir

La source de la page (obtenu par le menu "Afficher la source") a de moins en moins d'importance, c'est désormais le DOM (consultable en utilisant les outlis d'inspections des navigateurs) qui fait foi.

Drupal & SEO

Voir la transcription de ma présentation dans l'article dédié.

Migration de site : enjeux et réponses techniques

Cette conférence de David Durand Pichard & Aymeric Bouillat nous propose de considérer une migration de site (d'un point de vue SEO) comme un déménagement.

  1. D'abord, on regarde d'abord ce dont on se sert le plus : pour ça, on doit avoir une vision de notre contenu. Mais pour la liste des URLs à migrer, un crawl automatique ne suffit pas. Combinez le maximum de sources (crawl + google analytics / search console, + ahrefs / majestic) et croisez les données ensuite. Déterminez alors des KPI et suivez les pré et post déménagement.
  2. Ensuite, on organise les choses : regrouper / organiser vos URLs pour mettre en place les redirections. Et priorisez-les (en fonction des clics et impressions dans les SERPs, des liens entrants, du crawl du robot...)
  3. Attention, il est important de trier les choses AVANT de migrer : pensez à nettoyer vos 404 avant la migration, pour pouvoir analyser plus finement les choses après les migrations et ne pas être pollué par les anciennes données.
  4. Ensuite, il ne faut pas hésiter à jeter l'inutile : par exemple, les liens entrants de mauvaise qualité ne se redirigent pas.
  5. Il faut également prendre soin de certains objets particuliers : par exemple, dans une RewriteRule .htaccess, les % sont interprétés, du coup, pour rediriger une URL avec %, il faut remplacer le% par \x.
  6. De manière générale, ce sont souvent les redirections qui forment le gros du sujet. Et on trouve plusieurs points d'attention sur ce sujet :
  • Les grands oubliés : les paramètres d'URLs, souvent négligés, peuvent être le premier échec d'une migration : si on oublie de les supprimer dans la redirection, on peut se retrouver avec les nouveaux paramètres en plus des anciens, générant de nombreux contenus dupliqués (sur une redirection .htaccess avec Apache 2.4, par exemple, il faut utiliser QSD pour supprimer les paramètres lors d'une redirection) ;
  • Si certaines pages n'ont pas de correspondance : il NE faut PAS rediriger sur la home, sous peine de pénalité algorithmique ;
  • Les boucles de redirection peuvent arriver fréquemment, surtout si la migration inclue un passage vers HTTPS ;
  • Les images se redirigent aussi ! Google Bot Images est plus lent que GoogleBot, il faut donc absolument lui faciliter la tâche ;
  • Mettre dans le .htaccess en priorité les URLs les plus requêtées, pour éviter au serveur de parcourir l'ensemble des règles avant de tomber sur la bonne (influe sur la performance du serveur).
  • une URL, c'est pour la vie ! Jakob Nielsen en parlait déjà il y a 17 ans en disant que l'URL fait partie de votre interface, et sa longévité donne confiance dans votre site. Donc n'hésitez pas à propager les redirections à chaque migration.

Enfin, attention au robots.txt : gardez de préférence les règles de l'ancien site pour éviter au GoogleBot de s'engouffrer dans la brèche et de générer BEAUCOUP de 404.

Utilisation de la data-science

Je vous invite ici à directement consulter le diaporama de Vincent Terrasi qui liste énormément d'outils intéressant, très centrés sur des algorithmes existants d'analyse sémantique ou temporelle. Pas forcément pour tous les besoins, mais beaucoup de potentiel derrière. Attention, tout est en R ;-)

À étudier pour le futur !

ABONNEZ-VOUS À LA NEWSLETTER !
Voir aussi
Makina Corpus participe à la conférence mondiale sur OpenStreetMap Makina Corpus participe à la conférence mondiale sur OpenStreetMap 09/09/2019

Du 21 au 23 septembre se tient à Heidelberg, en Allemagne, la douzième conférence annuelle sur ...

Mettre en place Angular Universal avec Angular 6 et 7 Mettre en place Angular Universal avec Angular 6 et 7 16/10/2018

Le fonctionnement d'Angular Universal expliqué. Toutes les étapes de mise en place détaillées. ...

Comment mettre en place Angular Universal Comment mettre en place Angular Universal 29/06/2017

Toutes les étapes détaillées et expliquées. Les pièges à éviter.

Scraping & Machine Learning : comment fonctionne un moteur de recherche ? Scraping & Machine Learning : comment fonctionne un moteur de recherche ? 22/01/2018

Ou comment utiliser des composants libres pour faire votre mini-Google (ou Qwant)

Geotrek au Congrès Europarc en Espagne Geotrek au Congrès Europarc en Espagne 29/05/2018

Organisé à Cangas de Onis, dans les Asturies en Espagne, le Congrès Europarc (ESPARC) a réuni ...

Nos formations
Formation SEO Drupal