J’ai régulièrement des questions concernant l’impact du nombre de mots ou de l’optimisation sémantique sur le classement des pages.
Comme on n’est jamais mieux servi que par soit même, j’ai décidé de mener ma propre petite étude et d’en sortir quelques graphiques parlants.
A ce jour j’ai analysé et trié 21 384 résultats de recherche pour en tirer des conclusions les plus actionnables possibles.
Avant de démarrer, voici quelques précisions :
- Je n’analyse que le top 8 sur chaque SERP ;
- Le score d’optimisation sémantique est calculé avec les algorithmes de Thot ;
- Les requêtes analysées ont des niveaux de difficulté variés allant de très facile à très concurrentiel ;
- Le nombre de mots sur chaque page est calculé en ignorant le header, le footer, les informations en side…
- J’ai distingué les pages éditoriales des pages commerciales (fiche produit ou page catalogue)
- Pour le nombre de mots ou le score, j’utilise la médiane et non la moyenne.
- Vous pouvez retrouver le Google Sheet avec les chiffres ici pour faire vos propres analyses.
Voici ce que l’on observera sur le top 8 de chaque SERP :
- Le nombre de mots de contenu ;
- Le score SEO Thot (un score d’optimisation sémantique) ;
- La densité sémantique (score Thot divisé par le nombre de mots).
J’utilise le terme densité sémantique pour définir le score Thot en % pour 100 mots, si la métrique ne devient pas un objectif en soit, je considère que c’est un proxy intéressant pour déterminer la richesse sémantique d’un contenu / le gain d’informations réel apporté par une page.
Autrement dit, si la densité sémantique s’avérait être un prédicteur intéressant de la position d’une page, un contenu de 600 mots et un score sémantique Thot de 60 (10%) aurait potentiellement plus de chances qu’un contenu de 1200 mots pour un score Thot de 60 (5%).
Si ce genre de petite analyse vous plaît, dites-le moi et je ferai d’autres études avec un focus sur une thématique particulière (voyage, sport, santé, casino, écologie…)
Pour les plus pressés, voici ce qu’il ressort de l’étude pour les pages de résultat avec une intention de recherche majoritairement commerciale.
Une « intention de recherche majoritairement commerciale » signifie que plus de 50% des 8 premiers résultats sont des fiches produits ou des pages catégories.
Les points principaux à retenir sur les SERP commerciales
✅ – L’optimisation sémantique à un impact important sur les positions des résultats 4 à 8. Cela vaut pour les requêtes de longue traine (plus de 3 mots) et de courte traine (jusqu’à 3 mots).
❌ – Le nombre de mots est très mauvais indicateur pour les positions 1 à 3 de courte et longue traine des SERP commerciales. En revanche c’est un levier intéressant pour progresser au sein du top 4 à 8. 500 mots minimum semble être une bonne cible à adapter par la suite suivant les pratiques de la concurrence.
🔗 – On peut émettre l’hypothèse que les backlinks jouent sans doute un rôle prépondérant dans l’entrée dans le top 3 là où la sémantique (et son corollaire le gain d’information) permet plutôt de pénétrer le top 4-8.
❌ – La densité sémantique n’a aucun effet sur les résultats du top 4 à 8 ou pour des requêtes de longue traine peu importe la taille de la requête.
✅ – Sous l’hypothèse qu’il y a un lien de cause à effet entre densité sémantique et positions, la densité sémantique est surtout cruciale pour jouer le top 1. Un score intéressant à viser est un score supérieur à 10%. Il faut également un score Thot SEO élevé (>70%) peu importe la taille des requêtes visées.
✅ – Le score SEO Thot du premier résultat est largement supérieur aux autres. C’est une variable qui semble plus impactante que le nombre de mots pour un top 3, et beaucoup plus impactante pour une première place.
Les résultats simplifiés sont proposés sous ce tableau :
SERP Commerciale | |||||||||||
Score | Mots | Densité | |||||||||
Courte traine | Longue traine | Courte traine | Longue traine | Courte traine | Longue traine | ||||||
Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 |
Positif | Très positif | Plutôt positif | Très positif | Nul | Très positif | Positif | Très positif | Très positif | Nul | Nul | Plutôt positif |
Plutôt corrélé | Bien corrélé | Très peu corrélé | Très corrélé | Non corrélé | Très corrélé | Très peu corrélé | Très corrélé | Très corrélé | Non corrélé | Non corrélé | Non corrélé |
Les résultats chiffrés sont proposés sous le tableau suivant. Notez qu’une corrélation négative est plutôt bon signe en cas de lien de cause à effet, comme l’on cherche à se rapprocher de la position 1.
Cela signifie que si l’on augmente le score, le nombre de mots ou la densité sémantique notre position « baisse » et donc notre page « monte » dans les résultats.
SERP Commerciale | ||||||||||||
Score | Mots | Densité | ||||||||||
Courte traine | Longue traine | Courte traine | Longue traine | Courte traine | Longue traine | |||||||
Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | |
Corrélation | -0,87 | -0,93 | -0,62 | -0,97 | 0,23 | -0,97 | -0,77 | -0,95 | -0,97 | 0,17 | 0,23 | -0,42 |
R^2 * 100 | 75 | 87 | 38 | 94 | 5 | 95 | 59 | 91 | 94 | 3 | 5 | 18 |
Concernant les SERPs majoritairement éditoriales, on note quelques différences, voici les principaux éléments à retenir :
Les points principaux sur les SERPs éditoriales
✅ – Le principal levier est le score Thot qui a un impact très positif et plutôt bien corrélé à un gain de position pour les requêtes de courte traine.
❌ – Le nombre de mots, n’a que peu d’impact de manière générale. Aucun impact sur les positions du top 3 et un impact potentiel mais limité sur les positions 4 à 8.
Les résultats simplifiés sont proposés sous ce tableau :
SERP éditoriale | |||||||||||
Score | Mots | Densité | |||||||||
Courte traine | Longue traine | Courte traine | Longue traine | Courte traine | Longue traine | ||||||
Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 |
Très positif | Très positif | Positif | Positif | Nul | Positif | Plutôt positif | Très positif | Positif | Nul | Très positif | Nul |
Bien corrélé | Bien corrélé | Plutôt corrélé | Bien corrélé | Non corrélé | Plutôt corrélé | Non corrélé | Plutôt corrélé | Bien corrélé | Non corrélé | Plutôt corrélé | Non corrélé |
Et voici les résultats chiffrés récapitulés ici.
SERP éditoriale | ||||||||||||
Score | Mots | Densité | ||||||||||
Courte traine | Longue traine | Courte traine | Longue traine | Courte traine | Longue traine | |||||||
Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | Top 1-3 | Top 4-8 | |
Corrélation | -0,94 | -0,93 | -0,88 | -0,89 | 0,3 | -0,88 | -0,51 | -0,91 | -0,89 | 0,02 | -0,91 | -0,02 |
R^2 * 100 | 89 | 87 | 78 | 80 | 9 | 77 | 26 | 82 | 83 | 0 | 80 | 0 |
A présent, passons à la data, la vraie, la bonne, celle qu’on aime pour prendre des décisions.
Comment lire les résultats de l’étude ?
Quelques rappels de vocabulaire sur les statistiques.
Rien de compliqué, juste l’essentiel pour comprendre mes conclusions.
- J’utilise R^2 qui est une mesure de la qualité de l’ajustement du modèle aux données.
- J’utilise entre autre la corrélation linéaire pour évaluer la relation entre deux variables (par ex : le score Thot SEO et les positions). Cela a l’avantage d’être simple mais présente plusieurs limites.
Une corrélation ne signifie pas nécessairement qu’il existe une relation de cause à effet entre les variables. Il est possible qu’une troisième variable, appelée variable de confusion, influence les deux variables corrélées.
Dans notre cas, il est évident que de plusieurs centaines de variables rentrent en jeu (le page rank par exemple).
Analyse des SERPs commerciales
Commençons par là où l’on dispose du moins de données.
Les SERPs commerciales représentent 17% des pages de résultats analysées, soit 3632 contenus.
Je vous donne dans l’ordre :
- Le graphique ;
- Les données chiffrées ;
- Les coefficients de corrélation et de détermination ;
- Mon analyse ;
Quel est l’impact du nombre de mots sur les positions ?
Voici les premiers résultats avec une différence entre requête short tail (1 à 3 mots) et long tail (4 mots et plus).
Retrouvez les données sous forme de tableau si besoin. Attention, la courbe de tendance n’est pas la moyenne indiquée dans le tableau.
Position 1 | Position 2 | Position 3 | Position 4 | Position 5 | Position 6 | Position 7 | Position 8 | |
---|---|---|---|---|---|---|---|---|
Long tail | 633 | 482 | 510 | 523 | 398 | 351 | 342 | 188 |
Short tail | 430 | 401 | 439 | 463 | 412 | 376 | 235 | 139 |
Moyenne | 464 | 440 | 451 | 472 | 408 | 362 | 261 | 159 |
R^2 | R^2 top 3 | R^2 top 4-8 | Corrélation | Corrélation top 3 | Corrélation top 4-8 | |
---|---|---|---|---|---|---|
Long tail | 0,88 | 0,59 | 0,91 | -0,94 | -0,77 | -0,95 |
Short tail | 0,63 | 0,05 | 0,95 | -0,80 | 0,23 | -0,97 |
Moyenne | 0,76 | 0,29 | 0,98 | -0,87 | -0,54 | -0,99 |
La moyenne en 4ème ligne du premier tableau n’est pas la moyenne des deux lignes supérieures.
Les deux premières lignes indiquent les médianes pour chaque catégorie et non les moyennes.
La dernière ligne indique la moyenne générale.
Que peut-on voir ?
Sous l’hypothèse que le nombre de mots est une variable importante dans les classements, le top 3 n’est pas impacté par le nombre de mots pour les requêtes short tail (R^2 = 0,05). Un tout petit peu plus d’impact potentiel est à noter sur les requêtes de plus longue traine.
En revanche, avec des coefficients de corrélations et de déterminations extrêmement forts pour le top 4 à 8, le nombre de mots semble être un bon candidat pour prédire d’un bon positionnement dans cette zone.
Note : On peut distinguer une sorte de seuil à 400 mots pour les requêtes short tail et 500 mots pour les requêtes de long traine. Probablement le nombre de mots minimum pour fournir suffisamment de contexte sur le thème de la page, l’axe de notre réponse et ses limites.
Curieusement, les résultats pour des requêtes longue traine ont en moyenne 20% de mots en plus. Je ne sais pas vraiment l’expliquer… Et cela tout le long de la SERP !
Théorie bancale : Peut-être est-ce lié au fait que les utilisateurs qui effectuent des recherches commerciales à longue traîne ont généralement une intention d’achat plus forte. Par conséquent, Google pourrait pousser les pages qui fournissent généralement des informations plus détaillées pour aider les utilisateurs à prendre une décision d’achat.
Cette théorie est toutefois à prendre avec des pincettes car on constate exactement la même différence de taille des contenus pour les résultats sur les SERP éditoriales. Si vous avez une idée, n’hésitez pas à la partager !
Selon l’étude de Thot SEO les résultats de recherches pour des requêtes longue traine sont 20% plus longs que pour des requêtes courtes. La différence est exactement la même pour les SERP commerciales et éditoriales. Voici une hypothèse…
Click To Tweet
Passons à présent au score SEO donné par Thot.
Pour rappel ce score est calculé en fonction des mots utilisés et du nombre d’occurrences de ces derniers d’après ce que Thot SEO juge comme nécessaire pour une bonne réponse.
Par exemple, pour ce contenu il faudrait utiliser les mots charisme entre 1 et 2 fois et gestion entre 1 et 6 fois respectivement. En revanche leadership est bien trop souvent répété, il vient donc gonfler le score de suroptimisation.
Bref, revenons à nos données.
Bon a première vue le premier est largement au dessus du reste et la tendance est claire.
La petite hausse du score pour les positions 2 à 4 pour les requêtes de longue traine (encore elles…) est curieuse.
Passons aux données des tableaux.
Position 1 | Position 2 | Position 3 | Position 4 | Position 5 | Position 6 | Position 7 | Position 8 | |
---|---|---|---|---|---|---|---|---|
Short tail | 46 | 35 | 35 | 36 | 31 | 31 | 23 | 10 |
Long tail | 56 | 40 | 46 | 48 | 40 | 31 | 31 | 17 |
Moyenne | 49 | 37 | 38 | 40 | 34 | 31 | 24 | 12 |
R^2 | R^2 top 3 | R^2 top 4-8 | Corrélation | Corrélation top 3 | Corrélation top 4-8 | |
---|---|---|---|---|---|---|
Long tail | 0,82 | 0,75 | 0,87 | -0,90 | -0,87 | -0,93 |
Short tail | 0,79 | 0,38 | 0,94 | -0,89 | -0,62 | -0,97 |
Moyenne | 0,84 | 0,68 | 0,95 | -0,92 | -0,82 | -0,97 |
Que peut-on voir ?
✅ – Le score sémantique Thot SEO du premier résultat est largement supérieur aux autres. C’est une variable qui semble un peu plus impactante que le nombre de mots pour un top 3, et beaucoup plus impactante pour une première place. Click to Tweet
Ensuite, ici encore, une différence assez marquée existe entre les requêtes de moins de 4 mots et de celles de 4 mots : les requêtes de longue traine présentent des scores sémantiques en moyenne 21% plus élevés que pour des requêtes courtes traine.
Faisons un point sur les requêtes de courte traine. Ce sont des requêtes à priori avec de plus gros volumes de recherche, et souvent plus de concurrence.
Je trouve étrange du coup que les scores sémantiques soient plus faibles en moyenne…
Cela est sans doute lié au nombre de mots plus faible : avec moins de mots, il est plus complexe d’utiliser toute la sémantique d’une thématique.
Mon hypothèse semble se confirmer si l’on regarde la densité sémantique (rappel : le score Thot SEO pour 100 mots). Même si le score Thot SEO est plus faible, les premiers résultats pour une requête courte traine ont un score sémantique plus élevé que pour une requête longue traine.
Mais revenons au score Thot SEO. Pourquoi la corrélation entre un bon score sémantique et une position en top 3 est-elle plus faible ?
Pour rappel, le coefficient de corrélation est de -0,62 et le coefficient de détermination est de 0,38.
Ma théorie : Dans les SERPs où la concurrence est forte, la dimension technique des sites a tendance à être plutôt validée, de même que la partie optimisation sémantique. Il reste donc le levier majeur que sont les backlinks, ce qui peut expliquer le coefficient de détermination bien plus faible pour le top 3 des requêtes courte traine (R^2 = 0,38 contre 0,75 pour la longue traine.)
Cette analyse a évidemment des biais mais cela peut constituer une piste de réflexion.
Il serait intéressant de mener l’analyse en différenciant les requêtes par niveau de difficultés pour voir s’il existe une différence importante. Si cela vous intéresse n’hésitez pas à me le dire !
Passons enfin à la densité sémantique pour les SERP à intention commerciale
Pour rappelle, la densité sémantique n’a pas une définition scientifique exacte.
C’est une mesure que j’ai inventée pour décrire le gain de score Thot SEO pour 100 mots. Une densité sémantique de 10% signifie que pour 700 mots le score sémantique Thot SEO sera de 70%.
Note : La densité sémantique idéale n’est pas homogène tout au long de l’article. Empiriquement je dirais que les 200 premiers mots du contenu doivent être entre 8 et 12% (donc un score Thot entre 16 et 24% comme l’on a 200 mots) et le reste plutôt autour de 6 à 10%.
Vous pouvez voir la densité sémantique des 200 premiers mots sur le bandeau en haut l’interface de Thot.
Le minimum conseillé est de 15% pour les 200 mots soit une densité sémantique de 7,5% mais je recommande de viser 18 à 20% sur cette partie et d’avoir le pied plus léger sur le reste de l’article.
Passons au graphique.
Voici les tableaux de données correspondant :
Position 1 | Position 2 | Position 3 | Position 4 | Position 5 | Position 6 | Position 7 | Position 8 | |
---|---|---|---|---|---|---|---|---|
Long tail | 8,8% | 8,3% | 9,0% | 9,2% | 10,1% | 8,8% | 9,1% | 9,0% |
Short tail | 10,7% | 8,7% | 8,0% | 7,8% | 7,5% | 8,2% | 9,8% | 7,2% |
R^2 | R^2 top 3 | R^2 top 4-8 | Corrélation | Corrélation top 3 | Corrélation top 4-8 | |
---|---|---|---|---|---|---|
Densité long tail | 0,11 | 0,05 | 0,18 | 0,33 | 0,23 | -0,42 |
Densité short tail | 0,21 | 0,94 | 0,03 | -0,45 | -0,97 | 0,17 |
Densité Moyenne | 0,36 | 0,74 | 0,12 | -0,60 | -0,86 | -0,35 |
La densité sémantique pourrait être composante intéressante à améliorer pour viser un top 3 (et particulièrement un top 1) sur une requête courte traine.
Cela va dans le bon sens à mon avis car pour l’améliorer il faut utiliser un vocabulaire plus riche pour autant de mots. Donc potentiellement apporter plus d’informations, ou autant avec des approches différentes.
Je suis assez dubitatif sur la différence énorme entre le coefficient de détermination ultra faible de la densité sémantique pour une position en top 3 pour une requête longue traine vs pour une requête courte traine.
Ce sont dans une même colonne le coefficient le plus faible et le plus élevé… Et je n’ai pas d’explication pour l’instant.
Résumé de cette première partie
✅ – Le score sémantique donné par Thot SEO est bien plus élevé pour le premier résultat et baisse à mesure que l’on descend dans les positions. En moyenne sur toute la SERP, le score Thot SEO est la variable la plus corrélée à un bon positionnement.
✅ – On peut émettre l’hypothèse que les backlinks jouent sans doute un rôle prépondérant dans l’entrée dans le top 3 là où la sémantique (et son corollaire le gain d’information) permet plutôt de pénétrer le top 4-8.
✅ – La densité sémantique est surtout cruciale pour jouer le top 1, un score intéressant à viser est un score supérieur à 10%. Il faut également un score Thot SEO élevé (>70%) peu importe la taille des requêtes visées.
✅ – Le nombre de mots sur une page visant une requête commerciale ne semble pas impacter les positions ailleurs que dans le top 4 à 8. 500 mots minimum semble être une bonne cible à adapter par la suite suivant les pratiques de la concurrence.
Analyse des SERPs éditoriales
L’étude des pages de résultats à intention majoritairement éditoriale porte sur 17 752 contenus. Les résultats sont donc peut-être un peu plus fiables.
Le nombre de mots est-il plus important pour une page éditoriale ?
Contrairement à ce que l’on entend souvent, cela n’a pas l’air d’être le cas.
Le top 3 semble extrêmement peu lié au nombre de mots, un phénomène déjà rencontré sur les SERPs commerciales et que les tableaux de données suivant confirmeront.
Contrairement à une première intuition que j’avais, un minimum de 700 mots semble être la norme pour les requêtes de courte traine et de 800 mots pour les requêtes de longue traine.
C’est curieux, j’aurais tendance à penser que les recherches moins précises (aka moins longues) nécessitaient des réponses plus exhaustives.
Position 1 | Position 2 | Position 3 | Position 4 | Position 5 | Position 6 | Position 7 | Position 8 | |
---|---|---|---|---|---|---|---|---|
Long tail | 896 | 835 | 865 | 853 | 844 | 814 | 771 | 789 |
Short tail | 700 | 761 | 719 | 706 | 708 | 708 | 662 | 615 |
Moyenne | 814 | 799 | 801 | 784 | 780 | 767 | 716 | 709 |
R^2 | R^2 top 3 | R^2 top 4-8 | Corrélation | Corrélation top 3 | Corrélation top 4-8 | |
---|---|---|---|---|---|---|
Longue traine | 0,77 | 0,26 | 0,82 | 0,88 | -0,51 | -0,91 |
Courte traine | 0,58 | 0,09 | 0,77 | 0,76 | 0,30 | -0,88 |
Moyenne | 0,88 | 0,64 | 0,88 | 0,94 | -0,80 | -0,94 |
On peut voir que le R^2 n’indique aucun lien significatif entre « position au sein du top 3 » et « nombre de mots ».
En revanche, c’est encore une fois un indicateur qui peut être pertinent pour le top 4 à 8 ou l’on constate des réponses de plus en plus longues si l’on remonte de la 8ème à la 4ème place.
C’est le même schéma que pour les requêtes commerciales où le top 3 n’est finalement que peu (ou pas du tout) impacté par le nombre de mots.
Une idée pour votre prochain tweet : La course à celui qui a le plus de mots n’a donc pas de sens, du moins pas si l’on est déjà en première page.
Autrement dit, pour des pages en top 3, il est probablement plus pertinent de venir travailler la sémantique que de rajouter des mots, notamment pour des requêtes de courte traine. Nous verrons cela par la suite.
Quel est l’impact du score sémantique sur la position des contenus éditoriaux ?
La première chose qui saute aux yeux est évidemment la différence énorme entre le premier et les autres résultats. Le premier résultat est 60% plus optimisé que le 8ème.
Penchons-nous sur les tableaux chiffrés :
Position 1 | Position 2 | Position 3 | Position 4 | Position 5 | Position 6 | Position 7 | Position 8 | |
---|---|---|---|---|---|---|---|---|
Long tail | 78 | 51 | 50 | 51 | 48 | 49 | 46 | 46 |
Short tail | 71 | 52 | 48 | 47 | 46 | 44 | 41 | 42 |
Moyenne | 76 | 51 | 49 | 49 | 48 | 47 | 44 | 44 |
R^2 | R^2 top 3 | R^2 top 4-8 | Corrélation | Corrélation top 3 | Corrélation top 4-8 | |
---|---|---|---|---|---|---|
Long tail | 0,50 | 0,78 | 0,80 | 0,71 | -0,88 | -0,89 |
Short tail | 0,67 | 0,89 | 0,87 | 0,82 | -0,94 | -0,93 |
Moyenne | 0,56 | 0,81 | 0,92 | 0,75 | -0,90 | -0,96 |
Le score sémantique donné par Thot semble avoir plus d’impact sur la position pour les requêtes de courte traine que pour celles de longue traine, autant pour le top 3 (R^2 = 0,89) que pour le top 4 à 8 (R^2 = 0,87).
La tendance reste marquée pour les requêtes de longue traine, bien que moindre même si l’on remarque dans les deux cas que le 1er résultat est en moyenne plus de 20 points au dessus du second.
Cela ne veut évidemment pas dire que l’on ne peut pas se positionner avec un contenu faiblement optimisé, mais personnellement en voyant un tel écart je trouve assez logique d’utiliser le score Thot comme un levier majeur dans mes optimisations on-site.
Attention, ne prenez pas ce chiffre comme une règle du type « il faut viser 78% sur Thot pour se positionner ». Cela dépend trop de la concurrence pour être ramené à une telle simplicité.
Pour être efficace, le score minimum requis pour maximiser vos chances est calculé selon chaque requête. C’est bien pour cela que je ne donne jamais de conseil du type « atteindre 80% d’optimisation » pour Thot comme on peut l’entendre pour d’autres outils.
Pour certaines requêtes, le score minimal conseillé sera même inférieur à 60 alors que pour d’autres il pourra être au-dessus de 80 voir 90.
Voici deux exemples pour « oya » et « rachat de crédit » où vous pouvez voir le score minimum requis en petit à gauche.
Pour finir sur cette partie portant sur le score Thot SEO j’aimerai tenter une analyse statistique un peu bancale.
En regardant les résultats je me suis demandé « mais quel est le facteur qui a globalement le plus d’impact ? »
Pour cela répondre à cela, je me suis dis qu’on pouvait additionner (ou faire la moyenne) des coefficients de corrélation et de détermination relevé pour chaque variable.
Le nombre obtenu ne signifie pas grand chose en lui-même mais va juste nous servir à faire des comparaisons.
Voici ce que l’on obtient :
Voici le classement final de l’impact relative sous la condition qu’il y ait vraiment une relation de cause à effet :
- Score Thot SEO pour les SERP éditoriales (0,91)
- Score Thot SEO pour les SERP commerciales (0,85)
- Nombre de mots pour les SERP commerciales (0,62)
- Nombre de mots pour les SERP éditoriales (0,5)
- Densité sémantique pour les SERP éditoriales (0,45)
- Densité sémantique pour les SERP commerciales (0,25)
Je ne suis pas expert statisticien mais je ne pense pas qu’il soit juste de dire pour autant que le score Thot SEO pour les SERP éditoriales (0,91) a 2x plus d’impact potentiel sur les positions que la densité sémantique pour les SERP éditoriales (0,45).
La densité sémantique est-elle un levier pour améliorer la position des contenus éditoriaux ?
Si vous avez bien suivi, vous avez déjà une idée de la forme de la courbe de densité sémantique.
Comme le nombre de mots est assez constant le long de la SERP et que le score Thot SEO est particulièrement élevé pour la première, place la courbe est assez logique :
Si l’on découvre que la densité sémantique est un facteur potentiel de positionnement, cela signifie qu’ajouter des mots sans améliorer le score sur un contenu peut même être contre productif car cela viendrait diminuer la densité sémantique.
Voyons ce que nous disent les chiffres.
Position 1 | Position 2 | Position 3 | Position 4 | Position 5 | Position 6 | Position 7 | Position 8 | |
---|---|---|---|---|---|---|---|---|
Densité Long tail | 8,7% | 6,1% | 5,8% | 6,0% | 5,7% | 6,0% | 6,0% | 5,8% |
Densité Short tail | 10,1% | 6,8% | 6,6% | 6,7% | 6,5% | 6,2% | 6,2% | 6,8% |
Densité Moyenne | 9,4% | 6,5% | 6,2% | 6,3% | 6,1% | 6,1% | 6,1% | 6,3% |
R^2 | R^2 top 3 | R^2 top 4-8 | Corrélation | Corrélation top 3 | Corrélation top 4-8 | |
---|---|---|---|---|---|---|
Densité Long tail | 0,36 | 0,83 | 0,00 | 0,60 | -0,91 | -0,02 |
Densité Short tail | 0,39 | 0,80 | 0,00 | 0,63 | -0,89 | 0,02 |
Densité Moyenne | 0,38 | 0,81 | 0,00 | 0,62 | -0,90 | 0,01 |
On peut voir que même en cherchant très fort la densité sémantique n’a aucune corrélation avec les positions en top 4 à 8 que ce soit pour les requêtes de courte ou de longue traine.
Rappelez-vous, c’était également très faible pour les SERPs commerciales.
Ce n’est donc pas un levier que je considérerai pour améliorer mes pages positionnées en bas de première page.
Le lien est plus marqué pour le top 3, mais pour être honnête cela est sans doute lié à la grosse différence entre le premier résultat et le suivant car il n’y a pas de grosse différence entre le 2ème et les résultats suivants.
Concernant la densité sémantique comme levier d’action pour mieux se positionner, cela ne semble donc pas être un facteur très intéressant à travailler en soit.
En fait, si votre page répond bien à l’intention de recherche une meilleure densité sémantique est le résultat d’une amélioration du score Thot SEO car vous allez enrichir votre texte sans avoir besoin de rajouter du contenu.
C’est tout pour la densité sémantique, passons au résumé.
Les points principaux de cette partie
✅ – Pour un contenu éditorial en top 4-8, toutes choses égales par ailleurs il est autant intéressant d’ajouter des informations (donc augmenter le nombre de mots) que de retravailler la sémantique.
❌ – L’étude ne trouve aucun lien significatif entre « position au sein du top 3 » et « nombre de mots » pour les contenus éditoriaux.
❌ – Jusqu’à preuve du contraire la densité sémantique n’a a priori pas d’impact sur les positions. Il y a sans doute un minimum à respecter mais cette métrique ne doit pas devenir un objectif d’optimisation.
✅ – Des trois variables, le score Thot SEO est celle avec la plus haute corrélation quel que soit le type de SERP.
✅ – Les premiers résultats ont un score Thot SEO bien supérieur au reste de la SERP. Cela est d’autant plus marqué pour les SERP éditoriales (environ 20 points de % en plus).
Conclusion de l’étude
Nous avons fait un tour assez complet des premiers résultats.
Globalement, l’étude comporte plusieurs limites liées aux méthodes statistiques employées mais les chiffres peuvent quand même nous aider à justifier certaines hypothèses pour nos tests SEO.
Je m’attendais à une corrélation existante mais assez faible pour le nombre de mots, donc pas de réelle surprise de ce côté-ci. En revanche je suis assez interloqué de la différence de score Thot SEO entre les positions 1 et 7-8.
Je trouve aussi curieux que le nombre de mots semble beaucoup plus impactant sur les SERP commerciales qu’éditoriales (dans le top 4-8). J’imagine que cela est lié à un nombre minimal de mots pour qu’un robot comprenne bien le thème de la page et ses limites mais je n’ai rien pour l’affirmer.
J’avais aussi l’intuition que la densité sémantique serait bien plus corrélée que cela mais j’ai dû me corriger en vitesse sur ce point.
Dans le futur, j’aimerai refaire cette analyse en séparant les requêtes non pas par nombre de mots mais par niveau de difficulté.
En attendant, n’hésitez pas à tester Thot SEO pour voir l’impact sur vos rankings. Je ne fais pas de crédits gratuits pour éviter les dérives mais le pack de 4 analyses ne coûte que 7€. C’est le prix d’un kebab (ou d’un café si vous êtes sur Paris). Une goutte d’eau à l’échelle de ce que peut vous rapporter une page bien positionnée !
Le mot de la fin ❤️ Cette étude m’a prit énormément de temps que ce soit pour la récolte des données, leur analyse ou la synthèse dans cet article. Si vous avez appris des choses n’hésitez pas pas à la partager autour de vous pour faire progresser la communauté !