Version PDF

Diabéto-Cardio

26 juin 2018

Le « p » statistique à 0,05 est-il sur la sellette et doit-il faire l’objet d’une réévaluation à la baisse pour être porté à 0,005 ?

Louis MONNIER, Institut de recherche clinique, Université de Montpellier

Dans un article publié dans le JAMA sous la rubrique « point de vue », JPA. Ioannidis, chercheur à l’université de Stanford et membre de l’American Statistical Association (ASA), soulève la question suivante : le seuil de pertinence du « p » statistique doit-il être maintenu à sa valeur classique de 0,05 ? L’auteur rappelle que la majorité des articles publiés (96 %) considèrent que les résultats d’une étude sont statistiquement significatifs dès que le « p » statistique devient < 0,05. Ce concept est cependant considéré comme problématique par l’ASA qui propose de revoir le statu quo et de faire passer le seuil de significativité à 0,005.
À l’appui de cette proposition, l’auteur rappelle que les valeurs de « p » sont souvent mal interprétées. À titre d’exemple une valeur de « p » à 0,02 (2 %) est souvent considérée, à tort, comme correspondant au niveau de probabilité de véracité de l’hypothèse nulle (par exemple l’efficacité identique d’un médicament et d’un placebo) tandis que l’hypothèse alternative (le médicament est plus efficace que le placebo) aurait une probabilité de 98 %.

Ioannidis JPA. The proposal to lower P value thresholds to 0.005. JAMA 2018 ; 319(14) : 1429-30. Quelques rappels sur l’analyse des tests statistiques L’interprétation qui vient d’être donnée est erronée. En fait, les tests statistiques (par exemple les tests de comparaison de moyennes par le test de Student ou de fréquences par le test du CHI-carré) permettent de quantifier l’erreur de type I appelée erreur alpha. Pour comprendre sa signification, supposons que nous comparions 2 médicaments A et B. L’hypothèse nulle (H0) est de considérer que A est équivalent à B (A = B). Deux cas de figure peuvent se présenter. Le premier est celui où l’hypothèse nulle est réellement vraie. Dans ce cas, si H0 est rejetée par les tests statistiques on commet une erreur de type I puisque le test indique que A est différent de B alors qu’en réalité A = B. En revanche si H0 n’est pas rejetée, on ne commet pas d’erreur. Le deuxième cas de figure est celui dans lequel l’hypothèse nulle (A = B) est réellement fausse. Dans ce cas si H0 est rejetée par les tests on ne commet pas d’erreur. En revanche, dans ce cas de figure on commet une erreur de type II (erreur bêta) si H0 n’est pas rejetée puisque le test indique que A = B alors que A est en réalité différent de B. Ces différentes situations sont consignées sur le tableau(1). Tableau. Les deux types d’erreur qui peuvent être observés quand on teste l’hypothèse nulle (H0) appelée également erreur alpha. La discordance entre le désaccord observé entre expérience réalisée et hypothèse nulle (H0) est quantifiée par la valeur de « p »(2). Le calcul de cette valeur relève normalement de calculs très complexes. Par bonheur la valeur de « P » est fournie par des tables grâce à une lecture directe en fonction du résultat du test statistique (calcul du t ou du CHI-carré par exemple) et en le rapportant à alpha (probabilité de faire une erreur de type I). Pour la probabilité bêta de faire une erreur de type II, sa valeur n’est en général ni connue ni spécifiée à l’inverse de la probabilité alpha de faire une erreur de type I. Il est bien connu que plus la probabilité de commettre une erreur de type I (alpha) est faible, plus la probabilité de commettre une erreur de type II (bêta) est élevée. Pour réduire à la fois les probabilités des 2 types d’erreur, il est nécessaire d’augmenter le nombre de cas (n)(1). Cette règle explique pourquoi il existe une surenchère permanente pour augmenter le nombre de cas dans toutes les études, en particulier celles où on envisage de comparer deux médicaments A et B. La même logique existe quand on veut comparer un médicament A versus un placebo. La conséquence est la réalisation et la publication de « méga études » de plus en plus fréquentes portant sur plus de 10 000 cas. Quelques exemples et considérations personnelles L’étude SAVOR-TIMI53(3) a été conçue pour comparer la survenue d’accidents cardiovasculaires mortels ou non mortels sous traitement par saxagliptine (un inhibiteur de la DPP-4) versus un groupe contrôle (placebo). Cette étude a porté sur 16 492 patients ayant un diabète de type 2. Malgré l’inclusion d’un grand nombre de sujets, les résultats de cette étude interventionnelle randomisée n’ont montré ni augmentation ni diminution des accidents cardiovasculaires (objectif principal) entre les 2 bras thérapeutiques. Pour essayer de trouver un résultat significatif et pour essayer de valoriser des études dont les résultats sont souvent neutres (décevants diront certains), les investigateurs ont pris l’habitude de définir et d’augmenter le nombre d’objectifs secondaires quand les résultats au niveau de l’objectif primaire, en l’occurrence les accidents cardiovasculaires, ne sont pas au rendez-vous : p = 0,99 pour la supériorité de la saxagliptine par rapport au placebo et p < 0,0001 pour la non-infériorité pour les 2 traitements dans l’étude SAVOR-TIMI53. Dans ces « méga essais » il est également habituel de compléter l’étude par une analyse de sous-groupes de patients choisis en fonction de paramètres anthropométriques ou cliniques tels que l’âge, le poids ou la présence/absence de complications cardiovasculaires au départ de l’étude. Ces mesures, qui consistent à fragmenter la population et à augmenter le nombre de critères d’évaluation, finissent parfois par conduire à des résultats significatifs sur certains paramètres ou dans certains sous-groupes, en particulier si l’on retient une valeur de « p » significative à un seuil de 0,05. Dans ces conditions, ne faut-il pas réduire la valeur du seuil de significativité du « p » à moins de 0,005 pour éviter de déclarer des résultats significatifs alors qu’ils ne le sont pas. C’est cette discussion qui fait l’objet du « point de vue » publié dans le JAMA par Ioannidis. Pour appuyer cette opinion que nous considérons comme tout à fait pertinente, prenons deux exemples. Dans l’étude SAVOR-TIMI53, les hospitalisations pour insuffisance cardiaque ont été significativement plus nombreuses (p = 0,007) dans le groupe saxagliptine que dans le groupe placebo. Cette augmentation de fréquence a alimenté les débats pendant de nombreux mois. Si la valeur du seuil de significativité du « p » avait été portée à 0,005, le résultat n’aurait pas été considéré comme significatif et aurait probablement évité d’interminables discussions dont la pertinence n’était pas évidente dans la mesure où par le jeu des simples lois du hasard une deuxième étude pratiquée dans les mêmes conditions n’aurait vraisemblablement rien montré de significatif, même avec le seuil classique de 0,05. Le deuxième exemple est celui de l’étude HEART2D dans laquelle 2 schémas insuliniques, l’un prandial (3 injections d’analogues rapides/jour) l’autre basal (glargine 1 fois/jour), sont comparés chez des patients ayant un diabète de type 2 et ayant fait un infarctus du myocarde. Les 2 schémas ont montré un effet identique en prenant comme critère la survenue d’une récidive d’accident cardiovasculaire dans l’étude principale(4). En revanche, dans une analyse réalisée dans la sous-population des sujets âgés (plus de 65,7 ans)(5) le schéma prandial s’est accompagné d’une diminution de la fréquence des récidives (p = 0,029). L’explication alléguée était que le schéma prandial réduisait mieux les excursions glycémiques postprandiales que le schéma basal. Ce dernier résultat serait donc en faveur d’un schéma insulinique prandial par rapport au basal. Toutefois plusieurs remarques viennent à l’esprit. La valeur du « p » quand le seuil est fixé à 0,05 laisse planer le doute sur sa réelle significativité, surtout quand il s’applique à une population réduite par rapport à la population initiale laquelle avait été randomisée alors que la sous-population (en l’occurrence la population âgée) n’a pas fait l’objet d’une « post-randomisation ». Cette dernière est pourtant indispensable si on veut éviter les biais statistiques. Dans ces conditions les résultats de l’analyse post-hoc de l’étude HEART2D chez les sujets âgés doivent être pris avec beaucoup de réserves. En conclusion, nous ne pouvons que souscrire à l’opinion exprimée par l’auteur de ce point de vue : la valeur seuil du « p » statistique devrait être adaptée aux objectifs poursuivis. La valeur de 0,05 est sûrement inadaptée dans de nombreuses études, y compris dans celles qui portent sur un grand nombre de cas. Dans certaines études, en particulier dans celles qui concernent le génome humain, l’auteur signale que le seuil devrait être porté à un niveau très bas, 8 chiffres après la virgule, soit p < 5.10-8. "Publié par Diabétologie Pratique"

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

Articles sur le même thème

publicité
publicité