Communication scientifique
Séance du 20 mars 2001

Réflexions sur quelques erreurs méthodologiques communes dans l’évaluation des médicaments. Dix ans d’expérience à la Commission d’autorisation de mise sur le marché

MOTS-CLÉS : étude évaluation. évaluation médicament. méthode.
Some most common methodological errors in clinical drug evaluation
KEY-WORDS : drug evaluation. evaluation studies. methods.

G. Bouvenot

Résumé

Une « surveillance méthodologique » d’une dizaine d’années à la Commission d’autorisation de mise sur le marché a permis de relever les imperfections ou erreurs méthodologiques les plus fréquentes dans les dossiers cliniques d’enregistrement, en particulier dans le domaine de l’évaluation du médicament en rhumatologie : des essais de taille et de puissance statistique insuffisantes, une détermination de la dose optimale manquant de rigueur, l’importance du bruit de fond dû aux traitements associés, le choix d’un comparateur et d’une unité statistique parfois discutable, l’usage abusif de critères intermédiaires et, dans la présentation des résultats, une importance excessive donnée à l’analyse per protocole, une insuffisance de prise en compte de la quantité de l’effet, des revendications abusives d’équivalence et des analyses en sous-groupes non convaincantes.

Summary

A ten year experience at the national french marketing authorization committee has permitted to notice the most commonly methodological errors in the field of clinical research and, particularly, in the dossiers for drug approval : a frequent insufficient sample size resulting in lack of statistical power, an unsatisfactory optimal dosing research, a misuse of the so-called surrogate markers, an erroneous opinion about the meaning of the p value, an abusive claim for equivalence in non significant superiority trials, a misuse of unajusted multiple comparisons and too much confidence in subgroup analysis results.

Dans le champ de la recherche clinique, l’évaluation des nouveaux médicaments fait figure de modèle pour la rigueur méthodologique et la qualité de la réalisation. Pour ne parler que du développement clinique, promoteurs, méthodologistes, biostatisticiens, investigateurs, cliniciens travaillent ensemble à des projets dont la mise en œuvre, dans le respect des règles strictes et communément admises, permet de mettre sur le marché des produits fiables tant du point de vue de l’efficacité que de la sécurité d’emploi.

Pourtant, c’est une règle générale que les dossiers présentent des imperfections ou des faiblesses sur lesquelles les méthodologistes de la commission chargée d’examiner les dossiers d’enregistrement attirent régulièrement l’attention. Car les dossiers exempts de faiblesse méthodologique constituent une exception. Il est, à ce propos, difficile d’imputer à ces imperfections tel pourcentage d’avis défavorables prononcés à l’encontre des dossiers soumis car, ce qui est pris en compte par la commission d’AMM pour rendre ses avis, c’est, plus globalement, l’appréciation du rapport bénéfices/risques des produits. Toutefois, l’insuffisance méthodologique d’un dossier ne manque jamais de faire douter de l’efficacité du produit ou, à tout le moins, de l’importance de la quantité d’effet annoncée. Le propos qui suit concerne dix ans d’expérience à la Commission française d’autorisation de mise sur le marché dans le domaine de la rhumatologie.

Le rôle d’un méthodologiste est de s’assurer, lorsqu’il entreprend la lecture critique d’un compte rendu d’essai, de la fiabilité des résultats, autrement dit de la minimisation des biais.

Trois exigences [1] paraissent devoir être respectées à cet égard :

— l’effectif des patients doit permettre à l’essai d’avoir une puissance statistique suffisante ;

— l’analyse principale doit concerner l’ensemble des inclus afin de ne pas porter atteinte à la comparabilité initiale résultant du tirage au sort de l’attribution des traitements ;

— les hypothèses de l’étude (supériorité, équivalence, non infériorité du produit testé…) doivent avoir été spécifiées à l’avance, afin que le choix du plan expérimental et les principes méthodologiques à mettre en œuvre soient parfaitement appropriés.

Bien entendu, un préalable essentiel est la qualité des données produites.

La taille de l’essai et la puissance statistique

Trop nombreux ont été, dans la décennie écoulée, les essais dont la taille insuffisante (ou l’hétérogénéité des patients inclus, ou l’insuffisante caractérisation du contexte pathologique) n’a pas permis, faute de la puissance statistique nécessaire, de mettre en évidence la différence escomptée entre les deux produits comparés. Dans ces conditions, on a vu trop souvent les promoteurs de ces essais prétendre de manière abusive à l’équivalence. Car ne pas mettre en évidence, dans un essai de supériorité,
de différence entre les effets de deux traitements ne signifie pas pour autant qu’ils sont équivalents. Ils peuvent aussi bien ne pas l’être en raison du risque statistique beta, qui est de conclure à tort à une absence de différence alors qu’une différence existe réellement. C’est pour se prémunir contre ce risque qu’il convient, avant de réaliser tout essai, de calculer le nombre de sujets nécessaires garantissant que la puissance statistique de l’étude sera suffisante. Ainsi évite-t-on , par la même occasion, de mettre en œuvre des essais inutiles dont les conclusions ne sont pas fiables et qui ne sont donc pas justifiés du point de vue de l’éthique [2].

Le choix de la meilleure dose

C’est généralement le point faible des dossiers d’enregistrement, particulièrement dans les cas d’essais de longue durée. L’évaluation des traitements de l’ostéoporose ou des chondroprotecteurs dans l’arthrose requiert, par exemple, des essais de deux à trois ans et ne permet donc pas d’individualiser des essais de phase 2 (de détermination de la dose optimale) et des essais de phase 3 de mise en œuvre de cette dose pour juger au mieux de l’effet thérapeutique. Il en résulte un télescopage des phases 2 et 3, si bien que rien n’autorise à affirmer que la dose ultérieurement conseillée en pratique quotidienne est la meilleure [2]. De même, la dose optimale (minimale efficace) de certains AINS destinés au traitement symptomatique de l’arthrose du sujet âgé, n’a pas toujours été rigoureusement établie, pour une optimisation du rapport bénéfice/risque chez ces patients fragiles.

Le problème des traitements associés

Dans un essai, l’idéal voudrait que l’on teste isolément le produit à l’étude, en dehors de tout bruit de fond. Or c’est loin d’être toujours possible, et le bruit de fond de certains traitements concomitants ou associés obligatoires est assourdissant. C’est, par exemple, le cas de l’évaluation d’un nouvel AINS chez des patientes atteintes de polyarthrite rhumatoïde traitées en permanence par méthotrexate ou par un autre traitement de fond, comme celui de l’évaluation d’un nouvel anti-ostéoporotique chez des patientes recevant également du calcium et de la vitamine D. Il en résulte, dans ces conditions, une difficulté accrue à prouver l’efficacité du produit testé et, dans un contexte aussi peu discriminant, une propension des promoteurs à revendiquer l’équivalence.

Le choix du comparateur

La comparaison du nouveau produit au produit de référence devant être la plus honnête possible, il faudra prendre garde à ce que chacun des deux traitements soit donné à sa posologie optimale. Il ne serait en effet pas raisonnable de comparer un nouvel AINS à un produit de référence donné à une dose suboptimale, avec l’arrière-pensée d’être ainsi mieux à même de démontrer l’efficacité, ni de se comparer délibérément au médicament le plus mal toléré de sa classe pour mettre en exergue une meilleure tolérance. Le comparateur [1] doit donc être un médicament
éprouvé, largement utilisé, théoriquement le meilleur traitement disponible. Ce n’est malheureusement pas toujours le cas.

L’unité statistique

Dans un essai clinique, l’unité statistique doit être le patient. L’évaluation d’un AINS, par exemple, ne saurait prendre en compte, isolément, chacune des articulations touchées. D’une part parce qu’un médicament actif sur une articulation est supposé l’être sur les autres ; d’autre part parce que les méthodes statistiques utilisées pour l’analyse des résultats ne sont valides qu’en cas d’indépendance des observations. Les présentations de résultats du type « nombre d’articulations amé- liorées et non améliorées par un produit » ne sont donc pas recevables [3]. Elles sont heureusement de moins en moins fréquentes dans les dossiers. L’utilisation d’indices articulaires combinant chez un même malade le nombre d’articulations touchées et l’intensité de l’atteinte permet de résoudre le problème. Dans le même ordre d’idées, il est impératif que l’activité d’un traitement de l’ostéoporose post-ménopausique se juge sur le nombre de patientes ayant présenté une ou plusieurs nouvelles fractures vertébrales pendant la durée de l’essai, et non sur le nombre de nouvelles fractures vertébrales, quoique certaines firmes continuent encore à produire ce type de résultats.

Usage de pseudo-critères de substitution

L’évaluation du rapport bénéfice/risque des candidats-médicaments ne devrait se fonder que sur des critères cliniques tels que la morbidité, la qualité de vie, la mortalité, seuls pertinents pour juger de l’état de santé des malades. Mais, en pratique, une telle évaluation clinique est difficile à réaliser, en particulier lorsque l’essai doit prendre en compte un événement dont le taux de survenue, peu fréquent, impose de suivre un nombre très élevé de patients sur une très longue période, ce qui est incompatible avec un développement rapide et une mise à disposition précoce du nouveau produit pour les malades. On a donc pris l’habitude de se satisfaire de critères intermédiaires d’obtention plus rapide, considérés comme pouvant être substitués aux critères cliniques parce qu’ils leur sont corrélés, qui ont une valeur prédictive et peuvent même, dans une certaine mesure, quantifier le bénéfice clinique attendu à partir de leur propre variation sous traitement. Cependant, nombre de ces prétendus critères de substitution n’ont pas fait leur preuve et ont dû être abandonnés. Les méthodologistes les considèrent à juste titre avec beaucoup de suspicion et rappellent, par exemple, que la densité minérale osseuse — sur laquelle ont été fondées les évaluations des sels de fluor, des calcitonines et de certains biphosphonates — ne peut plus être actuellement considérée comme un critère de substitution fiable de la survenue des fractures osseuses [2]. Le recours à des pseudo-critères de substitution n’est qu’une solution de facilité, dangereuse pour les industriels du médicament comme pour les investigateurs dans leur course au développement et à la publication.

L’analyse principale des essais

Deux types d’analyse sont proposés après la fin de l’essai. L’analyse dite en intention de traiter (ITT), qui porte sur l’ensemble des sujets randomisés selon le traitement attribué par le sort indépendamment de l’existence ou non de violations au protocole, et l’analyse dite per protocole (PP) qui ne concerne, par exemple, que les patients bons observants du protocole. L’analyse en ITT crée de la frustration [3-4] car il ne semble, à première vue, ni logique ni légitime de juger l’efficacité d’un traitement chez des patients qui ne l’ont pas bien pris ou même qui ne l’ont pas pris du tout, mais elle minimise les biais et constitue par ailleurs le fondement nécessaire à la réalisation des tests statistiques. Elle doit donc être considérée comme l’analyse principale sur laquelle nous nous déterminons. Trop souvent les firmes pharmaceutiques privilégient l’analyse PP qui favorise abusivement la mise en évidence de l’efficacité du produit testé. Cette analyse réduit non seulement la taille de l’effectif des patients préalablement calculée pour assurer la puissance voulue, mais surtout détruit la comparabilité initiale des groupes due à la randomisation. Elle ne peut être que biaisée [5]. Une dérive observée récemment dans certains dossiers d’enregistrement résulte d’un dévoiement des définitions des deux types d’analyse et de la présentation, sous l’appellation officielle d’analyse en ITT, de ce qui n’est en fait qu’une analyse per protocole déguisée.

Le seuil de signification et la quantité de l’effet

Un certain nombre de promoteurs et d’investigateurs confondent encore la valeur de « p » avec celle de l’intensité de l’effet thérapeutique d’un médicament. Or « p » est seulement la probabilité que le hasard ait permis d’observer une différence aussi grande que celle constatée entre les résultats des deux traitements comparés si, dans la réalité, ces deux traitements ne diffèrent pas. C’est donc une erreur de croire que plus la valeur de « p » est petite, plus le produit est efficace. En pratique, il suffirait d’augmenter l’effectif des patients recrutés pour diminuer « p », sans que cela ait, bien entendu, la moindre incidence sur l’efficacité des traitements. Une autre erreur plus commune du chercheur clinicien est d’être obnubilé par la valeur de « p », sans se représenter concrètement la signification clinique de l’effet observé qui, bien que statistiquement significatif, peut être cliniquement insignifiant.

Les vraies et les fausses équivalences

En recherche clinique, le mélange des genres est délétère. Un essai de supériorité est destiné à montrer une différence, par exemple entre un nouveau produit et son placebo. Un essai d’équivalence ou de non infériorité est destiné à montrer que le produit no 2 est équivalent au produit no 1 ou, du moins, qu’il ne lui est pas inférieur.

Dans le cas d’une comparaison à une référence validée, on peut ainsi prouver l’efficacité d’un nouveau médicament. Dans un essai de supériorité, on n’est nulle-
ment autorisé, si aucune différence n’est mise en évidence entre les deux produits, à conclure à l’équivalence [6-7]. Nombreux sont ceux qui se sont cru autorisés à tirer de telles conclusions abusives au cours de la décennie écoulée. Un effectif plus important de patients aurait pu en effet prouver que le nouveau produit, loin d’être équivalent à l’ancien, lui était inférieur.

Un apport majeur des essais d’équivalence (dont la mise en application est récente) à l’évaluation clinique est qu’ils obligent le clinicien à réfléchir à la notion de quantité d’effet. Car ils lui imposent de définir, dans tous les domaines, la zone d’équivalence clinique de deux traitements, à savoir une zone bornée par la plus grande différence entre ces traitements qui soit dépourvue d’intérêt clinique. Aussi, dès lors qu’une équivalence clinique a été consensuellement définie dans un domaine particulier, il faut en tenir le plus grand compte lorsqu’on décide de reconnaître à tel ou tel produit une supériorité par rapport à un autre. La quantité d’effet attendu d’un médicament efficace devra donc, par définition, sortir des limites de l’intervalle d’équivalence [8-10].

Comparaisons multiples

L’abus des comparaisons multiples est un autre travers à stigmatiser [3]. Idéalement, une hypothèse est testée dans un essai par un seul test statistique. Cependant, il arrive fréquemment qu’un traitement doive être évalué sur plusieurs variables explorant chacune un aspect particulier de la maladie à traiter. Or la multiplicité des variables — généralement non indépendantes — et la répétition de leur mesure dans le temps augmentent la probabilité d’observer à tort une différence. C’est pourquoi des précautions doivent être prises qui garantissent la fiabilité des résultats. D’abord le choix a priori de la variable principale au regard des variables secondaires ou accessoires ; d’autre part un ajustement rigoureux du seuil de significativité. Si l’on admet qu’il faille juger un traitement de la polyarthrite rhumatoïde sur ses effets sur la douleur, mais aussi sur l’inflammation et la raideur articulaires, l’état fonctionnel du patient, son jugement global, sa qualité de vie… il importe de bien spécifier a priori les règles du jeu et de ne pas choisir ni changer le critère principal d’évaluation après avoir pris connaissance des données, comme on le voit encore faire quelquefois.

Les analyses en sous-groupes

Une des erreurs méthodologiques les plus pernicieuses est certainement, lorsque l’analyse de l’essai n’est pas globalement significative, de faire appel à l’analyse d’un sous-groupe constitué a posteriori , naïvement ou pour le besoin de la cause [1, 11-13]. Car, lorsque la constitution d’un sous-groupe ne résulte pas d’une stratification du tirage au sort, la comparabilité initiale apportée par la randomisation est, par définition, compromise. Aussi, bien que l’analyse d’un sous-groupe puisse parfois constituer un mode d’exploration séduisant pour l’esprit, elle doit néan-
moins être considérée comme potentiellement biaisée. Elle ne saurait être prise en compte autrement que comme une piste intéressante permettant de planifier des études ultérieures, dont les conclusions pourront alors être éventuellement convaincantes. Qu’une analyse en sous-groupe, portant donc sur un effectif plus réduit que prévu et par ailleurs planifiée sur un échantillon de patients sélectionnés sur des caractéristiques pouvant à elles seules rendre compte des résultats observés, ne doive pas être considérée comme conclusive est parfois difficile à expliquer aux investigateurs. En particulier quand il s’agit d’un sous-groupe d’individualisation apparemment légitime comme celui des patients les plus âgés d’un essai ou, par exemple dans le cadre de l’ostéoporose, celui des patientes les plus gravement atteintes, à densité minérale osseuse la plus basse (mais comment les définir après coup ?). Mais, l’exemple donné par Collins [14] du caractère absurde et dangereux de certaines analyses en sous-groupe permet de faire justice de cette prétendue pertinence : la prise en compte dans l’essai ISIS-1, portant sur 16 000 patients suspects d’infarctus du myocarde, du signe zodiacal comme facteur pronostique, semble indiquer une protection particulière pour les natifs du Scorpion.

La mise en application, depuis quelques années, des procédures européennes d’enregistrement des médicaments (procédure centralisée et procédure de reconnaissance mutuelle), de même que la publication par l’Agence Européenne (EMEA) et par l’International Conference on Harmonisation de notes et recommandations touchant aux principes statistiques des essais cliniques [1] que nul n’est plus censé ignorer, ont grandement contribué à améliorer le niveau méthodologique de ce type d’évaluation. Mais il reste à bien faire comprendre, au-delà de la présentation formelle des dossiers, les concepts sous-jacents, afin que les pratiques ne soient pas vides de sens. C’est le combat permanent des méthodologistes.

BIBLIOGRAPHIE [1] The European Agency for the Evaluation of Medicinal Products. Note for guidance on statistical principles for clinical trials. London, 1998.

[2] BOUVENOT G., VRAY M. — Essais cliniques : théorie, pratique et critique. Paris : Flammarion Médecine-Sciences Edit., 3ème éd, 1999.

[3] ANDERSEN B. — Methodological errors in clinical research. Oxford : Blackwell Scientific Publications Edit, 1990.

[4] LEE J.Y., ELLENBERG J.H., HIRTZ D.G., NELSON K.B. — Analysis of clinical trials by treatment actually received : is it really an option ? Stat. Med., 1991 , 10 , 1595-1605.

[5] HOLLIS S., CAMPBELL F. — What is meant by intention to treat analysis ? Survey of published randomized controlled trials. BMJ, 1999, 319 , 670-674.

[6] JONES B., JARVIS P., LEWIS A., EBBUTT A.F. – Trials to assess equivalence : the importance of rigorous methods. BMJ, 1996, 313 , 36-40.

[7] TEMPLE R. — When are clinical trials of a given agent vs. Placebo no longer appropriate nor feasible ? Controlled Clin. Trials, 1997, 18 , 613-620.

[8] BOUVENOT G., VILLANI P. — Les essais d’équivalence en rhumatologie.

Rev. Rhum., 2000, 67 , 569-572.

[9] TEMPLE R., ELLENBERG S.S. — Placebo-controlled trials and active-control trials in the evaluation of new treatments. Part 1 : Ethical and scientific issues. Ann. Intern. Med., 2000, 133 , 455-463.

[10] TEMPLE R., ELLENBERG S.S. — Placebo-controlled trials and active-control trials in the evaluation of new treatments. Part 2 : Practical issues and specific cases. Ann. Intern. Med., 2000, 133 , 464-470.

[11] ASSMANN S.F., POCOCK S.J., ENOS L.E., KASTEN E.L. — Subgroup analysis and other misuses of baseline data in clinical trials. Lancet, 2000 , 355 , 1064-1060.

[12] OXMAN A., GUYATT G.H. — A consumer’s guide to subgroup analysis.

Ann. Int. Med., 1992 , 116 , 78-84 [13] YUSUF S., WITTES J., PROBSTFIELD J., TYROLER A. — Analysis and interpretation of treatment effects in subgroups of patients in randomized clinical trial. JAMA, 1991, 266 , 93-98.

[14] COLLINS R., GRAY R., GODWIN J., PETO R. — Avoidance of large biases and large random errors in the assessment of moderate treatment effects : the need for systematic overview. Stat.

Med. , 1987 , 6, 245-250.

DISCUSSION

M. Louis AUQUIER

Qu’en est-il de l’effet Hawthorne ?

Il s’agissait de savoir, il y a quelques décennies aux États-Unis, si la luminosité avait de l’influence sur la productivité d’ouvriers travaillant dans une usine. Un groupe d’ouvriers a donc bénéficié d’une luminosité accrue, la luminosité habituelle ayant été conservée pour l’autre groupe. Les résultats ont montré que la productivité avait augmenté dans les deux groupes : la cause en était que tous les ouvriers ayant participé à cette étude s’étaient sentis observés et avaient accru leur effort.

M. Jean-Paul GIROUD

En dehors des imperfections ou erreurs méthodologiques des dossiers de pharmacologie clinique, comment peut-ton expliquer l’apparition sur le marché de médicaments dont l’efficacité clinique réelle n’a jamais été démontrée et ne le sera sans doute jamais ? Dans le cadre des médicaments utilisés en rhumatologie, pourriez-vous nous donner votre sentiment sur les critères utilisés pour définir les médicaments de l’arthrose ?

La présence actuelle sur le marché de médicaments dont l’efficacité est faible, voire douteuse, s’explique par le fait qu’il s’agit presque toujours de médicaments anciens. Ces médicaments ont été mis sur le marché il y a longtemps, à une époque de moindre rigueur méthodologique et de moindres exigences en matière d’évaluation. Doit-on pour autant les retirer du marché ? Avant de prendre toute décision à ce sujet, il faut d’abord s’interroger sur leur sécurité d’emploi et leur utilité pratique, dans le cadre, par exemple, de la prise en charge d’affections bénignes, et en gardant à l’esprit l’idée que la suppres-
sion de ces médicaments anodins induirait peut-être un accroissement du recours à des médicaments plus dangereux. Dans le même ordre d’idées, on ne peut s’empêcher de penser que certains anti-arthrosiques permettent peut-être d’éviter un emploi abusif et pérenne d’anti-inflammatoires non stéroïdiens chez des sujets âgés à risque.

M. Patrice QUENEAU

Vous avez rappelé à juste titre un certain nombre des biais pouvant conduire à des conclusions fausses en matière de recherche de la nécessaire vérité thérapeutique chez les malades. Pour revenir sur un de vos exemples, la fausse efficacité des sels de fluor comme prévention et comme traitement de l’ostéoporose, comment expliquer que pendant plus d’une décennie, cette fausse-vérité ait pu rester vérité au plan international, alors même qu’elle reposait sur les seuls pseudo-critères de substitution que vous avez critiqués très légitimement ? Et comment expliquer que des publications internationales réitérées dans les revues à impact factor élevé, doublées de méta-analyses réputées exigeantes, n’aient pu conduire à déceler plus tôt cette erreur doublement grave concernant l’inefficacité des sels de fluor et a fortiori leur dangerosité ?

Le contexte scientifique est en perpétuelle évolution, et avec lui, le choix évolutif des critères d’évaluation les plus appropriés pour juger de l’efficacité des candidatsmédicaments. A l’époque où les sels de fluor ont obtenu l’enregistrement dans certains pays, on privilégiait la densité minérale osseuse et les mesures purement quantitatives comme critère de jugement d’efficacité des traitements de l’ostéoporose. Ultérieurement, les conceptions ont changé, la qualité de l’architecture osseuse est apparue comme un facteur également important de sa résistance mécanique, dans le même temps qu’apparaissaient d’autres classes thérapeutiques plus efficaces sur le critère clinique « fracture » jugé plus pertinent que le critère de substitution « densité minérale osseuse ». La sécurité d’emploi d’un produit n’est réellement bien connue qu’après qu’un effectif très important de malades y ait été exposé. Le petit nombre des patients inclus dans les essais cliniques pré-AMM ne permet pas d’en avoir une estimation très précise. Par ailleurs, les thérapeutes savent bien que la vérité thérapeutique est toujours provisoire…

M. Jean-Baptiste PAOLAGGI

Comment peut-on avoir accès aux publications de la littérature grise ? Comment sont définis exactement les critères de diagnostic et de surveillance puisqu’il y a souvent des changements de paradigme ? Y a-t-il un moyen de déterminer les frontières entre erreurs, conduite négligente, et fraude ?

L’existence d’une littérature grise et du biais de publication est un problème majeur pour la mise en place concrète de ce que l’on appelle la médecine fondée sur les preuves et que les anglo-saxons appellent « Evidence-based medicine ». Les spécialistes de la métaanalyse traquent ce genre de littérature, mais il n’est jamais certain que leur quête de données soit exhaustive. Un des problèmes majeurs que vous soulevez concerne la validité des résultats publiés dans la grande littérature médicale internationale. Ni l’éditeur, ni les relecteurs choisis par l’éditeur avant d’autoriser la publication ne sont à même de s’assurer de la fiabilité des données. Seules les agences d’enregistrement ayant pouvoir d’inspection peuvent mettre en évidence des négligences plus ou moins coupables ou même des fraudes, dont les conséquences sont susceptibles d’invalider les résul-
tats de l’étude présentée. Quelques exemples de situations de ce type se sont produits ces dernières années. A titre personnel, je ne sais même pas si le directeur d’une agence d’évaluation a le droit de prendre l’initiative d’informer un éditeur de revue que telle étude publiée dans ses colonnes a été inspectée et ne présente pas les caractères requis d’honnêteté et de régularité. Il faut ajouter que, d’une manière générale, les essais émanant de l’industrie pharmaceutique sont de meilleure qualité que ceux réalisés dans le cadre d’un artisanat de la recherche, disposant de peu de moyens.


* Vice-président de la Commission d’autorisation de mise sur le marché. Tirés-à-part : Professeur Gilles BOUVENOT, Laboratoire de Thérapeutique. Faculté de Médecine de Marseille — 13285 Marseille cedex 5. Article reçu le 20 juin 2000, accepté le 9 octobre 2000.

Bull. Acad. Natle Méd., 2001, 185, no 3, 583-592, séance du 20 mars 2001