We found a match
Your institution may have rights to this item. Sign in to continue.
- Title
REGULAR ARTICLES.
- Abstract
325 Likelihood Methods for Treatment Noncompliance and Subsequent Nonresponse in Randomized Trials Alors que de nouvelles méthodes qui prennent en compte la non conformité et des données manquantes pour des essais randomisés ont été proposés, les doubles effets de la non conformité et de données manquantes ont rarement étéétudiés simultanément. Nous construisons un estimateur du maximum de vraisemblance (MLE) de l'effet causal de l'affectation d'un traitement pour un essai randomiséà deux niveaux supposant une non-conformité de traitement totale et autorisant une non réponse postérieure. L'algorithme EM est utilisé pour estimer les paramètres. Notre procédure de vraisemblance s'appuie sur une covariable latente d'état de non-conformité qui décrit le comportement d'un sujet sous toutes les affectations possibles du traitement et qui caractérise le mécanisme d'obtention de données manquantes comme dans Frangakis et Rubin (1999, Biometrics, 58, 21–29). En utilisant des données simulées nous montrons que le MLE pour des résultats Normaux peut être comparé de manière satisfaisante aux estimateurs MOM (méthode des moments) et « ITT » standard sous 1) des données Normales ou non, et 2) des suppositions sur les écarts simultanés à l'ignorance latente et à la restriction d'exclusion. Nous illustrons ces méthodes en employant des essais destinés à comparer l'efficacité de deux anti-psychotiques pour des adultes atteints de schizophrénie opiniâtre. 335 Determining a Maximum-Tolerated Schedule of a Cytotoxic Agent La plupart des essais de phase I sont conçus pour déterminer la dose maximale tolérée (MTD) d'un agent cytotoxique expérimental pour une administration unique ou un cycle de traitement. La toxicité est définie habituellement par l'apparition d'un ou plusieurs effets néfastes dans une courte période après l'initiation du traitement. Cependant les administrations sont souvent répétées et les effets se cumulent, aussi les médecins ont à gérer des effets toxiques à long terme. Nous proposons une nouvelle méthode adaptée à ce contexte. Elle est basée sur la date d'apparition des effets toxiques plutôt que sur une évaluation binaire de ceux-ci, l'objectif étant de déterminer un rythme maximum toléré d'administration plutôt que la conventionnelle MTD. Le modèle et la méthode tiennent compte de la totalité de la séquence d'administrations dont bénéficie le patient, le risque global est modéliséà partir de la somme d'une suite de risques, chacun associéà une adminisration. La gestion des données et la prise de décision sont réalisées en continu pendant toute la durée de l'essai. Nous illustrons la méthode avec un essai de transplantation de moelle osseuse allogénique pour déterminer la durée de l'administration d'un HGF recombinant en vue d'éviter une attaque aiguë du greffon dirigée vers l'hôte. Une simulation est présentée dans le contexte de l'essai. 344 A Bayesian Approach to Jointly Modeling Toxicity and Biomarker Expression in a Phase I/II Dose-Finding Trial Dans cet article, nous proposons une approche bayésienne pour modéliser de façon jointe une mesure de toxicité binaire et une mesure continue de l'expression d''un gène dans un essai clinique d'oncologie en phase 1/11. Nous appliquons notre méthode à un essai d'une nouvelle thérapie génique pour le cancer de la vessie. Dans cet essai, l'expression du biomarqueur indique l'activité biologique de la nouvelle thérapie. Pour des raisons éthiques, l'essai est conduit de façon séquentiel, la dose pour chaque patient successif étant choisie en tenant compte des données de toxicité et d'activité des patients précédents. La modélisation que nous utilisons incorpore naturellement la corrélation entre la toxicité mesurée de façon binaire et l'activité mesurée de façon continue via une variable latente gaussienne. Les règles de décision d'escalade/désescalade de la dose sont basées sur la distribution a posteriori à la fois de l'activité et de la toxicité. Un modèle à espace d'états flexible est utilisé pour relier la mesure de l'activité et de la dose. Des études de simulations extensives montrent que ce plan choisit de façon sûre la dose préférable en utilisant à la fois la mesure de la toxicité et de l'activité sous différents scénarios cliniques. 355 Variance Estimation in Clinical Studies with Interim Sample Size Reestimation Nous considérons des études cliniques avec une re-estimation de la taille d'échantillon fondée sur une estimation de variance faite après avoir dévoilé les codes des traitements en un certain point provisoire de l'étude. Puisque la taille de l'échantillon est déterminée de façon flexible, l'estimateur de la variance habituel est biaiséà la fin de l'essai. Nous donnons des bornes précises pour ce biais. Ces bornes ont une forme relativement simple et peuvent aider à décider si ce biais est négligeable pour l'étude en question ou si l'on doit faire une correction. On donne aussi une formule exacte pour ce biais. Nous discutons des possibilités de se débarrasser de ce biais ou au moins de le réduire de façon substantielle. Nous voyons sur un exemple que que le niveau de signification du test peut être contrôler quand une correction additive est utilisée. 362 Adaptive Design and Estimation in Randomized Clinical Trials with Correlated Observations Des dispositifs d'essais cliniques impliquant des données corrélées se présentent fréquemment en recherche biomédicale. La corrélation intra-groupe doit être prise en compte pour assurer la validité de la taille de l'échantillon et des calculs de puissance. Contrairement à des plans d'expérience à taille fixe d'échantillon, nous proposons un plan flexible, avec un monitorage et des procédures d'inférence adaptatifs. La taille totale de l'échantillon n'est pas prédéterminée, mais réévaluée en fonction des données observées via un mécanisme systématique. Le test statistique final est une moyenne pondérée des statistiques de test par bloc basés sur l'équation d'estimation généralisée, dans laquelle le poids de chaque bloc dépend des données cumulées provenant de l'essai en cours. Quand il n'y a pas d'effet significatif du traitement, la règle proposée autorise un arrêt précoce du traitement et l'acceptation de l'hypothèse nulle. La méthode d'inférence proposée actualise l'information basée sur les données cumulées, à la fois pour la taille des effets et pour la corrélation intra-groupe, de manière à atteindre la puissance désirée. Des estimations du paramètre intéressant et de son intervalle de confiance sont proposées. La méthode est suffisamment générale pour traiter des caractères continus ou discrets et diverses structures de covariance. Des simulations ont permis d'examiner les caractéristiques opérationnelles de la méthode proposée et de l'illustrer sur un exemple. 370 Adaptive Risk Group Refinement Nous construisons une règle pronostique interprétable basée sur une séquence de sous-ensembles de l'espace des prédicteurs indexés par la proportion de patients restants dans le groupe pronostique. La méthode peut, en outre, être utilisée pour construire des règles pronostiques plus générales basées sur des réunions d'ensembles, ou même comme un outil permettant de trouver plusieurs groupes pronostiques. A partir de simulations, nous étudions les propriétés de la nouvelle méthode et nous la comparons aux méthodes par arbres de régression et aux modèles à risques proportionnels. Enfin, nous considérons un exemple basé sur des données issues de plusieurs essais cliniques portants sur des patients atteints de myélome multiple. 379 Partly Conditional Survival Models for Longitudinal Data Il est fréquent dans les analyses longitudinales de recueillir des informations cliniques pendant le suivi des patients jusqu'à un événement clinique d'intérêt, tel que la mort par exemple: on peut ainsi mesurer des marqueurs de l'état de santéà des temps successifs durant le suivi. Une approche pour l'analyse conjointe de la survie et de mesures répétées est basée sur un modèle de régression prédisant le risque de l'événement en prenant en compte une covariable dépendant du temps. Avec cette approche classique, le risque instantané de mourir au temps t est spécifié comme une fonction semi-paramétrique de l'information fournie par les covariables recueillies jusqu'au temps t. Dans cet article, nous découplons l'échelle de temps utilisée pour modéliser le risque instantané de celle utilisée pour le recueil longitudinal des covariables. Spécifiquement, nous proposons une classe de modèles conditionnés sur l'information fournie par les covariables jusqu'au temps s, et nous spécifions alors une fonction de risque pour les temps t avec t > s. Notre approche est parallèle à celle proposée par Pepe et Couper (1997) avec des modèles partiellement conditionnés pour des mesures répétées complètes. L'estimation se base sur des équations appliquées aux clusters de données formés à chaque temps successif de survie allant du temps où l'on mesure les covariables jusqu à la fin du suivi. Le suivi des patients peut être interrompu soit par l'apparition de l'événement d'intérêt, soit par censure. Les méthodes proposées permettent une caractérisation flexible des associations entre un temps de survie et le processus d'évolution d'une covariable, et facilitent la prédiction directe des probabilités de survie dans l'évaluation de covariables variant au cours du temps. 392 Nonparametric Estimation of the Bivariate Recurrence Time Distribution Cet article s'intéresse aux modèles statistiques pour lesquels deux types d'événements différents, tels que le diagnostic d'une maladie et la rémission de la maladie, apparaissent alternativement au cours du temps et sont observés avec une censure à droite. Nous proposons des estimateurs non paramétriques pour la distribution jointe des temps de récurrence bivariés et la distribution marginale du premier temps de récurrence. En général, la distribution marginale du second temps de récurrence ne peut pas être estimée à cause d'un problème d'identification, mais une distribution conditionnelle du second temps de récurrence peut être estimée de manière non paramétrique. Dans la littérature, des méthodes statistiques ont été développées pour estimer la distribution jointe des temps de récurrence bivariés en se basant sur des données de la première paire de temps de récurrence bivariés censurés. Ces méthodes ne sont pas efficaces pour le modèle considéré ici, car les temps de récurrence d'ordres plus élevés ne sont pas utilisés. Des propriétés asymptotiques des estimateurs proposés sont établies. Des études numériques démontrent que les estimateurs sont adéquats avec des tailles d'échantillons pratiques. Nous appliquons la méthode proposée à une région du sud de Vérone en Italie. Des données de registre de cas psychiatriques sont utilisées pour illustrer les méthodes et la théorie. 403 A General Class of Bayesian Survival Models with Zero and Nonzero Cure Fractions Nous proposons une nouvelle classe de modèles de survie qui lie naturellement une famille de fonctions de survie de population appropriées et impropres. Les modèles issus des fonctions de survies impropres sont souvent référencés aux modèles à taux de guérison. Cette classe de modèles de régression est formulée par la transformation de Box-Cox sur la fonction de risque de la population et une fonction de densité appropriée. En ajoutant un paramètre de transformation supplémentaire dans le modèle à taux de guérison, nous sommes capables de produire des modèles à taux de guérison nul, conduisant ainsi à une fonction de survie de population appropriée. Une illustration graphique du comportement et de l'influence du paramètre de transformation sur la régression est fournit. Nous nous situons dans une approche bayésienne dont la motivation repose sur la complexité du modèle. Les spécifications a priori doivent satisfaire les contraintes des paramètres liées à la non négativité de la fonction de survie. De plus, la fonction de vraisemblance implique une intégrale complexe sur la fonction de survie, qui n'a pas de forme analytique proche, et ainsi rend la mise en oeuvre de l'échantillonneur de Gibbs plus difficile. Nous proposons un algorithme MCMC efficace basé sur une quadrature de Gauss. La méthode proposée est illustrée à partir d'un essai clinique sur le mélanome. 413 Effects of Variance-Function Misspecification in Analysis of Longitudinal Data L'approche des équations d'estimation généralisées est basée sur le cadre des modèles linéaires généralisés mais autorise la spécification d'une matrice de corrélation de travail pour modéliser les corrélations intra sujets. La variance est souvent supposée une fonction connue de la moyenne. Ce papier étudie l'impact d'une mauvaise spécification de la fonction de variance sur les estimateurs des paramètres moyenne pour les réponses quantitatives. Nos études numériques indiquent que (1) une spécification correcte de la fonction de variance peut améliorer l'efficience des estimations même si la structure de corrélation est mal spécifiée; (2) la mauvaise spécification de la fonction de variance a un impact plus grand sur les estimateurs des covariables intra grappes que pour les covariables inter grappes; (3) si la fonction de variance est mal spécifiée, un choix correct de la structure de corrélation n'améliore pas nécessairement l'efficience des estimations. Nous illustrons les impacts des différentes fonctions de variance en utilisant un jeu de données réel sur la croissance des bovins. 422 Estimation of Breeding Values Using Selected Pedigree Records Les poissons élevés en aquarium ou en bassin ne peuvent pas facilement être identifiés individuellement. La lignée d'un individu peut être déterminée au moyen de ses empreintes d'ADN mais cela est particulièrement coûteux rendant impossible l'étude d'un grand nombre d'individus. La mesure d'un trait d'intérêt peut être effectuée sur un large échantillon pour un coût relativement modeste. Ce papier décrit des plans expérimentaux pour sélectionner les individus dont les empreintes génétiques seront déterminées et estimer les valeurs d'élevage individuelles et familiales. Le modèle général fournit des estimateurs à la fois des effets génétiques considérés comme fixes ou aléatoires et des paramètres de régression associés à des covariables. Les effets famille sont correctement estimés même lorsqu'un petit nombre de sujets est typés à condition que ces individus soient ceux présentant les valeurs extrême du phénotype. 433 Estimating the Species Accumulation Curve Using Mixtures En tant qu'outil dans les études écologiques, la courbe d'accumulation des espèces est le graphe du nombre attendu d'espèces recensées en en fonction du taux de sondage. Le problème de l'estimation de la courbe d'accumulation des espèces basée sur un jeu de données empirique résultant d'un échantillonnage par quadrat est étudiée sur un modèle de mélange binomial non paramétrique. Il est montré que l'estimation de la courbe d'accumulation des espèces est non seulement indépendante du nombre inconnu d'espèces mais inclut également l'estimation du nombre d'espèces comme cas limite. A fin d'interpolation, les estimateurs basés sur les moments, associés à des intervalles de confiance asymptotiques, sont développés selon plusieurs points de vues différents. Une procédure basée sur la vraisemblance est développée dans le but de l'extrapolation, associée à des intervalles de confiance par bootstrap. Les méthodes proposées dont illustrés à partir de jeux de données écologiques. 442 Multievent: An Extension of Multistate Capture–Recapture Models to Uncertain States Les modèles de capture-recapture ont été initialement développés pour tenir compte de probabilités de détection inférieures à 1 dans les populations animales libres. Aujourd'hui, ces modèles prennent en compte les mouvements des animaux entre différents sites et sont aussi utilisés pour étudier les transitions entre différents états. Cependant, leur utilisation pour étudier les transitions entre états ignore l'incertitude dans la détermination des états. Je présente ici l'extension des modèles multiévénements qui incorpore cette incertitude. Les modèles multiévénements appartiennent à la famille des modèles de Markov cachés. Je montre aussi, dans ce papier, que le modèle à mémoire, dans lequel l'état ou le site suivant est influencé par l'état précédemment occupé, peut être traité complétement dans le cadre des modèles multiévénements. 448 Analyzing Multi-environment Variety Trials Using Randomization-Derived Mixed Models L'analyse des résultats de séries d'expériences répétées dans plusieurs environnements avec le même ensemble de variétés de plante est quelque chose d'intéressant. Supposons que les expériences, essais de variété multi-environnementaux, sont tous conduits dans un cadre de plans en blocs incomplets décompensables. Suivant l'approche de randomisation adoptée dans Calinski et Kageyama (2000, Block Designs: A Randomization Approach, Vol. I/Analysis. Lecture Notes in Statistics 150), deux modèles peuvent êtres considérés pour l'analyse de telles données. L'un se fonde sur l'hypothèse de complète additivité, l'autre prend en compte les différentes réponses possibles des variétés aux conditions expérimentables variables. L'analyse sous le premier modèle, le modèle standard, ne procure pas de réponses relatives à la performance des variétés individuelles dans différents environnements. Cela peut être considéré dans l'utilisation d'un second modèle plus général. L'objectif de cet article est de combiner l'estimation des paramètres d'intérêt et des procédures de tests d'hypothèses sous un modèle plus réaliste. Une application est illustrée par une analyse minutieuse d'un jeu de données issues d'essais approfondis sur des séries de blés d'hiver. 456 A Semiparametric Two-Component “Compound” Mixture Model and Its Application to Estimating Malaria Attributable Fractions Le paludisme, qui demeure un problème épidémiologique majeur dans de nombreux pays en développement, se définit par la présence simultanée de parasites et des symptômes (fièvre) qu'ils provoquent. A l'échelle individuelle, les symptômes présentés par un sujet dans une zone d'endémie, peuvent être dus au paludisme ou à une autre cause et il est important de porter un diagnostic correct pour pouvoir le soigner efficacement. A l'échelle collective, il est également important de connaître la proportion de patients impaludés parmi les sujets qui présentent des symptômes afin de développer une politique de santé publique. Quand un patient présente des symptômes, le diagnostic de paludisme dépend de la mesure de la concentration de parasites dans le sang, mais dans les zones d'endémie, un test sanguin ne permet pas de conclure, dans la mesure où des sujets en bonne santé peuvent être porteurs du parasite. Les données de ce type d'études peuvent être modélisées par un mélange de distributions dont les composantes correspondent respectivement aux patients avec et sans paludisme. Une caractéristique spécifique de ces données est la présence d'un sous-groupe de patients sans paludisme dont la concentration de parasites est nulle, autrement dit, l'une des deux composantes est elle-même un mélange de distributions. Nous proposons un modèle semi-paramétrique pour estimer, par maximisation de la vraisemblance empirique, la proportion de cas de paludisme dans une population de patients symptomatiques dont la concentration de parasites est connue. Le rapport des densités dans les sous-groupes de patients avec et sans paludisme est représenté par un modèle logistique. Cet estimateur est plus efficace que les estimateurs non paramétriques qui n'utilisent que la proportion de zéro. Il est par ailleurs plus robuste que l'estimateur du maximum de vraisemblance qui modélise paramétriquement les données non nulles. Les performances de la méthode, évaluées par simulation, sont satisfaisantes. Nous l'illustrons avec les données d'une enquête sur le paludisme réalisée en Tanzanie. 465 A Likelihood Approach for Quantitative-Trait-Locus Mapping with Selected Pedigrees L'échantillonnage non aléatoires de données familiales est une stratégie efficace en terme de coût pour identifier des loci impliqués dans la variabilité d'un trait quantitatif (QTL). Un modèle unifié utilisant naturellement, à partir des données, deux sources complémentaires d'information sur la liaison génétique est proposé pour caractériser des QTLs au sein de pédigrees échantillonnées non aléatoirement. Des statistiques du Score pour détecter la liaison génétique sont présentées pour des modèles à un locus (phénotype univarié ou bivarié) et à deux locus avec épistasie. L'algorithme implémentant les modèles univariés à un locus est décrit pour des familles nucléaires avec un nombre arbitraire d'enfants, le programme étant disponible gratuitement. 474 The Full EM Algorithm for the MLEs of QTL Effects and Positions and Their Estimated Variances in Multiple-Interval Mapping L'apparition de cartes génétiques saturés de marqueurs ADN a rendu possible les études systématiques visant à localiser des QTL (quantitative trait loci) dans les organismes expérimentaux. La méthode de cartographie par intervalles multiples est une approche appropriée pour localiser les QTL à l'aide de marqueurs génétique. Cependant, des algorithmes efficaces pour les calculs nécessaires sont encore à développer. Dans ce travail, nous avons développé un algorithme EM complet pour l'estimation simultanée par maximum de vraisemblance des effets des QTL et de leur localisation sur le génome. Les formules fondées sur l'EM pour le calcul de la matrice observée d'information de Fisher sont dérivées. Cet algorithme EM complet est comparéà un algorithme ECM proposé par Kao et Zeng (1997). La validité de l'inverse de la matrice observée de Fisher comme estimation de la matrice de variance des estimateurs du maximum de vraisemblance est démontrée par une étude de simulation. 481 Statistical Aspects in Physical Mapping Application to the Genome of Strain GM Ce travail traite des problèmes inhérents aux cartes physiques, en particulier pour des génomes circulaires. Le chevauchement de deux fragments obtenus séparément par deux enzymes de restriction différentes peut être classé comme nul, partiel et total. Un chevauchement partiel-double peut parfois être obtenu dans certaine situation. En prenant en compte la longueur des fragments d'ADN et en considérant les extrémités 5' de deux fragments comme des variables aléatoires indépendantes et uniformément distribuées sur un génome circulaire, les expressions des probabilités à priori de ces évènements sont présentées. Cette information est combinée avec des données d'hybridation au moyen du théorème de Bayes pour déterminer les probabilités à posteriori correspondantes. Une analyse de sensibilité est réalisée pour étudier l'influence de la longueur des fragments utilisée sur les résultats obtenus. 488 Bayesian Error-in-Variable Survival Model for the Analysis of GeneChip Arrays Les micropuces à ADN en conjonction avec les modèles statistiques peuvent aider à mieux comprendre les bases moléculaires d'une maladie donnée. Un intense domaine de recherche consiste à identifier les gènes associés à des phénotypes particuliers. Cependant, la technologie est sujette à plusieurs sources d'erreurs, ce qui peut conduire à des relevés d'expression substantiellement différents des vrais niveaux de transcription. Peu de méthodes d'analyse des données de micropuces ont jusqu'à maintenant pris en compte cette erreur de mesure de façon satisfaisante et c'est l'objectif de ce travail. Nous décrivons un modèle bayésien de type error-in-variable pour l'analyse de données de micropuces issues d'une étude clinique sur la leucémie lymphoblastique aiguë. Nous nous intéressons particulièrement à l'identification de gènes dont les profils d'expression sont associés avec la durée de rémission. Il s'agit d'une question présentant un grand intérêt pratique puisque la rechute est la principale inquiétude dans le traitement de la maladie. Nous étudions l'impact de cette erreur de mesure sur les estimations des niveaux d'expression et sur la sélection et le classement des gènes étudiés. 498 Imputation and Variable Selection in Linear Regression Models with Missing Covariates Au travers d'ensembles de données imputées multiples, les méthodes de sélection de variables telles que la régression pas à pas et autres stratégies basées sur des critères qui gardent ou rejettent des variables particulières reviennent dans des modèles avec différents prédicteurs, présentant alors le problème de combiner les résultats obtenus à partir d'analyses de données séparées sur des cas complets (sans données manquantes). Ici, travaillant dans un cadre bayesien, nous proposons deux stratégies alternatives pour résoudre le problème consistant à choisir parmi des modèles de régression quand il y a des covariables manquantes. Une approche, que nous appelons « imput, and then sélect » (ITS) implique une imputation initiale multiple puis l'utilisation d'une sélection bayesienne de variables aux ensembles de données multiples imputées. Une seconde stratégie est de conduire une sélection bayesienne de variables et simultanément une imputation de données manquantes dans un processus d'échantillonnage de Gibbs, nous l'appelons « simultaneously impute and select » (SIAS). Ces méthodes sont développées et évaluées en utilisant la procédure bayesienne connue comme sélection de variables par recherche stochastique pour des ensembles de données multivariées normales, mais les deux stratégies offrent des cadres généraux à l'intérieur desquels différents algorithmes bayesiens de sélection de variables peuvent être utilisés pour d'autres types de données. Une étude sur l'utilisation des services de santé mentale pour des enfants dans les programmes de soins pour enfants est utilisée pour illustrer ces techniques. Des études de simulation montrent que, à la fois ITS et SIAS, surpassent les analyses obtenues avec les cas complets et une sélection de variables pas à pas, et que SIAS surpasse légèrement ITS. 507 Variable Selection for Marginal Longitudinal Generalized Linear Models La sélection de variable est une partie essentielle de toute analyse statistique et a été jusqu'à présent quelque peu négligée dans le contexte des analyses de données longitudinales. Nous proposons dans ce papier une version généralisée du Cp de Mallow ( GCp) appropriée pour à la fois des modèles paramétriques et non paramétriques. GCp fournit une estimation de la mesure d'adéquation de modèle pour de la prédiction. Nous examinons ces qualités dans le cadre des populaires modèles longitudinaux marginaux (ajustés par GEE) et comparons les résultats avec ce qui est fait habituellement en pratique, la sélection de variables basée sur le test de WALD ou le score-test. Une application à des données réelles démontre de plus les mérites de notre approche en soulignant quelques caractéristiques importantes inhérentes à GCp. 515 Frequentist Performance of Bayesian Confidence Intervals for Comparing Proportions in 2 × 2 Contingency Tables Cet article investigue les performances, au sens fréquentiste du terme, des intervalles de confiance bayésiens pour la différence de proportions, le risque relatif et le rapport de chances (odds ratio) dans les tableaux de contingence 2 × 2. Nous envisageons des a priori beta, logit-normaux, et des a priori reliés corrélés pour deux paramètres binomiaux. Le but était d'analyser si certaines conditions pour les paramètres a priori tendent à produire de bonnes performances de couverture indépendamment des vraies valeurs du paramètre d'association. Pour le risque relatif et le rapport de chance, nous recommandons des intervalles de queues plutôt que des intervalles basés sur la plus grande densité a posteriori, pour des raisons d'invariance. Pour se protéger contre des probabilités de couverture potentiellement très mauvaises quand l'effet est important, il vaut mieux utiliser un a priori diffus, et nous recommandons l'a priori de Jeffreys. Par ailleurs, avec des échantillons relativement petits, les intervalles de confiance utilisant des a priori plus informatifs (même uniformes) tendent à avoir de plus mauvaises performances que les intervalles de confiance fréquentistes basés sur l'inversion du test du score, qui a uniformément d'assez bonnes performances pour ces paramètres. 524 Exact Two-Sample Inference with Missing Data Lorsque l'on compare des mesures de suivi à partir de deux populations indépendantes, des enregistrements manquants peuvent survenir lors de censure par événements dont l'occurrence est associée aux covariables de base. Dans ces situations, les inférences basées uniquement sur des observations de suivi complètes peuvent être biaisées si les mesures du suivi et les covariables sont corrélées. Ce papier décrit une inférence exacte pour une classe de U-statistiques modifiées lorsque les sorties sont dépendantes des covariables. La méthode implique de peser chaque permutation selon les probabilités de rétention et donc requière une estimation du mécanisme de données manquantes. La procédure proposée est non-paramétrique car aucune hypothèse de distribution n'est nécessaire pour les variables réponse et les types de non-réponses. Une approximation de Monte Carlo par l'échantillonneur de Gibbs est proposée, et on montre qu'elle est rapide et exacte via des simulations. La méthode est illustrée pour deux petits jeux de données pour lesquels des procédures inférentielles asymptotiques ne sont pas appropriées. 532 Adjusting O'Brien's Test to Control Type I Error for the Generalized Nonparametric Behrens–Fisher Problem O'Brien (1984) a proposé une méthode simple, non para-métrique, pour tester si des valeurs observées sur plusieurs critères, dans un groupe de traitement, étaient globalement plus élevées que les valeurs observées dans un autre groupe de traitement. Après une étude des propriétés théoriques du test d'O'Brien, nous le confrontons au problème général de Behrens-Fisher, dans un cadre non paramétrique où l'on ne fait aucune hypothèse sur les distributions. Nous montrons dans quelles conditions le test d'O'Brien, asymptotiquement, contrôle ou échoue à contrôler l'erreur de première espèce; nous proposons, pour ce dernier cas, des tests ajustés. Il est à noter que, dans cet article, nous ne supposons jamais que les variables sont toutes continues. Par ailleurs, nous effectuons des simulations pour comparer les tests ajustés au test d'O'Brien. Les différences entre ces tests sont aussi illustrées sur les données d'un essai clinique dans la maladie de Parkinson.
- Publication
Biometrics, 2005, Vol 61, Issue 2, p647
- ISSN
0006-341X
- Publication type
Article
- DOI
10.1111/j.0006-341X.2005.20050531_2_1.x