z-logo
Premium
REGULAR ARTICLES
Publication year - 2007
Publication title -
biometrics
Language(s) - French
Resource type - Journals
SCImago Journal Rank - 2.298
H-Index - 130
eISSN - 1541-0420
pISSN - 0006-341X
DOI - 10.1111/j.1541-0420.2007.00796_2.x
Subject(s) - humanities , physics , mathematics , philosophy
J. S. Schildcrout and P. J. Heagerty 322Marginalized Models for Moderate to Long Series of Longitudinal Binary Response Data Les modèles marginalisés (Heagerty, 1999) permettent l'inférence basée sur la vraisemblance lorsqu'on s'intéresse à des modèles marginaux de régression pour des données longitudinales binaires. Deux modèles de ce type sont le modèle de transition marginalisée, et le modèle à variable latente marginalisée. Le premier reflète la dépendance sérielle intra‐sujet au sein des mesures répétées avec des termes de transition dans le modèle, tandis que le deuxième suppose l'échangeabilité ou la non‐décroissance de la dépendance de la réponse avec des intercepts aléatoires. Dans cet article, nous étendons la classe des modèles marginalisés en proposant un modèle simple unifié décrivant à la fois la dépendance sérielle et la dépendance au long terme. Ce modèle est particulièrement utile dans des analyses longitudinales avec un nombre de mesures répétées par sujet modéré ou large, où aussi bien les formes sérielles et échangeables de la corrélation de la réponse peuvent être identifiées. Nous décrivons des approches bayésiennes et au maximum de vraisemblance pour l'estimation des paramètres et pour l'inférence, et nous étudions les caractéristiques opérationnelles pour de grands échantillons, sous deux types de mauvaise spécification du modèle de dépendance. On analyse les données de l'étude longitudinale de schizophrénie de Madras (Thara, 1994). Y. Zheng and P. J. Heagerty 332Prospective Accuracy for Longitudinal Markers Nous nous intéressons dans cet article aux méthodes statistiques permettant de caractériser la valeur pronostique d'un marqueur clinique longitudinal. Il est souvent facile d'obtenir des mesures répétées d'un même marqueur. Quand chacune a la capacité de révéler une modification en cours de l'état clinique, le marqueur peut guider la prise de décisions médicales importantes. Heagerty et al. (2000) ont proposé de caractériser la qualité diagnostique d'un marqueur mesuréà l'entrée dans l'étude en calculant des courbes ROC pour les cas incidents cumulés de la maladie ou les décès. Ils considéraient l'état de santé comme une fonction du temps, D ( t ) = 1( T ≤ t ) où T est le délai de survenue de l'événement clinique étudié. Dans cet article, nous cherchons à caractériser la capacité d'un marqueur mesuré au temps s ( s ≥ 0 après l'entrée) à identifier les sujets qui vont présenter l'événement dans l'intervalle [ s , t ]. Nous supposons que l'état de santé est déterminé par l'observation d'un événement à l'instant t et nous nous intéressons donc aux sujets qui passent de l'état sain à l'état malade. Nous voulons des méthodes compatibles avec l'inclusion de covariables pronostiques afin que les règles d'aide à la décision soient spécifiques au sujet dont on veut prédire un éventuel changement de l'état de santé. Nous proposons de représenter la distribution bivariée de la date de l'événement et de la valeur du marqueur à un instant quelconque s à l'aide d'un modèle semiparamétrique très souple. Nous illustrons ces méthodes en analysant un jeu de données sur le SIDA recueillies dans l'enquête MACS (Multicenter AIDS Cohort Study). W. Liu and L. Wu 342Simultaneous Inference for Semiparametric Nonlinear Mixed‐Effects Models with Covariate Measurement Errors and Missing Responses Les modèles semi‐paramétriques mixtes non linéaires (NLME, «NonLinear Mixed‐Effects») offrent une grande souplesse dans l'étude de données longitudinales avec des structures complexes. Les covariables sont habituellement introduites dans ces modèles afin d'expliquer une partie des variations inter‐individuelles. Toutefois certaines covariables sont mesurées avec des erreurs conséquentes. Par ailleurs les réponses peuvent être manquantes avec une censure informative. Nous proposons deux méthodes basées sur la vraisemblance pour des modèles semi‐paramétriques NLME en présence d'erreurs de mesures sur des covariables et des données manquantes de type «non ignorables». Les méthodes sont illustrées à partir d'un jeu réel de données. Les résultats obtenus par simulation mettent en évidence de bonnes performances des deux méthodes, bien meilleures que la méthode «naïve» communément utilisée. D. Zhang, X. Lin, and M. Sowers 351Two‐Stage Functional Mixed Models for Evaluating the Effect of Longitudinal Covariate Profiles on a Scalar Outcome L'étude Hormone Journalière, une sous‐étude de l'étude nationale de santé de la femme (SWAN) constituée de plus de 600 femmes pré et péri ménopausiques, inclue une mesure scalaire de la densité minérale osseuse de la hanche totale (BMD) conjointement à des mesures répétées de l'hormone de stimulation folliculaire (FSH) ajustées sur la créatinine obtenues à partir d'échantillons journaliers d'urine collectés sur un cycle menstruel. Il est d'un intérêt scientifique d'étudier l'effet du profil temporel de FSH durant un cycle menstruel sur la BMD de la hanche totale en ajustant sur l'âge et l'index de masse corporelle. L'analyse statistique est rendue difficile par plusieurs caractéristiques des données: (1) La covariable FSH est mesurée longitudinalement et son effet sur le niveau de BMD peut être complexe; (2) Du fait des longueurs variables de cycle menstruel, les sujets ont des mesures longitudinales de FSH non équilibrées; (3) Les mesures longitudinales de FSH sont sujettes à des variations en inter et intra‐sujets considérables et des erreurs de mesure. Nous proposons un modèle linéaire fonctionnel partiel avec erreurs de mesure, où les mesures répétées de FSH sont modélisées en utilisant un modèle fonctionnel à effets mixtes et l'effet du profil temporel de FSH sur BMD est modélisé en utilisant un modèle fonctionnel linéaire partiel en traitant le vrai profil temporel de FSH sujet‐spécifique non observé comme une covariable fonctionnelle. Nous développons une méthode de calibration par régression non paramétrique en utilisant des splines lissants périodiques. En utilisant la connexion entre les splines lissants et les modèles mixtes, nous montrons qu'une caractéristique clé de notre approche est que l'estimation aux deux étapes peut être ramenée de façon pratique au cadre d'un modèle mixte unifié. Une procédure simple de test de l'effet constant d'une covariable fonctionnelle est aussi proposée. Les méthodes proposées sont évaluées en utilisant des études de simulation et appliquées aux données SWAN. M. Liu and Z. Ying 363Joint Analysis of Longitudinal Data with Informative Right Censoring On parle de données longitudinales quand les sujets sont suivis sur une période de temps. Une complication fréquemment rencontrée dans l'analyse de telles données est la variable durée de suivie due aux censures à droite. Ceci peut être amplifié par la possible dépendance entre le temps de censure et les mesures longitudinales. Cet article propose l'association d'un modèle de transformation semi‐paramétrique pour les temps de censure et d'un modèle linéaire à effets mixtes pour les mesures longitudinales. La dépendance est prise en compte via des variables latentes qui sont évidemment intégrées. Nous montrons que la fonction de vraisemblance a une forme explicite et nous développons une procédure d'estimation à deux étapes pour éviter une maximisation directe sur un espace de paramètre à grande dimension. Les estimateurs obtenus sont consistants et asymptotiquement normaux, avec une matrice de variance‐covariance qui peut être utilisée pour obtenir un estimateur «plug‐in». Les propriétés de la méthode proposée sont étudiées par de nombreuses simulations. La méthode est appliquée aux données de maladie rénale. M. G. Hudgens, M. H. Maathuis, and P. B. Gilbert 372Nonparametric Estimation of the Joint Distribution of a Survival Time Subject to Interval Censoring and a Continuous Mark Variable Cet article considère trois estimateurs non‐paramétriques de la fonction de distribution conjointe d'un temps de survie et d'une variable marqueuse continue lorsque le temps de survie est censuré par intervalles et que la variable marqueuse peut être manquante pour des observations censurées. Les propriétés finies et asymptotiques sont décrites pour l'estimateur non‐paramétrique du maximum de vraisemblance (NPMLE) ainsi que pour l'estimateur reposant sur l'imputation au milieu (MIDMLE) et l'estimateur reposant sur la discrétisation de la variable marqueuse (CMLE). Ces estimateurs sont comparés sur des données simulées et sur les données d'un essai récent d'efficacité d'un vaccin VIH où le temps de survie était le temps écoulé entre l'inclusion et l'infection et la variable marqueuse la distance génétique entre la séquence du VIH infectant et la séquence du VIH du vaccin. Des preuves théoriques et empiriques indiquant la non‐convergence de NPMLE et de MIDMLE sont présentées. En revanche, l'estimateur CMLE est généralement convergent et, donc, préféré. A. H. Herring and J. Yang 381Bayesian Modeling of Multiple Episode Occurrence and Severity with a Terminating Event L'état de santé d'un individu peut agir sur la fréquence et l'intensité d'épisodes se produisant de façon répétée. Ces épisodes peuvent eux‐mêmes être prédictifs de la survenue d'un événement plus important, qui constitue une variable d'intérêt. Ainsi, des épisodes de saignements pendant la grossesse peuvent révéler des problèmes prédictifs d'accouchement prématuré. C'est du reste cet exemple qui nous a conduits à proposer une modélisation conjointe de l'occurrence des épisodes répétées et du temps de survenue de l'événement final. La fréquence des épisodes et leur sévérité sont caractérisées à l'aide d'un modèle à variables latentes, où l'intensité des épisodes d'un individu peut varier dans le temps, de façon dynamique. Cette intensité latente des épisodes est ensuite introduite, en tant que facteur prédictif, dans un modèle à temps discret de l'événement final. Des coefficients dépendant du temps permettent de distinguer, parmi les effets estimés, ceux qui, au cours de la grossesse, auront une influence précoce ou tardive. Ce modèle est formulé dans un cadre bayésien, et les distributions a priori sont choisies de telle sorte que les distributions conditionnelles a posteriori puissent se conjuguer aisément avec de nouvelles données, au fur et à mesure de leur accumulation (on effectue ces calculs à l'aide d'un échantillonnage de Gibbs). A titre d'illustration, on présente l'application de ces méthodes à des données d'épisodes de saignements et de termes d'accouchements, données extraites d'une étude sur les grossesses. X. Huang and L. Liu 389A Joint Frailty Model for Survival and Gap Times Between Recurrent Events La thérapie pour des patients avec maladies récurrentes se concentre sur l'étude des temps avant la rechute ou le décès. Une analyse en commun pour de telles données est d'estimer la distribution des temps de survie sans maladie, c'est à dire le temps jusqu'à la première récurrence de la maladie ou le temps jusqu'au décès quelque soit l'évènement qui arrive en premier. Néanmoins traiter le décès comme une récurrence de la maladie peut donner des résultats trompeurs. De même, considérer seulement la première récurrence en ignorant les suivantes peut conduire à une perte de puissance statistique. Nous utilisons un modèle de fragilité joint pour analyser simultanément les temps avant la récurrence ou avant le décès. Des paramètres différents pour les temps de récurrence et les temps de survie sont utilisés dans le modèle joint pour évaluer les effets du traitement sur ces deux types d'évènements. La corrélation entre les temps de récurrence et de survie est prise en compte par une variable de fragilité partagée. L'effet de la récurrence sur la survie peut aussi être estimé par ce modèle. L'algorithme EM est utilisé pour ajuster le modèle avec des simulations MCMC à l'étape E. La méthode est évaluée par des études de simulation et illustrée par une étude sur des patients avec défaillance cardiaque. L'analyse de la sensibilité de la méthode à l'hypothèse paramétrique sur la distribution de fragilité est étudiée par simulations. A.‐C. Andrei and S. Murray 398Regression Models for the Mean of the Quality‐of‐Life‐Adjusted Restricted Survival Time Using Pseudo‐Observations Au cours de cette recherche nous développons des modèles de régression généralisée pour la moyenne ajustée de qualité de vie restreinte au temps de survie. Des estimateurs des paramètres et des écart‐types pourront être obtenus à partir des équations générales d'estimation appliquées à des pseudo observations. Des simulations avec des tailles d'échantillon raisonnables sont conduites et un exemple issu du groupe international d'étude sur le cancer du sein Ludwig Trial V est utilisé pour illustrer la méthodologie nouvellement développée. M. Mandel and R. A. Betensky 405Testing Goodness of Fit of a Uniform Truncation Model Plusieurs tests d'adéquation d'une distribution de temps de vie à un modèle ont été suggérés dans la littérature; beaucoup prennent en compte la censure et/ou la troncature des temps d'événements. Dans certains contextes, l'intérêt porte sur un test d'adéquation de la distribution de troncature. En particulier, de meilleurs estimateurs de la distribution des temps de vie peuvent être obtenues lorsque la connaissance sur la loi de troncature est mise à profit. En cas d'échantillonnage transversal, par exemple, la supposition que la distribution de troncature est uniforme a des justifications théoriques, et plusieurs études l'ont utilisée pour améliorer l'efficacité de leurs estimateurs de survie. La dualité des temps de vie et de troncature en l'absence de censure permet d'utiliser les méthodes de test d'adéquation de la distribution des temps de vie pour tester l'adéquation de la distribution de la troncature. Cependant, en présence de censure aléatoire, cette dualité est en défaut et des tests différents sont nécessaires. Dans cet article, nous introduisons plusieurs tests d'adéquation pour la distribution de troncature et nous investiguons leurs performances en présence de temps d'événements censurés à l'aide de simulations. Nous montrons l'usage de nos tests sur deux jeux de données. H. Y. Chen 413A Semiparametric Odds Ratio Model for Measuring Association Nous proposons une modélisation semi‐paramétrique des odds ratio qui permet de mesurer l'association entre deux variables discrètes, continues ou qui sont un mélange des deux types. Nous étudions diverses méthodes d'estimation plus ou moins robustes par rapport aux suppositions sur lesquelles repose le modèle. Nous envisageons également des procédures d'estimation et d'inférence semi‐paramétriques efficaces. Les méthodes d'estimation sont comparés à l'aide de simulations et appliquées à l'étude des dénombrements de bactéries dans le tractus génital de femmes infectées par le VIH. Y. Lokhnygina and J. D. Helterbrand 422Cox Regression Methods for Two‐Stage Randomization Designs Les planifications de randomisation à deux étapes (TSRD: two‐stage randomization designs) sont devenus de plus en plus fréquentes dans les essais cliniques en oncologie et sur le SIDA puisqu'ils permettent une inclusion plus optimale des patients dans l'étude afin d'évaluer les traitements. Dans ces protocoles, les patients sont initialement randomisés pour un traitement d'induction, puis randomisés pour un traitement d'entretien, selon leur réponse au traitement d'induction et leur consentement à poursuivre le protocole. La possibilité d'analyser «en intention de traiter» l'efficacité du traitement d'induction expérimental et du traitement d'induction standard, à traitement d'entretien fixé, pourrait conditionner l'utilisation plus fréquente du TSRD dans le développement du médicament. Récemment Lunceford, Davidian et Tsiatis (2002) ont introduit une structure analytique basée sur une pondération par l'inverse de la probabilité pour estimer les distributions de survie et les délais moyens de survie restreintes, et pour comparer des stratégies thérapeutiques dans le cadre des TSRD. En pratique, le modèle de régression de Cox est largement utilisé et dans cet article nous étendons la structure analytique de Lunceford et al. (2002) pour obtenir un estimateur consistant du log risque dans le modèle de Cox et un score test robuste pour comparer des stratégies thérapeutiques. Les propriétés asymptotiques de ces méthodes sont montrées, illustrées via une étude par simulation et appliquée à un essai clinique TSRD. X. Huang, S. Biswas, Y. Oki, J.‐P. Issa, and D. A. Berry 429A Parallel Phase I/II Clinical Trial Design for Combination Therapies L'administration simultanée de plusieurs traitements est désormais répandue, notamment en cancérologie, que ce soit dans le cadre des essais cliniques ou en tant que stratégie thérapeutique. Dans la mesure où les essais traditionnels sont conçus pour évaluer un traitement à la fois, l'évaluation de thérapies combinées requiert des plans d'expérience spécifiques. Nous proposons donc de substituer, aux habituels essais distincts de phases I et II, un essai clinique parallèle de phaseI/II, permettant d'évaluer à la fois la tolérance et l'efficacité de différents niveaux combinés de dose, puis d'identifier les doses combinées optimales. L'essai commence par une période d'escalade de dose, à la suite de laquelle les patients sont randomisés à des niveaux de dose acceptables que l'on compare alors entre eux. Au moment de la randomisation, on utilise des probabilités bayésiennes a posteriori afin d'affecter, de façon adaptative, les doses les plus efficaces à davantage de patients. Au fur et à mesure, les combinaisons de doses les moins efficaces sont suspendues, tandis que celles qui présentent une toxicité inacceptable sont exclues de l'étude. L'essai s'arrête lorsque la probabilité a posteriori liée à la tolérance, à l'efficacité ou à la futilité dépasse une valeur préalablement spécifiée. Pour illustration, nous appliquons ce plan d'expérience à un essai sur des traitements chimiothérapiques, dans le domaine de la leucémie. A l'aide de simulations, nous évaluons les propriétés opérationnelles de cette phase I/II, et les comparons à celles d'un plan classique faisant se succéder phase I et phase II. Ces simulations montrent que le plan proposé diminue la taille de l'effectif, permet de gagner de la puissance, et attribue les doses les plus efficaces à un plus grand nombre de patients. A. Mattei and F. Mealli 437Application of the Principal Stratification Approach to the Faenza Randomized Experiment on Breast Self‐Examination En nous basant sur l'approche dite de «stratification principale» développée par Frangakis et Rubin (2002), nous proposons une méthode d'analyse de données issues d'essais randomisés présentant conjointement des défauts d'observance, des données manquantes liées à ces défauts et des données tronquées par le décès des sujets. Nous n'avons pas connaissance de travaux antérieurs ayant traité simultanément ces différents problèmes. Cette méthode est illustrée par un essai randomisé d'auto‐examen des seins. E. E. M. Moodie, T. S. Richardson, and D. A. Stephens 447Demystifying Optimal Dynamic Treatment Regimes Un régime dynamique de traitement est une fonction prenant l'historique de traitement et des covariables ainsi que les valeurs de base des covariables en entrée, et donnant en réponse la décision à prendre. Murphy (2003) et Robins (2004) ont proposé des modèles et développé des méthodes semi‐paramétriques pour réaliser une inférence relative au régime optimal de traitement dans un essai multi‐intervalle, qui présente des avantages nets sur les approches paramétriques classiques. Nous montrons que le modèle de Murphy est un cas particulier de celle de Robin, et que les méthodes sont étroitement liées mais non équivalentes. Des spécificités intéressantes de ces méthodes sont soulignées en utilisant l'étude de cohorte multicentre SIDA (MACS) et par simulation. P. R. Rosenbaum 456Sensitivity Analysis for m‐Estimates, Tests, and Confidence Intervals in Matched Observational Studies Les M‐estimateurs de Huber utilisent une équation d'estimation dans laquelle des observations peuvent avoir un niveau contrôlé de leur influence. La famille des M‐estimateurs inclut les moindres carrés et le maximum de vraisemblance, mais des applications particulières donnent un poids limité aux observations extrêmes. Maritz a proposé des méthodes d'inférence par permutation exacte et approchée pour les M‐tests, les intervalles de confiance et les estimateurs, qui peuvent être déduits de l'attribution aléatoire des sujets appariés au traitement ou au témoin. En revanche, dans des études non planifiées, où des traitements ne sont pas affectés aléatoirement, les sujets appariés pour des covariables observées peuvent être différents pour des covariables qui ne le sont pas, ainsi les différents résultats peuvent ne pas être des effets dus au traitement. Dans des études non planifiées, une méthode d'analyse de sensibilité est développée pour les M‐tests, les M‐intervalles et les M‐estimateurs: on montre le point auquel des inférences seraient changées par des biais de différentes valeurs dus à l'attribution non aléatoire du traitement. La méthode est développée pour les deux paires appariées, avec un sujet traité appariéà un témoin, et pour les ensembles appariés, avec un sujet traité appariéà un ou plusieurs témoins. La méthode est illustrée par deux études: (i) l'une sur les dommages causés à l'ADN par exposition au chrome et au nickel, et (ii) l'autre avec un ou deux témoins appariés comparant les effets secondaires de deux régimes de soin de la tuberculose. L'approche fournit des analyses de sensibilité pour: (i) des M‐tests avec la fonction de poids de Huber et d'autres fonctions robustes de poids, (ii) le t‐test de permutation qui utilise directement les observations, (iii) diverses autres procédures telles que le test du signe, celui de Noether, et la distribution de permutation du test efficace du score pour la position d'une famille de distributions. L'inférence sur la permutation avec ajustement par covariance est brièvement discutée. M. P. Fay, M. E. Halloran, and D. A. Follmann 465Accounting for Variability in Sample Size Estimation with Applications to Nonadherence and Estimation of Variance and Effect Size Nous considérons les calculs de taille d'échantillons (SS, “Sample Size”) pour tester des différences de moyennes entre deux échantillons en tenant compte de variances différentes entre les deux groupes. Les fonctions puissance dépendent classiquement de la SS et d'un ensemble de paramètres supposés connus, et la taille des échantillons nécessaires pour obtenir une puissance prédéfinie s'en déduit. Nous introduisons dans cet article deux sources de variabilité, la possibilité pour la SS dans la fonction puissance d'être une variable aléatoire et l'estimation des paramètres à partir de données préliminaires. Un exemple illustrant la première source de variabilité est la non adhérence (non compliance). Nous supposons que la proportion de sujets qui suivront leur régime n'est pas connue avant l'étude mais que cette proportion est une variable aléatoire avec une distribution connue. Nous développons sous cette supposition des calculs de taille d'échantillons simples basés sur une normalité asymptotique. La seconde source de variabilité concerne le fait que les paramètres sont estimés à partir de données préalables à l'étude. Par exemple nous prenons en compte l'imprécision dans l'estimation de la variance d'une réponse normale à partir de données pré‐existantes qui sont supposées avoir la même variance que celle de l'étude à venir. Nous montrons que nous pouvons tenir compte de l'imprécision sur la variance estimée simplement en utilisant une puissance nominale plus grande dans le calcul usuel de la taille d'échantillon, que nous appelons la puissance calibrée. Nous démontrons que le calcul de la puissance calibrée dépend seulement de la taille d'échantillon des données existantes et fournissons une table de puissance calibrée par taille d'échantillon. Nous considérons par ailleurs le calcul de la SS dans les situations plus rares où nous prenons en compte l'imprécision dans l'estimation d'un effet normaliséà partir de données existantes. Ce dernier contexte ainsi que plusieurs autres situations précédentes trouvent leur justification dans le calcul de tailles d'échantillons pour un essai de phase II sur un vaccin candidat contre la malaria. M. Henmi, J. B. Copas, and S. Eguchi 475Confidence Intervals and P‐Values for Meta‐Analysis with Publication Bias Nous étudions la publication du biais dans des méta analyses en supposant l'existence d'une population ( y , σ) qui donnent des estimations des effets traitements y = N(θ, σ 2 ). Un choix de fonction décrit la probabilité de chaque étude sélectionnée. L'évaluation globale de θ dépend des études choisies, et par conséquent du choix (inconnu) de la fonction. Notre papier précédent, Copas et Jackson (2004, A bound for publication bias based on the fraction of un published studies Biométrics 60, 146‐153), étudie le biais maximum de toutes les fonctions possibles qui satisfont la condition que de grandes études (σ petit) ont plus tendance àêtre choisies que de petites études (σ grand). Ceci a conduit au pire des cas en analyse de sensitivité en contrôlant l'ensemble de la proportion des études choisies. Cependant, il n'y a pas été tenu compte de l'effet d'un tel choix sur l'incertitude de l'estimation. Cet article prolonge les travaux précédents en déterminant des intervalles de confiance correspondant, des P‐values et par conséquent en trouvant une nouvelle analyse de sensitivité nécessaire à la publication du biais. Deux exemples sont discutés. D. Ruppert, D. Nettleton, and J. T. G. Hwang 483Exploring the Information in p‐Values for the Analysis and Planning of Multiple‐Test Experiments On présente une nouvelle méthodologie pour estimer la proportion d'hypothèses nulles dans une large collection de tests. Chaque test est concerné par un seul paramètre δ dont la valeur est spécifiée par 'hypothèse nulle. Un modèle paramétrique, conditionné par δ, de la fonction de répartition de la significativité p est combiné avec un modèle de fonctions spline non paramétrique de la densité g(δ) de δ sous l'hypothèse alternative. La proportion de vraies hypothèses nulles et les coefficients du modèle de spline sont estimés par moindres carré pénalisés avec des contraintes garantissant que la spline et bien une densité. L'estimateur est calculé de façon appropriée en utilisant une programmation quadratique. Notre méthodologie donne une estimation de la densité de δ quand l'hypothèse nulle est fausse et peut s'intéresser à des questions telle que “quand l'hypothèse nulle est fausse est‐ce que le paramètre est habituellement voisin ou très éloigné de l'hypothèse nulle ?” Cela nous conduit à généraliser le taux de fausses découvertes sous la forme du “taux de fausses découvertes intéressantes” (FIDR). Nous comparons le FIDR avec l'approche basée sur la technique de “l'hypothèse nulle empirique” de Efron. Nous discutons l'emploi de dans le calcul de taille d'échantillon basé sur le taux de fausses découvertes attendu (EDR). L'estimateur de la proportion d'hypothèses nulles que nous recommandons a un biais plus faible que les estimateurs basés sur l'estimation à 1 de la densité marginale de la significativité. Nous comparons, par une simulation, nos estimateurs à l'estimateur convexe décroissant de Langaas, Ferkingstad et Lindqvist. La plus biaisée de nos estimations a des performances similaires à l'estimateur convexe décroissant. A titre d'illustration, nous analysons des différences d'expression de gènes dans des souches d'orge résistantes ou susceptibles. Y.‐Y. Chi, J. G. Ibrahim, A. Bissahoyo, and D. W. Threadgill 496Bayesian Hierarchical Modeling for Time Course Microarray Experiments L'analyse temporelle d'expériences de puces à ADN qui a pour objectif d'étudier la dynamique de régulation de l'expression de gènes dans des systèmes biologiques est une problématique de plus en plus importante. Un des problèmes cruciaux lors de ce type d'analyse est l'identification de gènes montrant des variations temporelles dans leur profil d'expression au sein de conditions biologiques différentes. Nous proposons dans ce travail un modèle Bayésien hiérarchique qui permet de traiter plusieurs facteurs expérimentaux importants tout en tenant compte de la corrélation entre les mesures d'expression au cours du temps et entre différents gènes. Ce modèle est accompagné d'un nouvel algorithme qui permet d'identifier simultanément les gènes dont le profil d'expression au sein de conditions biologiques particulières varie en fonction du temps ou de facteurs expérimentaux d'intérêt. Des études de simulation montrent que notre algorithme se comporte bien en terme de faux positifs et de faux négatifs. Le modèle est appliquéà l'étude de l'effet de l'azoxyméthane sur les variations temporelles des profils d'expression de gène de souris en relation avec la susceptibilité au cancer colorectal. K. V. Mardia, C. C. Taylor, and G. K. Subramaniam 505Protein Bioinformatics and Mixtures of Bivariate von Mises Distributions for Angular Data Un problème fondamental en bioinformatique est la caractérisation de la structure secondaire d'une protéine, traditionnellement traité par l'examen du nuage de points des angles de conformation (diagramme de Ramachandran). Nous examinons deux distributions bivariées de von Mises – désignées par les modèles Sinus et Cosinus –à cinq paramètres, et qui pour des données concentrées, tendent vers une distribution normale bivariée. Elles sont anlysées, et leurs principales propriétés sont dégagées. On établit des conditions sur les paramètres, conduisant à un comportement bimodal de la distribution jointe et des distributions marginales, et nous relevons un cas intéressant où la distribution jointe est bimodale alors que les distributions marginales sont unimodales. Nous effectuons des comparaisons des deux modèles, et nous observons que le modèle Cosinus est préférable. Des mélanges de distributions du modèle Cosinus sont ajustés à deux jeux de données représentatifs de protéines en utilisant l'algorithme EM, et on obtient une partition objective du nuage de points en plusieurs composantes. Nos résultats sont consistants avec une observation expérimentale; nous discutons de nouvelles pistes. S. Xu 513An Empirical Bayes Method for Estimating Epistatic Effects of Quantitative Trait Loci La variabilité génétique d'un trait quantitative est souvent contrôlée par la ségrégation de plusieurs loci interactifs. L'analyse par un modèle de régression linéaire est souvent appliquée pour estimer et tester les effets de ces loci de traits quantitatifs (QTL). En incluant tous les effets principaux et les effets d'interactions (effets épistatiques), la dimension du modèle linéaire peut être très élevée. La sélection de variables par régression pas‐à‐pas ou par recherche stochastique est la méthode courante pour l'analyse d'effet épistatique QTL. Ces méthodes sont à calculs intensifs, et peuvent donc ne pas être optimales. La méthode LASSO est plus efficiente que les précédentes pour les calculs. Il en a résulté une large utilisation en analyse de régression pour des modèles de grande dimension. Cependant LASSO n'a jamais été utilisée en cartographie génétique pour QTL épistatique, lorsque le nombre d'effets dans le modèle est largement plus élevé que la taille d'échantillon. Dans cette étude, nous développons une méthode bayésienne empirique (E‐BAYES) pour une carte de QTL épistatique dans un cadre de modèle mixte. Nous avons aussi testé la faisabilité de l'utilisation de LASSO pour l'estimation des effets épistatiques, examiné la sélection de variables par recherche stochastique complètement bayésienne (SSVS) et réévalué les méthodes de vraisemblance pénalisée (PENAL) en cartographie QTL épistatique. Des études de simulation montrent que toutes les méthodes ci‐dessus ont un comportement satisfaisant. Cependant, E‐BAYES apparaît surpasser les autres méthodes ci‐dessus en terme de minimisation de l'erreur moyenne quadratique (MSE) avec un temps de calcul relativement court. Une application de cette nouvelle méthode à des données réelles est proposée à partir d'un ensemble de données relatif à l'orge. C. B. Begg, K. H. Eng, and A. J. Hummer 522Statistical Tests for Clonality Des investigateurs en cancérologie mènent souvent des études pour examiner des échantillons tumoraux de paires d'observations de tumeurs primaires apparemment indépendantes afin de déterminer s'ils partagent une origine «clonale». Les empreintes génétiques des tumeurs sont comparées en utilisant un panel de marqueurs, qui représentent souvent la perte d'hétérogénéité (LOH) à des loci génétiques distincts. Dans cet article, on évalue des tests de signification candidats pour cet objectif. L'information pertinente est dérivée à partir des corrélations observées des tumeurs en ce qui concerne l'occurrence de LOH à des loci individuels, un phénomène qui peut être évalué par le test exact de Fisher. L'information est également disponible dans la mesure où les pertes sur les mêmes loci sont observées sur le même allèle parental. Des données à partir de ces sources combinées d'information peuvent être évaluées en utilisant une adaptation simple du test exact de Fisher. Le test statistique est le nombre total des loci sur lequel des mutations concordantes sont observées sur le même allèle parental avec des valeurs plus élevées fournissant plus de preuves en faveur d'une origine clonale pour les deux tumeurs. On montre que le test a une puissance élevée pour détecter la clonalité pour des modèles plausibles de l'hypothèse alternative (clonalité), et pour des nombres raisonnables de loci informatifs, préférablement situé sur des bras de chromosomes distincts. La méthode est illustrée par des études d'identification de clonalité dans les cancers du sein contralatéraux. L'interprétation de ces tests nécessite des précautions à cause de l'hypothèse simplificatrice en ce qui concerne la variabilité possible dans les probabilités de mutations entre les loci, ainsi que des déséquilibres possibles dans les probabilités de mutations entre les allèles parentales. En conclusion, notre méthode représente une stratégie simple et puissante pour distinguer les tumeurs indépendantes des tumeurs d'origine clonale. N. Serban 531MICE: Multiple‐Peak Identification, Characterization, and Estimation MICE (Identification, Caractérisation et Estimation de pics Multiples) est une procédure d'estimation de la borne inférieure du nombre de pics de fréquence et des paramètres de ces fréquences. La principale application est la détermination de la structure des protéines au niveau de résolution atomique, à partir d'expériences de résonance magnétique nucléaire (RMN). Les données de fréquence en RMN comportent de multiples pics où chaque pic de fréquence correspond à deux atomes connectés dans la structure tri‐dimensionnelle des protéines. Nous analysons les données de fréquence par RMN en une série d'étapes: une étape préliminaire pour séparer le signal, suivie par l'identification des maxima locaux jusqu'à un seuil de bruitage niveau‐dépendant, l'estimation des paramètres des pics de fréquence par un algorithme itératif, et la détection de mélanges de pics par un test d'hypothèse. A. J. Cook, D. R. Gold, and Y. Li 540Spatial Cluster Detection for Censored Outcome Data Alors que de nombreuses méthodes ont été proposées pour tester des regroupements spatiaux, en particulier pour des variables discrètes (par exemple l'incidence d'une maladie), peu sont disponibles pour des données sujettes à censure. Cet article étend la statistique de balayage spatial (Kulldorf, 1997) à des données censurées et propose en outre une méthode simple pour détecter des regroupements spatiaux en utilisant la résiduelle de la martingale cumulée dans le cadre des modèles de Cox des risques proportionnels. Les simulations montrent une bonne performance des méthodes proposées et illustrent leur applicabilité sur une étude épidémiologique en cours, dans laquelle on cherche àétablir la relation de facteurs environnementaux avec l'apparition de l'asthme, de la rhinite allergique/rhume des foins et de l'eczéma. P. J. Diggle, V. Gómez‐Rubio, P. E. Brown, A. G. Chetwynd, and S. Gooding 550Second‐Order Analysis of Inhomogeneous Spatial Point Processes Using Case–Control Data Les méthodes d'analyse statistique de données de processus ponctuels spatiaux stationnaires sont maintenant bien établies, les méthodes pour processus stationnaires le sont moins. Une des nombreuses sources de données de processus ponctuels non‐stationnaires vient de l'épidémiologie environnementale dans les études cas‐contrôle. Dans ce cadre, les données sont la réalisation de chacun de deux processus ponctuels spatiaux représentant les positions, dans une région géographique donnée, des cas individuels d'une maladie et de contrôles tirés au hasard dans la population à risque. Dans cet article, nous étendons le travail de Baddeley, Møller and Waagepetersen (2000) concernant l'estimation des propriétés du second ordre d'un processus ponctuel spatial non stationnaire. Tout d'abord, nous montrons comment des données cas‐contrôle permettent de surmonter les problèmes rencontrés lorsqu'on utilise les mêmes données pour estimer à la fois une intensité variable dans l'espace et des propriétés du second ordre. Ensuite, nous proposons une méthode semi‐paramétrique pour ajuster l'estimation de l'intensité afin de tenir compte des variables illustratives attachées aux cas et aux contrôles. Notre premier objectif est l'estimation, mais nous proposons également un nouveau test de classification spatiale dont nous montrons l'intérêt par rapport aux tests existants. Nous décrivons une application à une étude écologique dans laquelle des arbres jeunes et des arbres adultes survivants forment les cas et les contrôles. M. B. Hooten, C. K. Wikle, R. M. Dorazio, and J. A. Royle 558Hierarchical Spatiotemporal Matrix Models for Characterizing Invasions La croissance et la dispersion des organismes vivants est un sujet important en écologie. Les écologistes savent décrire avec précision la survie et la fécondité de populations animales ou végétales, et ont développé des approches quantitatives pour l'étude de la dynamique de la dispersion et des tailles de populations. Un des principaux centres d'intérêt actuellement est l'étude des espèces envahissantes. Ces espèces de plantes ou d'animaux sont capables d'affecter de façon importante les communautés autochtones. Des modèles d'abondance relative ont été développés, mais une meilleure compréhension de la dynamique des tailles de populations réelles (par opposition à celle des abondances relatives) au cours d'une invasion serait d'un grand intérêt pour toutes les branches de l'écologie. Dans cet article, nous adoptons une approche bayésienne hiérarchique pour modéliser l'invasion par des espèces de ce type en prenant en compte la nature discrète des données et l'incertitude associée aux probabilités de détection. La dynamique non linéaire entre pas de temps discrets successifs est modélisée intuitivement par un modèle déterministe de dynamique de population avec croissance dépendant de la densité et dispersion des individus. Nous illustrons au passage l'importance de la prise en compte des variations spatiales des taux de dispersion. Cette méthode est appliquée au cas de la tourterelle turque, une espèce actuellement en train d'envahir les Etats‐Unis d'Amérique. F. Bartolucci and F. Pennoni 568A Class of Latent Markov Models for Capture–Recapture Data Allowing for Time, Heterogeneity, and Behavior Effects Nous proposons une extension du modèle à classes latentes pour l'analyse de données de capture‐recapture, permettant de prendre en compte un effet de la capture sur le comportement ultérieur d'un individu vis‐à‐vis de la capture. Notre approche se base sur l'hypothèse que la variable indicatrice de la classe latente d'un individu suit une chaîne de Markov dont les probabilités de transition dépendent de l'histoire de capture antérieure. Plusieurs contraintes peuvent être appliquées à ces probabilités de transition, et aux paramètres de la distribution conditionnelle de la configuration de capture, conditionnellement au processus latent. Nous permettons aussi la présence de variables explicatives discrètes, qui peuvent influencer les paramètres du processus latent. Pour estimer les paramètres des modèles résultants, nous nous appuyons sur le maximum de vraisemblance conditionnelle, et pour ce faire nous développons un algorithme EM. Nous donnons aussi quelques règles simples pour l'estimation ponctuelle et par intervalle de l'effectif de la population. Nous illustrons cette approche en l'appliquant à deux jeux de données sur des populations de petits mammifères. J. J. Fernández‐Durán 579Models for Circular–Linear and Circular–Circular Data Constructed from Circular Distributions Based on Nonnegative Trigonometric Sums Johnson et Wehrly (1978) et Wehly et Johnson (1980) ont montré une méthode pour construire la distribution jointe d'une variable aléatoire circulaire et d'une variable aléatoire linéaire, ou la distribution jointe d'une paire de variables aléatoires circulaires, à partir des distributions marginales et de la densité d'une variable aléatoire circulaire référencée dans cet article comme la densité circulaire de jointure. Pour construire des modèles flexibles, il est nécessaire que la densité circulaire de jointure puisse présenter de la multimodalité et/ou de l'asymétrie afin de pouvoir modéliser différents schémas de dépendance. Fernàndez‐Duràn (2004) a proposé des distributions circulaires à partir de sommes trigonométrique non‐négatives pouvant présenter multimodalité et/ou asymétrie. De plus, elles peuvent être aisément utilisées comme modèle pour des distributions jointes circulaire/linéaire ou circulaire/circulaire. Dans ce travail, on présente des distributions jointes pour des données circulaires/linéaires ou circulaires/circulaires, construites à partir de distributions circulaires et reposant sur des sommes trigonométriques non‐négatives, et on les applique à deux ensembles de données, un de données circulaires/linéaires relatif aux schémas de pollution de l'air à Mexico, et l'autre de données circulaires/circulaires relatif à la paire d'angles dièdres entre deux acides aminés consécutifs d'une protéine. J. Sexton and P. Laake 586Boosted Regression Trees with Errors in Variables Dans cet article nous considérons une régression non paramétrique lorsque les covariables sont mesurées avec une erreur. Les estimations sont calculées en utilisant les arbres amplifiés de régression, avec la somme des arbres formant l'estimateur de l'espérance conditionnelle de la réponse. Les variables de réponse binaires et continues sont étudiées. Une approche d'ajustement d'arbres de régression lorsque les covariables sont mesurées avec une erreur est décrite et les algorithmes d'amplification consistent en une répétition de son application. La principale caractéristique de cette approche est qu'elle autorise des situations ou des covariables sont mesurées avec des erreurs. Des résultats simulés sont produits ainsi qu'une application sur des données d'une étude sur le cœur.

This content is not available in your region!

Continue researching here.

Having issues? You can contact us here