Audrey Lavenu
CIC1414 Inserm, IRMAR, Université de Rennes 1, Rennes, France
Date et heure
-

Abstract: Avec l’augmentation du nombre de données sur les patients dans les domaines de l’imagerie médicale ou de la génomique, les méthodes d’analyses classiques sont souvent inadéquates dans les cas où il y a moins d’observations que de variables dans les données. Nous étudions différents critères de performance et leur estimation de la méthode Cox Boost pour analyser des données de survie en grande dimension sur petits échantillons, en termes de prédiction, de discrimination des variables pronostiques et de gain par optimisation des hyperparamètres. Nous simulons les temps de survie et de censure respectivement par des lois exponentielle et uniforme. Pour fixer le taux de censure à un taux prédéfini, nous montrons comment calculer le paramètre de la distribution de censure. En faisant varier les tailles d’effet des covariables et de l’échantillon, et le taux de variables actives, nous comparons le C de Harrell et l’importance de variable estimés par validation croisée en 2 et 5 blocs, avec trois méthodes de choix des hyperparamètres. Nous montrons la difficulté d’optimiser les hyperparamètres pour de petits échantillons, et que l’importance des variables dans le modèle utilisé ne permet pas toujours de détecter les variables simulées actives, même avec une performance correcte de prédiction.

Keywords: Méthodes d’apprentissage supervisé, Survie, Censure, Grande dimension, Simulation.


Akiba T, Sano S, Yanase T, Ohta T, Koyama M. (2019). Optuna : A next-generation hyperparameter optimization framework. Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery and data mining.
Binder H and Schumacher M. (2008). Allowing for mandatory covariates in boosting estimation of sparse high-dimensional survival models. BMC Bioinformatics. 9 :14.
Pittman J, et al. (2004). Integrated modeling of clinical and gene expression information for personalized prediction of disease outcomes. Proc Natl Acad Sci USA. 101(22) :8431-6.
Vabalas A, Gowen E, Poliakoff E, Casson A. (2019). Machine learning algorithm validation with a limited sample size. PLoS ONE. 14(11) :e0224365.
Wan F. (2016). Simulating survival data with predefined censoring rates for proportional hazards models. Stat Med. 36(5) :838-854.
Wang P, Li Y, Reddy C.K. (2017). Machine Learning for Survival Analysis : A Survey. ACM Computing Surveys 51(6).

Attachment Size
Audrey Lavenujeudi30juin2022.pdf 1.61 Mo