Comparison of Selected Multiple Imputation Methods for Continuous Variables – Preliminary Simulation Study Results

Małgorzata Aleksandra Misztal

doi:10.18778/0208-6018.339.05

Autor

Małgorzata Aleksandra Misztal Uniwersytet Łódzki, Wydział Ekonomiczno-Socjologiczny, Katedra Metod Statystycznych

DOI:

https://doi.org/10.18778/0208-6018.339.05

Słowa kluczowe:

dane niekompletne, imputacja wielokrotna, analiza głównych składowych, missForest

Abstrakt

Problem występowania danych niekompletnych i ich wpływu na wyniki analiz statystycznych nie jest związany z żadną konkretną dziedziną nauki – pojawia się w ekonomii, socjologii, edukacji, naukach behawioralnych czy medycynie. W przypadku większości klasycznych metod statystycznych wymagana jest kompletna informacja o zmiennych charakteryzujących badane obiekty, a typowym podejściem do brakujących danych jest po prostu ich usunięcie. Prowadzi to jednak do niewiarygodnych i obciążonych wyników analiz i nie jest zalecane w literaturze przedmiotu. Rekomendowaną metodą postępowania z brakującymi danymi jest imputacja wielokrotna. W artykule rozważono kilka wybranych jej metod. Szczególną uwagę zwrócono na wykorzystanie analizy głównych składowych (PCA) jako metody imputacji. Celem pracy była ocena jakości imputacji opartej na PCA na tle dwóch innych technik uzupełniania braków danych: imputacji wielokrotnej za pomocą równań łańcuchowych (MICE) i metody missForest. Porównania metod imputacji dokonano, wykorzystując podejście symulacyjne i generując braki danych w 10 kompletnych zbiorach danych z repozytorium baz danych Uniwersytetu Kalifornijskiego w Irvine, z uwzględnieniem różnych mechanizmów generowania braków danych oraz różnych proporcji (10–50%) brakujących wartości. Do imputacji brakujących wartości zastosowano metodę równań łańcuchowych, metodę missForest oraz metodę opartą na głównych składowych (MIPCA). Znormalizowany pierwiastek kwadratowy błędu średniokwadratowego (NRMSE) wykorzystano jako miarę dokładności imputacji. Na podstawie przeprowadzonych analiz metoda missForest może być rekomendowana jako ta metoda wielokrotnej imputacji, która zapewnia najwyższą dokładność imputacji braków danych. Imputacja oparta na analizie głównych składowych (PCA) nie prowadzi do zadowalających wyników.

Pobrania

Brak dostępnych danych do wyświetlenia.

Bibliografia

Allison P. D. (2002), Missing data, Series: Quantitative Applications in the Social Sciences 07–136, SAGE Publications, Thousand Oaks–London–New Delhi.
Google Scholar

Audigier V., Husson F., Josse J. (2016), Multiple imputation for continuous variables using a Bayesian principal component analysis, “Journal of Statistical Computation and Simulation”, vol. 86, no. 1, pp. 2140–2156, DOI: 10.1080/00949655.2015.1104683.
Google Scholar

Blake C., Keogh E., Merz C. J. (1988), UCI Repository of Machine Learning Datasets, Department of Information and Computer Science, University of California, Irvine.
Google Scholar

Breiman L. (2001), Random Forests, “Machine Learning”, vol. 45, no. 1, pp. 5–32.
Google Scholar

Buuren S. van (2007), Multiple imputation of discrete and continuous data by fully conditional specification, “Statistical Methods in Medical Research”, vol. 16, no. 3, pp. 219–242.
Google Scholar

Buuren S. van (2012), Flexible Imputation of Missing Data, Chapman & Hall/CRC Press, Boca Raton–London–New York.
Google Scholar

Buuren S. van, Groothuis‑Oudshoorn K. (2011), MICE: Multivariate Imputation by Chained Equations in R, “Journal of Statistical Software”, vol. 45, no. 3, pp. 1–67.
Google Scholar

Enders C. K. (2010), Applied Missing Data Analysis, The Guilford Press, New York–London.
Google Scholar

Hotelling H. (1933), Analysis of a complex of statistical variables into principal components, “Journal of Educational Psychology”, vol. 24, pp. 417–441, 498–520.
Google Scholar

Ilin A., Raiko T. (2010), Practical Approaches to Principal Component Analysis in the Presence of Missing Values, “Journal of Machine Learning Research”, vol. 11, pp. 1957–2000.
Google Scholar

Josse J. (2016), Contribution to missing values & principal component methods, Statistics [stat], Université Paris Sud, Orsay.
Google Scholar

Josse J., Husson F. (2012), Handling missing values in exploratory multivariate data analysis methods, “Journal de la Société Française de Statistique”, vol. 153, no. 2, pp. 79–99.
Google Scholar

Josse J., Husson F. (2016), missMDA: A Package for Handling Missing Values in Multivariate Data Analysis, “Journal of Statistical Software”, vol. 70, no. 1, pp. 1–31, DOI: 10.18637/jss.v070.i01.
Google Scholar

Josse J., Pagès J., Husson F. (2011), Multiple imputation in principal component analysis, “Advances in Data Analysis and Classification”, vol. 5, pp. 231–246.
Google Scholar

Little R. J.A., Rubin D. B. (2002), Statistical Analysis with Missing Data, second edition, Wiley, New Jersey.
Google Scholar

Misztal M. (2013), Some remarks on the data imputation using “missForest” method, “Acta Universitatis Lodziensis. Folia Oeconomica”, vol. 285, pp. 169–179.
Google Scholar

Newman D. A. (2014), Missing Data: Five Practical Guidelines, “Organizational Research Methods”, vol. 17(4), pp. 372–411, DOI: 10.1177/1094428114548590.
Google Scholar

Orchard T., Woodbury M. A. (1972), A missing information principle: Theory and applications, [in:] Proceedings of the Sixth Berkeley Symposium on Mathematical Statistics and Probability, vol. 1, pp. 697–715.
Google Scholar

Pearson K. (1901), On lines and planes of closest t to systems of points in space, “Philosophical Magazine”, vol. 6, no. 2, pp. 559–572.
Google Scholar

Schafer J. L. (1997), Analysis of incomplete multivariate data, Chapman and Hall/CRC, London.
Google Scholar

Shah A. D., Bartlett J. W., Carpenter J., Nicholas O., Hemingway H. (2014), Comparison of Random Forest and Parametric Imputation Models for Imputing Missing Data Using MICE: A CALIBER Study, “American Journal of Epidemiology”, vol. 179, no. 6, pp. 764–774, DOI: 10.1093/aje/kwt312.
Google Scholar

Stekhoven D. J., Bühlmann P. (2012), MissForest – Nonparametric Missing Value Imputation for Mixed‑Type Data, “Bioinformatics”, vol. 28, no. 1, pp. 112–118.
Google Scholar

Tang F., Ishwaran H. (2017), Random forest missing data algorithms, “Statistical Analysis and Data Mining”, vol. 10, issue 6, pp. 363–377, DOI: 10.1002/sam.11348.
Google Scholar

Wulff J., Ejlskov L. (2017), Multiple Imputation by Chained Equations in Praxis: Guidelines and Review, “The Electronic Journal of Business Research Methods”, vol. 15, issue 1, pp. 41–56.
Google Scholar

Yu L.‑M., Burton A., Rivero‑Arias O. (2007), Evaluation of software for multiple imputation of semi‑continuous data, “Statistical Methods in Medical Research”, vol. 16, pp. 243–258.
Google Scholar