Outliers vs Robustness in Nonparametric Methods of Regression
DOI:
https://doi.org/10.18778/0208-6018.337.07Keywords:
outliers, robustness, nonparametric regression methodsAbstract
The article addresses the question of how robust methods of regression are against outliers in a given data set. In the first part, we presented the selected methods used to detect outliers. Then, we tested the robustness of three nonparametric methods of regression: PPR, POLYMARS, and RANDOM FORESTS. The analysis was conducted applying simulation procedures to the data sets where outliers were detected. Contrary to a relatively common conviction about the robustness of nonparametric regression, the study revealed that the models built on the basis of complete data sets represent a significantly lower predictive capability than models based on the sets from which outliers were discarded.
Downloads
References
Agresti A., Finlay B. (2009), Statistical Methods for the Social Sciences, 4th ed., Pearson, New Jersey.
Google Scholar
Batóg J. (2016), Identyfikacja obserwacji odstających w analizie skupień, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 26. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 426, pp. 13–21.
Google Scholar
Breiman L. (2001), Random Forests, “Machine Learning”, no. 45, pp. 5–32.
Google Scholar
Breunig M.M., Kriegel H.‑P., Ng R.T., Sander J. (2000), LOF: Identifying Density‑Based Outliers, Proceedings of the 29th ACM SIDMOD International Conference on Management of Data (SIGMOD 2000), Dallas.
Google Scholar
Cook R.D. (1977), Detection of Influential Observations in Linear Regression, “Technometrics”, no. 19(1), pp. 15–18.
Google Scholar
Filzmoser P., Maronna R.A., Werner M. (2008), Outlier Identification in High Dimensions, “Computational Statistics & Data Analysis”, no. 52, pp. 1694–1711.
Google Scholar
Friedman J., Stuetzle W. (1981), Projection Pursuit Regression, “Journal of the American Statistical Association”, no. 76, pp. 817–823.
Google Scholar
Ganczarek‑Gamrot A. (2016), Obserwacje odstające na rynku energii elektrycznej, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 288, pp. 7–20.
Google Scholar
Hawkins D. (1980), Identification of Outliers, Chapman and Hall, London.
Google Scholar
Healy M.J.R. (1968), Multivariate Normal Plotting, “Applied Statistics”, no. 17, pp. 157–161.
Google Scholar
Kooperberg C., Bose S., Stone C. (1997), Polychotomous Regression, “Journal of the American Statistical Association”, no. 92, pp. 117–127.
Google Scholar
Kosiorowski D. (2007), O odpornej analizie regresji w ekonomii na przykładzie koncepcji głębi regresyjnej, “Przegląd Statystyczny”, vol. 54, pp. 109–121.
Google Scholar
Kosiorowski D. (2012), Statystyczne funkcje głębi w odpornej analizie ekonomicznej, Wydawnictwo UEK w Krakowie, Kraków.
Google Scholar
Majewska J. (2015), Identification of Multivariate Outliers – Problems and Challenges of Visualization Methods, “Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach”, no. 247, pp. 69–83.
Google Scholar
Meyer D., Leisch F., Hornik K. (2003), The Support Vector Machine under Test, “Neurocomputing”, vol. 1–2, no. 55, pp. 169–186.
Google Scholar
Rousseeuw P., Leroy A. (2003), Robust Regression and Outlier Detection, John Wiley & Sons Inc., New York.
Google Scholar
Trzęsiok J. (2011), Przegląd metod regularyzacji w zagadnieniach regresji nieparametrycznej, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 18. Klasyfikacja i analiza danych, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 176, pp. 330–339.
Google Scholar
Trzęsiok M. (2014), Wybrane metody identyfikacji obserwacji oddalonych, [in:] K. Jajuga, M. Walesiak (eds.), Taksonomia 22. Klasyfikacja i analiza danych – teoria i zastosowania, “Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu”, no. 327, pp. 157–166.
Google Scholar
Trzpiot G. (ed.) (2013), Wybrane elementy statystyki odpornej, Wydawnictwo Uniwersytetu Ekonomicznego w Katowicach, Katowice.
Google Scholar
Tukey J.W. (1977), Exploratory Data Analysis, Addison‑Wesley, Boston.
Google Scholar
Walesiak M., Gatnar E. (2009), Statystyczna analiza danych z wykorzystaniem programu R, Wydawnictwo Naukowe PWN, Warszawa.
Google Scholar
Downloads
Additional Files
- Chart 1. The dendrogram for Ward’s method and the visualization of multidimensional scaling for the crime set / Rys. 1. Dendrogram dla metody Warda oraz wizualizacja skalowania wielowymiarowego dla zbioru crime
- Chart 2. The dendrogram for Ward’s method and the visualization of multidimensional scaling for the hbk set / Rys. 2. Dendrogram dla metody Warda oraz wizualizacja skalowania wielowymiarowego dla zbioru hbk
- Chart 3. The dendrogram for Ward’s method and the visualization of multidimensional scaling for the flats set / Rys. 3. Dendrogram dla metody Warda oraz wizualizacja skalowania wielowymiarowego dla zbioru flats