Some Remarks on Feature Ranking Based Wrappers
Keywords:
feature selection, wrappers, feature rankingAbstract
Jednym z podejść do problemu selekcji zmiennych w dyskryminacji lub regresji jest wykorzystanie kryterium oceny jakości modeli budowanych na różnych podzbiorach zmiennych (tzw. wrappers). Do wyboru podzbiorów zmiennych stosowane są techniki przeszukiwania (heurystyczne lub stochastyczne). Najpopularniejszym przykładem jest regresja krokowa wykorzystująca strategię wspinaczki. Alternatywne podejście polega na uporządkowaniu zmiennych wg wybranego kryterium, a następnie budowaniu modeli zagnieżdżonych i ich ocenie. Zaawansowanymi narzędziami budowy rankingów są agregowane drzewa klasyfikacyjne. W artykule został zaproponowany konkurujący ranking, który prowadzi do nieco mniejszych błędów klasyfikacji. W studium empirycznym rozważane są zmienne nieistotne metryczne oraz binarne. Przedstawiono też porównanie z popularną regresją krokową.Downloads
References
Blum A.L., Langley P. (1997), Selection of relevant features and examples in machine learning, ,,Artificial Intelligence”, vol. 97 no. 1-2, p. 245-271
Breiman L. (2001), Random forests, “Machine Learning”, 45, p. 5-32
Frank A., Asuncion A. (2010), UCI Machine Learning Repository, Irvine, CA: University of California, School of Information and Computer Science [http://archive.ics.uci.edu/ml]
Freund Y., Schapire R.E. (1996), Experiments with a new boosting algorithm, Proceedings of the 13th International Conference on Machine Learning, Morgan Kaufmann, p. 148-156
Gatnar E. (2001), Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa
Gatnar E. (2008), Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji, PWN, Warszawa
Guyon I., Gunn S., Nikravesh M., Zadeh L. (2006), Feature Extraction: Foundations and Applications, Springer, New York
Hastie T., Tibshirani R., Friedman J. (2009), The Elements of Statistical Learning: Data Mining, Inferance, and Prediction, 2nd edition, Springer, New York
Hoerl A.E., Kennard R. (1970), Ridge regression: biased estimation for nonorthogonal problems, ,,Technometrics” 12: p. 55-67
Kubus M. (2011), On model selection in some regularized linear regression methods, XXX Konferencja Wielowymiarowa Analiza Statystyczna, Łódź (to appear)
Kubus M. (2013), Liniowy model prawdopodobieństwa z regularyzacją jako metoda doboru zmiennych, XXI Konferencja Sekcji Klasyfikacji i Analizy Danych PTS, Lipowy Most (to appear)
Ng A.Y. (1998), On feature selection: learning with exponentially many irrelevant features as training examples, In Proceedings of the 15th International Conference on Machine Learning, p. 404-412, San Francisco, CA. Morgan Kaufmann
Reunanen J. (2006), Search Strategies, In I. Guyon, S. Gunn, M. Nikravesh, L. Zadeh (Eds.), Feature Extraction: Foundations and Applications, Springer, New York
Tibshirani R. (1996), Regression shrinkage and selection via the lasso, J.Royal. Statist. Soc. B., 58: p. 267-288
Zou H., Hastie T. (2005), Regularization and variable selection via the elastic net, Journal of the Royal Statistical Society Series B, 67(2): p. 301-320




