Zero-inflated boosted ensemble for small count problem

Журнал: 
Страница: 
5
УДК: 
519.23
В статье описан новый подход к обучению модели данных, описывающих редкие события, когда целевая переменная (число событий) может быть описана распре­делением с добавленными нулями (ZIP-распределением), Предложена ZIP-модель, основанная на ансамбле деревьев, построенном с помощью бустинга. Эта модель основана на комбинации идей ZIP-дерева и GBT-ансамбля, Наш алгоритм, назван­ный ZIP-GBT, сначала выводится теоретически в рамках подхода градиентного бу­стинга, предложенного Дж,Фридманом, Затем наш метод сравнивается эмпирически на двух реальных наборах данных и на двух синтезированных. Показано, что ZIP- GBT в большинстве случаев превосходит ZIP-дерево в терминах подсчитанного с помощью кросс-валидации ZIP-правдоподобия и ошибки предсказания параметров ZIP-распределения.
info_eng: 
The article introduces a new approach for modeling "small count data" where distribution of the response variable is assumed to follow the zero-inflated Poisson (ZIP) model. ZIP model based on boosted ensemble is introduced. It combines and extends ZIP tree and gradient boosting tree (GBT) methods. Our algorithm, called ZIP-GBT, is at first introduced from theoretical perspective in the framework of Friedman's gradient boosting machine. Then it is compared empirically on two real data sets and two artificial data sets versus single tree approach (ZIP-tree). It is shown that ZIP-GBT outperforms ZIP tree in most cases both in terms of cross validated ZIP-likelihood and ZIP distribution parameters prediction.