Kazai Mazai Dot Com
1 min readOct 17, 2017

--

Привет!

Начни с формулировки задачи. Классификация/регрессия.

Лучше использовать python data analysis стек (scikit-learn, pandas), по крайней мере на этапе исследования. Не дай бог все алгоритмы самому реализовывать)) Если на джаве программируешь, то разобраться будет не сложно, учитывая тьму всяких туториалов на том же хабре.

Таким образом, под рукой будет сразу куча инструментов.

Про перцептрон ничего не скажу, он вроде как больше для учебных целей используется. Стоит попробовать самые популярные алгоритмы, тот же random forest даже с дефолтными гиперпараметрами, и дальше уже постепенно улучшать. Тюнить гиперпараметры, пробовать другие модели, нормировать данные, выбрасывать/дефолтить аутлаеры, придумывать новые признаки.

Все тренировки и проверки лучше делать сразу с кросс-валидацией, либо walk-forward, если данные завязаны на временные ряды и могут возникнуть неявные подглядывания в будущее.

А еще стоит погуглить и поискать на гитхабе, возможно кто-то уже решал похожую задачу.

Ну а данных кажется маловато — всего то 2000 наблюдений, хотя это от задачи сильно зависит.

Успехов!

--

--

Kazai Mazai Dot Com
Kazai Mazai Dot Com

Written by Kazai Mazai Dot Com

iOS software engineer, independent contractor, digital nomad. Blog: http://kazaimazai.com

No responses yet