Это учебный проект, созданный в рамках курса Яндекс Практикум Data Science Plus.
Использован датасет California Housing Prices
- предсказание медианной стоимости дома в жилом массиве
- знакомство с библиотекой pyspark
- обучение модели линейной регресии
В ходе работы
- загружен и изучен предоставленный датасет
- Заполнены пропущенные значения, проверена корректность текстовых данных.
- Созданы три дополнительных признака.
- Найдены выбросы, проведены эксперименты по обучению с удалением выбросов и без удаления.
Обучены модели линейной регрессии
- на полном датасете
- только на числовых признаках
Сделаны предсказания и рассчитаны метрики
- RMSE
- MAE
- R2