Skip to content

artefucktor/california_housing_pyspark

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 

Repository files navigation

Системы обработки больших данных

Это учебный проект, созданный в рамках курса Яндекс Практикум Data Science Plus.

Использован датасет California Housing Prices

Цель проекта:

  • предсказание медианной стоимости дома в жилом массиве

Задачи:

  • знакомство с библиотекой pyspark
  • обучение модели линейной регресии

В ходе работы

  • загружен и изучен предоставленный датасет
  • Заполнены пропущенные значения, проверена корректность текстовых данных.
  • Созданы три дополнительных признака.
  • Найдены выбросы, проведены эксперименты по обучению с удалением выбросов и без удаления.

Обучены модели линейной регрессии

  • на полном датасете
  • только на числовых признаках

Сделаны предсказания и рассчитаны метрики

  • RMSE
  • MAE
  • R2

About

Pyspark learning project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published