Sys.setlocale("LC_CTYPE", "russian")
## [1] "Russian_Russia.1251"
Анализ цен недвижимости в Москве на основе данных ЦИАН.
Load libraries
library(psych)
library(gclus)
library(ggplot2)
Загрузка данных
getwd()
## [1] "C:/dev/coursera/cour-stat/cian"
date()
## [1] "Sun Dec 01 20:06:58 2013"
cian <- read.csv("C:/dev/coursera/cour-stat/cian/cian2s.csv", sep = ",", head = T)
Добавляем столбцы кратных цен
Для цены столбец цены в милионах, для цены за метр в тысячах
cian$price_total.norm <- cian$price_total/1e+06
cian$price_m.norm <- cian$price_m/1000
Общие данные
describe(cian)
## var n mean sd median trimmed
## city* 1 88004 1.000e+00 1.000e-02 1.0 1.000e+00
## subCity* 2 88004 3.900e+00 1.329e+01 1.0 1.000e+00
## street* 3 88004 8.382e+02 5.796e+02 864.0 8.285e+02
## house* 4 88004 1.310e+03 8.185e+02 1316.0 1.308e+03
## commute_min 5 81811 9.220e+00 6.450e+00 9.0 8.810e+00
## commute_type* 6 88004 2.600e+00 6.200e-01 3.0 2.720e+00
## metro* 7 88004 9.144e+01 5.393e+01 95.0 9.195e+01
## rooms 8 88004 2.390e+00 1.060e+00 2.0 2.310e+00
## area_total 9 87999 7.867e+01 5.734e+01 62.0 6.922e+01
## area_kitchen 10 79550 1.150e+01 1.161e+01 9.5 9.990e+00
## area_living 11 85982 4.230e+01 4.158e+01 34.0 3.708e+01
## price_total 12 88004 1.356e+07 1.243e+08 8500000.0 1.016e+07
## price_total_usd 13 76828 4.737e+05 4.084e+06 290691.0 3.492e+05
## price_m 14 87999 1.841e+05 1.290e+06 165455.0 1.678e+05
## bld_flat 15 88004 7.780e+00 7.830e+00 5.0 6.430e+00
## bld_flat_total 16 88004 1.405e+01 9.570e+00 12.0 1.261e+01
## bld_type* 17 88004 5.460e+00 1.360e+00 6.0 5.520e+00
## market* 18 88004 3.060e+00 4.500e-01 3.0 3.010e+00
## price_total.norm 19 88004 1.356e+01 1.243e+02 8.5 1.016e+01
## price_m.norm 20 87999 1.841e+02 1.290e+03 165.5 1.678e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.0 2.000e+00 1.000e+00 121.09 14662.00
## subCity* 0.000e+00 1.0 8.400e+01 8.300e+01 4.77 22.19
## street* 6.820e+02 1.0 1.843e+03 1.842e+03 -0.02 -1.16
## house* 1.010e+03 1.0 2.910e+03 2.909e+03 0.01 -1.17
## commute_min 4.450e+00 1.0 2.550e+02 2.540e+02 16.16 592.81
## commute_type* 0.000e+00 1.0 3.000e+00 2.000e+00 -1.30 0.59
## metro* 6.820e+01 1.0 1.750e+02 1.740e+02 -0.07 -1.25
## rooms 1.480e+00 1.0 5.000e+00 4.000e+00 0.43 -0.39
## area_total 2.965e+01 0.1 6.936e+03 6.936e+03 22.47 2376.50
## area_kitchen 3.710e+00 0.1 1.616e+03 1.616e+03 48.93 5532.41
## area_living 2.076e+01 0.0 5.000e+03 5.000e+03 29.50 2888.20
## price_total 4.967e+06 4300.0 3.600e+10 3.600e+10 277.21 79803.85
## price_total_usd 1.542e+05 132.0 1.102e+09 1.102e+09 256.80 68850.85
## price_m 5.751e+04 96.0 2.927e+08 2.927e+08 168.93 33460.29
## bld_flat 4.450e+00 0.0 1.270e+02 1.270e+02 3.45 18.91
## bld_flat_total 7.410e+00 0.0 1.270e+02 1.270e+02 2.39 9.78
## bld_type* 1.480e+00 1.0 8.000e+00 7.000e+00 -0.75 1.32
## market* 0.000e+00 1.0 4.000e+00 3.000e+00 -1.31 9.70
## price_total.norm 4.970e+00 0.0 3.600e+04 3.600e+04 277.21 79803.85
## price_m.norm 5.751e+01 0.1 2.927e+05 2.927e+05 168.93 33460.29
## se
## city* 0.00
## subCity* 0.04
## street* 1.95
## house* 2.76
## commute_min 0.02
## commute_type* 0.00
## metro* 0.18
## rooms 0.00
## area_total 0.19
## area_kitchen 0.04
## area_living 0.14
## price_total 419161.54
## price_total_usd 14734.44
## price_m 4348.61
## bld_flat 0.03
## bld_flat_total 0.03
## bld_type* 0.00
## market* 0.00
## price_total.norm 0.42
## price_m.norm 4.35
summary(cian)
## city subCity
## москва :87998 :83500
## московская область: 6 поселок коммунарка: 1077
## зеленоград : 636
## московский : 533
## щербинка : 408
## троицк : 380
## (Other) : 1470
## street house commute_min
## :15316 : 3770 Min. : 1
## Ленинский проспект : 1807 д.3 : 2468 1st Qu.: 5
## проспект Вернадского : 989 д.8 : 1912 Median : 9
## Пресненская набережная: 953 д.5 : 1824 Mean : 9
## Профсоюзная улица : 824 д.6 : 1785 3rd Qu.: 12
## Боровское шоссе : 770 д.2 : 1706 Max. :255
## (Other) :67345 (Other):74539 NA's :6193
## commute_type metro rooms
## : 6193 м.Юго-Западная : 4752 Min. :1.00
## на автомобиле:22398 : 2327 1st Qu.:2.00
## пешком :59413 м.Университет : 2267 Median :2.00
## м.Теплый стан : 1882 Mean :2.39
## м.Вернадского проспект: 1791 3rd Qu.:3.00
## м.Выхино : 1657 Max. :5.00
## (Other) :73328
## area_total area_kitchen area_living price_total
## Min. : 0 Min. : 0 Min. : 0 Min. :4.30e+03
## 1st Qu.: 45 1st Qu.: 7 1st Qu.: 21 1st Qu.:5.95e+06
## Median : 62 Median : 10 Median : 34 Median :8.50e+06
## Mean : 79 Mean : 11 Mean : 42 Mean :1.36e+07
## 3rd Qu.: 92 3rd Qu.: 12 3rd Qu.: 50 3rd Qu.:1.42e+07
## Max. :6936 Max. :1616 Max. :5000 Max. :3.60e+10
## NA's :5 NA's :8454 NA's :2022
## price_total_usd price_m bld_flat bld_flat_total
## Min. :1.32e+02 Min. :9.60e+01 Min. : 0.00 Min. : 0.0
## 1st Qu.:2.07e+05 1st Qu.:1.32e+05 1st Qu.: 3.00 1st Qu.: 8.0
## Median :2.91e+05 Median :1.65e+05 Median : 5.00 Median : 12.0
## Mean :4.74e+05 Mean :1.84e+05 Mean : 7.78 Mean : 14.1
## 3rd Qu.:4.83e+05 3rd Qu.:2.11e+05 3rd Qu.: 10.00 3rd Qu.: 17.0
## Max. :1.10e+09 Max. :2.93e+08 Max. :127.00 Max. :127.0
## NA's :11176 NA's :5
## bld_type market price_total.norm
## пан :36438 : 2027 Min. : 0
## кирп :16426 возможна ипотека: 327 1st Qu.: 6
## к-м :15308 вторичка :76343 Median : 8
## мон : 9837 новостройка : 9307 Mean : 14
## стал : 4796 3rd Qu.: 14
## блоч : 3025 Max. :36000
## (Other): 2174
## price_m.norm
## Min. : 0
## 1st Qu.: 132
## Median : 165
## Mean : 184
## 3rd Qu.: 211
## Max. :292683
## NA's :5
В наборе содержатся данные по 88004 квартирам находящимся в продаже. Большая часть квртир проадется в г. Москве, около 1000 представленных квартир продаются в подмосковье. Больще всего квартир (4752) продается рядом с м. Юго-Западная (по метро). Больще всего квартир (1665) продается на Ленинском проспекте (по улице). Среднее количество комнат - 2. Средняя площадь квартиры - 62 кв. м. Средняя цена за квртиру 8.5 млн. руб. Средняя цена квадратного метра 165 т. руб. Больше всего квартир (36438) продается в панельных домах.
Данные распределения различных значений
par(mfrow = c(3, 1))
hist(cian$rooms)
hist(cian$bld_flat)
hist(cian$bld_flat_total)
Больше всего продается 2х и 3х комнатных квартир (их количество примерно одинаково) Значения распределений по ценам не предоставлены, так как очень большой разброс, минимальная цена за квартиру в наборе 4.300 руб (ошибочные данные), максимальная 3 млрд (так же ошибочные), необхоима очиститка данные по критерию цены. Предпологаем что валидная цена за квартиру должна быть больше милиона и меньше 100 милионов. Площадь квартир также имеют экстремальные значения, предполагаем что валидная площадь квартиры должна быть меньше 300 кв. м.
cian.clean <- cian[cian$price_total.norm > 1 & cian$price_total.norm < 100 &
cian$area_total <= 300, ]
describe(cian.clean)
## var n mean sd median trimmed
## city* 1 85283 1.000e+00 1.000e-02 1.0 1.000e+00
## subCity* 2 85283 3.980e+00 1.346e+01 1.0 1.000e+00
## street* 3 85283 8.397e+02 5.794e+02 864.0 8.303e+02
## house* 4 85283 1.312e+03 8.154e+02 1318.0 1.310e+03
## commute_min 5 79220 9.250e+00 6.390e+00 9.0 8.850e+00
## commute_type* 6 85283 2.600e+00 6.200e-01 3.0 2.710e+00
## metro* 7 85283 9.140e+01 5.392e+01 95.0 9.191e+01
## rooms 8 85283 2.370e+00 1.050e+00 2.0 2.300e+00
## area_total 9 85283 7.661e+01 4.632e+01 61.0 6.832e+01
## area_kitchen 10 77723 1.131e+01 1.114e+01 9.4 9.880e+00
## area_living 11 83557 4.153e+01 3.931e+01 33.7 3.679e+01
## price_total 12 85283 1.282e+07 1.243e+07 8700000.0 1.031e+07
## price_total_usd 13 76319 4.358e+05 4.937e+05 290691.0 3.455e+05
## price_m 14 85283 1.815e+05 6.867e+05 166667.0 1.719e+05
## bld_flat 15 85283 7.730e+00 7.740e+00 5.0 6.410e+00
## bld_flat_total 16 85283 1.400e+01 9.380e+00 12.0 1.262e+01
## bld_type* 17 85283 5.480e+00 1.340e+00 6.0 5.530e+00
## market* 18 85283 3.050e+00 4.400e-01 3.0 3.000e+00
## price_total.norm 19 85283 1.282e+01 1.243e+01 8.7 1.031e+01
## price_m.norm 20 85283 1.815e+02 6.867e+02 166.7 1.719e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.0 2.000e+00 1.000e+00 119.21 14208.50
## subCity* 0.000e+00 1.0 8.400e+01 8.300e+01 4.69 21.46
## street* 6.820e+02 1.0 1.843e+03 1.842e+03 -0.02 -1.16
## house* 1.013e+03 1.0 2.910e+03 2.909e+03 0.01 -1.16
## commute_min 4.450e+00 1.0 2.550e+02 2.540e+02 15.73 581.40
## commute_type* 0.000e+00 1.0 3.000e+00 2.000e+00 -1.29 0.54
## metro* 6.820e+01 1.0 1.750e+02 1.740e+02 -0.07 -1.25
## rooms 1.480e+00 1.0 5.000e+00 4.000e+00 0.41 -0.40
## area_total 2.965e+01 0.1 3.000e+02 2.999e+02 1.73 3.07
## area_kitchen 3.560e+00 0.1 1.616e+03 1.616e+03 55.07 6643.30
## area_living 2.031e+01 0.0 5.000e+03 5.000e+03 34.89 3714.05
## price_total 4.893e+06 1000010.0 9.990e+07 9.890e+07 2.82 10.01
## price_total_usd 1.520e+05 33659.0 6.885e+07 6.882e+07 38.55 4886.59
## price_m 5.470e+04 4400.0 1.180e+08 1.180e+08 144.82 22358.06
## bld_flat 4.450e+00 0.0 1.270e+02 1.270e+02 3.49 19.60
## bld_flat_total 7.410e+00 0.0 1.270e+02 1.270e+02 2.44 10.48
## bld_type* 1.480e+00 1.0 8.000e+00 7.000e+00 -0.74 1.35
## market* 0.000e+00 1.0 4.000e+00 3.000e+00 -1.31 10.11
## price_total.norm 4.890e+00 1.0 9.990e+01 9.890e+01 2.82 10.01
## price_m.norm 5.470e+01 4.4 1.180e+05 1.180e+05 144.82 22358.06
## se
## city* 0.00
## subCity* 0.05
## street* 1.98
## house* 2.79
## commute_min 0.02
## commute_type* 0.00
## metro* 0.18
## rooms 0.00
## area_total 0.16
## area_kitchen 0.04
## area_living 0.14
## price_total 42549.82
## price_total_usd 1787.09
## price_m 2351.43
## bld_flat 0.03
## bld_flat_total 0.03
## bld_type* 0.00
## market* 0.00
## price_total.norm 0.04
## price_m.norm 2.35
par(mfrow = c(2, 1))
hist(cian.clean$price_total.norm)
hist(cian.clean$area_total)
Очищенные данные содержат 85283 квартир, 3000 тысчи квартир имели неправильное значение цены и площади. Данные до сих пор имеют экстримальные значения сильно отличающиеся от средних значений.
Распределеие показыват что абсолютное большинство квартир находится в ценовом диапазоне до 50 млн. Отбрасываем все данные выходящие за предел диапазона.
cian.clean <- cian.clean[cian.clean$price_total.norm < 50, ]
describe(cian.clean)
## var n mean sd median trimmed
## city* 1 82979 1.000e+00 1.000e-02 1.0 1.000e+00
## subCity* 2 82979 4.060e+00 1.363e+01 1.0 1.000e+00
## street* 3 82979 8.403e+02 5.795e+02 864.0 8.309e+02
## house* 4 82979 1.309e+03 8.159e+02 1316.0 1.308e+03
## commute_min 5 76997 9.290e+00 6.430e+00 9.0 8.880e+00
## commute_type* 6 82979 2.600e+00 6.200e-01 3.0 2.710e+00
## metro* 7 82979 9.095e+01 5.391e+01 93.0 9.134e+01
## rooms 8 82979 2.340e+00 1.030e+00 2.0 2.260e+00
## area_total 9 82979 7.428e+01 4.419e+01 60.0 6.625e+01
## area_kitchen 10 75914 1.103e+01 1.072e+01 9.1 9.710e+00
## area_living 11 81390 4.039e+01 3.822e+01 33.0 3.598e+01
## price_total 12 82979 1.137e+07 8.800e+06 8500000.0 9.828e+06
## price_total_usd 13 74018 3.869e+05 3.270e+05 284572.0 3.282e+05
## price_m 14 82979 1.746e+05 6.944e+05 165094.0 1.682e+05
## bld_flat 15 82979 7.680e+00 7.710e+00 5.0 6.370e+00
## bld_flat_total 16 82979 1.393e+01 9.280e+00 12.0 1.257e+01
## bld_type* 17 82979 5.490e+00 1.330e+00 6.0 5.540e+00
## market* 18 82979 3.060e+00 4.300e-01 3.0 3.000e+00
## price_total.norm 19 82979 1.137e+01 8.800e+00 8.5 9.830e+00
## price_m.norm 20 82979 1.746e+02 6.944e+02 165.1 1.682e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.0 2.000e+00 1.000e+00 117.59 13824.50
## subCity* 0.000e+00 1.0 8.400e+01 8.300e+01 4.62 20.78
## street* 6.820e+02 1.0 1.843e+03 1.842e+03 -0.02 -1.16
## house* 1.010e+03 1.0 2.910e+03 2.909e+03 0.01 -1.16
## commute_min 4.450e+00 1.0 2.550e+02 2.540e+02 15.87 583.38
## commute_type* 0.000e+00 1.0 3.000e+00 2.000e+00 -1.28 0.51
## metro* 6.820e+01 1.0 1.750e+02 1.740e+02 -0.05 -1.25
## rooms 1.480e+00 1.0 5.000e+00 4.000e+00 0.42 -0.36
## area_total 2.861e+01 0.1 3.000e+02 2.999e+02 1.86 3.80
## area_kitchen 3.110e+00 0.1 1.616e+03 1.616e+03 62.41 7933.27
## area_living 1.927e+01 0.0 5.000e+03 5.000e+03 38.85 4269.95
## price_total 4.596e+06 1000010.0 4.999e+07 4.899e+07 1.87 3.69
## price_total_usd 1.451e+05 33659.0 1.620e+07 1.617e+07 9.57 290.23
## price_m 5.203e+04 4400.0 1.180e+08 1.180e+08 143.98 21983.74
## bld_flat 4.450e+00 0.0 1.270e+02 1.270e+02 3.54 20.14
## bld_flat_total 7.410e+00 0.0 1.270e+02 1.270e+02 2.47 10.86
## bld_type* 1.480e+00 1.0 8.000e+00 7.000e+00 -0.75 1.42
## market* 0.000e+00 1.0 4.000e+00 3.000e+00 -1.29 10.24
## price_total.norm 4.600e+00 1.0 4.999e+01 4.899e+01 1.87 3.69
## price_m.norm 5.203e+01 4.4 1.180e+05 1.180e+05 143.98 21983.74
## se
## city* 0.00
## subCity* 0.05
## street* 2.01
## house* 2.83
## commute_min 0.02
## commute_type* 0.00
## metro* 0.19
## rooms 0.00
## area_total 0.15
## area_kitchen 0.04
## area_living 0.13
## price_total 30550.17
## price_total_usd 1202.07
## price_m 2410.53
## bld_flat 0.03
## bld_flat_total 0.03
## bld_type* 0.00
## market* 0.00
## price_total.norm 0.03
## price_m.norm 2.41
par(mfrow = c(2, 1))
par(ps = 10)
hist(cian.clean$price_total.norm, col = "yellow", main = "", xlab = "Цена млн.",
ylab = "Кол-во")
hist(cian.clean$area_total, col = "yellow", main = "", xlab = "Цена млн.", ylab = "Кол-во")
Очищенные данные содержат 82.979 квартир, что на 6.000 квартир меньше чем в первоначальном наборе.
Описание данных в разрезе кол-ва комнат.
describeBy(cian.clean, cian.clean$rooms)
## group: 1
## var n mean sd median trimmed
## city* 1 19945 1.000e+00 1.000e-02 1.0 1.000e+00
## subCity* 2 19945 5.760e+00 1.675e+01 1.0 1.000e+00
## street* 3 19945 8.315e+02 5.850e+02 851.0 8.195e+02
## house* 4 19945 1.296e+03 8.144e+02 1291.0 1.293e+03
## commute_min 5 17912 1.015e+01 6.910e+00 10.0 9.680e+00
## commute_type* 6 19945 2.470e+00 6.700e-01 3.0 2.580e+00
## metro* 7 19945 9.065e+01 5.467e+01 93.0 9.096e+01
## rooms 8 19945 1.000e+00 0.000e+00 1.0 1.000e+00
## area_total 9 19945 3.915e+01 1.026e+01 38.0 3.779e+01
## area_kitchen 10 19388 8.960e+00 3.880e+00 8.6 8.550e+00
## area_living 11 19849 2.002e+01 3.136e+01 19.0 1.939e+01
## price_total 12 19945 6.927e+06 3.501e+06 6000000.0 6.303e+06
## price_total_usd 13 19858 2.126e+05 1.072e+05 183595.0 1.931e+05
## price_m 14 19945 1.765e+05 5.745e+04 167742.0 1.709e+05
## bld_flat 15 19945 6.960e+00 5.450e+00 5.0 6.250e+00
## bld_flat_total 16 19945 1.350e+01 6.530e+00 12.0 1.293e+01
## bld_type* 17 19945 5.440e+00 1.150e+00 6.0 5.560e+00
## market* 18 19945 3.080e+00 4.300e-01 3.0 3.020e+00
## price_total.norm 19 19945 6.930e+00 3.500e+00 6.0 6.300e+00
## price_m.norm 20 19945 1.765e+02 5.745e+01 167.7 1.709e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.000e+00 2.000e+00 1.000e+00 99.84 9966.50
## subCity* 0.000e+00 1.000e+00 8.400e+01 8.300e+01 3.54 11.40
## street* 6.820e+02 1.000e+00 1.843e+03 1.842e+03 0.02 -1.20
## house* 9.726e+02 1.000e+00 2.907e+03 2.906e+03 0.01 -1.14
## commute_min 5.930e+00 1.000e+00 2.550e+02 2.540e+02 15.56 529.02
## commute_type* 0.000e+00 1.000e+00 3.000e+00 2.000e+00 -0.88 -0.40
## metro* 7.413e+01 1.000e+00 1.750e+02 1.740e+02 -0.01 -1.28
## rooms 0.000e+00 1.000e+00 1.000e+00 0.000e+00 NaN NaN
## area_total 5.930e+00 1.250e+01 2.892e+02 2.767e+02 6.26 88.37
## area_kitchen 2.080e+00 1.000e-01 1.300e+02 1.299e+02 9.86 205.41
## area_living 1.480e+00 0.000e+00 3.215e+03 3.215e+03 81.46 7280.50
## price_total 1.334e+06 1.003e+06 4.957e+07 4.856e+07 4.31 28.33
## price_total_usd 4.083e+04 3.366e+04 1.517e+06 1.483e+06 4.38 28.98
## price_m 3.547e+04 7.657e+03 7.812e+05 7.736e+05 1.85 7.98
## bld_flat 4.450e+00 0.000e+00 6.400e+01 6.400e+01 1.85 7.22
## bld_flat_total 5.930e+00 0.000e+00 1.120e+02 1.120e+02 1.45 6.85
## bld_type* 0.000e+00 1.000e+00 8.000e+00 7.000e+00 -1.26 2.24
## market* 0.000e+00 1.000e+00 4.000e+00 3.000e+00 -0.91 9.27
## price_total.norm 1.330e+00 1.000e+00 4.957e+01 4.856e+01 4.31 28.33
## price_m.norm 3.547e+01 7.660e+00 7.812e+02 7.736e+02 1.85 7.98
## se
## city* 0.00
## subCity* 0.12
## street* 4.14
## house* 5.77
## commute_min 0.05
## commute_type* 0.00
## metro* 0.39
## rooms 0.00
## area_total 0.07
## area_kitchen 0.03
## area_living 0.22
## price_total 24793.43
## price_total_usd 760.68
## price_m 406.77
## bld_flat 0.04
## bld_flat_total 0.05
## bld_type* 0.01
## market* 0.00
## price_total.norm 0.02
## price_m.norm 0.41
## --------------------------------------------------------
## group: 2
## var n mean sd median trimmed
## city* 1 27533 1.000e+00 1.000e-02 1.000e+00 1.000e+00
## subCity* 2 27533 4.480e+00 1.450e+01 1.000e+00 1.000e+00
## street* 3 27533 8.549e+02 5.738e+02 8.730e+02 8.488e+02
## house* 4 27533 1.316e+03 8.142e+02 1.318e+03 1.315e+03
## commute_min 5 25420 9.490e+00 6.510e+00 9.000e+00 9.070e+00
## commute_type* 6 27533 2.580e+00 6.300e-01 3.000e+00 2.690e+00
## metro* 7 27533 9.041e+01 5.414e+01 9.300e+01 9.070e+01
## rooms 8 27533 2.000e+00 0.000e+00 2.000e+00 2.000e+00
## area_total 9 27533 5.805e+01 1.766e+01 5.400e+01 5.526e+01
## area_kitchen 10 25899 9.830e+00 1.266e+01 9.000e+00 8.940e+00
## area_living 11 27170 3.263e+01 1.493e+01 3.100e+01 3.189e+01
## price_total 12 27533 1.058e+07 6.367e+06 8.530e+06 9.483e+06
## price_total_usd 13 26580 3.355e+05 2.120e+05 2.662e+05 2.960e+05
## price_m 14 27533 1.906e+05 9.818e+05 1.690e+05 1.765e+05
## bld_flat 15 27533 7.330e+00 7.190e+00 5.000e+00 6.160e+00
## bld_flat_total 16 27533 1.329e+01 8.410e+00 1.200e+01 1.211e+01
## bld_type* 17 27533 5.500e+00 1.280e+00 6.000e+00 5.550e+00
## market* 18 27533 3.060e+00 4.100e-01 3.000e+00 3.000e+00
## price_total.norm 19 27533 1.058e+01 6.370e+00 8.530e+00 9.480e+00
## price_m.norm 20 27533 1.907e+02 9.818e+02 1.691e+02 1.765e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.000e+00 2.000e+00 1.000e+00 117.31 13760.50
## subCity* 0.000e+00 1.000e+00 8.400e+01 8.300e+01 4.29 17.69
## street* 6.701e+02 1.000e+00 1.843e+03 1.842e+03 -0.04 -1.13
## house* 1.013e+03 1.000e+00 2.909e+03 2.908e+03 0.00 -1.16
## commute_min 4.450e+00 1.000e+00 2.550e+02 2.540e+02 15.42 557.01
## commute_type* 0.000e+00 1.000e+00 3.000e+00 2.000e+00 -1.21 0.32
## metro* 6.968e+01 1.000e+00 1.750e+02 1.740e+02 -0.04 -1.26
## rooms 0.000e+00 2.000e+00 2.000e+00 0.000e+00 NaN NaN
## area_total 1.334e+01 1.000e-01 2.673e+02 2.672e+02 2.14 8.06
## area_kitchen 2.970e+00 1.000e-01 1.616e+03 1.616e+03 93.22 10978.17
## area_living 4.450e+00 0.000e+00 5.302e+02 5.302e+02 7.38 188.62
## price_total 3.158e+06 1.007e+06 4.990e+07 4.889e+07 2.24 6.80
## price_total_usd 9.981e+04 3.978e+04 8.100e+06 8.060e+06 7.20 182.10
## price_m 4.589e+04 5.200e+03 1.180e+08 1.180e+08 116.38 13633.20
## bld_flat 4.450e+00 0.000e+00 1.270e+02 1.270e+02 3.58 21.50
## bld_flat_total 7.410e+00 0.000e+00 1.270e+02 1.270e+02 2.46 12.50
## bld_type* 1.480e+00 1.000e+00 8.000e+00 7.000e+00 -0.69 1.40
## market* 0.000e+00 1.000e+00 4.000e+00 3.000e+00 -1.18 11.57
## price_total.norm 3.160e+00 1.010e+00 4.990e+01 4.889e+01 2.24 6.80
## price_m.norm 4.589e+01 5.200e+00 1.180e+05 1.180e+05 116.38 13633.20
## se
## city* 0.00
## subCity* 0.09
## street* 3.46
## house* 4.91
## commute_min 0.04
## commute_type* 0.00
## metro* 0.33
## rooms 0.00
## area_total 0.11
## area_kitchen 0.08
## area_living 0.09
## price_total 38371.35
## price_total_usd 1300.44
## price_m 5917.19
## bld_flat 0.04
## bld_flat_total 0.05
## bld_type* 0.01
## market* 0.00
## price_total.norm 0.04
## price_m.norm 5.92
## --------------------------------------------------------
## group: 3
## var n mean sd median trimmed
## city* 1 25518 1.000e+00 1.000e-02 1.000e+00 1.000e+00
## subCity* 2 25518 3.190e+00 1.171e+01 1.000e+00 1.000e+00
## street* 3 25518 8.529e+02 5.736e+02 8.980e+02 8.467e+02
## house* 4 25518 1.319e+03 8.193e+02 1.318e+03 1.319e+03
## commute_min 5 24087 8.910e+00 5.520e+00 9.000e+00 8.560e+00
## commute_type* 6 25518 2.660e+00 5.800e-01 3.000e+00 2.770e+00
## metro* 7 25518 9.126e+01 5.366e+01 9.300e+01 9.171e+01
## rooms 8 25518 3.000e+00 0.000e+00 3.000e+00 3.000e+00
## area_total 9 25518 8.938e+01 3.310e+01 7.800e+01 8.420e+01
## area_kitchen 10 22937 1.203e+01 1.080e+01 1.000e+01 1.057e+01
## area_living 11 24982 5.083e+01 4.150e+01 4.600e+01 4.934e+01
## price_total 12 25518 1.414e+07 9.562e+06 1.170e+07 1.295e+07
## price_total_usd 13 22102 4.937e+05 3.019e+05 3.881e+05 4.423e+05
## price_m 14 25518 1.746e+05 6.957e+05 1.618e+05 1.655e+05
## bld_flat 15 25518 8.140e+00 8.560e+00 6.000e+00 6.580e+00
## bld_flat_total 16 25518 1.463e+01 1.081e+01 1.200e+01 1.286e+01
## bld_type* 17 25518 5.580e+00 1.370e+00 6.000e+00 5.620e+00
## market* 18 25518 3.050e+00 4.200e-01 3.000e+00 3.000e+00
## price_total.norm 19 25518 1.414e+01 9.560e+00 1.170e+01 1.295e+01
## price_m.norm 20 25518 1.746e+02 6.957e+02 1.618e+02 1.655e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.0 2.000e+00 1.000e+00 112.94 12753.00
## subCity* 0.000e+00 1.0 8.400e+01 8.300e+01 5.62 31.54
## street* 6.686e+02 1.0 1.843e+03 1.842e+03 -0.05 -1.11
## house* 1.013e+03 1.0 2.910e+03 2.909e+03 0.01 -1.18
## commute_min 4.450e+00 1.0 2.550e+02 2.540e+02 11.80 492.57
## commute_type* 0.000e+00 1.0 3.000e+00 2.000e+00 -1.51 1.25
## metro* 6.672e+01 1.0 1.750e+02 1.740e+02 -0.06 -1.23
## rooms 0.000e+00 3.0 3.000e+00 0.000e+00 NaN NaN
## area_total 2.165e+01 0.1 3.000e+02 2.999e+02 1.73 3.63
## area_kitchen 3.260e+00 0.1 9.060e+02 9.059e+02 28.89 2083.53
## area_living 1.008e+01 0.0 5.000e+03 5.000e+03 68.53 8097.06
## price_total 6.074e+06 1000010.0 4.999e+07 4.899e+07 1.28 1.64
## price_total_usd 1.731e+05 37331.0 7.425e+06 7.388e+06 3.53 39.00
## price_m 5.955e+04 5202.0 8.500e+07 8.499e+07 109.30 12416.36
## bld_flat 4.450e+00 0.0 1.270e+02 1.270e+02 3.43 17.30
## bld_flat_total 7.410e+00 0.0 1.270e+02 1.270e+02 2.67 10.66
## bld_type* 1.480e+00 1.0 8.000e+00 7.000e+00 -0.72 1.41
## market* 0.000e+00 1.0 4.000e+00 3.000e+00 -1.40 11.22
## price_total.norm 6.070e+00 1.0 4.999e+01 4.899e+01 1.28 1.64
## price_m.norm 5.955e+01 5.2 8.500e+04 8.499e+04 109.30 12416.36
## se
## city* 0.00
## subCity* 0.07
## street* 3.59
## house* 5.13
## commute_min 0.04
## commute_type* 0.00
## metro* 0.34
## rooms 0.00
## area_total 0.21
## area_kitchen 0.07
## area_living 0.26
## price_total 59858.27
## price_total_usd 2030.96
## price_m 4355.29
## bld_flat 0.05
## bld_flat_total 0.07
## bld_type* 0.01
## market* 0.00
## price_total.norm 0.06
## price_m.norm 4.36
## --------------------------------------------------------
## group: 4
## var n mean sd median trimmed
## city* 1 7665 1.000e+00 0.000e+00 1.000e+00 1.000e+00
## subCity* 2 7665 1.730e+00 6.340e+00 1.000e+00 1.000e+00
## street* 3 7665 8.038e+02 5.926e+02 8.550e+02 7.869e+02
## house* 4 7665 1.317e+03 8.144e+02 1.335e+03 1.318e+03
## commute_min 5 7364 8.210e+00 6.620e+00 7.000e+00 7.770e+00
## commute_type* 6 7665 2.750e+00 5.200e-01 3.000e+00 2.860e+00
## metro* 7 7665 9.245e+01 5.266e+01 9.800e+01 9.342e+01
## rooms 8 7665 4.000e+00 0.000e+00 4.000e+00 4.000e+00
## area_total 9 7665 1.387e+02 4.574e+01 1.360e+02 1.359e+02
## area_kitchen 10 6072 1.653e+01 1.152e+01 1.400e+01 1.477e+01
## area_living 11 7268 7.348e+01 4.507e+01 7.200e+01 7.192e+01
## price_total 12 7665 1.585e+07 1.372e+07 1.300e+07 1.425e+07
## price_total_usd 13 4591 7.824e+05 5.435e+05 7.038e+05 7.376e+05
## price_m 14 7665 1.375e+05 3.596e+05 1.431e+05 1.240e+05
## bld_flat 15 7665 8.620e+00 9.020e+00 5.000e+00 6.850e+00
## bld_flat_total 16 7665 1.520e+01 1.154e+01 1.200e+01 1.341e+01
## bld_type* 17 7665 5.340e+00 1.610e+00 5.000e+00 5.370e+00
## market* 18 7665 3.030e+00 5.100e-01 3.000e+00 3.010e+00
## price_total.norm 19 7665 1.585e+01 1.372e+01 1.300e+01 1.425e+01
## price_m.norm 20 7665 1.375e+02 3.596e+02 1.431e+02 1.240e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.000e+00 1.000e+00 0.000e+00 NaN NaN
## subCity* 0.000e+00 1.000e+00 8.400e+01 8.300e+01 9.85 105.03
## street* 7.472e+02 1.000e+00 1.840e+03 1.839e+03 0.04 -1.21
## house* 9.622e+02 1.000e+00 2.888e+03 2.887e+03 -0.01 -1.15
## commute_min 4.450e+00 1.000e+00 2.550e+02 2.540e+02 21.40 786.83
## commute_type* 0.000e+00 1.000e+00 3.000e+00 2.000e+00 -1.96 2.97
## metro* 6.227e+01 1.000e+00 1.750e+02 1.740e+02 -0.16 -1.19
## rooms 0.000e+00 4.000e+00 4.000e+00 0.000e+00 NaN NaN
## area_total 5.189e+01 1.000e+00 3.000e+02 2.990e+02 0.56 -0.04
## area_kitchen 7.410e+00 2.000e-01 2.100e+02 2.098e+02 4.68 46.29
## area_living 3.262e+01 0.000e+00 2.780e+02 2.780e+02 0.34 0.84
## price_total 1.557e+07 1.020e+06 4.995e+07 4.893e+07 0.70 -0.66
## price_total_usd 3.856e+05 3.978e+04 1.620e+07 1.616e+07 11.28 260.23
## price_m 1.726e+05 5.172e+03 3.000e+07 2.999e+07 74.74 6201.14
## bld_flat 4.450e+00 1.000e+00 8.100e+01 8.000e+01 2.86 11.61
## bld_flat_total 8.900e+00 0.000e+00 7.600e+01 7.600e+01 1.57 3.08
## bld_type* 1.480e+00 1.000e+00 8.000e+00 7.000e+00 -0.45 0.27
## market* 0.000e+00 1.000e+00 4.000e+00 3.000e+00 -1.55 7.46
## price_total.norm 1.557e+01 1.020e+00 4.995e+01 4.893e+01 0.70 -0.66
## price_m.norm 1.726e+02 5.170e+00 3.000e+04 2.999e+04 74.74 6201.14
## se
## city* 0.00
## subCity* 0.07
## street* 6.77
## house* 9.30
## commute_min 0.08
## commute_type* 0.01
## metro* 0.60
## rooms 0.00
## area_total 0.52
## area_kitchen 0.15
## area_living 0.53
## price_total 156659.77
## price_total_usd 8021.83
## price_m 4107.47
## bld_flat 0.10
## bld_flat_total 0.13
## bld_type* 0.02
## market* 0.01
## price_total.norm 0.16
## price_m.norm 4.11
## --------------------------------------------------------
## group: 5
## var n mean sd median trimmed
## city* 1 2318 1.000e+00 0.000e+00 1.000e+00 1.000e+00
## subCity* 2 2318 1.590e+00 6.150e+00 1.000e+00 1.000e+00
## street* 3 2318 7.234e+02 5.992e+02 8.060e+02 6.902e+02
## house* 4 2318 1.206e+03 8.090e+02 1.157e+03 1.188e+03
## commute_min 5 2214 7.860e+00 8.470e+00 7.000e+00 7.280e+00
## commute_type* 6 2318 2.750e+00 5.300e-01 3.000e+00 2.870e+00
## metro* 7 2318 9.152e+01 5.142e+01 9.100e+01 9.222e+01
## rooms 8 2318 5.000e+00 0.000e+00 5.000e+00 5.000e+00
## area_total 9 2318 1.901e+02 5.418e+01 1.900e+02 1.899e+02
## area_kitchen 10 1618 2.028e+01 1.433e+01 1.800e+01 1.850e+01
## area_living 11 2121 9.392e+01 6.474e+01 9.900e+01 9.177e+01
## price_total 12 2318 1.380e+07 1.494e+07 4.977e+06 1.149e+07
## price_total_usd 13 887 1.118e+06 1.065e+06 9.792e+05 9.837e+05
## price_m 14 2318 8.985e+04 1.043e+05 2.237e+04 7.354e+04
## bld_flat 15 2318 9.850e+00 1.297e+01 6.000e+00 6.930e+00
## bld_flat_total 16 2318 1.328e+01 1.165e+01 8.000e+00 1.116e+01
## bld_type* 17 2318 5.170e+00 1.620e+00 5.000e+00 5.210e+00
## market* 18 2318 2.970e+00 5.900e-01 3.000e+00 3.000e+00
## price_total.norm 19 2318 1.380e+01 1.494e+01 4.980e+00 1.149e+01
## price_m.norm 20 2318 8.985e+01 1.043e+02 2.237e+01 7.354e+01
## mad min max range skew kurtosis
## city* 0.000e+00 1.000e+00 1.000e+00 0.000e+00 NaN NaN
## subCity* 0.000e+00 1.000e+00 8.400e+01 8.300e+01 11.38 135.15
## street* 8.666e+02 1.000e+00 1.840e+03 1.839e+03 0.14 -1.29
## house* 1.008e+03 1.000e+00 2.802e+03 2.801e+03 0.18 -1.12
## commute_min 4.450e+00 1.000e+00 2.550e+02 2.540e+02 22.51 650.94
## commute_type* 0.000e+00 1.000e+00 3.000e+00 2.000e+00 -2.02 3.16
## metro* 6.375e+01 1.000e+00 1.740e+02 1.730e+02 -0.14 -1.18
## rooms 0.000e+00 5.000e+00 5.000e+00 0.000e+00 NaN NaN
## area_total 6.612e+01 3.800e+01 3.000e+02 2.620e+02 0.01 -0.86
## area_kitchen 8.900e+00 1.000e+00 2.600e+02 2.590e+02 6.25 77.71
## area_living 5.930e+01 0.000e+00 3.000e+02 3.000e+02 0.03 -0.63
## price_total 4.607e+06 1.010e+06 4.999e+07 4.898e+07 1.03 -0.42
## price_total_usd 4.310e+05 9.424e+04 1.620e+07 1.611e+07 7.18 70.62
## price_m 1.813e+04 4.400e+03 4.352e+05 4.308e+05 1.01 -0.37
## bld_flat 4.450e+00 1.000e+00 8.200e+01 8.100e+01 3.35 12.67
## bld_flat_total 4.450e+00 0.000e+00 7.500e+01 7.500e+01 1.72 2.81
## bld_type* 1.480e+00 1.000e+00 8.000e+00 7.000e+00 -0.35 0.28
## market* 0.000e+00 1.000e+00 4.000e+00 3.000e+00 -1.64 5.19
## price_total.norm 4.610e+00 1.010e+00 4.999e+01 4.898e+01 1.03 -0.42
## price_m.norm 1.813e+01 4.400e+00 4.352e+02 4.308e+02 1.01 -0.37
## se
## city* 0.00
## subCity* 0.13
## street* 12.45
## house* 16.80
## commute_min 0.18
## commute_type* 0.01
## metro* 1.07
## rooms 0.00
## area_total 1.13
## area_kitchen 0.36
## area_living 1.41
## price_total 310225.29
## price_total_usd 35743.49
## price_m 2165.57
## bld_flat 0.27
## bld_flat_total 0.24
## bld_type* 0.03
## market* 0.01
## price_total.norm 0.31
## price_m.norm 2.17
Распределение цен в разрезе кол-ва комнат
cian.clean.r1 <- cian.clean[cian.clean$rooms == 1, ]
cian.clean.r2 <- cian.clean[cian.clean$rooms == 2, ]
cian.clean.r3 <- cian.clean[cian.clean$rooms == 3, ]
cian.clean.r4 <- cian.clean[cian.clean$rooms == 4, ]
cian.clean.r5 <- cian.clean[cian.clean$rooms == 5, ]
par(mfrow = c(2, 3))
hist(cian.clean$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (все)",
ylab = "Кол-во")
hist(cian.clean.r1$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (1 комната)",
ylab = "Кол-во")
hist(cian.clean.r2$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (2 комнаты)",
ylab = "Кол-во")
hist(cian.clean.r3$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (3 комнаты)",
ylab = "Кол-во")
hist(cian.clean.r4$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (4 комнаты)",
ylab = "Кол-во")
hist(cian.clean.r5$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (5 комнат)",
ylab = "Кол-во")
Распределение площади в разрезе кол-ва комнат
par(mfrow = c(2, 3))
hist(cian.clean$area_total, col = "yellow", main = "", xlab = "Площадь. (все)",
ylab = "Кол-во")
hist(cian.clean.r1$area_total, col = "yellow", main = "", xlab = "Площадь. (1 комната)",
ylab = "Кол-во")
hist(cian.clean.r2$area_total, col = "yellow", main = "", xlab = "Площадь. (2 комнаты)",
ylab = "Кол-во")
hist(cian.clean.r3$area_total, col = "yellow", main = "", xlab = "Площадь. (3 комнаты)",
ylab = "Кол-во")
hist(cian.clean.r4$area_total, col = "yellow", main = "", xlab = "Площадь. (4 комнаты)",
ylab = "Кол-во")
hist(cian.clean.r5$area_total, col = "yellow", main = "", xlab = "Площадь. (5 комнат)",
ylab = "Кол-во")
Рассматриваем однокомнатные квартиры, предполагаем что площадь квартир в этом случае не должна превышать 80 м. кв. и цена не больше 20 млн. (отбрасываем экстримальные значения, для определения эктремальных значений смотрим предыдущие распределения)
r1 <- cian.clean.r1[cian.clean.r1$area_total <= 80 & cian.clean.r1$price_total.norm <=
20, ]
r1 <- r1[!is.na(r1$price_total), ]
describe(r1)
## var n mean sd median trimmed
## city* 1 19628 1.000e+00 1.000e-02 1.0 1.000e+00
## subCity* 2 19628 5.830e+00 1.687e+01 1.0 1.000e+00
## street* 3 19628 8.305e+02 5.861e+02 842.0 8.182e+02
## house* 4 19628 1.293e+03 8.130e+02 1291.0 1.290e+03
## commute_min 5 17608 1.019e+01 6.940e+00 10.0 9.720e+00
## commute_type* 6 19628 2.460e+00 6.700e-01 3.0 2.580e+00
## metro* 7 19628 9.050e+01 5.475e+01 93.0 9.078e+01
## rooms 8 19628 1.000e+00 0.000e+00 1.0 1.000e+00
## area_total 9 19628 3.843e+01 7.200e+00 38.0 3.759e+01
## area_kitchen 10 19137 8.850e+00 3.460e+00 8.6 8.520e+00
## area_living 11 19539 1.981e+01 3.136e+01 19.0 1.936e+01
## price_total 12 19628 6.663e+06 2.459e+06 6000000.0 6.255e+06
## price_total_usd 13 19587 2.042e+05 7.546e+04 183595.0 1.915e+05
## price_m 14 19628 1.740e+05 5.018e+04 167500.0 1.701e+05
## bld_flat 15 19628 6.880e+00 5.240e+00 5.0 6.220e+00
## bld_flat_total 16 19628 1.341e+01 6.300e+00 12.0 1.289e+01
## bld_type* 17 19628 5.450e+00 1.140e+00 6.0 5.570e+00
## market* 18 19628 3.090e+00 4.200e-01 3.0 3.020e+00
## price_total.norm 19 19628 6.660e+00 2.460e+00 6.0 6.250e+00
## price_m.norm 20 19628 1.740e+02 5.018e+01 167.5 1.701e+02
## mad min max range skew kurtosis
## city* 0.000e+00 1.000e+00 2.000e+00 1.000e+00 99.04 9808.00
## subCity* 0.000e+00 1.000e+00 8.400e+01 8.300e+01 3.50 11.15
## street* 6.894e+02 1.000e+00 1.843e+03 1.842e+03 0.03 -1.21
## house* 9.726e+02 1.000e+00 2.907e+03 2.906e+03 0.01 -1.13
## commute_min 4.450e+00 1.000e+00 2.550e+02 2.540e+02 15.61 528.58
## commute_type* 0.000e+00 1.000e+00 3.000e+00 2.000e+00 -0.87 -0.43
## metro* 7.413e+01 1.000e+00 1.750e+02 1.740e+02 -0.01 -1.28
## rooms 0.000e+00 1.000e+00 1.000e+00 0.000e+00 NaN NaN
## area_total 5.930e+00 1.250e+01 8.000e+01 6.750e+01 1.30 3.43
## area_kitchen 2.080e+00 1.000e-01 1.300e+02 1.299e+02 9.74 228.66
## area_living 1.480e+00 0.000e+00 3.215e+03 3.215e+03 82.76 7400.33
## price_total 1.334e+06 1.003e+06 2.000e+07 1.900e+07 2.27 6.86
## price_total_usd 4.083e+04 3.366e+04 1.377e+06 1.343e+06 2.45 9.67
## price_m 3.471e+04 1.471e+04 5.733e+05 5.586e+05 1.24 3.86
## bld_flat 4.450e+00 0.000e+00 5.300e+01 5.300e+01 1.50 4.03
## bld_flat_total 5.930e+00 0.000e+00 1.120e+02 1.120e+02 1.25 5.79
## bld_type* 0.000e+00 1.000e+00 8.000e+00 7.000e+00 -1.29 2.31
## market* 0.000e+00 1.000e+00 4.000e+00 3.000e+00 -0.72 9.60
## price_total.norm 1.330e+00 1.000e+00 2.000e+01 1.900e+01 2.27 6.86
## price_m.norm 3.471e+01 1.471e+01 5.733e+02 5.586e+02 1.24 3.86
## se
## city* 0.00
## subCity* 0.12
## street* 4.18
## house* 5.80
## commute_min 0.05
## commute_type* 0.00
## metro* 0.39
## rooms 0.00
## area_total 0.05
## area_kitchen 0.03
## area_living 0.22
## price_total 17553.89
## price_total_usd 539.17
## price_m 358.14
## bld_flat 0.04
## bld_flat_total 0.05
## bld_type* 0.01
## market* 0.00
## price_total.norm 0.02
## price_m.norm 0.36
summary(r1)
## city subCity
## москва :19626 :17959
## московская область: 2 поселок коммунарка: 485
## московский : 207
## зеленоград : 190
## троицк : 133
## щербинка : 123
## (Other) : 531
## street house commute_min
## : 3435 : 1113 Min. : 1.0
## Боровское шоссе : 402 д.8 : 427 1st Qu.: 6.0
## Профсоюзная улица : 165 д.5 : 405 Median : 10.0
## Волгоградский проспект: 115 д.3 : 388 Mean : 10.2
## улица Летчика Грицевца: 115 д.6 : 386 3rd Qu.: 13.0
## Варшавское шоссе : 108 д.4 : 381 Max. :255.0
## (Other) :15288 (Other):16528 NA's :2020
## commute_type metro rooms
## : 2020 м.Юго-Западная : 1250 Min. :1
## на автомобиле: 6545 м.Теплый стан : 761 1st Qu.:1
## пешком :11063 : 717 Median :1
## м.Выхино : 559 Mean :1
## м.Царицыно : 493 3rd Qu.:1
## м.Петровско-Разумовская: 451 Max. :1
## (Other) :15397
## area_total area_kitchen area_living price_total
## Min. :12.5 Min. : 0.1 Min. : 0 Min. : 1002750
## 1st Qu.:33.0 1st Qu.: 7.0 1st Qu.: 18 1st Qu.: 5250000
## Median :38.0 Median : 8.6 Median : 19 Median : 6000000
## Mean :38.4 Mean : 8.9 Mean : 20 Mean : 6663414
## 3rd Qu.:40.0 3rd Qu.: 10.0 3rd Qu.: 20 3rd Qu.: 7200000
## Max. :80.0 Max. :130.0 Max. :3215 Max. :20000000
## NA's :491 NA's :89
## price_total_usd price_m bld_flat bld_flat_total
## Min. : 33659 Min. : 14714 Min. : 0.00 Min. : 0.0
## 1st Qu.: 160645 1st Qu.:147059 1st Qu.: 3.00 1st Qu.: 9.0
## Median : 183595 Median :167500 Median : 5.00 Median : 12.0
## Mean : 204168 Mean :174038 Mean : 6.88 Mean : 13.4
## 3rd Qu.: 220314 3rd Qu.:194030 3rd Qu.:10.00 3rd Qu.: 17.0
## Max. :1377000 Max. :573333 Max. :53.00 Max. :112.0
## NA's :41
## bld_type market price_total.norm price_m.norm
## пан :11429 : 304 Min. : 1.00 Min. : 14.7
## кирп : 3020 возможна ипотека: 9 1st Qu.: 5.25 1st Qu.:147.1
## к-м : 2464 вторичка :17001 Median : 6.00 Median :167.5
## мон : 1151 новостройка : 2314 Mean : 6.66 Mean :174.0
## блоч : 1059 3rd Qu.: 7.20 3rd Qu.:194.0
## : 273 Max. :20.00 Max. :573.3
## (Other): 232
par(mfrow = c(2, 1))
hist(r1$price_total.norm, col = "yellow", main = "", xlab = "Цена млн.", ylab = "Кол-во")
hist(r1$area_total, col = "yellow", main = "", xlab = "Площадь кв. м.", ylab = "Кол-во")
Всего однокомнатных квартир, выставленных на продажу и удовлетворяющим условиям валидности 19.628 Средняя цена за однокомнатную квартиру 6 млн. Средняя площадь 38 м. кв. Больше всего квартир продается на Боровском шоссе (почти в 3 раза больше чем в следующем случае?!)
Рассмотрим какие факторы влияют на формирование цены квартиры.
Цена квартиры должна зависеть от площади, цены за квадратный метр, района, типа дома, удаленности от метро и рынка (первичный / вторичный).
Зависимость цены квартиры от площади
lm_area_price = lm(r1$price_total.norm ~ r1$area_total)
par(mfrow = c(1, 1))
plot(r1$price_total.norm ~ r1$area_total, col = "blue", xlab = "площадь (м. кв.)",
ylab = "цена (млн.)")
abline(lm_area_price, col = "red")
summary(lm_area_price)
##
## Call:
## lm(formula = r1$price_total.norm ~ r1$area_total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.502 -0.993 -0.228 0.739 11.347
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.27856 0.08330 3.34 0.00083 ***
## r1$area_total 0.16612 0.00213 77.98 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.15 on 19626 degrees of freedom
## Multiple R-squared: 0.237, Adjusted R-squared: 0.237
## F-statistic: 6.08e+03 on 1 and 19626 DF, p-value: <2e-16
confint(lm_area_price)
## 2.5 % 97.5 %
## (Intercept) 0.1153 0.4418
## r1$area_total 0.1619 0.1703
При увеличении площади квартиры на 1 кв. м. цена увеличевается на 166 тыс. руб (в среднем, без учета других параметров) Результат является статистически значимым, отношение коэффицента регрессии (Estimate, красная линия) к стандартной ошибке отклонения значений (Std. Error) велико (t-value) Площадь объясняет (формирует) 23% цены квартиры.
В 95 случаев из 100, коэффицент регрессии для соотношения площадь - цена будет лежать в интервале от 0.16 - 0.17 (что соответствует 160 - 170 тыс. руб.)
ggplot(r1, aes(x = area_total, y = price_total.norm)) + geom_smooth(method = "lm") +
geom_point() + xlab("Площадь (кв. м.)") + ylab("Цена (млн.)")
Зависимость цены квартиры от цены за метр квадратный
lm_price_m_price = lm(r1$price_total.norm ~ r1$price_m.norm)
par(mfrow = c(1, 1))
plot(r1$price_total.norm ~ r1$price_m.norm, col = "blue", xlab = "цена за м. кв. (тыс.))",
ylab = "цена (млн.)")
abline(lm_price_m_price, col = "red")
summary(lm_price_m_price)
##
## Call:
## lm(formula = r1$price_total.norm ~ r1$price_m.norm)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.014 -0.807 -0.060 0.306 9.551
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.288947 0.036719 -7.87 3.8e-15 ***
## r1$price_m.norm 0.039947 0.000203 197.05 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.43 on 19626 degrees of freedom
## Multiple R-squared: 0.664, Adjusted R-squared: 0.664
## F-statistic: 3.88e+04 on 1 and 19626 DF, p-value: <2e-16
confint(lm_price_m_price)
## 2.5 % 97.5 %
## (Intercept) -0.36092 -0.21698
## r1$price_m.norm 0.03955 0.04034
При увеличении стоимости 1 кв. м. квартиры на 1 пункт (1 тысяча рублей) общая стоимость квариры увеличевается на 39.947 тыс. руб (в среднем, без учета других параметров) Результат является статистически значимым, отношение коэффицента регрессии (Estimate, красная линия) к стандартной ошибке отклонения значений (Std. Error) велико (t-value) Цена за квадратный метр объясняет (формирует) 66% цены квартиры.
В 95 случаев из 100, коэффицент регрессии для соотношения цена кв. м. - общая цена, будет лежать в интервале от 0.039 - 0.04 (что соответствует 39 - 40 тыс. руб.)
ggplot(r1, aes(x = price_m.norm, y = price_total.norm)) + geom_smooth(method = "lm") +
geom_point() + xlab("Цена за кв. м. (тыс.))") + ylab("Цена (млн.)")
Зависимость цены квартиры от цены за метр квадратный и общей площади
lm_m_area_price <- lm(r1$price_total.norm ~ r1$price_m.norm + r1$area_total)
summary(lm_m_area_price)
##
## Call:
## lm(formula = r1$price_total.norm ~ r1$price_m.norm + r1$area_total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.395 -0.091 0.038 0.160 2.790
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -7.80e+00 2.29e-02 -341 <2e-16 ***
## r1$price_m.norm 4.18e-02 6.86e-05 610 <2e-16 ***
## r1$area_total 1.87e-01 4.78e-04 391 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.481 on 19625 degrees of freedom
## Multiple R-squared: 0.962, Adjusted R-squared: 0.962
## F-statistic: 2.47e+05 on 2 and 19625 DF, p-value: <2e-16
confint(lm_m_area_price)
## 2.5 % 97.5 %
## (Intercept) -7.84233 -7.75267
## r1$price_m.norm 0.04171 0.04198
## r1$area_total 0.18583 0.18771
Очевидно что общая цена за квартиру формируется по формуле [цена м.кв. * общая площадь], таким образом данная модель должна объяснять (формировать) 100% результат. Полученные результат равен 96% скорее всего ошибка в данных, для некоторых записей [общая стоимость] != [цена м.кв. * общая площадь].
Результат является статистически значимым.
При увеличении площади квартиры на 1 кв. м. цена увеличевается на 186 тыс. руб (в среднем, при одинаковой цене за 1 кв. м.) Сравнивая с предыдущим полученым результатом:
При увеличении площади квартиры на 1 кв. м. цена увеличевается на 166 тыс. руб (в среднем, без учета других параметров)
Предыдущий результат был получен, предпологая что все квартиры имеют одинаковую площадь, новая модель учитывает площадь квартиры и показывает что между площадью квратиры и ценой за квадратный метр есть связь (цена за квадратный метр пропорциональна площади квартиры).
Найдем ошибочные данные, [общая стоимость] != [цена м.кв. * общая площадь].
r1$price_total.calc <- r1$price_m * r1$area_total
price_total_err <- r1[r1$price_total.calc != r1$price_total, ]
nrow(price_total_err)
## [1] 16333
head(price_total_err[c(12, 21)])
## price_total price_total.calc
## 3 1750000 1750014
## 4 2022405 2022413
## 5 2059400 2059411
## 6 2100000 2099993
## 7 2250000 2249988
## 8 2400000 2400017
Результат показывает что проблема, в странном округлении, [общая стоимость] = round?([цена м.кв. * общая площадь]), причем большинство записей имеют расхождение данных.
** В дальнейшем ищем предикторы цены за квадратный метр, не общей цены. Между общей ценой и ценой за кв. метр прямая связь (через площадь), поэтому для нахождения этих обеих переменных нужно знать только одну из них. **
Зависимость цены за кв. м. от площади
lm_area_price_m = lm(r1$price_m.norm ~ r1$area_total)
par(mfrow = c(1, 1))
plot(r1$price_m.norm ~ r1$area_total, col = "blue", xlab = "площадь (м. кв.)",
ylab = "цена кв. м. (тыс.)")
abline(lm_area_price_m, col = "red")
summary(lm_area_price_m)
##
## Call:
## lm(formula = r1$price_m.norm ~ r1$area_total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -147.2 -27.6 -7.2 19.7 387.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 193.0006 1.9403 99.47 <2e-16 ***
## r1$area_total -0.4934 0.0496 -9.94 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 50.1 on 19626 degrees of freedom
## Multiple R-squared: 0.00501, Adjusted R-squared: 0.00496
## F-statistic: 98.9 on 1 and 19626 DF, p-value: <2e-16
confint(lm_area_price_m)
## 2.5 % 97.5 %
## (Intercept) 189.1975 196.8037
## r1$area_total -0.5906 -0.3961
При увеличении площади на 1 кв. м., стоимость 1 кв. м. уменьшается на 5 тыс. руб (в среднем, без учета других параметров) Результат является статистически значимым, отношение коэффицента регрессии (Estimate, красная линия) к стандартной ошибке отклонения значений (Std. Error) велико (t-value) Площадь объясняет (формирует) всего лишь 0.5% стоимости квадратного метра квартиры.
В 95 случаев из 100, коэффицент регрессии для соотношения площадь - цена кв. м. -, будет лежать в интервале от -0.59 - 0.39 (что соответствует -6 - -4 тыс. руб.)
ggplot(r1, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") +
geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")
####Из результатов видно что квартиры из верхнего ценового диапазона, имеют тендецию к более сильной зависимости (негативной), между площадью и ценой за кв. м. Например выберем все квартиры с ценой более 400 тыс. руб за кв. м.
r1h <- r1[r1$price_m.norm >= 400, ]
lm_area_price_m_h = lm(r1h$price_m.norm ~ r1h$area_total)
par(mfrow = c(1, 1))
ggplot(r1h, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") +
geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")
summary(lm_area_price_m_h)
##
## Call:
## lm(formula = r1h$price_m.norm ~ r1h$area_total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -74.03 -20.70 -6.55 9.07 94.03
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 507.344 22.098 23.0 <2e-16 ***
## r1h$area_total -1.869 0.668 -2.8 0.008 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 37.4 on 38 degrees of freedom
## Multiple R-squared: 0.171, Adjusted R-squared: 0.149
## F-statistic: 7.83 on 1 and 38 DF, p-value: 0.00803
confint(lm_area_price_m_h)
## 2.5 % 97.5 %
## (Intercept) 462.610 552.0784
## r1h$area_total -3.222 -0.5169
####Также квартиры в нижнем ценавом диапазоне показывают еще более, сильную негативную корреляцию Например выберем все квартиры с ценой менее 200 тыс. руб за кв. м.
r1l <- r1[r1$price_m.norm <= 200, ]
lm_area_price_m_l = lm(r1l$price_m.norm ~ r1l$area_total)
par(mfrow = c(1, 1))
ggplot(r1l, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") +
geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")
summary(lm_area_price_m_l)
##
## Call:
## lm(formula = r1l$price_m.norm ~ r1l$area_total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -132.08 -15.41 1.02 17.96 112.59
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 220.3809 1.2905 170.8 <2e-16 ***
## r1l$area_total -1.7212 0.0333 -51.7 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 26.7 on 15450 degrees of freedom
## Multiple R-squared: 0.147, Adjusted R-squared: 0.147
## F-statistic: 2.67e+03 on 1 and 15450 DF, p-value: <2e-16
confint(lm_area_price_m_l)
## 2.5 % 97.5 %
## (Intercept) 217.851 222.911
## r1l$area_total -1.786 -1.656
Цена за кв. м. падает при увеличении площади квартиры (+ 1 кв м -> - 17 тыс. руб. за кв. м.)
####Квартиры в среднем ценовом диапазоне (от 200 до 400 тыс. руб.) показывают, обратное, здесь положительная корреляция, причем с сильным коэффицентом.
r1m <- r1[r1$price_m.norm > 200 & r1$price_m.norm < 400, ]
lm_area_price_m_m = lm(r1m$price_m.norm ~ r1m$area_total)
par(mfrow = c(1, 1))
ggplot(r1m, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") +
geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")
summary(lm_area_price_m_m)
##
## Call:
## lm(formula = r1m$price_m.norm ~ r1m$area_total)
##
## Residuals:
## Min 1Q Median 3Q Max
## -75.3 -29.6 -12.3 17.4 157.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 205.8195 2.7628 74.5 <2e-16 ***
## r1m$area_total 0.9690 0.0683 14.2 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 41.2 on 4134 degrees of freedom
## Multiple R-squared: 0.0464, Adjusted R-squared: 0.0462
## F-statistic: 201 on 1 and 4134 DF, p-value: <2e-16
confint(lm_area_price_m_m)
## 2.5 % 97.5 %
## (Intercept) 200.403 211.236
## r1m$area_total 0.835 1.103
При увеличении площади на 1 кв. м., стоимость 1 кв. м. увеличивается на 96 тыс. руб (в среднем, без учета других параметров)
Сохраняем ценовые категории в модели, возможно они будут полезны для определения других связей.
r1.cat <- r1h
r1.cat_m <- r1m
r1.cat_l <- r1l
###Протестируем предположение, что существуют ценовые категории цен на квартиры.
Те при определенном наборе параметров, цены на квартиру формируются исходя из того что параметры подходят под условия определенной группы. Например если квартира находится в опеределенном районе, и находится в определенном типе дома то данная цена на квартиру будет примерно соответствовать группе квартир с такими же параметрами.
####Категориируем цены каждой записи.
hist(r1$price_m.norm)
price_cut <- cut(r1$price_m.norm, pretty(r1$price_m.norm, 6))
r1$price_cut <- price_cut
describeBy(r1, r1$price_cut)
## group: (0,100]
## var n mean sd median trimmed mad
## city* 1 890 1.000e+00 0.00 1.000e+00 1.000e+00 0.00
## subCity* 2 890 3.488e+01 30.87 4.700e+01 3.318e+01 50.41
## street* 3 890 4.125e+02 495.21 4.000e+02 3.284e+02 591.56
## house* 4 890 1.111e+03 964.05 9.870e+02 1.054e+03 1460.36
## commute_min 5 317 1.408e+01 16.10 1.100e+01 1.232e+01 5.93
## commute_type* 6 890 1.390e+00 0.55 1.000e+00 1.320e+00 0.00
## metro* 7 890 1.152e+02 65.20 1.510e+02 1.223e+02 31.13
## rooms 8 890 1.000e+00 0.00 1.000e+00 1.000e+00 0.00
## area_total 9 890 4.674e+01 8.13 4.670e+01 4.640e+01 6.38
## area_kitchen 10 845 1.167e+01 4.64 1.170e+01 1.146e+01 2.52
## area_living 11 885 2.434e+01 107.61 2.000e+01 2.028e+01 2.97
## price_total 12 890 3.955e+06 938556.81 4.100e+06 4.019e+06 812946.64
## price_total_usd 13 859 1.255e+05 49318.22 1.267e+05 1.247e+05 23331.68
## price_m 14 890 8.569e+04 16623.06 9.061e+04 8.891e+04 9397.46
## bld_flat 15 890 6.530e+00 5.18 5.000e+00 5.930e+00 4.45
## bld_flat_total 16 890 1.368e+01 5.39 1.500e+01 1.407e+01 2.97
## bld_type* 17 890 4.700e+00 1.20 4.000e+00 4.550e+00 0.00
## market* 18 890 3.750e+00 0.53 4.000e+00 3.850e+00 0.00
## price_total.norm 19 890 3.960e+00 0.94 4.100e+00 4.020e+00 0.81
## price_m.norm 20 890 8.569e+01 16.62 9.061e+01 8.891e+01 9.40
## price_total.calc 21 890 3.955e+06 938555.40 4.100e+06 4.019e+06 812940.71
## price_cut* 22 890 1.000e+00 0.00 1.000e+00 1.000e+00 0.00
## min max range skew kurtosis se
## city* 1.000e+00 1.000e+00 0.000e+00 NaN NaN 0.00
## subCity* 1.000e+00 8.400e+01 8.300e+01 0.02 -1.64 1.03
## street* 1.000e+00 1.838e+03 1.837e+03 1.09 0.39 16.60
## house* 1.000e+00 2.878e+03 2.877e+03 0.28 -1.33 32.31
## commute_min 1.000e+00 2.550e+02 2.540e+02 11.26 158.59 0.90
## commute_type* 1.000e+00 3.000e+00 2.000e+00 1.03 0.04 0.02
## metro* 1.000e+00 1.720e+02 1.710e+02 -0.85 -1.03 2.19
## rooms 1.000e+00 1.000e+00 0.000e+00 NaN NaN 0.00
## area_total 2.070e+01 7.900e+01 5.830e+01 0.68 2.22 0.27
## area_kitchen 1.000e-01 1.130e+02 1.129e+02 12.56 267.44 0.16
## area_living 0.000e+00 3.215e+03 3.215e+03 29.45 870.33 3.62
## price_total 1.003e+06 7.250e+06 6.247e+06 -0.72 1.13 31460.50
## price_total_usd 3.366e+04 1.377e+06 1.343e+06 18.98 480.02 1682.72
## price_m 1.471e+04 1.000e+05 8.529e+04 -2.47 6.92 557.21
## bld_flat 1.000e+00 5.300e+01 5.200e+01 2.20 12.28 0.17
## bld_flat_total 0.000e+00 4.000e+01 4.000e+01 -0.45 0.44 0.18
## bld_type* 1.000e+00 7.000e+00 6.000e+00 0.65 0.01 0.04
## market* 1.000e+00 4.000e+00 3.000e+00 -2.59 8.56 0.02
## price_total.norm 1.000e+00 7.250e+00 6.250e+00 -0.72 1.13 0.03
## price_m.norm 1.471e+01 1.000e+02 8.529e+01 -2.47 6.92 0.56
## price_total.calc 1.003e+06 7.250e+06 6.247e+06 -0.72 1.13 31460.45
## price_cut* 1.000e+00 1.000e+00 0.000e+00 NaN NaN 0.00
## --------------------------------------------------------
## group: (100,200]
## var n mean sd median trimmed
## city* 1 14562 1.000e+00 1.000e-02 1.0 1.000e+00
## subCity* 2 14562 5.430e+00 1.633e+01 1.0 1.000e+00
## street* 3 14562 8.306e+02 5.858e+02 834.0 8.180e+02
## house* 4 14562 1.295e+03 8.055e+02 1307.0 1.291e+03
## commute_min 5 13146 1.077e+01 6.780e+00 10.0 1.027e+01
## commute_type* 6 14562 2.420e+00 6.600e-01 3.0 2.530e+00
## metro* 7 14562 8.929e+01 5.414e+01 89.0 8.921e+01
## rooms 8 14562 1.000e+00 0.000e+00 1.0 1.000e+00
## area_total 9 14562 3.769e+01 5.960e+00 38.0 3.702e+01
## area_kitchen 10 14357 8.580e+00 2.910e+00 8.5 8.330e+00
## area_living 11 14509 1.959e+01 2.449e+01 19.0 1.935e+01
## price_total 12 14562 5.951e+06 1.185e+06 5800000.0 5.834e+06
## price_total_usd 13 14553 1.820e+05 3.616e+04 177475.0 1.785e+05
## price_m 14 14562 1.588e+05 2.374e+04 161286.0 1.602e+05
## bld_flat 15 14562 6.730e+00 4.980e+00 5.0 6.130e+00
## bld_flat_total 16 14562 1.316e+01 5.800e+00 12.0 1.274e+01
## bld_type* 17 14562 5.520e+00 1.070e+00 6.0 5.700e+00
## market* 18 14562 3.070e+00 3.800e-01 3.0 3.000e+00
## price_total.norm 19 14562 5.950e+00 1.180e+00 5.8 5.830e+00
## price_m.norm 20 14562 1.588e+02 2.374e+01 161.3 1.602e+02
## price_total.calc 21 14562 5.951e+06 1.185e+06 5799996.0 5.834e+06
## price_cut* 22 14562 2.000e+00 0.000e+00 2.0 2.000e+00
## mad min max range skew kurtosis
## city* 0.00 1.0 2.000e+00 1.000e+00 85.30 7275.00
## subCity* 0.00 1.0 8.400e+01 8.300e+01 3.77 13.21
## street* 696.82 1.0 1.843e+03 1.842e+03 0.03 -1.21
## house* 944.42 1.0 2.907e+03 2.906e+03 0.02 -1.11
## commute_min 4.45 1.0 2.550e+02 2.540e+02 14.81 512.33
## commute_type* 0.00 1.0 3.000e+00 2.000e+00 -0.72 -0.56
## metro* 69.68 1.0 1.750e+02 1.740e+02 0.07 -1.25
## rooms 0.00 1.0 1.000e+00 0.000e+00 NaN NaN
## area_total 4.45 17.0 8.000e+01 6.300e+01 1.57 5.31
## area_kitchen 2.22 0.1 1.000e+02 9.990e+01 10.23 251.08
## area_living 1.48 0.0 2.200e+03 2.200e+03 80.95 6833.92
## price_total 963690.00 2100000.0 1.550e+07 1.340e+07 1.72 6.31
## price_total_usd 29487.43 64258.0 4.743e+05 4.100e+05 1.72 6.36
## price_m 23509.59 100041.0 2.000e+05 9.996e+04 -0.46 -0.39
## bld_flat 4.45 0.0 4.000e+01 4.000e+01 1.23 2.15
## bld_flat_total 5.93 0.0 1.120e+02 1.120e+02 1.19 8.07
## bld_type* 0.00 1.0 8.000e+00 7.000e+00 -1.75 3.56
## market* 0.00 1.0 4.000e+00 3.000e+00 -0.83 12.16
## price_total.norm 0.96 2.1 1.550e+01 1.340e+01 1.72 6.31
## price_m.norm 23.51 100.0 2.000e+02 9.996e+01 -0.46 -0.39
## price_total.calc 963660.35 2099993.0 1.550e+07 1.340e+07 1.72 6.31
## price_cut* 0.00 2.0 2.000e+00 0.000e+00 NaN NaN
## se
## city* 0.00
## subCity* 0.14
## street* 4.85
## house* 6.68
## commute_min 0.06
## commute_type* 0.01
## metro* 0.45
## rooms 0.00
## area_total 0.05
## area_kitchen 0.02
## area_living 0.20
## price_total 9815.92
## price_total_usd 299.73
## price_m 196.76
## bld_flat 0.04
## bld_flat_total 0.05
## bld_type* 0.01
## market* 0.00
## price_total.norm 0.01
## price_m.norm 0.20
## price_total.calc 9815.92
## price_cut* 0.00
## --------------------------------------------------------
## group: (200,300]
## var n mean sd median trimmed
## city* 1 3643 1.000e+00 0.000e+00 1.0 1.000e+00
## subCity* 2 3643 1.050e+00 1.750e+00 1.0 1.000e+00
## street* 3 3643 9.379e+02 5.660e+02 953.0 9.522e+02
## house* 4 3643 1.320e+03 7.870e+02 1310.0 1.318e+03
## commute_min 5 3614 8.220e+00 5.880e+00 7.0 7.900e+00
## commute_type* 6 3643 2.810e+00 4.100e-01 3.0 2.900e+00
## metro* 7 3643 8.789e+01 5.286e+01 94.0 8.763e+01
## rooms 8 3643 1.000e+00 0.000e+00 1.0 1.000e+00
## area_total 9 3643 3.884e+01 9.300e+00 37.5 3.798e+01
## area_kitchen 10 3491 9.100e+00 4.010e+00 9.0 8.620e+00
## area_living 11 3617 1.964e+01 7.410e+00 19.0 1.932e+01
## price_total 12 3643 9.036e+06 2.619e+06 8500000.0 8.725e+06
## price_total_usd 13 3642 2.765e+05 8.006e+04 260092.0 2.669e+05
## price_m 14 3643 2.315e+05 2.525e+04 225000.0 2.284e+05
## bld_flat 15 3643 7.470e+00 5.790e+00 6.0 6.660e+00
## bld_flat_total 16 3643 1.430e+01 7.750e+00 13.0 1.346e+01
## bld_type* 17 3643 5.350e+00 1.250e+00 6.0 5.420e+00
## market* 18 3643 3.020e+00 3.600e-01 3.0 3.000e+00
## price_total.norm 19 3643 9.040e+00 2.620e+00 8.5 8.720e+00
## price_m.norm 20 3643 2.315e+02 2.525e+01 225.0 2.284e+02
## price_total.calc 21 3643 9.036e+06 2.619e+06 8499992.0 8.725e+06
## price_cut* 22 3643 3.000e+00 0.000e+00 3.0 3.000e+00
## mad min max range skew kurtosis
## city* 0.000e+00 1.000e+00 1 0.000e+00 NaN NaN
## subCity* 0.000e+00 1.000e+00 83 8.200e+01 39.33 1635.65
## street* 6.761e+02 1.000e+00 1843 1.842e+03 -0.18 -1.10
## house* 9.400e+02 1.000e+00 2740 2.739e+03 0.00 -1.15
## commute_min 4.450e+00 1.000e+00 255 2.540e+02 20.67 856.20
## commute_type* 0.000e+00 1.000e+00 3 2.000e+00 -1.96 2.79
## metro* 6.375e+01 1.000e+00 175 1.740e+02 -0.06 -1.24
## rooms 0.000e+00 1.000e+00 1 0.000e+00 NaN NaN
## area_total 6.670e+00 1.250e+01 80 6.750e+01 0.88 1.33
## area_kitchen 2.970e+00 8.000e-01 62 6.120e+01 4.37 41.43
## area_living 1.480e+00 0.000e+00 160 1.600e+02 2.65 40.90
## price_total 1.927e+06 3.150e+06 20000000 1.685e+07 1.23 2.01
## price_total_usd 5.897e+04 9.639e+04 611982 5.156e+05 1.23 2.02
## price_m 2.436e+04 2.003e+05 300000 9.972e+04 0.89 -0.10
## bld_flat 4.450e+00 1.000e+00 43 4.200e+01 1.54 3.36
## bld_flat_total 5.930e+00 0.000e+00 56 5.600e+01 1.16 1.85
## bld_type* 1.480e+00 1.000e+00 8 7.000e+00 -0.76 1.46
## market* 0.000e+00 1.000e+00 4 3.000e+00 -2.26 18.92
## price_total.norm 1.930e+00 3.150e+00 20 1.685e+01 1.23 2.01
## price_m.norm 2.436e+01 2.003e+02 300 9.972e+01 0.89 -0.10
## price_total.calc 1.927e+06 3.150e+06 20000024 1.685e+07 1.23 2.01
## price_cut* 0.000e+00 3.000e+00 3 0.000e+00 NaN NaN
## se
## city* 0.00
## subCity* 0.03
## street* 9.38
## house* 13.04
## commute_min 0.10
## commute_type* 0.01
## metro* 0.88
## rooms 0.00
## area_total 0.15
## area_kitchen 0.07
## area_living 0.12
## price_total 43385.98
## price_total_usd 1326.68
## price_m 418.30
## bld_flat 0.10
## bld_flat_total 0.13
## bld_type* 0.02
## market* 0.01
## price_total.norm 0.04
## price_m.norm 0.42
## price_total.calc 43385.99
## price_cut* 0.00
## --------------------------------------------------------
## group: (300,400]
## var n mean sd median trimmed mad
## city* 1 494 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## subCity* 2 494 1.080e+00 1.710e+00 1.000e+00 1.000e+00 0.000e+00
## street* 3 494 8.001e+02 5.453e+02 9.420e+02 7.863e+02 5.026e+02
## house* 4 494 1.376e+03 8.799e+02 1.416e+03 1.391e+03 1.158e+03
## commute_min 5 492 7.180e+00 4.060e+00 7.000e+00 6.910e+00 4.450e+00
## commute_type* 6 494 2.870e+00 3.500e-01 3.000e+00 2.960e+00 0.000e+00
## metro* 7 494 9.988e+01 5.455e+01 1.110e+02 1.023e+02 6.079e+01
## rooms 8 494 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## area_total 9 494 4.299e+01 9.310e+00 4.100e+01 4.266e+01 1.038e+01
## area_kitchen 10 409 1.053e+01 7.710e+00 9.000e+00 9.580e+00 2.970e+00
## area_living 11 489 1.925e+01 1.070e+01 2.000e+01 1.931e+01 5.340e+00
## price_total 12 494 1.445e+07 3.320e+06 1.400e+07 1.444e+07 4.077e+06
## price_total_usd 13 494 4.420e+05 1.016e+05 4.284e+05 4.418e+05 1.248e+05
## price_m 14 494 3.358e+05 2.637e+04 3.296e+05 3.336e+05 2.885e+04
## bld_flat 15 494 7.620e+00 7.570e+00 5.000e+00 6.100e+00 4.450e+00
## bld_flat_total 16 494 1.415e+01 9.070e+00 1.200e+01 1.269e+01 5.930e+00
## bld_type* 17 494 5.470e+00 1.360e+00 5.000e+00 5.410e+00 1.480e+00
## market* 18 494 3.010e+00 4.800e-01 3.000e+00 3.000e+00 0.000e+00
## price_total.norm 19 494 1.445e+01 3.320e+00 1.400e+01 1.444e+01 4.080e+00
## price_m.norm 20 494 3.358e+02 2.637e+01 3.296e+02 3.336e+02 2.885e+01
## price_total.calc 21 494 1.445e+07 3.320e+06 1.400e+07 1.444e+07 4.077e+06
## price_cut* 22 494 4.000e+00 0.000e+00 4.000e+00 4.000e+00 0.000e+00
## min max range skew kurtosis se
## city* 1.0 1 0.000e+00 NaN NaN 0.00
## subCity* 1.0 39 3.800e+01 22.09 487.01 0.08
## street* 1.0 1822 1.821e+03 -0.13 -0.97 24.53
## house* 1.0 2663 2.662e+03 -0.18 -1.29 39.59
## commute_min 1.0 23 2.200e+01 0.55 -0.20 0.18
## commute_type* 1.0 3 2.000e+00 -2.45 4.97 0.02
## metro* 1.0 174 1.730e+02 -0.39 -1.14 2.45
## rooms 1.0 1 0.000e+00 NaN NaN 0.00
## area_total 13.1 64 5.090e+01 0.20 -0.58 0.42
## area_kitchen 3.0 130 1.270e+02 9.87 141.22 0.38
## area_living 0.0 59 5.900e+01 -0.11 0.72 0.48
## price_total 4000000.0 20000000 1.600e+07 0.04 -1.02 149356.40
## price_total_usd 122396.0 611982 4.896e+05 0.04 -1.02 4570.17
## price_m 300518.0 400000 9.948e+04 0.58 -0.73 1186.34
## bld_flat 1.0 47 4.600e+01 2.65 8.48 0.34
## bld_flat_total 3.0 48 4.500e+01 1.51 2.25 0.41
## bld_type* 1.0 8 7.000e+00 0.08 0.18 0.06
## market* 1.0 4 3.000e+00 -1.94 9.63 0.02
## price_total.norm 4.0 20 1.600e+01 0.04 -1.02 0.15
## price_m.norm 300.5 400 9.948e+01 0.58 -0.73 1.19
## price_total.calc 4000006.4 20000024 1.600e+07 0.04 -1.02 149356.39
## price_cut* 4.0 4 0.000e+00 NaN NaN 0.00
## --------------------------------------------------------
## group: (400,500]
## var n mean sd median trimmed mad
## city* 1 36 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## subCity* 2 36 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## street* 3 36 6.702e+02 6.324e+02 7.330e+02 6.263e+02 9.726e+02
## house* 4 36 1.314e+03 8.566e+02 1.505e+03 1.314e+03 8.703e+02
## commute_min 5 36 6.670e+00 5.300e+00 5.000e+00 5.970e+00 2.970e+00
## commute_type* 6 36 2.890e+00 3.200e-01 3.000e+00 2.970e+00 0.000e+00
## metro* 7 36 1.039e+02 4.574e+01 1.075e+02 1.078e+02 5.856e+01
## rooms 8 36 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## area_total 9 36 3.316e+01 8.350e+00 3.400e+01 3.367e+01 5.630e+00
## area_kitchen 10 32 7.440e+00 3.720e+00 6.250e+00 7.000e+00 2.370e+00
## area_living 11 36 1.736e+01 8.420e+00 1.800e+01 1.754e+01 4.520e+00
## price_total 12 36 1.453e+07 3.452e+06 1.500e+07 1.489e+07 1.483e+06
## price_total_usd 13 36 4.447e+05 1.056e+05 4.590e+05 4.556e+05 4.537e+04
## price_m 14 36 4.399e+05 2.503e+04 4.324e+05 4.385e+05 2.059e+04
## bld_flat 15 36 5.190e+00 5.440e+00 3.500e+00 4.330e+00 3.710e+00
## bld_flat_total 16 36 1.000e+01 5.960e+00 9.000e+00 9.100e+00 4.450e+00
## bld_type* 17 36 4.940e+00 1.580e+00 5.000e+00 4.970e+00 0.000e+00
## market* 18 36 3.060e+00 2.300e-01 3.000e+00 3.000e+00 0.000e+00
## price_total.norm 19 36 1.453e+01 3.450e+00 1.500e+01 1.489e+01 1.480e+00
## price_m.norm 20 36 4.399e+02 2.503e+01 4.324e+02 4.385e+02 2.059e+01
## price_total.calc 21 36 1.453e+07 3.452e+06 1.500e+07 1.489e+07 1.483e+06
## price_cut* 22 36 5.000e+00 0.000e+00 5.000e+00 5.000e+00 0.000e+00
## min max range skew kurtosis se
## city* 1.0 1.000e+00 0.000e+00 NaN NaN 0.00
## subCity* 1.0 1.000e+00 0.000e+00 NaN NaN 0.00
## street* 1.0 1.812e+03 1.811e+03 0.37 -1.30 105.39
## house* 1.0 2.662e+03 2.661e+03 -0.20 -1.15 142.77
## commute_min 1.0 2.300e+01 2.200e+01 1.39 1.39 0.88
## commute_type* 2.0 3.000e+00 1.000e+00 -2.37 3.73 0.05
## metro* 4.0 1.720e+02 1.680e+02 -0.51 -0.65 7.62
## rooms 1.0 1.000e+00 0.000e+00 NaN NaN 0.00
## area_total 14.0 4.740e+01 3.340e+01 -0.75 0.18 1.39
## area_kitchen 1.0 2.060e+01 1.960e+01 1.66 3.78 0.66
## area_living 0.0 3.570e+01 3.570e+01 -0.31 0.34 1.40
## price_total 5700000.0 1.950e+07 1.380e+07 -1.16 0.66 575363.93
## price_total_usd 174415.0 5.967e+05 4.223e+05 -1.16 0.66 17605.62
## price_m 404661.0 4.934e+05 8.876e+04 0.65 -0.75 4171.85
## bld_flat 1.0 3.100e+01 3.000e+01 2.98 11.28 0.91
## bld_flat_total 4.0 3.700e+01 3.300e+01 2.70 9.32 0.99
## bld_type* 1.0 8.000e+00 7.000e+00 -0.16 0.95 0.26
## market* 3.0 4.000e+00 1.000e+00 3.72 12.18 0.04
## price_total.norm 5.7 1.950e+01 1.380e+01 -1.16 0.66 0.58
## price_m.norm 404.7 4.934e+02 8.876e+01 0.65 -0.75 4.17
## price_total.calc 5700002.0 1.950e+07 1.380e+07 -1.16 0.66 575364.06
## price_cut* 5.0 5.000e+00 0.000e+00 NaN NaN 0.00
## --------------------------------------------------------
## group: (500,600]
## var n mean sd median trimmed mad
## city* 1 3 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## subCity* 2 3 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## street* 3 3 6.467e+02 9.748e+02 1.710e+02 6.467e+02 2.520e+02
## house* 4 3 1.384e+03 4.890e+02 1.188e+03 1.384e+03 2.432e+02
## commute_min 5 3 6.330e+00 5.130e+00 5.000e+00 6.330e+00 4.450e+00
## commute_type* 6 3 2.670e+00 5.800e-01 3.000e+00 2.670e+00 0.000e+00
## metro* 7 3 9.167e+01 3.927e+01 7.000e+01 9.167e+01 2.970e+00
## rooms 8 3 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## area_total 9 3 2.033e+01 6.810e+00 1.800e+01 2.033e+01 4.450e+00
## area_kitchen 10 3 7.670e+00 5.800e-01 8.000e+00 7.670e+00 0.000e+00
## area_living 11 3 2.233e+01 1.185e+01 1.600e+01 2.233e+01 1.480e+00
## price_total 12 3 1.127e+07 3.331e+06 1.020e+07 1.127e+07 2.372e+06
## price_total_usd 13 3 3.447e+05 1.019e+05 3.121e+05 3.447e+05 7.259e+04
## price_m 14 3 5.586e+05 2.007e+04 5.667e+05 5.586e+05 9.883e+03
## bld_flat 15 3 8.670e+00 5.130e+00 1.000e+01 8.670e+00 4.450e+00
## bld_flat_total 16 3 1.133e+01 6.030e+00 1.200e+01 1.133e+01 7.410e+00
## bld_type* 17 3 4.670e+00 1.530e+00 5.000e+00 4.670e+00 1.480e+00
## market* 18 3 3.000e+00 0.000e+00 3.000e+00 3.000e+00 0.000e+00
## price_total.norm 19 3 1.127e+01 3.330e+00 1.020e+01 1.127e+01 2.370e+00
## price_m.norm 20 3 5.586e+02 2.007e+01 5.667e+02 5.586e+02 9.880e+00
## price_total.calc 21 3 1.127e+07 3.331e+06 1.020e+07 1.127e+07 2.372e+06
## price_cut* 22 3 6.000e+00 0.000e+00 6.000e+00 6.000e+00 0.000e+00
## min max range skew kurtosis se
## city* 1.0 1.000e+00 0.000e+00 NaN NaN 0.000e+00
## subCity* 1.0 1.000e+00 0.000e+00 NaN NaN 0.000e+00
## street* 1.0 1.768e+03 1.767e+03 0.37 -2.33 5.628e+02
## house* 1024.0 1.941e+03 9.170e+02 0.34 -2.33 2.823e+02
## commute_min 2.0 1.200e+01 1.000e+01 0.24 -2.33 2.960e+00
## commute_type* 2.0 3.000e+00 1.000e+00 -0.38 -2.33 3.300e-01
## metro* 68.0 1.370e+02 6.900e+01 0.38 -2.33 2.267e+01
## rooms 1.0 1.000e+00 0.000e+00 NaN NaN 0.000e+00
## area_total 15.0 2.800e+01 1.300e+01 0.30 -2.33 3.930e+00
## area_kitchen 7.0 8.000e+00 1.000e+00 -0.38 -2.33 3.300e-01
## area_living 15.0 3.600e+01 2.100e+01 0.38 -2.33 6.840e+00
## price_total 8600000.0 1.500e+07 6.400e+06 0.29 -2.33 1.923e+06
## price_total_usd 263152.0 4.590e+05 1.958e+05 0.29 -2.33 5.884e+04
## price_m 535714.0 5.733e+05 3.762e+04 -0.34 -2.33 1.159e+04
## bld_flat 3.0 1.300e+01 1.000e+01 -0.24 -2.33 2.960e+00
## bld_flat_total 5.0 1.700e+01 1.200e+01 -0.11 -2.33 3.480e+00
## bld_type* 3.0 6.000e+00 3.000e+00 -0.21 -2.33 8.800e-01
## market* 3.0 3.000e+00 0.000e+00 NaN NaN 0.000e+00
## price_total.norm 8.6 1.500e+01 6.400e+00 0.29 -2.33 1.920e+00
## price_m.norm 535.7 5.733e+02 3.762e+01 -0.34 -2.33 1.159e+01
## price_total.calc 8599995.0 1.500e+07 6.400e+06 0.29 -2.33 1.923e+06
## price_cut* 6.0 6.000e+00 0.000e+00 NaN NaN 0.000e+00
Создаем новые предикторы, исходя из предположения что изменеие стоимости квартиры зависит от ее площади и модерируется посредством ценовой категории (более дорогие квартиры имеют более сильную тенденцию к снижению цены за кв. м., при увеличении площади квартиры).
# Create dummy variables, then new predictor variables
inds <- model.matrix(~price_cut - 1)
r1$price_cut.d1 = inds[, 1]
r1$price_cut.d2 = inds[, 2]
r1$price_cut.d3 = inds[, 3]
r1$price_cut.d4 = inds[, 4]
r1$price_cut.d5 = inds[, 5]
r1$area.d1 <- (r1$area_total * r1$price_cut.d1)
r1$area.d2 <- (r1$area_total * r1$price_cut.d2)
r1$area.d3 <- (r1$area_total * r1$price_cut.d3)
r1$area.d4 <- (r1$area_total * r1$price_cut.d4)
r1$area.d5 <- (r1$area_total * r1$price_cut.d5)
m_dummy <- lm(r1$area_total ~ r1$price_cut.d2 + r1$price_cut.d3 + r1$price_cut.d4 +
r1$price_cut.d5)
summary(m_dummy)
##
## Call:
## lm(formula = r1$area_total ~ r1$price_cut.d2 + r1$price_cut.d3 +
## r1$price_cut.d4 + r1$price_cut.d5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -31.65 -4.69 -0.35 2.31 42.31
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 46.648 0.231 201.71 <2e-16 ***
## r1$price_cut.d2 -8.962 0.238 -37.61 <2e-16 ***
## r1$price_cut.d3 -7.804 0.258 -30.24 <2e-16 ***
## r1$price_cut.d4 -3.663 0.388 -9.45 <2e-16 ***
## r1$price_cut.d5 -13.484 1.175 -11.48 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.91 on 19623 degrees of freedom
## Multiple R-squared: 0.0789, Adjusted R-squared: 0.0787
## F-statistic: 420 on 4 and 19623 DF, p-value: <2e-16
Строим новую модель на основании новых предикторов (площадь умноженая на ценовую категорию)
model_d <- lm(r1$price_m.norm ~ r1$area_total + r1$price_cut.d2 + r1$price_cut.d3 +
r1$price_cut.d4 + r1$price_cut.d5 + r1$area.d2 + r1$area.d3 + r1$area.d4 +
r1$area.d5)
summary(model_d)
##
## Call:
## lm(formula = r1$price_m.norm ~ r1$area_total + r1$price_cut.d2 +
## r1$price_cut.d3 + r1$price_cut.d4 + r1$price_cut.d5 + r1$area.d2 +
## r1$area.d3 + r1$area.d4 + r1$area.d5)
##
## Residuals:
## Min 1Q Median 3Q Max
## -73.0 -16.2 -0.4 15.9 443.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 150.0643 4.5701 32.84 <2e-16 ***
## r1$area_total -1.3459 0.0965 -13.95 <2e-16 ***
## r1$price_cut.d2 45.8834 4.7417 9.68 <2e-16 ***
## r1$price_cut.d3 62.0219 4.8743 12.72 <2e-16 ***
## r1$price_cut.d4 180.9711 6.8239 26.52 <2e-16 ***
## r1$price_cut.d5 316.2806 17.0871 18.51 <2e-16 ***
## r1$area.d2 0.3611 0.1020 3.54 0.0004 ***
## r1$area.d3 1.8463 0.1054 17.52 <2e-16 ***
## r1$area.d4 1.4575 0.1503 9.70 <2e-16 ***
## r1$area.d5 0.5473 0.4914 1.11 0.2653
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 23.8 on 19618 degrees of freedom
## Multiple R-squared: 0.775, Adjusted R-squared: 0.775
## F-statistic: 7.51e+03 on 9 and 19618 DF, p-value: <2e-16
anova(lm_area_price_m, model_d)
## Analysis of Variance Table
##
## Model 1: r1$price_m.norm ~ r1$area_total
## Model 2: r1$price_m.norm ~ r1$area_total + r1$price_cut.d2 + r1$price_cut.d3 +
## r1$price_cut.d4 + r1$price_cut.d5 + r1$area.d2 + r1$area.d3 +
## r1$area.d4 + r1$area.d5
## Res.Df RSS Df Sum of Sq F Pr(>F)
## 1 19626 49165129
## 2 19618 11117959 8 3.8e+07 8392 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Данная модель существенно лучше модели, которая предсказывает стоимость кв. м. только на основании площади. Для использования данной модели необходимо, знать ценовую категорию квартиры (всего 5 ценовых категорий от 0-500, с интервалом по 100 (тысячи))
color <- c("red", "green", "blue", "yellow", "white")
ggplot(r1, aes(x = area_total, y = price_m.norm)) + stat_smooth(method = "lm",
se = F) + geom_point(aes(color = price_cut))
ggplot(r1, aes(x = area_total, y = price_m.norm)) + geom_smooth(aes(group = price_cut),
method = "lm", se = T, color = "black", fullrange = T) + geom_point(aes(color = price_cut)) +
xlab("Площадь") + ylab("Цена за кв. м. (тыс.)")
Изменеие цены за кв.м. в зависимости от площади
- Цена от 0-100 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.
- Цена от 100-200 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.
- Цена от 200-300 (тыс. руб. за кв. м.) - положительная корреляция площадь - кв. метр.
- Цена от 300-400 (тыс. руб. за кв. м.) - положительная корреляция площадь - кв. метр.
- Цена от 400-500 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.
- Цена от 500-600 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.
Отрицательная корреляция говорит о том что при росте площади квартиры цена за метр квадратный уменьшается Положительная корреляция говорит о том что при росте площади квартиры цена за метр квадратный увеличевается