воскресенье, 1 декабря 2013 г.

Дубль два

Sys.setlocale("LC_CTYPE", "russian")
## [1] "Russian_Russia.1251"

Анализ цен недвижимости в Москве на основе данных ЦИАН.

Load libraries

library(psych)
library(gclus)
library(ggplot2)

Загрузка данных

getwd()
## [1] "C:/dev/coursera/cour-stat/cian"
date()
## [1] "Sun Dec 01 20:06:58 2013"
cian <- read.csv("C:/dev/coursera/cour-stat/cian/cian2s.csv", sep = ",", head = T)

Добавляем столбцы кратных цен

Для цены столбец цены в милионах, для цены за метр в тысячах

cian$price_total.norm <- cian$price_total/1e+06
cian$price_m.norm <- cian$price_m/1000

Общие данные

describe(cian)
##                  var     n      mean        sd    median   trimmed
## city*              1 88004 1.000e+00 1.000e-02       1.0 1.000e+00
## subCity*           2 88004 3.900e+00 1.329e+01       1.0 1.000e+00
## street*            3 88004 8.382e+02 5.796e+02     864.0 8.285e+02
## house*             4 88004 1.310e+03 8.185e+02    1316.0 1.308e+03
## commute_min        5 81811 9.220e+00 6.450e+00       9.0 8.810e+00
## commute_type*      6 88004 2.600e+00 6.200e-01       3.0 2.720e+00
## metro*             7 88004 9.144e+01 5.393e+01      95.0 9.195e+01
## rooms              8 88004 2.390e+00 1.060e+00       2.0 2.310e+00
## area_total         9 87999 7.867e+01 5.734e+01      62.0 6.922e+01
## area_kitchen      10 79550 1.150e+01 1.161e+01       9.5 9.990e+00
## area_living       11 85982 4.230e+01 4.158e+01      34.0 3.708e+01
## price_total       12 88004 1.356e+07 1.243e+08 8500000.0 1.016e+07
## price_total_usd   13 76828 4.737e+05 4.084e+06  290691.0 3.492e+05
## price_m           14 87999 1.841e+05 1.290e+06  165455.0 1.678e+05
## bld_flat          15 88004 7.780e+00 7.830e+00       5.0 6.430e+00
## bld_flat_total    16 88004 1.405e+01 9.570e+00      12.0 1.261e+01
## bld_type*         17 88004 5.460e+00 1.360e+00       6.0 5.520e+00
## market*           18 88004 3.060e+00 4.500e-01       3.0 3.010e+00
## price_total.norm  19 88004 1.356e+01 1.243e+02       8.5 1.016e+01
## price_m.norm      20 87999 1.841e+02 1.290e+03     165.5 1.678e+02
##                        mad    min       max     range   skew kurtosis
## city*            0.000e+00    1.0 2.000e+00 1.000e+00 121.09 14662.00
## subCity*         0.000e+00    1.0 8.400e+01 8.300e+01   4.77    22.19
## street*          6.820e+02    1.0 1.843e+03 1.842e+03  -0.02    -1.16
## house*           1.010e+03    1.0 2.910e+03 2.909e+03   0.01    -1.17
## commute_min      4.450e+00    1.0 2.550e+02 2.540e+02  16.16   592.81
## commute_type*    0.000e+00    1.0 3.000e+00 2.000e+00  -1.30     0.59
## metro*           6.820e+01    1.0 1.750e+02 1.740e+02  -0.07    -1.25
## rooms            1.480e+00    1.0 5.000e+00 4.000e+00   0.43    -0.39
## area_total       2.965e+01    0.1 6.936e+03 6.936e+03  22.47  2376.50
## area_kitchen     3.710e+00    0.1 1.616e+03 1.616e+03  48.93  5532.41
## area_living      2.076e+01    0.0 5.000e+03 5.000e+03  29.50  2888.20
## price_total      4.967e+06 4300.0 3.600e+10 3.600e+10 277.21 79803.85
## price_total_usd  1.542e+05  132.0 1.102e+09 1.102e+09 256.80 68850.85
## price_m          5.751e+04   96.0 2.927e+08 2.927e+08 168.93 33460.29
## bld_flat         4.450e+00    0.0 1.270e+02 1.270e+02   3.45    18.91
## bld_flat_total   7.410e+00    0.0 1.270e+02 1.270e+02   2.39     9.78
## bld_type*        1.480e+00    1.0 8.000e+00 7.000e+00  -0.75     1.32
## market*          0.000e+00    1.0 4.000e+00 3.000e+00  -1.31     9.70
## price_total.norm 4.970e+00    0.0 3.600e+04 3.600e+04 277.21 79803.85
## price_m.norm     5.751e+01    0.1 2.927e+05 2.927e+05 168.93 33460.29
##                         se
## city*                 0.00
## subCity*              0.04
## street*               1.95
## house*                2.76
## commute_min           0.02
## commute_type*         0.00
## metro*                0.18
## rooms                 0.00
## area_total            0.19
## area_kitchen          0.04
## area_living           0.14
## price_total      419161.54
## price_total_usd   14734.44
## price_m            4348.61
## bld_flat              0.03
## bld_flat_total        0.03
## bld_type*             0.00
## market*               0.00
## price_total.norm      0.42
## price_m.norm          4.35
summary(cian)
##                  city                     subCity     
##  москва            :87998                     :83500  
##  московская область:    6   поселок коммунарка: 1077  
##                             зеленоград        :  636  
##                             московский        :  533  
##                             щербинка          :  408  
##                             троицк            :  380  
##                             (Other)           : 1470  
##                     street          house        commute_min  
##                        :15316          : 3770   Min.   :  1   
##  Ленинский проспект    : 1807   д.3    : 2468   1st Qu.:  5   
##  проспект Вернадского  :  989   д.8    : 1912   Median :  9   
##  Пресненская набережная:  953   д.5    : 1824   Mean   :  9   
##  Профсоюзная улица     :  824   д.6    : 1785   3rd Qu.: 12   
##  Боровское шоссе       :  770   д.2    : 1706   Max.   :255   
##  (Other)               :67345   (Other):74539   NA's   :6193  
##          commute_type                      metro           rooms     
##                : 6193   м.Юго-Западная        : 4752   Min.   :1.00  
##   на автомобиле:22398                         : 2327   1st Qu.:2.00  
##   пешком       :59413   м.Университет         : 2267   Median :2.00  
##                         м.Теплый стан         : 1882   Mean   :2.39  
##                         м.Вернадского проспект: 1791   3rd Qu.:3.00  
##                         м.Выхино              : 1657   Max.   :5.00  
##                         (Other)               :73328                 
##    area_total    area_kitchen   area_living    price_total      
##  Min.   :   0   Min.   :   0   Min.   :   0   Min.   :4.30e+03  
##  1st Qu.:  45   1st Qu.:   7   1st Qu.:  21   1st Qu.:5.95e+06  
##  Median :  62   Median :  10   Median :  34   Median :8.50e+06  
##  Mean   :  79   Mean   :  11   Mean   :  42   Mean   :1.36e+07  
##  3rd Qu.:  92   3rd Qu.:  12   3rd Qu.:  50   3rd Qu.:1.42e+07  
##  Max.   :6936   Max.   :1616   Max.   :5000   Max.   :3.60e+10  
##  NA's   :5      NA's   :8454   NA's   :2022                     
##  price_total_usd       price_m            bld_flat      bld_flat_total 
##  Min.   :1.32e+02   Min.   :9.60e+01   Min.   :  0.00   Min.   :  0.0  
##  1st Qu.:2.07e+05   1st Qu.:1.32e+05   1st Qu.:  3.00   1st Qu.:  8.0  
##  Median :2.91e+05   Median :1.65e+05   Median :  5.00   Median : 12.0  
##  Mean   :4.74e+05   Mean   :1.84e+05   Mean   :  7.78   Mean   : 14.1  
##  3rd Qu.:4.83e+05   3rd Qu.:2.11e+05   3rd Qu.: 10.00   3rd Qu.: 17.0  
##  Max.   :1.10e+09   Max.   :2.93e+08   Max.   :127.00   Max.   :127.0  
##  NA's   :11176      NA's   :5                                          
##     bld_type                  market      price_total.norm
##  пан    :36438                   : 2027   Min.   :    0   
##  кирп   :16426   возможна ипотека:  327   1st Qu.:    6   
##  к-м    :15308   вторичка        :76343   Median :    8   
##  мон    : 9837   новостройка     : 9307   Mean   :   14   
##  стал   : 4796                            3rd Qu.:   14   
##  блоч   : 3025                            Max.   :36000   
##  (Other): 2174                                            
##   price_m.norm   
##  Min.   :     0  
##  1st Qu.:   132  
##  Median :   165  
##  Mean   :   184  
##  3rd Qu.:   211  
##  Max.   :292683  
##  NA's   :5

В наборе содержатся данные по 88004 квартирам находящимся в продаже. Большая часть квртир проадется в г. Москве, около 1000 представленных квартир продаются в подмосковье. Больще всего квартир (4752) продается рядом с м. Юго-Западная (по метро). Больще всего квартир (1665) продается на Ленинском проспекте (по улице). Среднее количество комнат - 2. Средняя площадь квартиры - 62 кв. м. Средняя цена за квртиру 8.5 млн. руб. Средняя цена квадратного метра 165 т. руб. Больше всего квартир (36438) продается в панельных домах.

Данные распределения различных значений

par(mfrow = c(3, 1))
hist(cian$rooms)
hist(cian$bld_flat)
hist(cian$bld_flat_total)

plot of chunk unnamed-chunk-5

Больше всего продается 2х и 3х комнатных квартир (их количество примерно одинаково) Значения распределений по ценам не предоставлены, так как очень большой разброс, минимальная цена за квартиру в наборе 4.300 руб (ошибочные данные), максимальная 3 млрд (так же ошибочные), необхоима очиститка данные по критерию цены. Предпологаем что валидная цена за квартиру должна быть больше милиона и меньше 100 милионов. Площадь квартир также имеют экстремальные значения, предполагаем что валидная площадь квартиры должна быть меньше 300 кв. м.

cian.clean <- cian[cian$price_total.norm > 1 & cian$price_total.norm < 100 & 
    cian$area_total <= 300, ]
describe(cian.clean)
##                  var     n      mean        sd    median   trimmed
## city*              1 85283 1.000e+00 1.000e-02       1.0 1.000e+00
## subCity*           2 85283 3.980e+00 1.346e+01       1.0 1.000e+00
## street*            3 85283 8.397e+02 5.794e+02     864.0 8.303e+02
## house*             4 85283 1.312e+03 8.154e+02    1318.0 1.310e+03
## commute_min        5 79220 9.250e+00 6.390e+00       9.0 8.850e+00
## commute_type*      6 85283 2.600e+00 6.200e-01       3.0 2.710e+00
## metro*             7 85283 9.140e+01 5.392e+01      95.0 9.191e+01
## rooms              8 85283 2.370e+00 1.050e+00       2.0 2.300e+00
## area_total         9 85283 7.661e+01 4.632e+01      61.0 6.832e+01
## area_kitchen      10 77723 1.131e+01 1.114e+01       9.4 9.880e+00
## area_living       11 83557 4.153e+01 3.931e+01      33.7 3.679e+01
## price_total       12 85283 1.282e+07 1.243e+07 8700000.0 1.031e+07
## price_total_usd   13 76319 4.358e+05 4.937e+05  290691.0 3.455e+05
## price_m           14 85283 1.815e+05 6.867e+05  166667.0 1.719e+05
## bld_flat          15 85283 7.730e+00 7.740e+00       5.0 6.410e+00
## bld_flat_total    16 85283 1.400e+01 9.380e+00      12.0 1.262e+01
## bld_type*         17 85283 5.480e+00 1.340e+00       6.0 5.530e+00
## market*           18 85283 3.050e+00 4.400e-01       3.0 3.000e+00
## price_total.norm  19 85283 1.282e+01 1.243e+01       8.7 1.031e+01
## price_m.norm      20 85283 1.815e+02 6.867e+02     166.7 1.719e+02
##                        mad       min       max     range   skew kurtosis
## city*            0.000e+00       1.0 2.000e+00 1.000e+00 119.21 14208.50
## subCity*         0.000e+00       1.0 8.400e+01 8.300e+01   4.69    21.46
## street*          6.820e+02       1.0 1.843e+03 1.842e+03  -0.02    -1.16
## house*           1.013e+03       1.0 2.910e+03 2.909e+03   0.01    -1.16
## commute_min      4.450e+00       1.0 2.550e+02 2.540e+02  15.73   581.40
## commute_type*    0.000e+00       1.0 3.000e+00 2.000e+00  -1.29     0.54
## metro*           6.820e+01       1.0 1.750e+02 1.740e+02  -0.07    -1.25
## rooms            1.480e+00       1.0 5.000e+00 4.000e+00   0.41    -0.40
## area_total       2.965e+01       0.1 3.000e+02 2.999e+02   1.73     3.07
## area_kitchen     3.560e+00       0.1 1.616e+03 1.616e+03  55.07  6643.30
## area_living      2.031e+01       0.0 5.000e+03 5.000e+03  34.89  3714.05
## price_total      4.893e+06 1000010.0 9.990e+07 9.890e+07   2.82    10.01
## price_total_usd  1.520e+05   33659.0 6.885e+07 6.882e+07  38.55  4886.59
## price_m          5.470e+04    4400.0 1.180e+08 1.180e+08 144.82 22358.06
## bld_flat         4.450e+00       0.0 1.270e+02 1.270e+02   3.49    19.60
## bld_flat_total   7.410e+00       0.0 1.270e+02 1.270e+02   2.44    10.48
## bld_type*        1.480e+00       1.0 8.000e+00 7.000e+00  -0.74     1.35
## market*          0.000e+00       1.0 4.000e+00 3.000e+00  -1.31    10.11
## price_total.norm 4.890e+00       1.0 9.990e+01 9.890e+01   2.82    10.01
## price_m.norm     5.470e+01       4.4 1.180e+05 1.180e+05 144.82 22358.06
##                        se
## city*                0.00
## subCity*             0.05
## street*              1.98
## house*               2.79
## commute_min          0.02
## commute_type*        0.00
## metro*               0.18
## rooms                0.00
## area_total           0.16
## area_kitchen         0.04
## area_living          0.14
## price_total      42549.82
## price_total_usd   1787.09
## price_m           2351.43
## bld_flat             0.03
## bld_flat_total       0.03
## bld_type*            0.00
## market*              0.00
## price_total.norm     0.04
## price_m.norm         2.35
par(mfrow = c(2, 1))
hist(cian.clean$price_total.norm)
hist(cian.clean$area_total)

plot of chunk unnamed-chunk-6

Очищенные данные содержат 85283 квартир, 3000 тысчи квартир имели неправильное значение цены и площади. Данные до сих пор имеют экстримальные значения сильно отличающиеся от средних значений.

Распределеие показыват что абсолютное большинство квартир находится в ценовом диапазоне до 50 млн. Отбрасываем все данные выходящие за предел диапазона.

cian.clean <- cian.clean[cian.clean$price_total.norm < 50, ]
describe(cian.clean)
##                  var     n      mean        sd    median   trimmed
## city*              1 82979 1.000e+00 1.000e-02       1.0 1.000e+00
## subCity*           2 82979 4.060e+00 1.363e+01       1.0 1.000e+00
## street*            3 82979 8.403e+02 5.795e+02     864.0 8.309e+02
## house*             4 82979 1.309e+03 8.159e+02    1316.0 1.308e+03
## commute_min        5 76997 9.290e+00 6.430e+00       9.0 8.880e+00
## commute_type*      6 82979 2.600e+00 6.200e-01       3.0 2.710e+00
## metro*             7 82979 9.095e+01 5.391e+01      93.0 9.134e+01
## rooms              8 82979 2.340e+00 1.030e+00       2.0 2.260e+00
## area_total         9 82979 7.428e+01 4.419e+01      60.0 6.625e+01
## area_kitchen      10 75914 1.103e+01 1.072e+01       9.1 9.710e+00
## area_living       11 81390 4.039e+01 3.822e+01      33.0 3.598e+01
## price_total       12 82979 1.137e+07 8.800e+06 8500000.0 9.828e+06
## price_total_usd   13 74018 3.869e+05 3.270e+05  284572.0 3.282e+05
## price_m           14 82979 1.746e+05 6.944e+05  165094.0 1.682e+05
## bld_flat          15 82979 7.680e+00 7.710e+00       5.0 6.370e+00
## bld_flat_total    16 82979 1.393e+01 9.280e+00      12.0 1.257e+01
## bld_type*         17 82979 5.490e+00 1.330e+00       6.0 5.540e+00
## market*           18 82979 3.060e+00 4.300e-01       3.0 3.000e+00
## price_total.norm  19 82979 1.137e+01 8.800e+00       8.5 9.830e+00
## price_m.norm      20 82979 1.746e+02 6.944e+02     165.1 1.682e+02
##                        mad       min       max     range   skew kurtosis
## city*            0.000e+00       1.0 2.000e+00 1.000e+00 117.59 13824.50
## subCity*         0.000e+00       1.0 8.400e+01 8.300e+01   4.62    20.78
## street*          6.820e+02       1.0 1.843e+03 1.842e+03  -0.02    -1.16
## house*           1.010e+03       1.0 2.910e+03 2.909e+03   0.01    -1.16
## commute_min      4.450e+00       1.0 2.550e+02 2.540e+02  15.87   583.38
## commute_type*    0.000e+00       1.0 3.000e+00 2.000e+00  -1.28     0.51
## metro*           6.820e+01       1.0 1.750e+02 1.740e+02  -0.05    -1.25
## rooms            1.480e+00       1.0 5.000e+00 4.000e+00   0.42    -0.36
## area_total       2.861e+01       0.1 3.000e+02 2.999e+02   1.86     3.80
## area_kitchen     3.110e+00       0.1 1.616e+03 1.616e+03  62.41  7933.27
## area_living      1.927e+01       0.0 5.000e+03 5.000e+03  38.85  4269.95
## price_total      4.596e+06 1000010.0 4.999e+07 4.899e+07   1.87     3.69
## price_total_usd  1.451e+05   33659.0 1.620e+07 1.617e+07   9.57   290.23
## price_m          5.203e+04    4400.0 1.180e+08 1.180e+08 143.98 21983.74
## bld_flat         4.450e+00       0.0 1.270e+02 1.270e+02   3.54    20.14
## bld_flat_total   7.410e+00       0.0 1.270e+02 1.270e+02   2.47    10.86
## bld_type*        1.480e+00       1.0 8.000e+00 7.000e+00  -0.75     1.42
## market*          0.000e+00       1.0 4.000e+00 3.000e+00  -1.29    10.24
## price_total.norm 4.600e+00       1.0 4.999e+01 4.899e+01   1.87     3.69
## price_m.norm     5.203e+01       4.4 1.180e+05 1.180e+05 143.98 21983.74
##                        se
## city*                0.00
## subCity*             0.05
## street*              2.01
## house*               2.83
## commute_min          0.02
## commute_type*        0.00
## metro*               0.19
## rooms                0.00
## area_total           0.15
## area_kitchen         0.04
## area_living          0.13
## price_total      30550.17
## price_total_usd   1202.07
## price_m           2410.53
## bld_flat             0.03
## bld_flat_total       0.03
## bld_type*            0.00
## market*              0.00
## price_total.norm     0.03
## price_m.norm         2.41
par(mfrow = c(2, 1))
par(ps = 10)
hist(cian.clean$price_total.norm, col = "yellow", main = "", xlab = "Цена млн.", 
    ylab = "Кол-во")
hist(cian.clean$area_total, col = "yellow", main = "", xlab = "Цена млн.", ylab = "Кол-во")

plot of chunk unnamed-chunk-7

Очищенные данные содержат 82.979 квартир, что на 6.000 квартир меньше чем в первоначальном наборе.

Описание данных в разрезе кол-ва комнат.

describeBy(cian.clean, cian.clean$rooms)
## group: 1
##                  var     n      mean        sd    median   trimmed
## city*              1 19945 1.000e+00 1.000e-02       1.0 1.000e+00
## subCity*           2 19945 5.760e+00 1.675e+01       1.0 1.000e+00
## street*            3 19945 8.315e+02 5.850e+02     851.0 8.195e+02
## house*             4 19945 1.296e+03 8.144e+02    1291.0 1.293e+03
## commute_min        5 17912 1.015e+01 6.910e+00      10.0 9.680e+00
## commute_type*      6 19945 2.470e+00 6.700e-01       3.0 2.580e+00
## metro*             7 19945 9.065e+01 5.467e+01      93.0 9.096e+01
## rooms              8 19945 1.000e+00 0.000e+00       1.0 1.000e+00
## area_total         9 19945 3.915e+01 1.026e+01      38.0 3.779e+01
## area_kitchen      10 19388 8.960e+00 3.880e+00       8.6 8.550e+00
## area_living       11 19849 2.002e+01 3.136e+01      19.0 1.939e+01
## price_total       12 19945 6.927e+06 3.501e+06 6000000.0 6.303e+06
## price_total_usd   13 19858 2.126e+05 1.072e+05  183595.0 1.931e+05
## price_m           14 19945 1.765e+05 5.745e+04  167742.0 1.709e+05
## bld_flat          15 19945 6.960e+00 5.450e+00       5.0 6.250e+00
## bld_flat_total    16 19945 1.350e+01 6.530e+00      12.0 1.293e+01
## bld_type*         17 19945 5.440e+00 1.150e+00       6.0 5.560e+00
## market*           18 19945 3.080e+00 4.300e-01       3.0 3.020e+00
## price_total.norm  19 19945 6.930e+00 3.500e+00       6.0 6.300e+00
## price_m.norm      20 19945 1.765e+02 5.745e+01     167.7 1.709e+02
##                        mad       min       max     range  skew kurtosis
## city*            0.000e+00 1.000e+00 2.000e+00 1.000e+00 99.84  9966.50
## subCity*         0.000e+00 1.000e+00 8.400e+01 8.300e+01  3.54    11.40
## street*          6.820e+02 1.000e+00 1.843e+03 1.842e+03  0.02    -1.20
## house*           9.726e+02 1.000e+00 2.907e+03 2.906e+03  0.01    -1.14
## commute_min      5.930e+00 1.000e+00 2.550e+02 2.540e+02 15.56   529.02
## commute_type*    0.000e+00 1.000e+00 3.000e+00 2.000e+00 -0.88    -0.40
## metro*           7.413e+01 1.000e+00 1.750e+02 1.740e+02 -0.01    -1.28
## rooms            0.000e+00 1.000e+00 1.000e+00 0.000e+00   NaN      NaN
## area_total       5.930e+00 1.250e+01 2.892e+02 2.767e+02  6.26    88.37
## area_kitchen     2.080e+00 1.000e-01 1.300e+02 1.299e+02  9.86   205.41
## area_living      1.480e+00 0.000e+00 3.215e+03 3.215e+03 81.46  7280.50
## price_total      1.334e+06 1.003e+06 4.957e+07 4.856e+07  4.31    28.33
## price_total_usd  4.083e+04 3.366e+04 1.517e+06 1.483e+06  4.38    28.98
## price_m          3.547e+04 7.657e+03 7.812e+05 7.736e+05  1.85     7.98
## bld_flat         4.450e+00 0.000e+00 6.400e+01 6.400e+01  1.85     7.22
## bld_flat_total   5.930e+00 0.000e+00 1.120e+02 1.120e+02  1.45     6.85
## bld_type*        0.000e+00 1.000e+00 8.000e+00 7.000e+00 -1.26     2.24
## market*          0.000e+00 1.000e+00 4.000e+00 3.000e+00 -0.91     9.27
## price_total.norm 1.330e+00 1.000e+00 4.957e+01 4.856e+01  4.31    28.33
## price_m.norm     3.547e+01 7.660e+00 7.812e+02 7.736e+02  1.85     7.98
##                        se
## city*                0.00
## subCity*             0.12
## street*              4.14
## house*               5.77
## commute_min          0.05
## commute_type*        0.00
## metro*               0.39
## rooms                0.00
## area_total           0.07
## area_kitchen         0.03
## area_living          0.22
## price_total      24793.43
## price_total_usd    760.68
## price_m            406.77
## bld_flat             0.04
## bld_flat_total       0.05
## bld_type*            0.01
## market*              0.00
## price_total.norm     0.02
## price_m.norm         0.41
## -------------------------------------------------------- 
## group: 2
##                  var     n      mean        sd    median   trimmed
## city*              1 27533 1.000e+00 1.000e-02 1.000e+00 1.000e+00
## subCity*           2 27533 4.480e+00 1.450e+01 1.000e+00 1.000e+00
## street*            3 27533 8.549e+02 5.738e+02 8.730e+02 8.488e+02
## house*             4 27533 1.316e+03 8.142e+02 1.318e+03 1.315e+03
## commute_min        5 25420 9.490e+00 6.510e+00 9.000e+00 9.070e+00
## commute_type*      6 27533 2.580e+00 6.300e-01 3.000e+00 2.690e+00
## metro*             7 27533 9.041e+01 5.414e+01 9.300e+01 9.070e+01
## rooms              8 27533 2.000e+00 0.000e+00 2.000e+00 2.000e+00
## area_total         9 27533 5.805e+01 1.766e+01 5.400e+01 5.526e+01
## area_kitchen      10 25899 9.830e+00 1.266e+01 9.000e+00 8.940e+00
## area_living       11 27170 3.263e+01 1.493e+01 3.100e+01 3.189e+01
## price_total       12 27533 1.058e+07 6.367e+06 8.530e+06 9.483e+06
## price_total_usd   13 26580 3.355e+05 2.120e+05 2.662e+05 2.960e+05
## price_m           14 27533 1.906e+05 9.818e+05 1.690e+05 1.765e+05
## bld_flat          15 27533 7.330e+00 7.190e+00 5.000e+00 6.160e+00
## bld_flat_total    16 27533 1.329e+01 8.410e+00 1.200e+01 1.211e+01
## bld_type*         17 27533 5.500e+00 1.280e+00 6.000e+00 5.550e+00
## market*           18 27533 3.060e+00 4.100e-01 3.000e+00 3.000e+00
## price_total.norm  19 27533 1.058e+01 6.370e+00 8.530e+00 9.480e+00
## price_m.norm      20 27533 1.907e+02 9.818e+02 1.691e+02 1.765e+02
##                        mad       min       max     range   skew kurtosis
## city*            0.000e+00 1.000e+00 2.000e+00 1.000e+00 117.31 13760.50
## subCity*         0.000e+00 1.000e+00 8.400e+01 8.300e+01   4.29    17.69
## street*          6.701e+02 1.000e+00 1.843e+03 1.842e+03  -0.04    -1.13
## house*           1.013e+03 1.000e+00 2.909e+03 2.908e+03   0.00    -1.16
## commute_min      4.450e+00 1.000e+00 2.550e+02 2.540e+02  15.42   557.01
## commute_type*    0.000e+00 1.000e+00 3.000e+00 2.000e+00  -1.21     0.32
## metro*           6.968e+01 1.000e+00 1.750e+02 1.740e+02  -0.04    -1.26
## rooms            0.000e+00 2.000e+00 2.000e+00 0.000e+00    NaN      NaN
## area_total       1.334e+01 1.000e-01 2.673e+02 2.672e+02   2.14     8.06
## area_kitchen     2.970e+00 1.000e-01 1.616e+03 1.616e+03  93.22 10978.17
## area_living      4.450e+00 0.000e+00 5.302e+02 5.302e+02   7.38   188.62
## price_total      3.158e+06 1.007e+06 4.990e+07 4.889e+07   2.24     6.80
## price_total_usd  9.981e+04 3.978e+04 8.100e+06 8.060e+06   7.20   182.10
## price_m          4.589e+04 5.200e+03 1.180e+08 1.180e+08 116.38 13633.20
## bld_flat         4.450e+00 0.000e+00 1.270e+02 1.270e+02   3.58    21.50
## bld_flat_total   7.410e+00 0.000e+00 1.270e+02 1.270e+02   2.46    12.50
## bld_type*        1.480e+00 1.000e+00 8.000e+00 7.000e+00  -0.69     1.40
## market*          0.000e+00 1.000e+00 4.000e+00 3.000e+00  -1.18    11.57
## price_total.norm 3.160e+00 1.010e+00 4.990e+01 4.889e+01   2.24     6.80
## price_m.norm     4.589e+01 5.200e+00 1.180e+05 1.180e+05 116.38 13633.20
##                        se
## city*                0.00
## subCity*             0.09
## street*              3.46
## house*               4.91
## commute_min          0.04
## commute_type*        0.00
## metro*               0.33
## rooms                0.00
## area_total           0.11
## area_kitchen         0.08
## area_living          0.09
## price_total      38371.35
## price_total_usd   1300.44
## price_m           5917.19
## bld_flat             0.04
## bld_flat_total       0.05
## bld_type*            0.01
## market*              0.00
## price_total.norm     0.04
## price_m.norm         5.92
## -------------------------------------------------------- 
## group: 3
##                  var     n      mean        sd    median   trimmed
## city*              1 25518 1.000e+00 1.000e-02 1.000e+00 1.000e+00
## subCity*           2 25518 3.190e+00 1.171e+01 1.000e+00 1.000e+00
## street*            3 25518 8.529e+02 5.736e+02 8.980e+02 8.467e+02
## house*             4 25518 1.319e+03 8.193e+02 1.318e+03 1.319e+03
## commute_min        5 24087 8.910e+00 5.520e+00 9.000e+00 8.560e+00
## commute_type*      6 25518 2.660e+00 5.800e-01 3.000e+00 2.770e+00
## metro*             7 25518 9.126e+01 5.366e+01 9.300e+01 9.171e+01
## rooms              8 25518 3.000e+00 0.000e+00 3.000e+00 3.000e+00
## area_total         9 25518 8.938e+01 3.310e+01 7.800e+01 8.420e+01
## area_kitchen      10 22937 1.203e+01 1.080e+01 1.000e+01 1.057e+01
## area_living       11 24982 5.083e+01 4.150e+01 4.600e+01 4.934e+01
## price_total       12 25518 1.414e+07 9.562e+06 1.170e+07 1.295e+07
## price_total_usd   13 22102 4.937e+05 3.019e+05 3.881e+05 4.423e+05
## price_m           14 25518 1.746e+05 6.957e+05 1.618e+05 1.655e+05
## bld_flat          15 25518 8.140e+00 8.560e+00 6.000e+00 6.580e+00
## bld_flat_total    16 25518 1.463e+01 1.081e+01 1.200e+01 1.286e+01
## bld_type*         17 25518 5.580e+00 1.370e+00 6.000e+00 5.620e+00
## market*           18 25518 3.050e+00 4.200e-01 3.000e+00 3.000e+00
## price_total.norm  19 25518 1.414e+01 9.560e+00 1.170e+01 1.295e+01
## price_m.norm      20 25518 1.746e+02 6.957e+02 1.618e+02 1.655e+02
##                        mad       min       max     range   skew kurtosis
## city*            0.000e+00       1.0 2.000e+00 1.000e+00 112.94 12753.00
## subCity*         0.000e+00       1.0 8.400e+01 8.300e+01   5.62    31.54
## street*          6.686e+02       1.0 1.843e+03 1.842e+03  -0.05    -1.11
## house*           1.013e+03       1.0 2.910e+03 2.909e+03   0.01    -1.18
## commute_min      4.450e+00       1.0 2.550e+02 2.540e+02  11.80   492.57
## commute_type*    0.000e+00       1.0 3.000e+00 2.000e+00  -1.51     1.25
## metro*           6.672e+01       1.0 1.750e+02 1.740e+02  -0.06    -1.23
## rooms            0.000e+00       3.0 3.000e+00 0.000e+00    NaN      NaN
## area_total       2.165e+01       0.1 3.000e+02 2.999e+02   1.73     3.63
## area_kitchen     3.260e+00       0.1 9.060e+02 9.059e+02  28.89  2083.53
## area_living      1.008e+01       0.0 5.000e+03 5.000e+03  68.53  8097.06
## price_total      6.074e+06 1000010.0 4.999e+07 4.899e+07   1.28     1.64
## price_total_usd  1.731e+05   37331.0 7.425e+06 7.388e+06   3.53    39.00
## price_m          5.955e+04    5202.0 8.500e+07 8.499e+07 109.30 12416.36
## bld_flat         4.450e+00       0.0 1.270e+02 1.270e+02   3.43    17.30
## bld_flat_total   7.410e+00       0.0 1.270e+02 1.270e+02   2.67    10.66
## bld_type*        1.480e+00       1.0 8.000e+00 7.000e+00  -0.72     1.41
## market*          0.000e+00       1.0 4.000e+00 3.000e+00  -1.40    11.22
## price_total.norm 6.070e+00       1.0 4.999e+01 4.899e+01   1.28     1.64
## price_m.norm     5.955e+01       5.2 8.500e+04 8.499e+04 109.30 12416.36
##                        se
## city*                0.00
## subCity*             0.07
## street*              3.59
## house*               5.13
## commute_min          0.04
## commute_type*        0.00
## metro*               0.34
## rooms                0.00
## area_total           0.21
## area_kitchen         0.07
## area_living          0.26
## price_total      59858.27
## price_total_usd   2030.96
## price_m           4355.29
## bld_flat             0.05
## bld_flat_total       0.07
## bld_type*            0.01
## market*              0.00
## price_total.norm     0.06
## price_m.norm         4.36
## -------------------------------------------------------- 
## group: 4
##                  var    n      mean        sd    median   trimmed
## city*              1 7665 1.000e+00 0.000e+00 1.000e+00 1.000e+00
## subCity*           2 7665 1.730e+00 6.340e+00 1.000e+00 1.000e+00
## street*            3 7665 8.038e+02 5.926e+02 8.550e+02 7.869e+02
## house*             4 7665 1.317e+03 8.144e+02 1.335e+03 1.318e+03
## commute_min        5 7364 8.210e+00 6.620e+00 7.000e+00 7.770e+00
## commute_type*      6 7665 2.750e+00 5.200e-01 3.000e+00 2.860e+00
## metro*             7 7665 9.245e+01 5.266e+01 9.800e+01 9.342e+01
## rooms              8 7665 4.000e+00 0.000e+00 4.000e+00 4.000e+00
## area_total         9 7665 1.387e+02 4.574e+01 1.360e+02 1.359e+02
## area_kitchen      10 6072 1.653e+01 1.152e+01 1.400e+01 1.477e+01
## area_living       11 7268 7.348e+01 4.507e+01 7.200e+01 7.192e+01
## price_total       12 7665 1.585e+07 1.372e+07 1.300e+07 1.425e+07
## price_total_usd   13 4591 7.824e+05 5.435e+05 7.038e+05 7.376e+05
## price_m           14 7665 1.375e+05 3.596e+05 1.431e+05 1.240e+05
## bld_flat          15 7665 8.620e+00 9.020e+00 5.000e+00 6.850e+00
## bld_flat_total    16 7665 1.520e+01 1.154e+01 1.200e+01 1.341e+01
## bld_type*         17 7665 5.340e+00 1.610e+00 5.000e+00 5.370e+00
## market*           18 7665 3.030e+00 5.100e-01 3.000e+00 3.010e+00
## price_total.norm  19 7665 1.585e+01 1.372e+01 1.300e+01 1.425e+01
## price_m.norm      20 7665 1.375e+02 3.596e+02 1.431e+02 1.240e+02
##                        mad       min       max     range  skew kurtosis
## city*            0.000e+00 1.000e+00 1.000e+00 0.000e+00   NaN      NaN
## subCity*         0.000e+00 1.000e+00 8.400e+01 8.300e+01  9.85   105.03
## street*          7.472e+02 1.000e+00 1.840e+03 1.839e+03  0.04    -1.21
## house*           9.622e+02 1.000e+00 2.888e+03 2.887e+03 -0.01    -1.15
## commute_min      4.450e+00 1.000e+00 2.550e+02 2.540e+02 21.40   786.83
## commute_type*    0.000e+00 1.000e+00 3.000e+00 2.000e+00 -1.96     2.97
## metro*           6.227e+01 1.000e+00 1.750e+02 1.740e+02 -0.16    -1.19
## rooms            0.000e+00 4.000e+00 4.000e+00 0.000e+00   NaN      NaN
## area_total       5.189e+01 1.000e+00 3.000e+02 2.990e+02  0.56    -0.04
## area_kitchen     7.410e+00 2.000e-01 2.100e+02 2.098e+02  4.68    46.29
## area_living      3.262e+01 0.000e+00 2.780e+02 2.780e+02  0.34     0.84
## price_total      1.557e+07 1.020e+06 4.995e+07 4.893e+07  0.70    -0.66
## price_total_usd  3.856e+05 3.978e+04 1.620e+07 1.616e+07 11.28   260.23
## price_m          1.726e+05 5.172e+03 3.000e+07 2.999e+07 74.74  6201.14
## bld_flat         4.450e+00 1.000e+00 8.100e+01 8.000e+01  2.86    11.61
## bld_flat_total   8.900e+00 0.000e+00 7.600e+01 7.600e+01  1.57     3.08
## bld_type*        1.480e+00 1.000e+00 8.000e+00 7.000e+00 -0.45     0.27
## market*          0.000e+00 1.000e+00 4.000e+00 3.000e+00 -1.55     7.46
## price_total.norm 1.557e+01 1.020e+00 4.995e+01 4.893e+01  0.70    -0.66
## price_m.norm     1.726e+02 5.170e+00 3.000e+04 2.999e+04 74.74  6201.14
##                         se
## city*                 0.00
## subCity*              0.07
## street*               6.77
## house*                9.30
## commute_min           0.08
## commute_type*         0.01
## metro*                0.60
## rooms                 0.00
## area_total            0.52
## area_kitchen          0.15
## area_living           0.53
## price_total      156659.77
## price_total_usd    8021.83
## price_m            4107.47
## bld_flat              0.10
## bld_flat_total        0.13
## bld_type*             0.02
## market*               0.01
## price_total.norm      0.16
## price_m.norm          4.11
## -------------------------------------------------------- 
## group: 5
##                  var    n      mean        sd    median   trimmed
## city*              1 2318 1.000e+00 0.000e+00 1.000e+00 1.000e+00
## subCity*           2 2318 1.590e+00 6.150e+00 1.000e+00 1.000e+00
## street*            3 2318 7.234e+02 5.992e+02 8.060e+02 6.902e+02
## house*             4 2318 1.206e+03 8.090e+02 1.157e+03 1.188e+03
## commute_min        5 2214 7.860e+00 8.470e+00 7.000e+00 7.280e+00
## commute_type*      6 2318 2.750e+00 5.300e-01 3.000e+00 2.870e+00
## metro*             7 2318 9.152e+01 5.142e+01 9.100e+01 9.222e+01
## rooms              8 2318 5.000e+00 0.000e+00 5.000e+00 5.000e+00
## area_total         9 2318 1.901e+02 5.418e+01 1.900e+02 1.899e+02
## area_kitchen      10 1618 2.028e+01 1.433e+01 1.800e+01 1.850e+01
## area_living       11 2121 9.392e+01 6.474e+01 9.900e+01 9.177e+01
## price_total       12 2318 1.380e+07 1.494e+07 4.977e+06 1.149e+07
## price_total_usd   13  887 1.118e+06 1.065e+06 9.792e+05 9.837e+05
## price_m           14 2318 8.985e+04 1.043e+05 2.237e+04 7.354e+04
## bld_flat          15 2318 9.850e+00 1.297e+01 6.000e+00 6.930e+00
## bld_flat_total    16 2318 1.328e+01 1.165e+01 8.000e+00 1.116e+01
## bld_type*         17 2318 5.170e+00 1.620e+00 5.000e+00 5.210e+00
## market*           18 2318 2.970e+00 5.900e-01 3.000e+00 3.000e+00
## price_total.norm  19 2318 1.380e+01 1.494e+01 4.980e+00 1.149e+01
## price_m.norm      20 2318 8.985e+01 1.043e+02 2.237e+01 7.354e+01
##                        mad       min       max     range  skew kurtosis
## city*            0.000e+00 1.000e+00 1.000e+00 0.000e+00   NaN      NaN
## subCity*         0.000e+00 1.000e+00 8.400e+01 8.300e+01 11.38   135.15
## street*          8.666e+02 1.000e+00 1.840e+03 1.839e+03  0.14    -1.29
## house*           1.008e+03 1.000e+00 2.802e+03 2.801e+03  0.18    -1.12
## commute_min      4.450e+00 1.000e+00 2.550e+02 2.540e+02 22.51   650.94
## commute_type*    0.000e+00 1.000e+00 3.000e+00 2.000e+00 -2.02     3.16
## metro*           6.375e+01 1.000e+00 1.740e+02 1.730e+02 -0.14    -1.18
## rooms            0.000e+00 5.000e+00 5.000e+00 0.000e+00   NaN      NaN
## area_total       6.612e+01 3.800e+01 3.000e+02 2.620e+02  0.01    -0.86
## area_kitchen     8.900e+00 1.000e+00 2.600e+02 2.590e+02  6.25    77.71
## area_living      5.930e+01 0.000e+00 3.000e+02 3.000e+02  0.03    -0.63
## price_total      4.607e+06 1.010e+06 4.999e+07 4.898e+07  1.03    -0.42
## price_total_usd  4.310e+05 9.424e+04 1.620e+07 1.611e+07  7.18    70.62
## price_m          1.813e+04 4.400e+03 4.352e+05 4.308e+05  1.01    -0.37
## bld_flat         4.450e+00 1.000e+00 8.200e+01 8.100e+01  3.35    12.67
## bld_flat_total   4.450e+00 0.000e+00 7.500e+01 7.500e+01  1.72     2.81
## bld_type*        1.480e+00 1.000e+00 8.000e+00 7.000e+00 -0.35     0.28
## market*          0.000e+00 1.000e+00 4.000e+00 3.000e+00 -1.64     5.19
## price_total.norm 4.610e+00 1.010e+00 4.999e+01 4.898e+01  1.03    -0.42
## price_m.norm     1.813e+01 4.400e+00 4.352e+02 4.308e+02  1.01    -0.37
##                         se
## city*                 0.00
## subCity*              0.13
## street*              12.45
## house*               16.80
## commute_min           0.18
## commute_type*         0.01
## metro*                1.07
## rooms                 0.00
## area_total            1.13
## area_kitchen          0.36
## area_living           1.41
## price_total      310225.29
## price_total_usd   35743.49
## price_m            2165.57
## bld_flat              0.27
## bld_flat_total        0.24
## bld_type*             0.03
## market*               0.01
## price_total.norm      0.31
## price_m.norm          2.17

Распределение цен в разрезе кол-ва комнат

cian.clean.r1 <- cian.clean[cian.clean$rooms == 1, ]
cian.clean.r2 <- cian.clean[cian.clean$rooms == 2, ]
cian.clean.r3 <- cian.clean[cian.clean$rooms == 3, ]
cian.clean.r4 <- cian.clean[cian.clean$rooms == 4, ]
cian.clean.r5 <- cian.clean[cian.clean$rooms == 5, ]
par(mfrow = c(2, 3))
hist(cian.clean$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (все)", 
    ylab = "Кол-во")
hist(cian.clean.r1$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (1 комната)", 
    ylab = "Кол-во")
hist(cian.clean.r2$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (2 комнаты)", 
    ylab = "Кол-во")
hist(cian.clean.r3$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (3 комнаты)", 
    ylab = "Кол-во")
hist(cian.clean.r4$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (4 комнаты)", 
    ylab = "Кол-во")
hist(cian.clean.r5$price_total.norm, col = "yellow", main = "", xlab = "Цена млн. (5 комнат)", 
    ylab = "Кол-во")

plot of chunk unnamed-chunk-9

Распределение площади в разрезе кол-ва комнат

par(mfrow = c(2, 3))
hist(cian.clean$area_total, col = "yellow", main = "", xlab = "Площадь. (все)", 
    ylab = "Кол-во")
hist(cian.clean.r1$area_total, col = "yellow", main = "", xlab = "Площадь. (1 комната)", 
    ylab = "Кол-во")
hist(cian.clean.r2$area_total, col = "yellow", main = "", xlab = "Площадь. (2 комнаты)", 
    ylab = "Кол-во")
hist(cian.clean.r3$area_total, col = "yellow", main = "", xlab = "Площадь. (3 комнаты)", 
    ylab = "Кол-во")
hist(cian.clean.r4$area_total, col = "yellow", main = "", xlab = "Площадь. (4 комнаты)", 
    ylab = "Кол-во")
hist(cian.clean.r5$area_total, col = "yellow", main = "", xlab = "Площадь. (5 комнат)", 
    ylab = "Кол-во")

plot of chunk unnamed-chunk-10

Рассматриваем однокомнатные квартиры, предполагаем что площадь квартир в этом случае не должна превышать 80 м. кв. и цена не больше 20 млн. (отбрасываем экстримальные значения, для определения эктремальных значений смотрим предыдущие распределения)

r1 <- cian.clean.r1[cian.clean.r1$area_total <= 80 & cian.clean.r1$price_total.norm <= 
    20, ]
r1 <- r1[!is.na(r1$price_total), ]
describe(r1)
##                  var     n      mean        sd    median   trimmed
## city*              1 19628 1.000e+00 1.000e-02       1.0 1.000e+00
## subCity*           2 19628 5.830e+00 1.687e+01       1.0 1.000e+00
## street*            3 19628 8.305e+02 5.861e+02     842.0 8.182e+02
## house*             4 19628 1.293e+03 8.130e+02    1291.0 1.290e+03
## commute_min        5 17608 1.019e+01 6.940e+00      10.0 9.720e+00
## commute_type*      6 19628 2.460e+00 6.700e-01       3.0 2.580e+00
## metro*             7 19628 9.050e+01 5.475e+01      93.0 9.078e+01
## rooms              8 19628 1.000e+00 0.000e+00       1.0 1.000e+00
## area_total         9 19628 3.843e+01 7.200e+00      38.0 3.759e+01
## area_kitchen      10 19137 8.850e+00 3.460e+00       8.6 8.520e+00
## area_living       11 19539 1.981e+01 3.136e+01      19.0 1.936e+01
## price_total       12 19628 6.663e+06 2.459e+06 6000000.0 6.255e+06
## price_total_usd   13 19587 2.042e+05 7.546e+04  183595.0 1.915e+05
## price_m           14 19628 1.740e+05 5.018e+04  167500.0 1.701e+05
## bld_flat          15 19628 6.880e+00 5.240e+00       5.0 6.220e+00
## bld_flat_total    16 19628 1.341e+01 6.300e+00      12.0 1.289e+01
## bld_type*         17 19628 5.450e+00 1.140e+00       6.0 5.570e+00
## market*           18 19628 3.090e+00 4.200e-01       3.0 3.020e+00
## price_total.norm  19 19628 6.660e+00 2.460e+00       6.0 6.250e+00
## price_m.norm      20 19628 1.740e+02 5.018e+01     167.5 1.701e+02
##                        mad       min       max     range  skew kurtosis
## city*            0.000e+00 1.000e+00 2.000e+00 1.000e+00 99.04  9808.00
## subCity*         0.000e+00 1.000e+00 8.400e+01 8.300e+01  3.50    11.15
## street*          6.894e+02 1.000e+00 1.843e+03 1.842e+03  0.03    -1.21
## house*           9.726e+02 1.000e+00 2.907e+03 2.906e+03  0.01    -1.13
## commute_min      4.450e+00 1.000e+00 2.550e+02 2.540e+02 15.61   528.58
## commute_type*    0.000e+00 1.000e+00 3.000e+00 2.000e+00 -0.87    -0.43
## metro*           7.413e+01 1.000e+00 1.750e+02 1.740e+02 -0.01    -1.28
## rooms            0.000e+00 1.000e+00 1.000e+00 0.000e+00   NaN      NaN
## area_total       5.930e+00 1.250e+01 8.000e+01 6.750e+01  1.30     3.43
## area_kitchen     2.080e+00 1.000e-01 1.300e+02 1.299e+02  9.74   228.66
## area_living      1.480e+00 0.000e+00 3.215e+03 3.215e+03 82.76  7400.33
## price_total      1.334e+06 1.003e+06 2.000e+07 1.900e+07  2.27     6.86
## price_total_usd  4.083e+04 3.366e+04 1.377e+06 1.343e+06  2.45     9.67
## price_m          3.471e+04 1.471e+04 5.733e+05 5.586e+05  1.24     3.86
## bld_flat         4.450e+00 0.000e+00 5.300e+01 5.300e+01  1.50     4.03
## bld_flat_total   5.930e+00 0.000e+00 1.120e+02 1.120e+02  1.25     5.79
## bld_type*        0.000e+00 1.000e+00 8.000e+00 7.000e+00 -1.29     2.31
## market*          0.000e+00 1.000e+00 4.000e+00 3.000e+00 -0.72     9.60
## price_total.norm 1.330e+00 1.000e+00 2.000e+01 1.900e+01  2.27     6.86
## price_m.norm     3.471e+01 1.471e+01 5.733e+02 5.586e+02  1.24     3.86
##                        se
## city*                0.00
## subCity*             0.12
## street*              4.18
## house*               5.80
## commute_min          0.05
## commute_type*        0.00
## metro*               0.39
## rooms                0.00
## area_total           0.05
## area_kitchen         0.03
## area_living          0.22
## price_total      17553.89
## price_total_usd    539.17
## price_m            358.14
## bld_flat             0.04
## bld_flat_total       0.05
## bld_type*            0.01
## market*              0.00
## price_total.norm     0.02
## price_m.norm         0.36
summary(r1)
##                  city                     subCity     
##  москва            :19626                     :17959  
##  московская область:    2   поселок коммунарка:  485  
##                             московский        :  207  
##                             зеленоград        :  190  
##                             троицк            :  133  
##                             щербинка          :  123  
##                             (Other)           :  531  
##                     street          house        commute_min   
##                        : 3435          : 1113   Min.   :  1.0  
##  Боровское шоссе       :  402   д.8    :  427   1st Qu.:  6.0  
##  Профсоюзная улица     :  165   д.5    :  405   Median : 10.0  
##  Волгоградский проспект:  115   д.3    :  388   Mean   : 10.2  
##  улица Летчика Грицевца:  115   д.6    :  386   3rd Qu.: 13.0  
##  Варшавское шоссе      :  108   д.4    :  381   Max.   :255.0  
##  (Other)               :15288   (Other):16528   NA's   :2020   
##          commute_type                       metro           rooms  
##                : 2020   м.Юго-Западная         : 1250   Min.   :1  
##   на автомобиле: 6545   м.Теплый стан          :  761   1st Qu.:1  
##   пешком       :11063                          :  717   Median :1  
##                         м.Выхино               :  559   Mean   :1  
##                         м.Царицыно             :  493   3rd Qu.:1  
##                         м.Петровско-Разумовская:  451   Max.   :1  
##                         (Other)                :15397              
##    area_total    area_kitchen    area_living    price_total      
##  Min.   :12.5   Min.   :  0.1   Min.   :   0   Min.   : 1002750  
##  1st Qu.:33.0   1st Qu.:  7.0   1st Qu.:  18   1st Qu.: 5250000  
##  Median :38.0   Median :  8.6   Median :  19   Median : 6000000  
##  Mean   :38.4   Mean   :  8.9   Mean   :  20   Mean   : 6663414  
##  3rd Qu.:40.0   3rd Qu.: 10.0   3rd Qu.:  20   3rd Qu.: 7200000  
##  Max.   :80.0   Max.   :130.0   Max.   :3215   Max.   :20000000  
##                 NA's   :491     NA's   :89                       
##  price_total_usd      price_m          bld_flat     bld_flat_total 
##  Min.   :  33659   Min.   : 14714   Min.   : 0.00   Min.   :  0.0  
##  1st Qu.: 160645   1st Qu.:147059   1st Qu.: 3.00   1st Qu.:  9.0  
##  Median : 183595   Median :167500   Median : 5.00   Median : 12.0  
##  Mean   : 204168   Mean   :174038   Mean   : 6.88   Mean   : 13.4  
##  3rd Qu.: 220314   3rd Qu.:194030   3rd Qu.:10.00   3rd Qu.: 17.0  
##  Max.   :1377000   Max.   :573333   Max.   :53.00   Max.   :112.0  
##  NA's   :41                                                        
##     bld_type                  market      price_total.norm  price_m.norm  
##  пан    :11429                   :  304   Min.   : 1.00    Min.   : 14.7  
##  кирп   : 3020   возможна ипотека:    9   1st Qu.: 5.25    1st Qu.:147.1  
##  к-м    : 2464   вторичка        :17001   Median : 6.00    Median :167.5  
##  мон    : 1151   новостройка     : 2314   Mean   : 6.66    Mean   :174.0  
##  блоч   : 1059                            3rd Qu.: 7.20    3rd Qu.:194.0  
##         :  273                            Max.   :20.00    Max.   :573.3  
##  (Other):  232
par(mfrow = c(2, 1))
hist(r1$price_total.norm, col = "yellow", main = "", xlab = "Цена млн.", ylab = "Кол-во")
hist(r1$area_total, col = "yellow", main = "", xlab = "Площадь кв. м.", ylab = "Кол-во")

plot of chunk unnamed-chunk-11

Всего однокомнатных квартир, выставленных на продажу и удовлетворяющим условиям валидности 19.628 Средняя цена за однокомнатную квартиру 6 млн. Средняя площадь 38 м. кв. Больше всего квартир продается на Боровском шоссе (почти в 3 раза больше чем в следующем случае?!)

Рассмотрим какие факторы влияют на формирование цены квартиры.

Цена квартиры должна зависеть от площади, цены за квадратный метр, района, типа дома, удаленности от метро и рынка (первичный / вторичный).

Зависимость цены квартиры от площади

lm_area_price = lm(r1$price_total.norm ~ r1$area_total)
par(mfrow = c(1, 1))
plot(r1$price_total.norm ~ r1$area_total, col = "blue", xlab = "площадь (м. кв.)", 
    ylab = "цена (млн.)")
abline(lm_area_price, col = "red")

plot of chunk unnamed-chunk-12


summary(lm_area_price)
## 
## Call:
## lm(formula = r1$price_total.norm ~ r1$area_total)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.502  -0.993  -0.228   0.739  11.347 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    0.27856    0.08330    3.34  0.00083 ***
## r1$area_total  0.16612    0.00213   77.98  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 2.15 on 19626 degrees of freedom
## Multiple R-squared: 0.237,   Adjusted R-squared: 0.237 
## F-statistic: 6.08e+03 on 1 and 19626 DF,  p-value: <2e-16
confint(lm_area_price)
##                2.5 % 97.5 %
## (Intercept)   0.1153 0.4418
## r1$area_total 0.1619 0.1703

При увеличении площади квартиры на 1 кв. м. цена увеличевается на 166 тыс. руб (в среднем, без учета других параметров) Результат является статистически значимым, отношение коэффицента регрессии (Estimate, красная линия) к стандартной ошибке отклонения значений (Std. Error) велико (t-value) Площадь объясняет (формирует) 23% цены квартиры.

В 95 случаев из 100, коэффицент регрессии для соотношения площадь - цена будет лежать в интервале от 0.16 - 0.17 (что соответствует 160 - 170 тыс. руб.)

ggplot(r1, aes(x = area_total, y = price_total.norm)) + geom_smooth(method = "lm") + 
    geom_point() + xlab("Площадь (кв. м.)") + ylab("Цена (млн.)")

plot of chunk unnamed-chunk-13

Зависимость цены квартиры от цены за метр квадратный

lm_price_m_price = lm(r1$price_total.norm ~ r1$price_m.norm)
par(mfrow = c(1, 1))
plot(r1$price_total.norm ~ r1$price_m.norm, col = "blue", xlab = "цена за м. кв. (тыс.))", 
    ylab = "цена (млн.)")
abline(lm_price_m_price, col = "red")

plot of chunk unnamed-chunk-14


summary(lm_price_m_price)
## 
## Call:
## lm(formula = r1$price_total.norm ~ r1$price_m.norm)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.014  -0.807  -0.060   0.306   9.551 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -0.288947   0.036719   -7.87  3.8e-15 ***
## r1$price_m.norm  0.039947   0.000203  197.05  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 1.43 on 19626 degrees of freedom
## Multiple R-squared: 0.664,   Adjusted R-squared: 0.664 
## F-statistic: 3.88e+04 on 1 and 19626 DF,  p-value: <2e-16
confint(lm_price_m_price)
##                    2.5 %   97.5 %
## (Intercept)     -0.36092 -0.21698
## r1$price_m.norm  0.03955  0.04034

При увеличении стоимости 1 кв. м. квартиры на 1 пункт (1 тысяча рублей) общая стоимость квариры увеличевается на 39.947 тыс. руб (в среднем, без учета других параметров) Результат является статистически значимым, отношение коэффицента регрессии (Estimate, красная линия) к стандартной ошибке отклонения значений (Std. Error) велико (t-value) Цена за квадратный метр объясняет (формирует) 66% цены квартиры.

В 95 случаев из 100, коэффицент регрессии для соотношения цена кв. м. - общая цена, будет лежать в интервале от 0.039 - 0.04 (что соответствует 39 - 40 тыс. руб.)

ggplot(r1, aes(x = price_m.norm, y = price_total.norm)) + geom_smooth(method = "lm") + 
    geom_point() + xlab("Цена за кв. м. (тыс.))") + ylab("Цена (млн.)")

plot of chunk unnamed-chunk-15

Зависимость цены квартиры от цены за метр квадратный и общей площади

lm_m_area_price <- lm(r1$price_total.norm ~ r1$price_m.norm + r1$area_total)
summary(lm_m_area_price)
## 
## Call:
## lm(formula = r1$price_total.norm ~ r1$price_m.norm + r1$area_total)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -10.395  -0.091   0.038   0.160   2.790 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -7.80e+00   2.29e-02    -341   <2e-16 ***
## r1$price_m.norm  4.18e-02   6.86e-05     610   <2e-16 ***
## r1$area_total    1.87e-01   4.78e-04     391   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 0.481 on 19625 degrees of freedom
## Multiple R-squared: 0.962,   Adjusted R-squared: 0.962 
## F-statistic: 2.47e+05 on 2 and 19625 DF,  p-value: <2e-16
confint(lm_m_area_price)
##                    2.5 %   97.5 %
## (Intercept)     -7.84233 -7.75267
## r1$price_m.norm  0.04171  0.04198
## r1$area_total    0.18583  0.18771

Очевидно что общая цена за квартиру формируется по формуле [цена м.кв. * общая площадь], таким образом данная модель должна объяснять (формировать) 100% результат. Полученные результат равен 96% скорее всего ошибка в данных, для некоторых записей [общая стоимость] != [цена м.кв. * общая площадь].

Результат является статистически значимым.

При увеличении площади квартиры на 1 кв. м. цена увеличевается на 186 тыс. руб (в среднем, при одинаковой цене за 1 кв. м.) Сравнивая с предыдущим полученым результатом:

При увеличении площади квартиры на 1 кв. м. цена увеличевается на 166 тыс. руб (в среднем, без учета других параметров)

Предыдущий результат был получен, предпологая что все квартиры имеют одинаковую площадь, новая модель учитывает площадь квартиры и показывает что между площадью квратиры и ценой за квадратный метр есть связь (цена за квадратный метр пропорциональна площади квартиры).

Найдем ошибочные данные, [общая стоимость] != [цена м.кв. * общая площадь].

r1$price_total.calc <- r1$price_m * r1$area_total
price_total_err <- r1[r1$price_total.calc != r1$price_total, ]
nrow(price_total_err)
## [1] 16333
head(price_total_err[c(12, 21)])
##   price_total price_total.calc
## 3     1750000          1750014
## 4     2022405          2022413
## 5     2059400          2059411
## 6     2100000          2099993
## 7     2250000          2249988
## 8     2400000          2400017

Результат показывает что проблема, в странном округлении, [общая стоимость] = round?([цена м.кв. * общая площадь]), причем большинство записей имеют расхождение данных.

** В дальнейшем ищем предикторы цены за квадратный метр, не общей цены. Между общей ценой и ценой за кв. метр прямая связь (через площадь), поэтому для нахождения этих обеих переменных нужно знать только одну из них. **

Зависимость цены за кв. м. от площади

lm_area_price_m = lm(r1$price_m.norm ~ r1$area_total)
par(mfrow = c(1, 1))
plot(r1$price_m.norm ~ r1$area_total, col = "blue", xlab = "площадь (м. кв.)", 
    ylab = "цена кв. м. (тыс.)")
abline(lm_area_price_m, col = "red")

plot of chunk unnamed-chunk-18


summary(lm_area_price_m)
## 
## Call:
## lm(formula = r1$price_m.norm ~ r1$area_total)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -147.2  -27.6   -7.2   19.7  387.7 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   193.0006     1.9403   99.47   <2e-16 ***
## r1$area_total  -0.4934     0.0496   -9.94   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 50.1 on 19626 degrees of freedom
## Multiple R-squared: 0.00501, Adjusted R-squared: 0.00496 
## F-statistic: 98.9 on 1 and 19626 DF,  p-value: <2e-16
confint(lm_area_price_m)
##                  2.5 %   97.5 %
## (Intercept)   189.1975 196.8037
## r1$area_total  -0.5906  -0.3961

При увеличении площади на 1 кв. м., стоимость 1 кв. м. уменьшается на 5 тыс. руб (в среднем, без учета других параметров) Результат является статистически значимым, отношение коэффицента регрессии (Estimate, красная линия) к стандартной ошибке отклонения значений (Std. Error) велико (t-value) Площадь объясняет (формирует) всего лишь 0.5% стоимости квадратного метра квартиры.

В 95 случаев из 100, коэффицент регрессии для соотношения площадь - цена кв. м. -, будет лежать в интервале от -0.59 - 0.39 (что соответствует -6 - -4 тыс. руб.)

ggplot(r1, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") + 
    geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")

plot of chunk unnamed-chunk-19

####Из результатов видно что квартиры из верхнего ценового диапазона, имеют тендецию к более сильной зависимости (негативной), между площадью и ценой за кв. м. Например выберем все квартиры с ценой более 400 тыс. руб за кв. м.

r1h <- r1[r1$price_m.norm >= 400, ]
lm_area_price_m_h = lm(r1h$price_m.norm ~ r1h$area_total)
par(mfrow = c(1, 1))
ggplot(r1h, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") + 
    geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")

plot of chunk unnamed-chunk-20


summary(lm_area_price_m_h)
## 
## Call:
## lm(formula = r1h$price_m.norm ~ r1h$area_total)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -74.03 -20.70  -6.55   9.07  94.03 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     507.344     22.098    23.0   <2e-16 ***
## r1h$area_total   -1.869      0.668    -2.8    0.008 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 37.4 on 38 degrees of freedom
## Multiple R-squared: 0.171,   Adjusted R-squared: 0.149 
## F-statistic: 7.83 on 1 and 38 DF,  p-value: 0.00803
confint(lm_area_price_m_h)
##                  2.5 %   97.5 %
## (Intercept)    462.610 552.0784
## r1h$area_total  -3.222  -0.5169

####Также квартиры в нижнем ценавом диапазоне показывают еще более, сильную негативную корреляцию Например выберем все квартиры с ценой менее 200 тыс. руб за кв. м.

r1l <- r1[r1$price_m.norm <= 200, ]
lm_area_price_m_l = lm(r1l$price_m.norm ~ r1l$area_total)
par(mfrow = c(1, 1))
ggplot(r1l, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") + 
    geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")

plot of chunk unnamed-chunk-21


summary(lm_area_price_m_l)
## 
## Call:
## lm(formula = r1l$price_m.norm ~ r1l$area_total)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -132.08  -15.41    1.02   17.96  112.59 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    220.3809     1.2905   170.8   <2e-16 ***
## r1l$area_total  -1.7212     0.0333   -51.7   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 26.7 on 15450 degrees of freedom
## Multiple R-squared: 0.147,   Adjusted R-squared: 0.147 
## F-statistic: 2.67e+03 on 1 and 15450 DF,  p-value: <2e-16
confint(lm_area_price_m_l)
##                  2.5 %  97.5 %
## (Intercept)    217.851 222.911
## r1l$area_total  -1.786  -1.656

Цена за кв. м. падает при увеличении площади квартиры (+ 1 кв м -> - 17 тыс. руб. за кв. м.)

####Квартиры в среднем ценовом диапазоне (от 200 до 400 тыс. руб.) показывают, обратное, здесь положительная корреляция, причем с сильным коэффицентом.

r1m <- r1[r1$price_m.norm > 200 & r1$price_m.norm < 400, ]
lm_area_price_m_m = lm(r1m$price_m.norm ~ r1m$area_total)
par(mfrow = c(1, 1))
ggplot(r1m, aes(x = area_total, y = price_m.norm)) + geom_smooth(method = "lm") + 
    geom_point() + xlab("площадь") + ylab("Цена за кв. м. (тыс.)")

plot of chunk unnamed-chunk-22


summary(lm_area_price_m_m)
## 
## Call:
## lm(formula = r1m$price_m.norm ~ r1m$area_total)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -75.3  -29.6  -12.3   17.4  157.0 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    205.8195     2.7628    74.5   <2e-16 ***
## r1m$area_total   0.9690     0.0683    14.2   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 41.2 on 4134 degrees of freedom
## Multiple R-squared: 0.0464,  Adjusted R-squared: 0.0462 
## F-statistic:  201 on 1 and 4134 DF,  p-value: <2e-16
confint(lm_area_price_m_m)
##                  2.5 %  97.5 %
## (Intercept)    200.403 211.236
## r1m$area_total   0.835   1.103

При увеличении площади на 1 кв. м., стоимость 1 кв. м. увеличивается на 96 тыс. руб (в среднем, без учета других параметров)

Сохраняем ценовые категории в модели, возможно они будут полезны для определения других связей.

r1.cat <- r1h
r1.cat_m <- r1m
r1.cat_l <- r1l

###Протестируем предположение, что существуют ценовые категории цен на квартиры.

Те при определенном наборе параметров, цены на квартиру формируются исходя из того что параметры подходят под условия определенной группы. Например если квартира находится в опеределенном районе, и находится в определенном типе дома то данная цена на квартиру будет примерно соответствовать группе квартир с такими же параметрами.

####Категориируем цены каждой записи.

hist(r1$price_m.norm)

plot of chunk unnamed-chunk-24

price_cut <- cut(r1$price_m.norm, pretty(r1$price_m.norm, 6))
r1$price_cut <- price_cut
describeBy(r1, r1$price_cut)
## group: (0,100]
##                  var   n      mean        sd    median   trimmed       mad
## city*              1 890 1.000e+00      0.00 1.000e+00 1.000e+00      0.00
## subCity*           2 890 3.488e+01     30.87 4.700e+01 3.318e+01     50.41
## street*            3 890 4.125e+02    495.21 4.000e+02 3.284e+02    591.56
## house*             4 890 1.111e+03    964.05 9.870e+02 1.054e+03   1460.36
## commute_min        5 317 1.408e+01     16.10 1.100e+01 1.232e+01      5.93
## commute_type*      6 890 1.390e+00      0.55 1.000e+00 1.320e+00      0.00
## metro*             7 890 1.152e+02     65.20 1.510e+02 1.223e+02     31.13
## rooms              8 890 1.000e+00      0.00 1.000e+00 1.000e+00      0.00
## area_total         9 890 4.674e+01      8.13 4.670e+01 4.640e+01      6.38
## area_kitchen      10 845 1.167e+01      4.64 1.170e+01 1.146e+01      2.52
## area_living       11 885 2.434e+01    107.61 2.000e+01 2.028e+01      2.97
## price_total       12 890 3.955e+06 938556.81 4.100e+06 4.019e+06 812946.64
## price_total_usd   13 859 1.255e+05  49318.22 1.267e+05 1.247e+05  23331.68
## price_m           14 890 8.569e+04  16623.06 9.061e+04 8.891e+04   9397.46
## bld_flat          15 890 6.530e+00      5.18 5.000e+00 5.930e+00      4.45
## bld_flat_total    16 890 1.368e+01      5.39 1.500e+01 1.407e+01      2.97
## bld_type*         17 890 4.700e+00      1.20 4.000e+00 4.550e+00      0.00
## market*           18 890 3.750e+00      0.53 4.000e+00 3.850e+00      0.00
## price_total.norm  19 890 3.960e+00      0.94 4.100e+00 4.020e+00      0.81
## price_m.norm      20 890 8.569e+01     16.62 9.061e+01 8.891e+01      9.40
## price_total.calc  21 890 3.955e+06 938555.40 4.100e+06 4.019e+06 812940.71
## price_cut*        22 890 1.000e+00      0.00 1.000e+00 1.000e+00      0.00
##                        min       max     range  skew kurtosis       se
## city*            1.000e+00 1.000e+00 0.000e+00   NaN      NaN     0.00
## subCity*         1.000e+00 8.400e+01 8.300e+01  0.02    -1.64     1.03
## street*          1.000e+00 1.838e+03 1.837e+03  1.09     0.39    16.60
## house*           1.000e+00 2.878e+03 2.877e+03  0.28    -1.33    32.31
## commute_min      1.000e+00 2.550e+02 2.540e+02 11.26   158.59     0.90
## commute_type*    1.000e+00 3.000e+00 2.000e+00  1.03     0.04     0.02
## metro*           1.000e+00 1.720e+02 1.710e+02 -0.85    -1.03     2.19
## rooms            1.000e+00 1.000e+00 0.000e+00   NaN      NaN     0.00
## area_total       2.070e+01 7.900e+01 5.830e+01  0.68     2.22     0.27
## area_kitchen     1.000e-01 1.130e+02 1.129e+02 12.56   267.44     0.16
## area_living      0.000e+00 3.215e+03 3.215e+03 29.45   870.33     3.62
## price_total      1.003e+06 7.250e+06 6.247e+06 -0.72     1.13 31460.50
## price_total_usd  3.366e+04 1.377e+06 1.343e+06 18.98   480.02  1682.72
## price_m          1.471e+04 1.000e+05 8.529e+04 -2.47     6.92   557.21
## bld_flat         1.000e+00 5.300e+01 5.200e+01  2.20    12.28     0.17
## bld_flat_total   0.000e+00 4.000e+01 4.000e+01 -0.45     0.44     0.18
## bld_type*        1.000e+00 7.000e+00 6.000e+00  0.65     0.01     0.04
## market*          1.000e+00 4.000e+00 3.000e+00 -2.59     8.56     0.02
## price_total.norm 1.000e+00 7.250e+00 6.250e+00 -0.72     1.13     0.03
## price_m.norm     1.471e+01 1.000e+02 8.529e+01 -2.47     6.92     0.56
## price_total.calc 1.003e+06 7.250e+06 6.247e+06 -0.72     1.13 31460.45
## price_cut*       1.000e+00 1.000e+00 0.000e+00   NaN      NaN     0.00
## -------------------------------------------------------- 
## group: (100,200]
##                  var     n      mean        sd    median   trimmed
## city*              1 14562 1.000e+00 1.000e-02       1.0 1.000e+00
## subCity*           2 14562 5.430e+00 1.633e+01       1.0 1.000e+00
## street*            3 14562 8.306e+02 5.858e+02     834.0 8.180e+02
## house*             4 14562 1.295e+03 8.055e+02    1307.0 1.291e+03
## commute_min        5 13146 1.077e+01 6.780e+00      10.0 1.027e+01
## commute_type*      6 14562 2.420e+00 6.600e-01       3.0 2.530e+00
## metro*             7 14562 8.929e+01 5.414e+01      89.0 8.921e+01
## rooms              8 14562 1.000e+00 0.000e+00       1.0 1.000e+00
## area_total         9 14562 3.769e+01 5.960e+00      38.0 3.702e+01
## area_kitchen      10 14357 8.580e+00 2.910e+00       8.5 8.330e+00
## area_living       11 14509 1.959e+01 2.449e+01      19.0 1.935e+01
## price_total       12 14562 5.951e+06 1.185e+06 5800000.0 5.834e+06
## price_total_usd   13 14553 1.820e+05 3.616e+04  177475.0 1.785e+05
## price_m           14 14562 1.588e+05 2.374e+04  161286.0 1.602e+05
## bld_flat          15 14562 6.730e+00 4.980e+00       5.0 6.130e+00
## bld_flat_total    16 14562 1.316e+01 5.800e+00      12.0 1.274e+01
## bld_type*         17 14562 5.520e+00 1.070e+00       6.0 5.700e+00
## market*           18 14562 3.070e+00 3.800e-01       3.0 3.000e+00
## price_total.norm  19 14562 5.950e+00 1.180e+00       5.8 5.830e+00
## price_m.norm      20 14562 1.588e+02 2.374e+01     161.3 1.602e+02
## price_total.calc  21 14562 5.951e+06 1.185e+06 5799996.0 5.834e+06
## price_cut*        22 14562 2.000e+00 0.000e+00       2.0 2.000e+00
##                        mad       min       max     range  skew kurtosis
## city*                 0.00       1.0 2.000e+00 1.000e+00 85.30  7275.00
## subCity*              0.00       1.0 8.400e+01 8.300e+01  3.77    13.21
## street*             696.82       1.0 1.843e+03 1.842e+03  0.03    -1.21
## house*              944.42       1.0 2.907e+03 2.906e+03  0.02    -1.11
## commute_min           4.45       1.0 2.550e+02 2.540e+02 14.81   512.33
## commute_type*         0.00       1.0 3.000e+00 2.000e+00 -0.72    -0.56
## metro*               69.68       1.0 1.750e+02 1.740e+02  0.07    -1.25
## rooms                 0.00       1.0 1.000e+00 0.000e+00   NaN      NaN
## area_total            4.45      17.0 8.000e+01 6.300e+01  1.57     5.31
## area_kitchen          2.22       0.1 1.000e+02 9.990e+01 10.23   251.08
## area_living           1.48       0.0 2.200e+03 2.200e+03 80.95  6833.92
## price_total      963690.00 2100000.0 1.550e+07 1.340e+07  1.72     6.31
## price_total_usd   29487.43   64258.0 4.743e+05 4.100e+05  1.72     6.36
## price_m           23509.59  100041.0 2.000e+05 9.996e+04 -0.46    -0.39
## bld_flat              4.45       0.0 4.000e+01 4.000e+01  1.23     2.15
## bld_flat_total        5.93       0.0 1.120e+02 1.120e+02  1.19     8.07
## bld_type*             0.00       1.0 8.000e+00 7.000e+00 -1.75     3.56
## market*               0.00       1.0 4.000e+00 3.000e+00 -0.83    12.16
## price_total.norm      0.96       2.1 1.550e+01 1.340e+01  1.72     6.31
## price_m.norm         23.51     100.0 2.000e+02 9.996e+01 -0.46    -0.39
## price_total.calc 963660.35 2099993.0 1.550e+07 1.340e+07  1.72     6.31
## price_cut*            0.00       2.0 2.000e+00 0.000e+00   NaN      NaN
##                       se
## city*               0.00
## subCity*            0.14
## street*             4.85
## house*              6.68
## commute_min         0.06
## commute_type*       0.01
## metro*              0.45
## rooms               0.00
## area_total          0.05
## area_kitchen        0.02
## area_living         0.20
## price_total      9815.92
## price_total_usd   299.73
## price_m           196.76
## bld_flat            0.04
## bld_flat_total      0.05
## bld_type*           0.01
## market*             0.00
## price_total.norm    0.01
## price_m.norm        0.20
## price_total.calc 9815.92
## price_cut*          0.00
## -------------------------------------------------------- 
## group: (200,300]
##                  var    n      mean        sd    median   trimmed
## city*              1 3643 1.000e+00 0.000e+00       1.0 1.000e+00
## subCity*           2 3643 1.050e+00 1.750e+00       1.0 1.000e+00
## street*            3 3643 9.379e+02 5.660e+02     953.0 9.522e+02
## house*             4 3643 1.320e+03 7.870e+02    1310.0 1.318e+03
## commute_min        5 3614 8.220e+00 5.880e+00       7.0 7.900e+00
## commute_type*      6 3643 2.810e+00 4.100e-01       3.0 2.900e+00
## metro*             7 3643 8.789e+01 5.286e+01      94.0 8.763e+01
## rooms              8 3643 1.000e+00 0.000e+00       1.0 1.000e+00
## area_total         9 3643 3.884e+01 9.300e+00      37.5 3.798e+01
## area_kitchen      10 3491 9.100e+00 4.010e+00       9.0 8.620e+00
## area_living       11 3617 1.964e+01 7.410e+00      19.0 1.932e+01
## price_total       12 3643 9.036e+06 2.619e+06 8500000.0 8.725e+06
## price_total_usd   13 3642 2.765e+05 8.006e+04  260092.0 2.669e+05
## price_m           14 3643 2.315e+05 2.525e+04  225000.0 2.284e+05
## bld_flat          15 3643 7.470e+00 5.790e+00       6.0 6.660e+00
## bld_flat_total    16 3643 1.430e+01 7.750e+00      13.0 1.346e+01
## bld_type*         17 3643 5.350e+00 1.250e+00       6.0 5.420e+00
## market*           18 3643 3.020e+00 3.600e-01       3.0 3.000e+00
## price_total.norm  19 3643 9.040e+00 2.620e+00       8.5 8.720e+00
## price_m.norm      20 3643 2.315e+02 2.525e+01     225.0 2.284e+02
## price_total.calc  21 3643 9.036e+06 2.619e+06 8499992.0 8.725e+06
## price_cut*        22 3643 3.000e+00 0.000e+00       3.0 3.000e+00
##                        mad       min      max     range  skew kurtosis
## city*            0.000e+00 1.000e+00        1 0.000e+00   NaN      NaN
## subCity*         0.000e+00 1.000e+00       83 8.200e+01 39.33  1635.65
## street*          6.761e+02 1.000e+00     1843 1.842e+03 -0.18    -1.10
## house*           9.400e+02 1.000e+00     2740 2.739e+03  0.00    -1.15
## commute_min      4.450e+00 1.000e+00      255 2.540e+02 20.67   856.20
## commute_type*    0.000e+00 1.000e+00        3 2.000e+00 -1.96     2.79
## metro*           6.375e+01 1.000e+00      175 1.740e+02 -0.06    -1.24
## rooms            0.000e+00 1.000e+00        1 0.000e+00   NaN      NaN
## area_total       6.670e+00 1.250e+01       80 6.750e+01  0.88     1.33
## area_kitchen     2.970e+00 8.000e-01       62 6.120e+01  4.37    41.43
## area_living      1.480e+00 0.000e+00      160 1.600e+02  2.65    40.90
## price_total      1.927e+06 3.150e+06 20000000 1.685e+07  1.23     2.01
## price_total_usd  5.897e+04 9.639e+04   611982 5.156e+05  1.23     2.02
## price_m          2.436e+04 2.003e+05   300000 9.972e+04  0.89    -0.10
## bld_flat         4.450e+00 1.000e+00       43 4.200e+01  1.54     3.36
## bld_flat_total   5.930e+00 0.000e+00       56 5.600e+01  1.16     1.85
## bld_type*        1.480e+00 1.000e+00        8 7.000e+00 -0.76     1.46
## market*          0.000e+00 1.000e+00        4 3.000e+00 -2.26    18.92
## price_total.norm 1.930e+00 3.150e+00       20 1.685e+01  1.23     2.01
## price_m.norm     2.436e+01 2.003e+02      300 9.972e+01  0.89    -0.10
## price_total.calc 1.927e+06 3.150e+06 20000024 1.685e+07  1.23     2.01
## price_cut*       0.000e+00 3.000e+00        3 0.000e+00   NaN      NaN
##                        se
## city*                0.00
## subCity*             0.03
## street*              9.38
## house*              13.04
## commute_min          0.10
## commute_type*        0.01
## metro*               0.88
## rooms                0.00
## area_total           0.15
## area_kitchen         0.07
## area_living          0.12
## price_total      43385.98
## price_total_usd   1326.68
## price_m            418.30
## bld_flat             0.10
## bld_flat_total       0.13
## bld_type*            0.02
## market*              0.01
## price_total.norm     0.04
## price_m.norm         0.42
## price_total.calc 43385.99
## price_cut*           0.00
## -------------------------------------------------------- 
## group: (300,400]
##                  var   n      mean        sd    median   trimmed       mad
## city*              1 494 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## subCity*           2 494 1.080e+00 1.710e+00 1.000e+00 1.000e+00 0.000e+00
## street*            3 494 8.001e+02 5.453e+02 9.420e+02 7.863e+02 5.026e+02
## house*             4 494 1.376e+03 8.799e+02 1.416e+03 1.391e+03 1.158e+03
## commute_min        5 492 7.180e+00 4.060e+00 7.000e+00 6.910e+00 4.450e+00
## commute_type*      6 494 2.870e+00 3.500e-01 3.000e+00 2.960e+00 0.000e+00
## metro*             7 494 9.988e+01 5.455e+01 1.110e+02 1.023e+02 6.079e+01
## rooms              8 494 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## area_total         9 494 4.299e+01 9.310e+00 4.100e+01 4.266e+01 1.038e+01
## area_kitchen      10 409 1.053e+01 7.710e+00 9.000e+00 9.580e+00 2.970e+00
## area_living       11 489 1.925e+01 1.070e+01 2.000e+01 1.931e+01 5.340e+00
## price_total       12 494 1.445e+07 3.320e+06 1.400e+07 1.444e+07 4.077e+06
## price_total_usd   13 494 4.420e+05 1.016e+05 4.284e+05 4.418e+05 1.248e+05
## price_m           14 494 3.358e+05 2.637e+04 3.296e+05 3.336e+05 2.885e+04
## bld_flat          15 494 7.620e+00 7.570e+00 5.000e+00 6.100e+00 4.450e+00
## bld_flat_total    16 494 1.415e+01 9.070e+00 1.200e+01 1.269e+01 5.930e+00
## bld_type*         17 494 5.470e+00 1.360e+00 5.000e+00 5.410e+00 1.480e+00
## market*           18 494 3.010e+00 4.800e-01 3.000e+00 3.000e+00 0.000e+00
## price_total.norm  19 494 1.445e+01 3.320e+00 1.400e+01 1.444e+01 4.080e+00
## price_m.norm      20 494 3.358e+02 2.637e+01 3.296e+02 3.336e+02 2.885e+01
## price_total.calc  21 494 1.445e+07 3.320e+06 1.400e+07 1.444e+07 4.077e+06
## price_cut*        22 494 4.000e+00 0.000e+00 4.000e+00 4.000e+00 0.000e+00
##                        min      max     range  skew kurtosis        se
## city*                  1.0        1 0.000e+00   NaN      NaN      0.00
## subCity*               1.0       39 3.800e+01 22.09   487.01      0.08
## street*                1.0     1822 1.821e+03 -0.13    -0.97     24.53
## house*                 1.0     2663 2.662e+03 -0.18    -1.29     39.59
## commute_min            1.0       23 2.200e+01  0.55    -0.20      0.18
## commute_type*          1.0        3 2.000e+00 -2.45     4.97      0.02
## metro*                 1.0      174 1.730e+02 -0.39    -1.14      2.45
## rooms                  1.0        1 0.000e+00   NaN      NaN      0.00
## area_total            13.1       64 5.090e+01  0.20    -0.58      0.42
## area_kitchen           3.0      130 1.270e+02  9.87   141.22      0.38
## area_living            0.0       59 5.900e+01 -0.11     0.72      0.48
## price_total      4000000.0 20000000 1.600e+07  0.04    -1.02 149356.40
## price_total_usd   122396.0   611982 4.896e+05  0.04    -1.02   4570.17
## price_m           300518.0   400000 9.948e+04  0.58    -0.73   1186.34
## bld_flat               1.0       47 4.600e+01  2.65     8.48      0.34
## bld_flat_total         3.0       48 4.500e+01  1.51     2.25      0.41
## bld_type*              1.0        8 7.000e+00  0.08     0.18      0.06
## market*                1.0        4 3.000e+00 -1.94     9.63      0.02
## price_total.norm       4.0       20 1.600e+01  0.04    -1.02      0.15
## price_m.norm         300.5      400 9.948e+01  0.58    -0.73      1.19
## price_total.calc 4000006.4 20000024 1.600e+07  0.04    -1.02 149356.39
## price_cut*             4.0        4 0.000e+00   NaN      NaN      0.00
## -------------------------------------------------------- 
## group: (400,500]
##                  var  n      mean        sd    median   trimmed       mad
## city*              1 36 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## subCity*           2 36 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## street*            3 36 6.702e+02 6.324e+02 7.330e+02 6.263e+02 9.726e+02
## house*             4 36 1.314e+03 8.566e+02 1.505e+03 1.314e+03 8.703e+02
## commute_min        5 36 6.670e+00 5.300e+00 5.000e+00 5.970e+00 2.970e+00
## commute_type*      6 36 2.890e+00 3.200e-01 3.000e+00 2.970e+00 0.000e+00
## metro*             7 36 1.039e+02 4.574e+01 1.075e+02 1.078e+02 5.856e+01
## rooms              8 36 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## area_total         9 36 3.316e+01 8.350e+00 3.400e+01 3.367e+01 5.630e+00
## area_kitchen      10 32 7.440e+00 3.720e+00 6.250e+00 7.000e+00 2.370e+00
## area_living       11 36 1.736e+01 8.420e+00 1.800e+01 1.754e+01 4.520e+00
## price_total       12 36 1.453e+07 3.452e+06 1.500e+07 1.489e+07 1.483e+06
## price_total_usd   13 36 4.447e+05 1.056e+05 4.590e+05 4.556e+05 4.537e+04
## price_m           14 36 4.399e+05 2.503e+04 4.324e+05 4.385e+05 2.059e+04
## bld_flat          15 36 5.190e+00 5.440e+00 3.500e+00 4.330e+00 3.710e+00
## bld_flat_total    16 36 1.000e+01 5.960e+00 9.000e+00 9.100e+00 4.450e+00
## bld_type*         17 36 4.940e+00 1.580e+00 5.000e+00 4.970e+00 0.000e+00
## market*           18 36 3.060e+00 2.300e-01 3.000e+00 3.000e+00 0.000e+00
## price_total.norm  19 36 1.453e+01 3.450e+00 1.500e+01 1.489e+01 1.480e+00
## price_m.norm      20 36 4.399e+02 2.503e+01 4.324e+02 4.385e+02 2.059e+01
## price_total.calc  21 36 1.453e+07 3.452e+06 1.500e+07 1.489e+07 1.483e+06
## price_cut*        22 36 5.000e+00 0.000e+00 5.000e+00 5.000e+00 0.000e+00
##                        min       max     range  skew kurtosis        se
## city*                  1.0 1.000e+00 0.000e+00   NaN      NaN      0.00
## subCity*               1.0 1.000e+00 0.000e+00   NaN      NaN      0.00
## street*                1.0 1.812e+03 1.811e+03  0.37    -1.30    105.39
## house*                 1.0 2.662e+03 2.661e+03 -0.20    -1.15    142.77
## commute_min            1.0 2.300e+01 2.200e+01  1.39     1.39      0.88
## commute_type*          2.0 3.000e+00 1.000e+00 -2.37     3.73      0.05
## metro*                 4.0 1.720e+02 1.680e+02 -0.51    -0.65      7.62
## rooms                  1.0 1.000e+00 0.000e+00   NaN      NaN      0.00
## area_total            14.0 4.740e+01 3.340e+01 -0.75     0.18      1.39
## area_kitchen           1.0 2.060e+01 1.960e+01  1.66     3.78      0.66
## area_living            0.0 3.570e+01 3.570e+01 -0.31     0.34      1.40
## price_total      5700000.0 1.950e+07 1.380e+07 -1.16     0.66 575363.93
## price_total_usd   174415.0 5.967e+05 4.223e+05 -1.16     0.66  17605.62
## price_m           404661.0 4.934e+05 8.876e+04  0.65    -0.75   4171.85
## bld_flat               1.0 3.100e+01 3.000e+01  2.98    11.28      0.91
## bld_flat_total         4.0 3.700e+01 3.300e+01  2.70     9.32      0.99
## bld_type*              1.0 8.000e+00 7.000e+00 -0.16     0.95      0.26
## market*                3.0 4.000e+00 1.000e+00  3.72    12.18      0.04
## price_total.norm       5.7 1.950e+01 1.380e+01 -1.16     0.66      0.58
## price_m.norm         404.7 4.934e+02 8.876e+01  0.65    -0.75      4.17
## price_total.calc 5700002.0 1.950e+07 1.380e+07 -1.16     0.66 575364.06
## price_cut*             5.0 5.000e+00 0.000e+00   NaN      NaN      0.00
## -------------------------------------------------------- 
## group: (500,600]
##                  var n      mean        sd    median   trimmed       mad
## city*              1 3 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## subCity*           2 3 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## street*            3 3 6.467e+02 9.748e+02 1.710e+02 6.467e+02 2.520e+02
## house*             4 3 1.384e+03 4.890e+02 1.188e+03 1.384e+03 2.432e+02
## commute_min        5 3 6.330e+00 5.130e+00 5.000e+00 6.330e+00 4.450e+00
## commute_type*      6 3 2.670e+00 5.800e-01 3.000e+00 2.670e+00 0.000e+00
## metro*             7 3 9.167e+01 3.927e+01 7.000e+01 9.167e+01 2.970e+00
## rooms              8 3 1.000e+00 0.000e+00 1.000e+00 1.000e+00 0.000e+00
## area_total         9 3 2.033e+01 6.810e+00 1.800e+01 2.033e+01 4.450e+00
## area_kitchen      10 3 7.670e+00 5.800e-01 8.000e+00 7.670e+00 0.000e+00
## area_living       11 3 2.233e+01 1.185e+01 1.600e+01 2.233e+01 1.480e+00
## price_total       12 3 1.127e+07 3.331e+06 1.020e+07 1.127e+07 2.372e+06
## price_total_usd   13 3 3.447e+05 1.019e+05 3.121e+05 3.447e+05 7.259e+04
## price_m           14 3 5.586e+05 2.007e+04 5.667e+05 5.586e+05 9.883e+03
## bld_flat          15 3 8.670e+00 5.130e+00 1.000e+01 8.670e+00 4.450e+00
## bld_flat_total    16 3 1.133e+01 6.030e+00 1.200e+01 1.133e+01 7.410e+00
## bld_type*         17 3 4.670e+00 1.530e+00 5.000e+00 4.670e+00 1.480e+00
## market*           18 3 3.000e+00 0.000e+00 3.000e+00 3.000e+00 0.000e+00
## price_total.norm  19 3 1.127e+01 3.330e+00 1.020e+01 1.127e+01 2.370e+00
## price_m.norm      20 3 5.586e+02 2.007e+01 5.667e+02 5.586e+02 9.880e+00
## price_total.calc  21 3 1.127e+07 3.331e+06 1.020e+07 1.127e+07 2.372e+06
## price_cut*        22 3 6.000e+00 0.000e+00 6.000e+00 6.000e+00 0.000e+00
##                        min       max     range  skew kurtosis        se
## city*                  1.0 1.000e+00 0.000e+00   NaN      NaN 0.000e+00
## subCity*               1.0 1.000e+00 0.000e+00   NaN      NaN 0.000e+00
## street*                1.0 1.768e+03 1.767e+03  0.37    -2.33 5.628e+02
## house*              1024.0 1.941e+03 9.170e+02  0.34    -2.33 2.823e+02
## commute_min            2.0 1.200e+01 1.000e+01  0.24    -2.33 2.960e+00
## commute_type*          2.0 3.000e+00 1.000e+00 -0.38    -2.33 3.300e-01
## metro*                68.0 1.370e+02 6.900e+01  0.38    -2.33 2.267e+01
## rooms                  1.0 1.000e+00 0.000e+00   NaN      NaN 0.000e+00
## area_total            15.0 2.800e+01 1.300e+01  0.30    -2.33 3.930e+00
## area_kitchen           7.0 8.000e+00 1.000e+00 -0.38    -2.33 3.300e-01
## area_living           15.0 3.600e+01 2.100e+01  0.38    -2.33 6.840e+00
## price_total      8600000.0 1.500e+07 6.400e+06  0.29    -2.33 1.923e+06
## price_total_usd   263152.0 4.590e+05 1.958e+05  0.29    -2.33 5.884e+04
## price_m           535714.0 5.733e+05 3.762e+04 -0.34    -2.33 1.159e+04
## bld_flat               3.0 1.300e+01 1.000e+01 -0.24    -2.33 2.960e+00
## bld_flat_total         5.0 1.700e+01 1.200e+01 -0.11    -2.33 3.480e+00
## bld_type*              3.0 6.000e+00 3.000e+00 -0.21    -2.33 8.800e-01
## market*                3.0 3.000e+00 0.000e+00   NaN      NaN 0.000e+00
## price_total.norm       8.6 1.500e+01 6.400e+00  0.29    -2.33 1.920e+00
## price_m.norm         535.7 5.733e+02 3.762e+01 -0.34    -2.33 1.159e+01
## price_total.calc 8599995.0 1.500e+07 6.400e+06  0.29    -2.33 1.923e+06
## price_cut*             6.0 6.000e+00 0.000e+00   NaN      NaN 0.000e+00

Создаем новые предикторы, исходя из предположения что изменеие стоимости квартиры зависит от ее площади и модерируется посредством ценовой категории (более дорогие квартиры имеют более сильную тенденцию к снижению цены за кв. м., при увеличении площади квартиры).

# Create dummy variables, then new predictor variables
inds <- model.matrix(~price_cut - 1)
r1$price_cut.d1 = inds[, 1]
r1$price_cut.d2 = inds[, 2]
r1$price_cut.d3 = inds[, 3]
r1$price_cut.d4 = inds[, 4]
r1$price_cut.d5 = inds[, 5]

r1$area.d1 <- (r1$area_total * r1$price_cut.d1)
r1$area.d2 <- (r1$area_total * r1$price_cut.d2)
r1$area.d3 <- (r1$area_total * r1$price_cut.d3)
r1$area.d4 <- (r1$area_total * r1$price_cut.d4)
r1$area.d5 <- (r1$area_total * r1$price_cut.d5)

m_dummy <- lm(r1$area_total ~ r1$price_cut.d2 + r1$price_cut.d3 + r1$price_cut.d4 + 
    r1$price_cut.d5)
summary(m_dummy)
## 
## Call:
## lm(formula = r1$area_total ~ r1$price_cut.d2 + r1$price_cut.d3 + 
##     r1$price_cut.d4 + r1$price_cut.d5)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -31.65  -4.69  -0.35   2.31  42.31 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       46.648      0.231  201.71   <2e-16 ***
## r1$price_cut.d2   -8.962      0.238  -37.61   <2e-16 ***
## r1$price_cut.d3   -7.804      0.258  -30.24   <2e-16 ***
## r1$price_cut.d4   -3.663      0.388   -9.45   <2e-16 ***
## r1$price_cut.d5  -13.484      1.175  -11.48   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 6.91 on 19623 degrees of freedom
## Multiple R-squared: 0.0789,  Adjusted R-squared: 0.0787 
## F-statistic:  420 on 4 and 19623 DF,  p-value: <2e-16

Строим новую модель на основании новых предикторов (площадь умноженая на ценовую категорию)

model_d <- lm(r1$price_m.norm ~ r1$area_total + r1$price_cut.d2 + r1$price_cut.d3 + 
    r1$price_cut.d4 + r1$price_cut.d5 + r1$area.d2 + r1$area.d3 + r1$area.d4 + 
    r1$area.d5)
summary(model_d)
## 
## Call:
## lm(formula = r1$price_m.norm ~ r1$area_total + r1$price_cut.d2 + 
##     r1$price_cut.d3 + r1$price_cut.d4 + r1$price_cut.d5 + r1$area.d2 + 
##     r1$area.d3 + r1$area.d4 + r1$area.d5)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -73.0  -16.2   -0.4   15.9  443.5 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     150.0643     4.5701   32.84   <2e-16 ***
## r1$area_total    -1.3459     0.0965  -13.95   <2e-16 ***
## r1$price_cut.d2  45.8834     4.7417    9.68   <2e-16 ***
## r1$price_cut.d3  62.0219     4.8743   12.72   <2e-16 ***
## r1$price_cut.d4 180.9711     6.8239   26.52   <2e-16 ***
## r1$price_cut.d5 316.2806    17.0871   18.51   <2e-16 ***
## r1$area.d2        0.3611     0.1020    3.54   0.0004 ***
## r1$area.d3        1.8463     0.1054   17.52   <2e-16 ***
## r1$area.d4        1.4575     0.1503    9.70   <2e-16 ***
## r1$area.d5        0.5473     0.4914    1.11   0.2653    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 23.8 on 19618 degrees of freedom
## Multiple R-squared: 0.775,   Adjusted R-squared: 0.775 
## F-statistic: 7.51e+03 on 9 and 19618 DF,  p-value: <2e-16
anova(lm_area_price_m, model_d)
## Analysis of Variance Table
## 
## Model 1: r1$price_m.norm ~ r1$area_total
## Model 2: r1$price_m.norm ~ r1$area_total + r1$price_cut.d2 + r1$price_cut.d3 + 
##     r1$price_cut.d4 + r1$price_cut.d5 + r1$area.d2 + r1$area.d3 + 
##     r1$area.d4 + r1$area.d5
##   Res.Df      RSS Df Sum of Sq    F Pr(>F)    
## 1  19626 49165129                             
## 2  19618 11117959  8   3.8e+07 8392 <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Данная модель существенно лучше модели, которая предсказывает стоимость кв. м. только на основании площади. Для использования данной модели необходимо, знать ценовую категорию квартиры (всего 5 ценовых категорий от 0-500, с интервалом по 100 (тысячи))

color <- c("red", "green", "blue", "yellow", "white")
ggplot(r1, aes(x = area_total, y = price_m.norm)) + stat_smooth(method = "lm", 
    se = F) + geom_point(aes(color = price_cut))

plot of chunk unnamed-chunk-27


ggplot(r1, aes(x = area_total, y = price_m.norm)) + geom_smooth(aes(group = price_cut), 
    method = "lm", se = T, color = "black", fullrange = T) + geom_point(aes(color = price_cut)) + 
    xlab("Площадь") + ylab("Цена за кв. м. (тыс.)")

plot of chunk unnamed-chunk-27

Изменеие цены за кв.м. в зависимости от площади

  1. Цена от 0-100 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.
  2. Цена от 100-200 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.
  3. Цена от 200-300 (тыс. руб. за кв. м.) - положительная корреляция площадь - кв. метр.
  4. Цена от 300-400 (тыс. руб. за кв. м.) - положительная корреляция площадь - кв. метр.
  5. Цена от 400-500 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.
  6. Цена от 500-600 (тыс. руб. за кв. м.) - отрицательная корреляция площадь - кв. метр.

Отрицательная корреляция говорит о том что при росте площади квартиры цена за метр квадратный уменьшается Положительная корреляция говорит о том что при росте площади квартиры цена за метр квадратный увеличевается