Качаем цены с циана (заслуживает отдельных буковок, поптом)
Криво разобранные данные кормим в гугль рефайн, он делает красиво но не автоматично оптимизация.
Сохраняем в csv, читаем csv.
Саммари!
Средняя температура по больнице :
Квартиры 2-х комнатные, площадь 56, этаж 7, прайс тотал 9.59 млн (лучше смотреть медиан, так как скью), и цена за метр квадратный 178 тыщ .
cian$price_total.z <- cian$price_total / 1000000
cian$price_m.z <- cian$price_m / 1000
Распределение цен.
Как и ожидалось распределение сильно скью.
В мильонах
Mode 0-10
Mean 14.65 (огогого)
Median 9.59 (похоже)
Все выше изложеное не имеет никакого смысла и никакого значения, продолжаем.
Пробуем разделить квартиры по количеству комнат и увидеть различные корелейшины.
Далее вся статистика для однокомнатных квартир
c1 <- cian[cian$rooms == 1,]
describe(c1)
hist(c1$price_total.z, xlab="Total price (mn)", main="", breaks=20)
Картинки и дескрипшн не показываю, так как опять же сильно скью и мешать в одну кучу квартиры за 5 мн и 100 мн смысла нет.
Клиним данные, убираем все квартиры с ценой больше 20 млн
c1.cln <- c1[c1$price_total.z <= 20, ]
describe(c1.cln)
par(mfrow=c(3,1))
hist(c1.cln$price_total.z, xlab="Total price (M)", main="", breaks=20)
hist(c1.cln$price_m.z, xlab="Price per square meter (Thd)", main="", breaks=20)
hist(c1.cln$area_total, xlab="Area (squre meters)", main="")
Итого, в среднем, площадь около 37 м кв, цена 6.15 млн, цена за метр 180 тыщ, куайт резанбл намберс.
Корреляция
Корреляция
Справа налево, сверху вниз.
Общая плошадь зависит от этажа квртиры - чем выше дом тем новее, в новых домах площадь обычно больше (корреляция слабая)
Общая площадь зависит от этажности здания тож самое и кореляция больше - логично.
Цена квартиры в зависиомсоти от площади корреляция есть.
Цена метра квадаратного в зависимости от площади квартиры - корреляции не наблюдается.
Цена квартиры от цены метра квадратного самая высокая корреляция.