#stig10 skilgreinir byggingarstig. Það sem tekur ekki gildið 10 eru því ekki fullkláraðar eignir. #Fjarlægi allar eignir sem eru ekki fullkláraðar. df <- dplyr::filter(df, stig10 %in%c("10"))#Get nú fjarlægt breytuna sjálfa. df$stig10 <-NULL
Lagfæri IST120
#Teg eignar ætti líka að vera factor df$teg_eign <-as.factor(df$teg_eign)#Breyti IST120 í factor til að þrengja niður. df$ist120 <-as.factor(df$ist120)#Tékka levels levels(df$ist120)
#Fjarlægi það sem er ekki einbýli, raðhús, parhús, library(dplyr)df <- dplyr::filter(df,ist120 %in%c("1111", "1115", "1116", "1330", "1121","1123", "1125","1210")) %>% droplevelslevels(df$ist120)
#Breyti kaupdagsetningu í kaupár df$kdagur <-as.Date(df$kdagur, "%d.%m.%Y") #skilgreini formatdf$kdagur <-substr(as.character(df$kdagur),0,4) #fjarlægi allt nema síðustu 4 stafidf$kdagur <-as.numeric(df$kdagur) #breyti aftur í tölugildinames(df)[names(df) =='kdagur'] <-'kaupar'#breyti nafni### Aldur <- kaupár - byggár#Breyti byggingarári í aldur við kaup, set +1 því það eru greinilega eignir seldar fyrir afhendingu. df$aldur <- (df$kaupar-df$byggar +1) df$aldur <-as.integer(df$aldur)# df$kaupar <- NULL df$byggar <-NULL
afbrigðilegar eignir
#Fjarlægi eina eign sem er utan þéttbýlis, furðuleg.... df$matssvaedi <-as.factor(df$matssvaedi)df <- dplyr::filter(df,!matssvaedi %in%c("999"))#Fjarlægi eignir augljóslega vitlaust skráða, þ.e. fjöldi eldhúsa var 7 og samt skráð sem ein íbúð í fjölbýli. df =subset(df, fjeld<5)
Sía út sveitarfélög á höfuðborgarsvæðinu
#Vel bara stórhöfuðborgarsvæðið. (sleppi seltjarnarnesi) sjá skilgreiningu SVFN efst í skjalinudf <- dplyr::filter(df, svfn %in%c("0","1000","1300","1400","1604"))#Breytan svfn skilgreind sem factor df$svfn <-factor(df$svfn)#Breyti nafni gilda til að vera meira lýsandi levels(df$svfn) <-c("Reykjavík","Kópavogur","Garðabær","Hafnarfjörður", "Mosfellsbær")str(df$svfn)
#Filtera bara þær eignir sem taka gildið 2016 á kaupár breytunni. df <-subset(df, kaupar =="2016")#filtera eignir yfir 100 milljónir df <-subset(df, kaupverd <100000)# Síðast fjarlægði ég einnig frávillinga í verði #Kaupverð - frávillingar#Fjarlægi eignir sem kosta yfir 100 milljónir til að fækka frávillingum# df2 = subset(df2, kaupverd< 100000)#Lagfæri mælikvarða núvirði og kaupverðs fyrir túlkun#Geri kaupverð og núvirði svo að túlkun sé auðveldari# df2$nuvirdi <- (df2$nuvirdi *1000)#df2$kaupverd <- (df2$kaupverd *1000)#Staðfesting#Tryggi að allt líti enn eðlilega út#summary(df2)boxplot(df$kaupverd)