Skip to content

Extracción de viviendas del portal inmobiliario Idealista. Análisis de efectos geoespaciales en la modelización del precio de la vivienda en la ciudad de Madrid.

AndreaAzabal/proyecto-vivienda

Repository files navigation

Efectos geoespaciales en la modelización del precio de la vivienda en la ciudad de Madrid

En este repositorio encontrará:

Descripción

Este proyecto desarrollado en R busca recopilar los pasos seguidos a la hora de realizar un análisis exhaustivo del precio de la vivienda en la ciudad de Madrid. El principal objetivo es obtener una herramienta fidedigna de predicción del precio del metro cuadrado de la vivienda que sea capaz de romper los efectos espaciales y se trate, por tanto, de una herramienta de tasación fiable.

El desarrollo se ha llevado a cabo en tres fases:

  • Fase 1: obtención de la base de datos.
  • Fase 2: limpieza y preparación de la base de datos.
  • Fase 3: análisis y resultados.

Fase 1

La extracción se realiza a partir del portal inmobiliario Idealista. Con esta finalidad se ha generado un script de web scraping en lenguaje R, en el cual se recorre cada uno de los distritos de la ciudad de Madrid en busca de viviendas. Además, se lleva a cabo un registro de los identificadores de cada inmueble para no almacenar duplicados. Los filtros pueden ser modificados con la finalidad de adaptar la zona geográfica de interés, así como filtrar viviendas por tipo, número de habitaciones, ascensor, etc.

El resultado es un fichero HTML del cual se pueden extraer las principales características de cada inmueble que posteriormente serán utilizadas en las distintas modelizaciones gracias a un script en Python. Además, también se extraen y se almacenan las coordenadas geoespaciales.

El proceso de recopilación de inmuebles puede verse aquí y el de extracción de características aquí.

Fase 2

Se eliminan tanto duplicados que han escapado al filtrado inicial como viviendas con datos erróneos. Se generan variables calculadas a partir de las características de cada inmueble.

Una vez la base de datos está limpia y lista para ser utilizada, se descarga información sobre puntos geográficos de interés desde la plataforma OpenStreetMap. Esta información se utiliza para calcular las distancias de cada vivienda a los puntos relevantes, con el fin de incorporar la variable espacial al análisis.

Todos estos pasos se llevan a cabo mediante este código.

Fase 3

En la última fase del proyecto, se entrenan y validan los distintos algoritmos de predicción:

La conclusiones extraídas a partir de estos análisis pueden consultarse en este enlace.

Todo el trabajo llevado a cabo se ha realizado como parte del Trabajo de Fin de Máster asociado al Máster en Big Data & Data Science de la Universidad de Barcelona, colaborando con el Instituo de Formación Continua (IL3). El trabajo completo puede consultarse aquí.

About

Extracción de viviendas del portal inmobiliario Idealista. Análisis de efectos geoespaciales en la modelización del precio de la vivienda en la ciudad de Madrid.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published