Airbnb数据挖掘(一):数据清洗与描述
引言
全球最大的民宿平台、“共享经济”的引领者——Airbnb已经诞生超过10年了,并且根据官方信息将在2019年完成上市。作为一只独角兽,Airbnb赚足了眼球:在风靡全球的同时,在进入中国市场却明显水土不服;在带来诸多便利的同时,也存在安全、隐私等方面的隐患;在市值高涨的呼声中,批评和争议也不绝于耳……
当然,不管怎么样,Airbnb目前来看还是一个很不错的平台,尤其是上面汇聚了大量的数据可以用于分析和研究。前面我们已经介绍了如何使用Scrapy、Splash和Airbnb API获取Airbnb上的数据,但是还有很多数据是通过爬虫难以获得的。幸运的是,有一个叫做“InsideAirbnb”(http://insideairbnb.com) 的网站,提供了独立的、第三方、非营利的分析工具和数据。因此,我们从上面下载了北京的相关数据,用来作为分析的示例。