引言
很久之前(2017年11月)写过一个用Python爬虫去Airbnb网站上抓取民宿信息,当时就觉得这个网站的信息实在是隐藏得太深了。结果最近发现,现在又不能了:Airbnb的网页用了大量的JS来动态生成,直接解析网页,拿不到什么有用的信息。
道高一尺,魔高一丈。为了解决动态网页的爬取,也有许多方法,例如我们前面针对Wunderground用Selenium解析。由于Airbnb需要爬取的网页数目比较多,为了提高稳定性,我们采用Scrapy+Splash的方法来解析动态网页,在这个过程中也发现,如果可以找到网页请求的API,用API实际上更加方便。