/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
豆瓣租房小組爬蟲是一款采集豆瓣租房小組信息的工具,能夠幫助中介或者找房源的用戶快速找到適合自己的房源,可以甄別篩選,能夠自定義篩選條件,有需要的用戶不要錯過了,歡迎下載使用!
此爬蟲用python開發(fā),基于gevent、pymongo、requests、lxml、Flask。
流程也相對較簡單:
配置需要爬取的URL;
配置需要解析的信息元素,用XPATH完成;
配置代理;
配置監(jiān)控周期、最大頁數(shù)、并發(fā)數(shù)等;
運(yùn)行爬蟲,等待抓取,會自動根據(jù)配置定時爬;
啟動web服務(wù),在前臺搜索、排序等;
一、下載打開軟件,首先設(shè)置要找的房源的地址。
二、接下來設(shè)置理想價位和排除關(guān)鍵詞。
三、點(diǎn)擊爬取即可獲取房源信息,等待軟件獲取相關(guān)關(guān)鍵詞房源。
四、利用typora軟件打開爬取下來的MD文件即可看到房源信息。
如何設(shè)置豆瓣群組鏈接?
首先搜索某個地區(qū)租房,例如:北京租房
點(diǎn)進(jìn)去要爬取的某個小組,例如第一個:北京租房
將頁面拉到最下面有個> 更多小組討論超鏈接,點(diǎn)進(jìn)去
復(fù)制地址欄中地址(從/group開始復(fù)制到結(jié)尾),粘貼到軟件設(shè)置豆瓣群組鏈接
有時候粘貼進(jìn)軟件會崩潰,不知道什么原因,建議把軟件中原來的鏈接刪除再粘貼進(jìn)去。
將start=后邊的數(shù)字50改成%d
完成
如何設(shè)置排除關(guān)鍵字?
排除關(guān)鍵字是標(biāo)題和內(nèi)容只要出現(xiàn)關(guān)鍵字就會排除掉該條租房信息。
例如默認(rèn)是限女這個關(guān)鍵字,只要租房信息中包含限女生入住,只限女生等出現(xiàn)限女關(guān)鍵字的一律不爬。
多個關(guān)鍵字用|分隔,注意是英文的。
例如:限女|短租|整租,這三個關(guān)鍵字設(shè)置后,只要標(biāo)題和內(nèi)容出現(xiàn)這三個關(guān)鍵字軟件就不會爬取。
關(guān)于識別標(biāo)題中的價格
使用正則\b\d{4}\b識別標(biāo)題中的價格信息,無法爬取少于1000元的信息。
關(guān)于爬取結(jié)果排序
先根據(jù)價格從小到大排序,價格相同根據(jù)發(fā)帖時間排序。
關(guān)于騰牛 | 聯(lián)系方式 | 發(fā)展歷程 | 版權(quán)聲明 | 下載幫助(?) | 廣告聯(lián)系 | 網(wǎng)站地圖 | 友情鏈接
Copyright 2005-2022 QQTN.com 【騰牛網(wǎng)】 版權(quán)所有 鄂ICP備2022005668號-1 | 鄂公網(wǎng)安備 42011102000260號
聲明:本站非騰訊QQ官方網(wǎng)站 所有軟件和文章來自互聯(lián)網(wǎng) 如有異議 請與本站聯(lián)系 本站為非贏利性網(wǎng)站 不接受任何贊助和廣告