「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)
Automa是一款開源的圖形化&低代碼爬蟲工具,讓用戶在不懂代碼的情況下,通過拖拽方式做一些實用的爬蟲。例如爬取微博信息、批量搜索百度、解除某些網站不可復制限制、下載抖音視頻、免費看VIP視頻等等。
本系列教程將先介紹它的基本使用,然后基于它做一些有趣的項目實踐(包括但不限于上述所舉的例子)。本文是該系列的第二篇文章,實現一個自動展開微博的爬蟲。
第一篇文章參見「低代碼爬蟲系列一」Automa實現一個天氣預報爬蟲
一、自動展開微博的爬蟲背景
當我們在pc上刷微博時,微博頁面會自動對長內容進行折疊。如果想要查看去全文,需要我們一一點擊“展開”按鈕來查看全文。那能不能實現一個爬蟲,打開想要查看的微博頁面,自動點擊“展開”按鈕呢?
二、實現方案
了解了上述背景后,我們使用Automa來實現對應效果。
先給出整個項目的工作流,如下所示,然后我們再一一介紹對應的組件及其參數。
1、觸發(fā)器
整個工作流的開始節(jié)點。每條工作流都有這個觸發(fā)器組件,默認是手動觸發(fā)模式。
2、新建標簽頁
該組件是用于在瀏覽器中打開一個新的頁面,雙擊該組件,在左側參數欄填入對應博主的微博頁面地址。
3、點擊元素
模擬點擊頁面對應元素。這里我們需要點擊每條博文中的“展開”按鈕。Automa支持通過css選擇器或者xpath來定位元素,通過開發(fā)者模式,不難得到“展開”按鈕的css選擇器為span.expand。在參數設置中勾選多選、等待選擇器。
4、滾動元素
模擬頁面左右滾動或者上下滾動的效果。由于微博是采用下拉異步加載的方式來實現之前的博文的,所以如果想要看之前的博文,就需要模擬下拉的功能,設置垂直滾動為10000即可。
5、延時
由于頁面需要一定的加載時間,這里我們加入一個延時操作。即每次滾動下滑后,等待1000ms;
6、再次點擊元素
和步驟3完全相同,對新加載的微博,再次點擊“展開”按鈕。
7、循環(huán)
類似程序設計中的循環(huán)功能。這個組件接口略微有點復雜,我們介紹下它的連線接口:
- 左邊接口,連接每次循環(huán)的最后一個組件;
- 右邊第一個接口,連接整個循環(huán)執(zhí)行結束后的下一個組件;
- 右邊第二個接口,連接每次循環(huán)開始的第一個組件;
還需要設置對應的循環(huán)次數,這里我們設為3,表示將第4、5、6的步驟重復三次;
8、回到頁面最上方
使用滾動組件,將垂直滾動參數設為-10000,如圖所示:
到此,自動展開微博內容的爬蟲就已經實現了。我們點擊右上角的運行按鈕來看下效果。
有朋友可能不僅想要自動展開內容,而且要自動抓取對應微博到excel,這應該如何實現呢?欲知后事如何,請聽下回分解~
(如果需要完整例子項目文件、或者對步驟還存在疑問的朋友,可以在評論區(qū)留言或者私信)
后面文章會做一些更復雜、更有趣的例子,敬請期待~
如果你有什么想做的爬蟲,也可以在評論區(qū)留言哦~