日韩高清亚洲日韩精品一区二区三区,成熟人妻av无码专区,国产又A又黄又潮娇喘视频,男女猛烈无遮挡免费视频在线观看

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

Automa是一款開源的圖形化&低代碼爬蟲工具,讓用戶在不懂代碼的情況下,通過拖拽方式做一些實用的爬蟲。例如爬取微博信息、批量搜索百度、解除某些網站不可復制限制、下載抖音視頻、免費看VIP視頻等等。

本系列教程將先介紹它的基本使用,然后基于它做一些有趣的項目實踐(包括但不限于上述所舉的例子)。本文是該系列的第二篇文章,實現一個自動展開微博的爬蟲。

第一篇文章參見「低代碼爬蟲系列一」Automa實現一個天氣預報爬蟲

一、自動展開微博的爬蟲背景

當我們在pc上刷微博時,微博頁面會自動對長內容進行折疊。如果想要查看去全文,需要我們一一點擊“展開”按鈕來查看全文。那能不能實現一個爬蟲,打開想要查看的微博頁面,自動點擊“展開”按鈕呢?

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

二、實現方案

了解了上述背景后,我們使用Automa來實現對應效果。

先給出整個項目的工作流,如下所示,然后我們再一一介紹對應的組件及其參數。

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

1、觸發(fā)器

整個工作流的開始節(jié)點。每條工作流都有這個觸發(fā)器組件,默認是手動觸發(fā)模式。

2、新建標簽頁

該組件是用于在瀏覽器中打開一個新的頁面,雙擊該組件,在左側參數欄填入對應博主的微博頁面地址。

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

3、點擊元素

模擬點擊頁面對應元素。這里我們需要點擊每條博文中的“展開”按鈕。Automa支持通過css選擇器或者xpath來定位元素,通過開發(fā)者模式,不難得到“展開”按鈕的css選擇器為span.expand。在參數設置中勾選多選、等待選擇器。

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

4、滾動元素

模擬頁面左右滾動或者上下滾動的效果。由于微博是采用下拉異步加載的方式來實現之前的博文的,所以如果想要看之前的博文,就需要模擬下拉的功能,設置垂直滾動為10000即可。

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

5、延時

由于頁面需要一定的加載時間,這里我們加入一個延時操作。即每次滾動下滑后,等待1000ms;

6、再次點擊元素

和步驟3完全相同,對新加載的微博,再次點擊“展開”按鈕。

7、循環(huán)

類似程序設計中的循環(huán)功能。這個組件接口略微有點復雜,我們介紹下它的連線接口:

  • 左邊接口,連接每次循環(huán)的最后一個組件;
  • 右邊第一個接口,連接整個循環(huán)執(zhí)行結束后的下一個組件;
  • 右邊第二個接口,連接每次循環(huán)開始的第一個組件;

還需要設置對應的循環(huán)次數,這里我們設為3,表示將第4、5、6的步驟重復三次;

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

8、回到頁面最上方

使用滾動組件,將垂直滾動參數設為-10000,如圖所示:

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

到此,自動展開微博內容的爬蟲就已經實現了。我們點擊右上角的運行按鈕來看下效果。

「低代碼爬蟲系列二」Automa實現一個自動展開微博的爬蟲(微博爬蟲工具)

有朋友可能不僅想要自動展開內容,而且要自動抓取對應微博到excel,這應該如何實現呢?欲知后事如何,請聽下回分解~

(如果需要完整例子項目文件、或者對步驟還存在疑問的朋友,可以在評論區(qū)留言或者私信)

后面文章會做一些更復雜、更有趣的例子,敬請期待~

如果你有什么想做的爬蟲,也可以在評論區(qū)留言哦~

相關新聞

聯系我們
聯系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部