2020年寒假假期總結0118

2022-09-23 01:42:00 字數 1113 閱讀 7698

我們需要對首都之窗的介面元素進行確定,開啟網頁進行元素檢查可以發現:

這樣我們就發現了信件詳情頁和信件列表頁之間的關係,所以想要從列表頁跳轉至詳情頁我們只需要獲取整個a標籤的onclick屬性就可以了,或者是從a標籤中提取出信件型別,和sugid也是可以的。

這裡我們先使用後者,這是一開始最先使用的方法,後面也會提到前者。**如下:

listlisttype = page.gethtml().regex("

·【(.*?)】

").all();

list

listid =page.gethtml().regex("

name=\"sugid\" value=\"(.*?)\">

").all();

在先前的測試中會發現爬取會有些問題,爬取的有時候不是我們需要的,我們需要加上一個判斷,兩個數量都要大於1,防止爬取錯了。

if(listtype.get(i).equals("建議"))

else

if(listtype.get(i).equals("諮詢"))

else

if(listtype.get(i).equals("投訴"))

view code

進而我們進入信件的詳情頁,對要爬取的元素進行檢查,這裡便不再贅述,由於**是寫的有點早,在css選擇器上使用產生了誤解,所以就不貼出來了,我們可以通過檢檢視到,class的屬性名大多都含有空格,所以我們只需要將空格替換成   .(點)即可,這樣就可以準確的抓取,這是後期才發現的。

然後將爬取的資料都放到一個bean中進行儲存,最後寫到txt檔案中。

2020年寒假假期總結0206

spark shell互動式程式設計 資料格式如下所示 tom database 80 tom algorithm 50 tom datastructure 60 jim database 90 jim algorithm 60 jim datastructure 80 請根據給定的實驗資料,在 spa...

2020年2月17日寒假開學網上測試

2018級《軟體工程》 課前測試 200分鐘 河北省重大技術需求徵集系統原型 15分 1 專案需求 為了充分利用京津科技資源,破解我省產業轉型升級 綠色崛起所面臨的重大技術難題,按照廳領導指示,現面向重點產業 重點領域 重點企業 單位 徵集產業或領域關鍵技術難題,構建我省重大技術需求資料庫,特制定本...