爬蟲4 pdf頁面 pdfminer模組 demo

2022-11-24 19:52:02 字數 882 閱讀 3616

本文介紹下pdf頁面的爬取,需要藉助pdfminer模組

demo一般流程:

1)設定url

url = '

http://www.------

' + '

.pdf

'

2)requests模組獲取url

import requests

r = requests.get(inner_url)

3)寫入.pdf檔案

myfile = open("

pdf/

" + i[u'

associateannouncement

'] + '

.pdf

', "wb"

)myfile.write( r.content )

myfile.close()

4)使用pdfminer模組(api可以檢視本人的另一篇cmd命令列輸入,轉化pdf檔案為html,為了方便解析

pdf2txt.py -o output.html samples/naacl06-shinyama.pdf

5)beautifulsoup解析html

from

bs4 import beautifulsoup

html = open('

pdf/1202268749.html

').read()

未完待續,先睡覺,pdfminer把pdf頁面解析成html頁面,然後beautifulsoap解析html頁面即可。