【Python網路爬蟲筆記2】抓取真正的重點
IPFS
在開始本篇的進度之前,你需要先安裝BeautifulSoup和lxml這2個模組。
pip install BeautifulSoup pip install lxml
上篇我們已經學會了抓取了ssr1網站整個首頁的內容。然而,整個網頁的內容包含了一堆HTML的標籤,通常這不會是我們想要的資訊。所以,我們這篇就來學習抓取網頁中真正的重點資訊--上述電影網站中首頁每一部電影的片名。
對ssr1網站首頁按"Ctrl+U"鍵可以檢視網頁的原始碼。
仔細觀察,我們會發現每部電影的片名洽位於h2標籤內;且除了10部電影的名稱外,沒有其他的h2標籤。
因此,我們可以將程式碼撰寫如下:
import requests from bs4 import BeautifulSoup url = 'https://ssr1.scrape.center/' response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'lxml') titles = soup.find_all('h2') for title in titles: print(title.text)
BeautifulSoup是HTML的解析器,而lxml是搭配BeautifulSoup的解析器。soup是BeautifulSoup資料型態的物件,利用該物件的find_all()方法;我們可以解析出HTML中所有的h2標籤。最後,把titles串列(list)中(不含h2標籤的)文字內容列印出來,就大功告成了。
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!