【Python網路爬蟲筆記2】抓取真正的重點

2023 年 1 月 29 日

在開始本篇的進度之前，你需要先安裝BeautifulSoup和lxml這2個模組。

pip install BeautifulSoup
pip install lxml

上篇我們已經學會了抓取了ssr1網站整個首頁的內容。然而，整個網頁的內容包含了一堆HTML的標籤，通常這不會是我們想要的資訊。所以，我們這篇就來學習抓取網頁中真正的重點資訊--上述電影網站中首頁每一部電影的片名。
對ssr1網站首頁按"Ctrl+U"鍵可以檢視網頁的原始碼。

仔細觀察，我們會發現每部電影的片名洽位於h2標籤內；且除了10部電影的名稱外，沒有其他的h2標籤。
因此，我們可以將程式碼撰寫如下：

import requests
from bs4 import BeautifulSoup

url = 'https://ssr1.scrape.center/'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
titles = soup.find_all('h2')

for title in titles:
    print(title.text)

BeautifulSoup是HTML的解析器，而lxml是搭配BeautifulSoup的解析器。soup是BeautifulSoup資料型態的物件，利用該物件的find_all()方法；我們可以解析出HTML中所有的h2標籤。最後，把titles串列(list)中(不含h2標籤的)文字內容列印出來，就大功告成了。

CC BY-NC-ND 2.0 授权