此为历史版本和 IPFS 入口查阅区,回到作品页
阿寶哥
IPFS 指纹 这是什么

作品指纹

【Python網路爬蟲筆記2】抓取真正的重點

阿寶哥
·
·

在開始本篇的進度之前,你需要先安裝BeautifulSoup和lxml這2個模組。

pip install BeautifulSoup
pip install lxml

上篇我們已經學會了抓取了ssr1網站整個首頁的內容。然而,整個網頁的內容包含了一堆HTML的標籤,通常這不會是我們想要的資訊。所以,我們這篇就來學習抓取網頁中真正的重點資訊--上述電影網站中首頁每一部電影的片名。
ssr1網站首頁按"Ctrl+U"鍵可以檢視網頁的原始碼。

h2標籤的內容

仔細觀察,我們會發現每部電影的片名洽位於h2標籤內;且除了10部電影的名稱外,沒有其他的h2標籤。
因此,我們可以將程式碼撰寫如下:

import requests
from bs4 import BeautifulSoup

url = 'https://ssr1.scrape.center/'
response = requests.get(url)
html = response.text
soup = BeautifulSoup(html, 'lxml')
titles = soup.find_all('h2')

for title in titles:
    print(title.text)

BeautifulSoup是HTML的解析器,而lxml是搭配BeautifulSoup的解析器。soup是BeautifulSoup資料型態的物件,利用該物件的find_all()方法;我們可以解析出HTML中所有的h2標籤。最後,把titles串列(list)中(不含h2標籤的)文字內容列印出來,就大功告成了。

片名




CC BY-NC-ND 2.0 授权