urllibを使ってWikipediaの記事をダウンロードする。

pythonのモジュールurllibを使ってWikipediaの記事をダウンロードしてみました。

 

環境

Wikipediaの記事をダウンロードする

ライブラリのインポート

必要なライブラリをインポートします。

import urllib.parse as parser
import urllib.request as request

urlopenを使う

urlopenを使ってHTTPリクエストを送り、レスポンスを受け取ります。

今回はWikipedia織田信長の記事をダウンロードしています。

link = "https://ja.wikipedia.org/wiki/"
with request.urlopen(link + parser.quote_plus("織田信長")) as response:
    html = response.read().decode("utf-8")
    print(html)

urlopenに開きたいURLを渡します。urllib.parseのquote_plusを使うことにより日本語などの非ascii文字を適切にエンコードできます。

htmlには織田信長のページのhtmlファイルの内容が入っています。