どん底から這い上がるまでの記録

どん底から這い上がりたいけど這い上がれない人がいろいろ書くブログ(主にプログラミング)

urllibを使ってWikipediaの記事をダウンロードする。

pythonのモジュールurllibを使ってWikipediaの記事をダウンロードしてみました。

 

環境

Wikipediaの記事をダウンロードする

ライブラリのインポート

必要なライブラリをインポートします。

import urllib.parse as parser
import urllib.request as request

urlopenを使う

urlopenを使ってHTTPリクエストを送り、レスポンスを受け取ります。

今回はWikipedia織田信長の記事をダウンロードしています。

link = "https://ja.wikipedia.org/wiki/"
with request.urlopen(link + parser.quote_plus("織田信長")) as response:
    html = response.read().decode("utf-8")
    print(html)

urlopenに開きたいURLを渡します。urllib.parseのquote_plusを使うことにより日本語などの非ascii文字を適切にエンコードできます。

htmlには織田信長のページのhtmlファイルの内容が入っています。