HRR Co., Ltd.

技術的な記録を残していくことを目的としています。1次情報を大事にしています。

Python

Python3でWebサイトのスクレイピングをCygwinから (2)

はじめに hrroct.hatenablog.com 先日(よくみたら去年でした)の続き兼小ネタです。 さすがに前回書いた記事だけでは、実践したときに困ったことがあったので。 実例: tableタグのデータを拾ってみよう 例として、下記のtableのtrタグの内容を取得します。 <table> <thead></thead></table>…

Wikipediaのデータからプレーンテキストを出力

はじめに Wikipediaのデータを出力する方法はいろいろあります。 その中のひとつ、Wikipedia Extractorを試してみました。 Wikipedia Extractor - Medialab やり方 データはここから取得しました。 Index of /jawiki/latest/ jawiki-latest-pages-articles.x…

Python3でWebサイトのスクレイピングをCygwinから

はじめに 特定のWebサイトの情報抜き出しを、Python3でやってみました。 Googleのクローラーのようなことをやるのは大変です。 でも、特定のサイトの特定の情報なら、そんなに難しくはないので、ぜひ挑戦してみることをオススメします。ただし、相手のサイト…