HRR Co., Ltd.

技術的な記録を残していくことを目的としています。1次情報を大事にしています。

Python

Wikipediaのデータからプレーンテキストを出力

はじめに Wikipediaのデータを出力する方法はいろいろあります。 その中のひとつ、Wikipedia Extractorを試してみました。 Wikipedia Extractor - Medialab やり方 データはここから取得しました。 Index of /jawiki/latest/ jawiki-latest-pages-articles.x…

Python3でWebサイトのスクレイピングをCygwinから

はじめに 特定のWebサイトの情報抜き出しを、Python3でやってみました。 Googleのクローラーのようなことをやるのは大変です。 でも、特定のサイトの特定の情報なら、そんなに難しくはないので、ぜひ挑戦してみることをオススメします。ただし、相手のサイト…