HRR Co., Ltd.

技術的な記録を残していくことを目的としています。1次情報を大事にしています。

Wikipedia

Wikipediaのデータからプレーンテキストを出力

はじめに Wikipediaのデータを出力する方法はいろいろあります。 その中のひとつ、Wikipedia Extractorを試してみました。 Wikipedia Extractor - Medialab やり方 データはここから取得しました。 Index of /jawiki/latest/ jawiki-latest-pages-articles.x…

WikipediaのデータをMySQLに突っ込んだ話

はじめに Wikipediaのデータを、VitualBoxで立ち上げたCentOS7のMySQLに入れてみました。 クローラーでのコンテンツの取得は禁じられているので、要注意です。 Wikipedia:データベースダウンロード - Wikipedia クローラを用いてコンテンツを収集しないでく…