コンテンツにスキップ

Wikipedia‐ノート:データベースダウンロード

ページのコンテンツが他言語でサポートされていません。

井戸端から

[編集]

Dump fileなどについて案内するドキュメントWikipedia:データベースダウンロードは、履歴を見ると、ほぼ2004年2月から大幅な更新がなされておらず、記述がやや古いように思います。

英語版がベースのようですが、英語版の相当する文書はかなり拡張されています。どなたか、新たに書き下ろすなり英語版を訳すなりしてくださる方はおられますでしょうか。

商用・非商用を問わず、コンテンツを使いたいという依頼や問い合わせはこの先増えていくと思いますので、プロジェクトとしても案外重要な文書なのではないかと思います。--Aphaia 2005年9月15日 (木) 06:27 (UTC)[返信]

書き下ろしに英語版の訳を少し混ぜて、現状ベースになるようにしてみました。ただ、コンテンツ再利用に関する記述がないのでそこら辺を補完していただける方はいないでしょうか。Tietew 2005年9月15日 (木) 07:49 (UTC)[返信]
ありがとうございます。再利用に関する記述ってこんな感じでしょうか。
ウィキペディアのデータを使ったデータベースなどを構築される場合、次の2点を守ってください。
  • GFDL1.1またはそれ以上で配布してください。
  • データがウィキペディアに由来することを明記してください。ウィキペディアの個々のページにリンクバックすることで、GFDLの要求する著者の掲示と履歴の提示にかえることができます。
詳しくはWikipedia:著作権をご覧ください。
(英語版で使われている説明をぱくってきました)--Aphaia 2005年9月15日 (木) 09:51 (UTC)[返信]
イメージダンプに関して:
  • 画像のダンプにはGFDLで利用可能でないものが含まれているので、テキストダンプに入っているそれぞれの説明ページを参照してください。
というか、日本語版のに限らない内容として、[1]を訳して突っ込んでおけばよさげです。--Brevam 2005年9月15日 (木) 14:51 (UTC)[返信]
再利用に関する注意を書いてみました。--Brevam 2005年9月17日 (土) 06:17 (UTC)[返信]

XMLのダンプについて

[編集]
「pages_public.xml.gz - ノートページ、利用者ページを除く最新版のダンプ」
となっていますが、
[2]を除くと、
pages_public.xml.gzがありません。
pages_public.xml.gzはpages_articles.xml.gzと解釈してよろしいでしょうか?

これをかいてからまたファイルの命名法が変わりました。反映しておきます。Tietew 2005年10月17日 (月) 14:13 (UTC)[返信]

  • 最近日本語版のダンプデータが出てきませんね。なにか本体の方であったのでしょうか?心配です。2005年12月29日 (木)

画像のダウンロード

[編集]

「upload.tar」に、画像等のメディアファイルが提供されてとのことですので、その画像を取得したいと考えています。

しかし、どこから取得すればよいのか分かりません。

ここで質問するのは適切ではないかもしれませんが、取得方法を教えていただけますか?

今現在、提供されていません。理由はわかりませんが。提供されるのを待つしかないですね。Tietew 2005年10月19日 (水) 12:54 (UTC)[返信]
http://download.wikimedia.org/images/wikipedia/ja/ にあるようです。SGreen 2005年10月24日 (月) 06:50 (UTC)[返信]

ファイルサイズについて

[編集]

ファイルサイズの記述が、2005年9月時点で圧縮されたfullが2.7GBだったというのに、2005年10月12日のダンプファイルを見ると340MBしかありませんでした。(2005年9月のファイルはもう無いようでした。) 解説を更新しようと思ったのですが、英語版の方でも解説文と実際のファイルサイズに大きな違いが見られたので、自分がなにか勘違いしているのかもしれないと思い、編集を躊躇してしまっています。 この一ヶ月で大量の項目削除があったり、圧縮率が劇的に改善するような事態があったのでしょうか? 以下参考リンクです。

日本語版

[編集]

(解説では2.7GB、200MBといっているのに実際が339MB、150MB)
ja:Wikipedia:データベースダウンロード2005年10月17日 (月) 14:17 の版

2005年9月時点で、ウィキペディア日本語版でのファイルサイズは
fullが2.7GB、currentが200MB、articlesが180MBです(圧縮状態)。

http://download.wikimedia.org/wikipedia/ja/

20051012_pages_current.xml.7z  2005-Oct-13 17:06:33    153.4M  application/octet-stream
20051012_pages_current.xml.bz2 2005-Oct-13 17:06:33    158.2M  application/x-bzip
20051012_pages_full.xml.7z     2005-Oct-13 17:06:33    339.9M  application/octet-stream

英語版

[編集]

(解説では40GB、1.2GBといっているのに実際は2.6GB、1.0GB)
en:Wikipedia:Database download

As of September 2005, a compressed full database dump (text only),
including old page versions, is about 40GB.
The compressed dump with only current revisions is about 1.2GB

http://download.wikimedia.org/wikipedia/en/

20051020_pages_current.xml.7z  2005-Oct-20 23:01:53    1.0G  application/octet-stream
20051020_pages_current.xml.bz2 2005-Oct-20 23:01:53    1.0G  application/x-bzip
20051020_pages_full.xml.7z     2005-Oct-25 10:28:38    2.6G  application/octet-stream

--163.221.170.25 2005年12月28日 (水) 07:17 (UTC)青木太一[返信]

回答

[編集]

9月の時点では、覚えている限り拡張子が .gz だったので、XMLダンプはgzipで圧縮されていたはずです。10月になって、圧縮方式がbzip27zに変更されたようです。圧縮効率の高さは一般的にgzip < bzip2 < 7z です。特に、*_pages_full.xml は今までの全履歴が保存されているため、同じ部分の繰り返しが多く、圧縮効率が高いアルゴリズムで圧縮するとファイルサイズが非常に小さくなります。 このことから、「圧縮率が劇的に改善」したと考えていいでしょう。 SGreen 2005年12月29日 (木) 10:20 (UTC)[返信]

なるほど。ありがとうございます。日本語版の該当部分を更新しておきました。--163.221.170.25 2005年12月29日 (木) 14:11 (UTC)青木太一[返信]

ダンプのインストール

[編集]

無事にMediaWikiをインストールして、初期設定も終わって使えるようになりました。ウィキペディアの記事ダンプを、インストールしたいのですが、ここを見てもやり方が分かりません。もう少し詳しく、プログラム初心者のおサルさんな私でも、理解できるような解説の出来る方、いらっしゃいませんか?(パソコン自体には習熟していますが、プログラムは基礎の基礎しか分かりません)--60.116.28.2 2006年5月29日 (月) 14:33 (UTC)[返信]

データベースのライセンス

[編集]

WikipediaのデータベースがWikipedia:データベースダウンロードからダウンロードできるようなので遊んでみようと思ったのですが、リンク構造のデータなどデータベースについてのライセンスはどのようになっているのでしょうか?テキストやメディアファイルについての記述は見つかったのですがデータベースについてのライセンスの記述はみつけられませんでした。--58.188.35.196 2006年8月7日 (月) 11:02 (UTC)[返信]

ある著作物から一意に生成できるデータは著作物ではありません。よって、logging以外のテーブルのデータは著作物とは見なせませんから、著作権について考える必要はありません。Tietew 2007年4月13日 (金) 06:25 (UTC)[返信]