そらもようの以下の記事によると、青空文庫 csv データに、以前から進められていた分類番号付与の成果が適用されたらしい。
2012年03月06日 青空文庫データベースへのNDC番号の書き込み - そらもよう
分類番号ってなんだって話しだけど、実際に 青空文庫 分野別リスト を見てもらえば分かるが、カテゴリーのようなものである。
この分類は『日本十進分類法(NDC)』という現在は日本図書館協会が改定などの保守を行なっている図書分類法で、その歴史は80年以上も遡る古くからあるものだ。
しかし、これ10のカテゴリがさらに10に分かれて、また10に分かれるという、1000近いカテゴリが存在する事を考えると、既存の登録書籍を分類されている方には頭が上がらない...
さて、前述のしたように今回のデータ追加により、青空文庫で配布されている『公開中の作家リストcsv拡充版』に分類データが含まれた。
csvの配布元は以下。
実際に見てみた感じだと、11800以上ある現在の登録書籍の中で1100くらいだった。
分類別リストのサイトの方では1万以上の分類設定が行なわれているので、まだ反映が完全に終わっていないようだが、
書き込みは、本日より、少しずつ進める。
との事なので、気長にデータが揃うのを待ちつつ、システムに反映する方法を模索しよう。
実際に入っているデータから、いくつか代表的なものを拾ってみると以下のようなデータが入っている。
- NDC 913
- NDC 290 915 916
- NDC 21
- NDC 007
- NDC 7
- NDC K931
まず全ての接頭にはNDCが付く。
これは現状だと無駄なものに見えるが、書籍の分類法はNDC意外にも存在する為、後々の移行や共存の可能性を考慮してのものなのだと思う。
・NDC 913
ごく一般的なもの。
・NDC 290 915 916
複数の分類情報を持つ事がありうる。
・NDC 21
これは021ではなく210である。
NDCは 1,哲学 10,哲学 100,哲学 というように、親にあたる各上位分類は下位で0を付与した形で残る。
その為、プログラム側で解釈する場合は210のものとして取り扱う必要がある。
・NDC 7、NDC 007
前例と同じだが、この2つが別のものであるのが良い例だろう。
この場合NDC 7は『芸術・美術』であり、NDC 007は『想起 - 情報科学』である。
・NDC K931
これは本来NDCにはないものだが、青空文庫が独自に設定している児童文学の分類である。
分類番号の接頭にKが付与されているものが該当し、それに続く数字はNDCと同じである。
日本十進分類法(NDC) の一覧 csv ファイル
最後に、NDCを自身のシステムで使う為に、まとまっているマスターcsvのようなものは無いか探してみたのだが、見付からなかった。
別に一覧としてテーブル形式とかでサイト上にあるものだし、クリティカルな情報ではないのだが、さくっとやりたい時は こういうのはそこらに落ちてるといいのになと思う。
結果として自分で作ったが、同じような立ち位置の人が必要とする可能性があるので、ここに公開しておく。
実際使う時はNDCの特徴として下位桁に0が付くものは上位カテゴリと同じになる為、3桁の3次区分表だけ使う形で実装できるのではないかと思うが、せっかくなのでこの赤い扉を選ぶ他の桁数のものも作っておいた。
空の項目に関しても、数字だけふってあるので、不要な場合はその辺消して使ってほしい。
また1ページに並んでいてコピーしやすかった為、以下からデータを取らせていただいた。
何ともコメントしずらいサイトデザインではあるが、こういったシンプルなものの方がプログラマブルな参照はしやすい。
いつか北海道上川郡当麻町に行く機会があったら、おがんでおこう。
青空文庫で当初書き込んだ、1000件の分類番号データに、誤りがありました。
修正と、今後の書き込み予定について、以下で報告しました。
http://hpcgi1.nifty.com/hongming/komorebi/wforum.cgi?no=4834&reno=no&oya=4834&mode=msgview&page=0