お問い合わせ

オープンデータを加工して共有しよう

テーブルデータの変換と公開をサポートするサイト

データセットの情報

全菌類のデータベース「大菌輪」LOD(識別形質)

近年発表された菌類分類学の論文から、2つの菌の「識別」に関するファクトデータ(※)を収集してまとめたデータセットです。
例えば、「ドクツルタケ」というきのこと「ベニテングタケ」というきのこは「傘の色」が異なります。ここでは「傘の色」が識別形質 (Diagnostic Character, DC) です。

私は、この「識別形質」を大量に収集し、ネットワークのように組み合わせることにより、これまでにない、新しいタイプの「電子図鑑」を作ることができると考えています。

しかし、私にはアプリを作成する技術や自然言語処理、機械学習などに関する知識はないので、興味と技術のある方の眼に留まることを期待しつつ、このデータを公開いたしました。また、図鑑の具体的なイメージは私の中でかなり固まっているのですが、柔軟な発想で思いもよらないアイデアや使い道を寄せていただけることも期待しています。

(※)創作性を伴わない、論文著者の観察に基づく「事実」として得られたデータ。具体的には記載文、検索表などに含まれる、識別形質に関する記述。

====================================
データセットには以下の内容が含まれています。
1. #property…個々のDCに割り振られたID。R3-XXXXXは私のWebサイト「大菌輪」における論文紹介ページ(「論文3行まとめ」)のIDと一致しています。
2. Daikinlin_link…対応する「論文3行まとめ」のURL。
3. entity1_type…比較元の分類群の当該論文における位置づけ。「新種」「新産種」など。
4. entity1…比較元の分類群の学名。
5. entity2…比較対象の分類群の学名。一部、属など種レベルでないものが混じっています。
6. ○×…両分類群が共有しているDCは「○」、共有していない(=識別に有用な)DCは「×」。
7. MBID…MycoBank/Index fungorumのアサーションナンバー。
8. category1…当該DCの比較内容(「傘の色が異なる」の「傘」の部分)をカテゴライズしたうち、最も大きな括り(「傘」の場合は「肉眼的形質」)。
9. category2…category1の下位概念。
10. category3…category2の下位概念。
11. attribute…DCの属性。「傘の色が異なる」の「色」の部分。
12. bibliographic_information…出典の書誌情報。Mendeleyから吐き出されたものをほぼそのまま使っているので、不完全な箇所があります。
13. revised_date…データの更新日。
====================================
3

評価指数

いいね!
3
Loading...

downloadダウンロード

ファイル名
Daikinrin_LOD_Diagnostic_Char
テーブルデータ (テキスト)
2015.1.12
34.6MB
テーブルデータ (Excel)
2015.1.12
12.4MB
RDF (Turtle)
2015.1.12
78.1MB
投稿者 メッセージ送信
共同編集者
関連するWebサイト
データのリファレンス
合計ダウンロード数 117
最初に登録した日 Jan 3, 2015
最後に更新した日 Jan 12, 2015

↓画像をクリックすると拡大します LODクラウド(全データセット)を見る

ニュースフィード