TogoMetabolomeDataFormat/ja

From Metabolonote
jump-to-nav Jump to: navigation, search
En.gif Goto English Page

TogoMD: 統合メタボロームデータフォーマット

統合メタボロームデータフォーマット(TogoMD)とは、メタボロミクスデータの高度利用を目的として、各データベースが利用しやすいデータの形を定義したものです。このフォーマットをもとに、国内のメタボロームデータベースの統合を図っています。

Contents

記載項目に関する定義

XML定義ファイル(XSD)

メタデータからピークデータに至るまで、メタボロームデータの記述に必要な項目を厳選し、項目名と記載内容を定義しました。この定義は、下記のXMLスキーマとして提供しています。

URI http://metabolonote.kazusa.or.jp/TogoMetabolomeDbSchema.xsd
バージョン 1.2.0
最終更新 2014/11/05

 

XML要素・属性の概要とMetabolonote項目名の対応

XML要素および属性の概要を示します。また、Metabolonoteの各ページにおいて表記される項目名およびプロパティ名との対応関係も示しました(Metabolonoteでは、ピーク情報(P)は使用されません)。

Metabolonote XMLスキーマ 値の書式※2 説明
IDラベル
(フォーム名)
ページの項目名 プロパティ名 要素名 属性名または子要素名※1
SE sample_set サンプルセット情報。
ひとまとまりの実験や、ひとそろいのデータ取得プロジェクトを表す。
ID SE_ID id /SE\d+/ サンプルセットID。
システム内で唯一のID。
非公開データの場合は仮のIDとして、任意英文字+数字が使われる。
Title SE_Title title STRING 短いタイトル
Description SE_Description description STRING 実験の目的、サンプル間の関連性など、データを解釈する上での重要な概念を記述する。
Authors SE_Authors authors STRING 著者
Reference SE_Reference reference STRING 関連する文献情報
Comment SE_Comment comment TEXT※3 コメント
S sample サンプル情報。
個々のサンプル調製法について記述する。
ID S_ID id /S\d+/ サンプルID。
サンプルセット(SE)内で重複しないID。
Title S_Title title STRING 短いサンプル名
Organism - Scientific Name S_Organism - Scientific Name organism_scientific_name STRING 学名。
生体サンプルの場合必須。
Organism - ID S_Organism - ID organism_id データベース名:ID[|データベース名:ID]...※4 分類ID
Compound - ID S_Compound - ID compound_id データベース名:ID[|データベース名:ID]...※4 化合物ID
Compound - Source S_Compound - Source compound_source STRING 試薬入手情報。
標準化合物の場合必須。
Preparation S_Preparation preparation STRING 生育方法、特定の処理、サンプリング部位、サンプリング方法、試薬の調製法等
Sample Preparation Details ID S_Sample Preparation Details ID sample_preparation_details_id /SS\d+/ 適用したサンプル調製の詳細情報のID
Comment S_Comment comment TEXT※3 コメント
M analytical_method 分析情報。
個々のサンプルを機器分析した方法を記述。
ID M_ID id /M\d+/ サンプル(S)内で重複しない分析方法ID。
Title M_Title title STRING 短い分析名
Method Set ID M_Method Set ID analytical_method_details_id /MS\d+/ 適用した分析詳細情報のID。
Sample Amount M_Sample Amount sample_amount STRING 使用したサンプル量。
他サンプルとの比較のために、定量データをノーマライズするのに必要な情報
Comment M_Comment comment TEXT※3 コメント
D data_analysis データ解析情報。
ピーク抽出等を行った、主にコンピューターによるデータ解析方法を記述する。
ID D_ID id /D\d+/ 分析方法(M)内で重複しないデータ解析方法ID。
Title D_Title title STRING 短いデータ解析方法名
Data Analysis Set ID D_Data Analysis Set ID data_analysis_details_id /DS\d+/ データ解析方法詳細情報のID。
Recommended decimal places of m/z D_Recommended decimal places of m/z recommended_decimal_places_of_mass {default OR INT}{[|peak INT] OR [|機器X INT]}...※5 有効数字桁数。
Comment D_Comment comment TEXT※3 コメント
SS sample_preparation_details サンプル調製方法の詳細情報。
サンプルセット内で共通して参照される。
ID SS_ID id /SS\d+/ サンプルセット(SE)内で重複しないサンプル調製方法の詳細情報のID
Title SS_Title title STRING 短いタイトル
Description SS_Description description STRING サンプル調製方法の詳細。
生体サンプルであれば成育・栽培・培養方法や、薬剤処理などの詳細を記述する。分析手法に依存する化合物抽出方法などは、ここではなくMSに記載する。
Comment_of_details SS_Comment of details comment_of_details TEXT※3 コメント
MS analytical_method_details 分析手法の詳細情報。
サンプルセット内で共通して参照される。
ID MS_ID id /MS\d+/ サンプルセット(SE)内で重複しない分析詳細情報のID
Title MS_Title title STRING 短いタイトル
Instrument MS_Instrument instrument STRING 機器の名前とベンダー名
Instrument Type MS_Instrument Type instrument_type ※6 機器の種類
Ionization MS_Ionization ionization_method ※6 イオン化方法
Ion Mode MS_Ion Mode ion_mode ※6 ポジティブ分析、ネガティブ分析の区別
Description MS_Description description STRING 分析方法の詳細。
サンプルに依存する情報以外の、分析機器、条件の詳細をすべて記述する。
Comment_of_details MS_Comment of details comment_of_details TEXT※3 コメント
DS data_analysis_details データ解析手法の詳細情報。
サンプルセット内で共通して参照される。
ID DS_ID id /DS\d+/ サンプルセット(SE)内で重複しないデータ解析手法詳細情報のID
Title DS_Title title STRING 短いタイトル
Description DS_Description description STRING 使ったソフトウェア、そこで採用したパラメーター等、データ解析法の詳細をすべて記述する。
Comment_of_details DS_Comment of details comment_of_details TEXT※3 コメント
AM annotation_method_details アノテーション方法の詳細情報。
ID AM_ID id /AM\d+/ サンプルセット(SE)内で重複しないアノテーション方法ID
Title AM_Title title STRING 短いタイトル
Description AM_Description description STRING アノテーション方法の詳細を記述。
どのような判断基準でアノテーションを付けたか。
Comment_of_details AM_Comment of details comment_of_details TEXT※3 コメント
P※7 peak ピーク情報。
取得された個々のピークやそのアノテーションを記述する。
Peak ID ※7 @id /P\d+/ データ解析方法情報(D)内で重複しないピークID
Intensity ※7 intensity DOUBLE ピーク強度。
相対値か絶対値かなど、値の解釈についてはデータ解析方法情報(D)に記載する。
Retention Time (min)※7 retention_time DOUBLE 保持時間。
単位は分。
CE-MSの場合は、Migration Timeの意味となる。
Retention Index※7 retention_index DOUBLE 保持時間インデックス。
CE-MSの場合、Migration Indexの意味
Mass Detected※7 mass_detected DOUBLE 検出された親イオンのm/z。
GC-MSの場合はnull
Ion Species※7 ion_species STRING※6 LC-MSの場合、検出されたイオンの種類。
[M+H]+等
Isotope Peaks※7 isotope_peaks MI:MASS INT[|13C1:MASS INT[|13C2:MASS INT[|13C3:MASS INT...]]]※8 同位体ピークのm/z値と強度情報
EI MS spectrum※7 ei_mass_spectrum ※9※10 GC-MSの場合、EIによるMSスペクトル情報。
MSn spectrum※7 msn_spectrum ※9※10 LC-MS, CE-MSの場合、MSnスペクトル。
UV absorption spectrum※7 uv_absorption_spectrum ※9※11 LC-MSの場合、UV-Vis吸収スペクトル。
将来的にはNIR, IRも可。
Annotation※7 annotation STRING アノテーション情報。
組成式、化合物名、化合物グループ名、アノテーションの確からしさ等を記載する。
Annotation Method ID※6 annotation_method_details_id /AM\d+/ アノテーション方法の詳細情報のID
Annotated Compound ID※7 annotated_compound_id データベース名:ID[|データベース名:ID]...※4 アノテーションされた化合物のID
Comment※7 comment STRING その他
  • ※1 @は属性名、その他は要素名を示します。
  • ※2 「STRING」は改行を含まない文字列、「TEXT」は改行を含む文字列、「INT」は整数値、「DOUBLE」は倍精度浮動小数点、「MASS」はm/zを示す数値、「ID」はデータベースのID、「/」で区切られた文字列は正規表現、「[」と「]」で区切られた部分は任意に付加可能なブロック、「...」は直前の「[」と「]」で区切られた部分または類似パターンの繰り返しを示します。「|」は区切り文字を表し、正規表現の「または」の意味ではありません。「{」と「}」で区切られた部分は「OR」前後のいずれかのパターンに付加可能なブロック。「OR」は正規表現の「または」の意味を示します。その他は予約語を表します。
  • ※3 行頭が[で始まる場合、次に出現する]までをサブ項目名とし、行末までをそのサブ項目の内容とみなします。将来の拡張機能のための仕様。
  • ※4 データベース名は運用時にコントロールする。
  • ※5 「default」: 記載されている通りという予約語。int値に変わっても使用可能。

peak: PEAK情報中のm/z detectedの桁数。 機器X: msn_spectrum中のmassの桁数。

  • ※6 決められたSTRINGだけが入るが、必ずしもXSDで定義しない。
  • ※7 Metabolonote内ではピーク情報(P)は扱われません。
  • ※8 「MI」モノアイソトピックイオンを示す予約語。MASSはm/z detectedと同一になる。

「核種数値(例: 13C1)」アイソトープピークの核種と分子内の個数を示す。

  • ※9 peaktableファイルには書き出されない。記載方法は「MSn, UV, EIデータのフォーマット」を参照のこと。
  • ※10 MSnおよびEI MS のxml定義。massおよびintensityを属性にもつionという要素を複数持つことができる。
  • ※11 UV-Visのxml型式。wave_lengthおよびvalueという属性をもつabsorptionという要素を複数持つことができる。

補足的な規約

より詳細なメタデータを柔軟に記載できるように、いくつかの補足的な規約を定義しています。

トップ階層IDの省略

トップ階層のIDを省略してメタデータのIDを記載した場合は、同じトップ階層に属するメタデータを指すものとします。たとえば、SE1_DS1のdescriptionの中で、単にDS2と表記された場合、それはSE1_DS2を表します。 最上位階層のIDは、データ公開時に決定されるため、未公開データの構築時に内部のメタデータを引用したい場合には、この省略形式をご活用ください。

PSEUDO: 仮想的なメタデータ

Titleが「PSEUDO: 」から始まるメタデータは、それより下層のメタデータを記述するために便宜的に設置した仮想的なメタデータ(空ノード)を意味します。たとえば、複数のデータ解析結果(D)を得た後、それらを統合的に使用してさらに別のデータ解析(D)を行うことがあります。この場合、統合的なデータ解析のメタデータをDの階層に位置づけるためには、実態のある特定のサンプルや機器分析ではなく、単なる階層の入れ物(空ノード)が必要になります。「PSEUDO: 」という表記は、このような仮想的なメタデータを見分けやすくするために定めたものです。

IDの付け方

ID付けのルールに関しては、こちらをご参照ください。

データファイルの種類と拡張子

データの種類 とりうるIDの例 ファイル識別子(拡張子) 内容 ファイル形式
メタデータ SE** .info.txt SE, S, M, Dの各階層のメタデータおよび必要なMS, DS, AMの情報を持つファイル。 SE, S, M, Dの各階層について、各項目とその値がタブ区切りで区切られたもの。
サンプルファイル
SE**_S**
SE**_S**_M**
SE**_S**_M**_D**
SE**_S**_M**_D**_P**
ピーク抽出データ(複数ピーク) SE**_S**_M**_D** .peak-table.txt 複数のピークのデータを表形式で表したもの メタデータのPの項目(スペクトルデータ以外)をタブ区切りで各列に表現したもの。
サンプルファイル
.msn-list.txt リスト形式のMSnスペクトルデータ。 スペクトルデータのフォーマットを参照
msn-listのサンプルファイル
.uv-list.txt リスト形式のUV-Visスペクトルデータ。
.ei-list.txt リスト形式のEIマススペクトルデータ。
ピーク抽出データ(単一ピーク) SE**_S**_M**_D**_P** .peak.txt 単一ピークのデータ peak-table.txtと同一だが、データ部分が一つしかないもの。
.msn.txt 単一ピークに関連するMSnスペクトルデータ。 .msn-list.と同じ形式
.uv.txt 単一ピークに関連するUV-Visスペクトルデータ。 .uv-list.txtと同じ形式
.ei.txt 単一ピークに関連するEIマススペクトルデータ。 .ei-list.txtと同じ形式
.peak-all.txt 単一ピークの全データ .info.txt, .peak.txt, .msn.txt, .uv.txt, .ei.txtの情報を一つのファイル中に連結して記載する。
データの種類 とりうるIDの例 ファイル識別子(拡張子) 内容 ファイル形式
生データ(バイナリ) SE**_S**_M** .bin.zip 分析装置から出力された生のバイナリデータ 元のバイナリファイルと、.info.txtファイル、ライセンス情報を含むzip圧縮形式
生データ(テキスト) SE**_S**_M**_D** .txt.zip バイナリデータを加工しなるべく生に近い形でテキストに出力したデータ info.txtファイルと以下のテキストデータファイル、ライセンス情報を含むzip圧縮形式
SE**_S**_M**_D** .raw-ms.txt 生のマスクロマトグラムデータ 必要に応じ詳細を別途検討する。フルマスとMSnデータを異なるファイルに含める場合には、raw-ms.txtは連番を付けて複数提供可能とする。raw-ms.txtとraw-ms-table.txtは、どちらかが提供されていればよい。UV-Visデータが存在する場合は、raw-uv.txtまたはraw-uv-table.txtどちらかが存在すればよい。
SE**_S**_M**_D** .raw-uv.txt 生のUV-Visスペクトルデータ
SE**_S**_M**_D** .raw-ms-table.txt 表形式の生のマスクロマトグラムデータ
SE**_S**_M**_D** .raw-uv-table.txt 表形式のUV-Visスペクトルデータ

データファイルのフォーマット

テキスト形式で記述します。

共通ファイルヘッダー

どのファイルも共通に、先頭行には必ず以下のヘッダーを記載します。

※以下、「 <tab> 」はタブ制御文字を意味します。

# <tab> id <tab> データベース名:結合ID.識別子

【例】

# <tab> id <tab> kazusa:SE01_S01_M01_D01.info.txt

ヘッダーオプション

2行目以降に、#から始まる以下のヘッダー行を付記できます(省略可)。

# <tab> license <tab> ライセンス情報

【例】

# <tab> license <tab> CC BY-SA

ピークテーブル

複数のピークの情報を、タブ区切りの表形式で表したデータです。


共通ファイルヘッダーに続き、カラムヘッダー行を一行記載します。

カラムヘッダーとしては、上記「XML要素」の「P(ピーク情報)」に示した、XMLスキーマの属性名または子要素名を、タブ区切りで記載します。 ※スペクトル情報: ei_mass_spectrum, msn_spectrum, uv_absorption_spectrumは、ピークテーブルには書き出されません。

カラムヘッダー行以降に、各ピークのデータをタブ区切りで記載します。

【例】

Help TogoMD PeakTable.png

こちらにサンプルファイルがあります。

スペクトルデータのフォーマット

下記のデータを記述するためのフォーマットです。

  • MSn解析のマススペクトル
  • GC-MSのEIイオン化によるマススペクトル
  • UV-Vis吸光検出器による吸収スペクトルデータ


共通ファイルヘッダーに続き、以下のデータブロックを1つ以上記載します。

">"で始まるヘッダー行(1行)と、それに引き続く二つの数値がタブ区切りで記載されたデータ行(複数行)。

ヘッダーも含め、列の区切りはタブ区切りとします。

【例】msn-listデータの例

Help TogoMD MsnList.png

こちらにmsn-listファイルのサンプルがあります。

ヘッダー行

以下を含みます。

内容 記載条件 値の書式※1
1列目 ピークID 必須 />P\d+/ (つまり、">" + ピークID)
2列目 MSnの種類および検出方法の識別子 必須 STRING※2
3列目 取得したMS等の機器の種類 必須 STRING※3
4列目 イオンモード MSnのみ必須 /[+|-]/ (ポジティブかネガティブか)
5列目 データ取得モードの区別 MSn, EIのみ必須 /[c|p]/ (セントロイドかプロファイルか)
6列目 イオン化方法 MSn, EIのみ必須 STRING※4
7列目 CIDエネルギー強度 MSn, EIのみ必須 STRING※5
8列目 スキャンしたm/zのレンジ MSn, EIのみ必須 /[\d\.]+-[\d\.]+/

※1 値の書式は「XML要素・属性の概要とMetabolonote項目名の対応」の※2に準じます。

※2 識別子の書式は次項を参照のこと。

※3 ITMS, FTMS, EIの場合TOF-MS, UV-Visの場合PDA等、特定のSTRINGが入る。

※4 ESI, EI等、特定のSTRINGが入る。

※5 メーカーによって記載が異なる場合がある。【例】cid35.00, 70eV

MSnの種類および検出方法の識別子の書式

多段階MS (MSn) msnイベント識別子 [たたいた前駆体イオンのマス値@前駆体イオンを生成したmsnイベント識別子]
電子イオン化 EI
UV・可視光吸収 PDA等

多段階MSnについては、同じmsnイベント識別子は、同じピークIDの中で重複してはならない。

ms2の場合、前駆体イオンはピーク化合物そのものなので、[たたいた前駆体イオン~]部を省略し、イベント識別子のみ(ms2, ms2_1, ms2_2等)を記述する。

ms3以降の場合、前駆体イオンはms2等で生成したプロダクトイオンであるため、どのイオンをたたいたかを区別するため、[たたいた前駆体イオン~]部を記載する。

【例】 ms3_1 [123.456@ms2_1]

msnイベント識別子

msに続けて段階数を数字で書き、同じ段階数が複数ある場合は枝番で示します。

【例】

ピーク化合物のイオンをたたいたもの

ms2

ピーク化合物のイオンをたたいたもの(異なる溶出時間で複数回のMS2測定が行われた場合など)

ms2_1, ms2_2等

MS2のプロダクトイオンをたたいたもの

ms3, ms3_1等

データ行

内容 記載条件 値の書式※
1列目 m/z値、PDAの場合波長(nm) 必須 DOUBLE
2列目 強度 必須 DOUBLE

※ 値の書式は「XML要素・属性の概要とMetabolonote項目名の対応」の※2に準じます。

Personal tools
View and Edit Metadata
Variants
Views
Actions