研究データから研究プロセス

平成 27 年度機関リポジトリ担当者
オンラインワークショップ
『研究データから研究プロセスを知る』
生命科学系
1
この事例集はデジタルリポジトリ連合(DRF)平成 27 年度機関リポジトリ担当者オン
ラインワークショップ「研究データから研究プロセスを知る」によって作成されたもの
です。掲載されている個々の意見は当該分野の研究者へのインタビュー結果をまとめた
ものであり、分野全体の見解等を示すものではありません。
目 次

要約.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
....
....
....
....
.
......
....
....
....
....
.
.3

インタビュイー基本情報.
.
.
.
.
.
.
....
....
....
....
.
......
....
....
....
....
.
.4
質問項目

どのようなデータを利用しているか
そのデータはどのようなワークフローで得ているか....
....
....
....
....
.
..5

データのフォーマットは何か
そのフォーマットのデータを利用するのに専用のシステムは必要か..
....
.
..5

データのサイズはどれくらいか。また継続的に増加する可能性はあるか..
.
..5

データの寿命はどの程度か.
.
.
.
....
....
....
....
.
......
....
....
....
....
.
.6

データの所有者は誰か.
.
.
.
.
.
.
.
.
....
....
....
....
.
......
....
....
....
....
.6

どのようにデータ管理しているか。データ管理計画を作成しているか....
.
..6

データは取扱いに注意が必要な情報を含んでいるか
その場合、どのように管理しているか..
....
....
.
......
....
....
....
....
.
.7

データのタイトル、キーワード、性質等を表す情報は存在するか....
....
.
..7

分野の中でデータ共有は進んでいるか、進んでいる場合はその方法は何か.
..8

他の研究者のデータが公開されたら再利用するか
その場合、データの質はどのように判断するか..
.
......
....
....
....
....
.
.8

自分自身のデータについて、再利用する潜在的な利用者は想定できるか..
.
..9

データの公開についてどのように考えるか。抵抗感、懸念等はあるか
機関リポジトリをデータ管理に利用する可能性はあるか....
....
....
....
.
..9

データ公開を進めるにはどのような制度が必要と考えるか..
....
....
....
.
..10

データの共有はどのような研究成果につながると考えるか..
....
....
....
.
..10

データリポジトリを利用したことはあるか
データジャーナルへの投稿を考えているか..
....
.
......
....
....
....
....
.
.10
2
○ 要約
生命科学系では、神経科学、放射線学、臨床精神薬学の研究者にインタビューを行っ
た。それぞれ、研究プロセスで発生するデータの種類やその管理方法、研究データ管理
に対する現在の意識、今後のデータ公開の可能性等について尋ねた。
データの種類について、神経科学分野の研究者はマウスの脳の切片やバンドの画像デ
ータ、放射線学分野の研究者は放射線を照射した細胞の反応を記録した動画・画像・数
値データを取得し、臨床精神薬学分野の研究者はカルテデータや健康保険組合に提出す
るレセプトデータ等を解析している。画像データ、数値データとも Tiff や csv 等の一般
的なソフトウェアで利用可能なフォーマットで、データサイズはそれぞれ数 GB 程度で
ある。
データの管理方法について、NAS のような研究室内のファイルサーバで管理するケー
スや研究室の個人 PC と外付けディスクを合わせて管理するケースがある。研究データ管
理計画書を実際に作成している研究者はいなかったが、研究倫理申請の際に研究実施計
画書を作成するケースがある。基本的には研究終了後も研究データは保持しているが、
研究実施計画書を作成する場合は研究終了後にデータ破棄を求められるケースもある。
保持している研究データの管理情報はフォルダ名、ファイル名程度しかないが、一方で
は論文の元データであるならば、論文がメタデータとして機能するので新たなメタデー
タは不要でないかという意見があった。
各研究者とも現時点では分野内で共有の動きはあまり進んでいないと認識しており、
自身の研究データについても共有していない。データ共有のニーズについて、例えば神
経科学分野の研究者は研究目的ではなく教育目的で利用する可能性を示し、臨床精神薬
学分野の研究者は共有による研究進展の可能性に興味を示しつつも、その収集方法や解
析方法といったデータの文脈をきちんと理解した正しい活用方法についての懸念を表し
ている。
今後のデータ共有、公開については、論文投稿の際に元データの提出を求める制度の
問題、公開したデータが研究業績となる評価の問題、メタデータの付与等データの公開
をスムーズに進めるためのインフラの問題が課題になるとの意見が示された。
3
○ インタビュイー基本情報
A:専門分野:
研究スパン:
研究体制:
神経科学、神経解剖学。グリア細胞について研究している。
約3年
プロジェクトごとに、教員と主に大学院生の 2、3 人で1つのチ
ームをつくる。教員がそれぞれ 2、3 プロジェクトを持ち、講座全
体で約 10 のプロジェクトを進めるとともに、加えて他の分野や機
関と共同研究を行っている。1 週間に 1 回、講座でミーティングを
行い、ディスカッションを行っている。
研究方法等:
病態解明と治療法の開発がテーマ。
疾患のモデル動物としてマウスを使い、実験を行っている。人の
病気に近い状態をマウスで再現し、そのとき脳の中で何が起きてい
るか、どんな化合物を使ったら治るのかをみている。また、マウス
由来の培養細胞で実験を行い、グリア細胞で、遺伝子の有無と個体
レベルでの病気になりやすい・なりにくい、重症になりやすい・な
りにくい等の関係をみている。
B:専門分野:
放射線学、放射線生物学を専門にしている。
研究スパン:
(回答なし)
研究体制:
協同研究ではなく個人で研究をしている。
研究方法等:
(回答なし)
C:専門分野:
臨床精神薬学。薬の効果や有用性を研究している。
研究スパン:
約 3 年、テーマにより研究期間は様々。
研究体制:
テーマごとに研究チームを組む。研究プロセスはそれぞれ独立し
ているが、各研究の検証は複数人で実施し、最終的に論文の形にま
とめている。
研究方法等:
医療情報を利用した疫学的研究。過去の臨床データ等を分析し
て、薬の優劣を研究している(実際に処方された数百万人レベルの
データを用いて研究)。
4
○ どのようなデータを利用するか。そのデータはどのようなワークフローで得ているか。
A:神経科学分野
研究者
主に 2 種類の写真を利用。一つはマウスの脳の切片の写真。抗
体を使って光や色をつけたもので、遺伝子が、脳の中のどの細胞
に多いのかがわかる。もう一つはバンドの写真。脳の組織からた
んぱく質やRNAだけをとりだし、サンプルを流して分離し抗体
を反応させたもので、遺伝子の多い・少ないがバンドの濃さでわ
かる。免疫組織化学、ウエスタンブロット、qRT-PCR という。バン
ドの濃さを測定するソフトを使い、グラフにもする。
B:放射線学分野
細胞に放射線を照射してその反応をデータに取っている。
研究者
C:臨床精神薬学
分野研究者
病院のカルテデータ、レセプトデータ(診療後、健康保険組合
に請求する際のデータ)
、医薬品副作用データ、アンケートを組み
合わせて研究している。
カルテデータは所属機関の病院から、レセプトデータはデータ
ベース製品を契約、医薬品副作用データは公開されており誰でも
利用可能。アンケート調査データは所属学会や所属機関の学生に
対して紙ベースで実施。
○ データのフォーマットは何か。また、そのフォーマットのデータを利用するのに専用のシステム
は必要か。
A:神経科学分野
研究者
TIFF が多い。ビットマップや JPEG の時もある。顕微鏡や CCD カ
メラの写真を PC に取り込んで作成する。パネルやグラフを作成す
る際に、フォトショップ、イラストレーター、パワーポイント、
エクセルを使う。一般的なソフトウェアで閲覧可能。
B:放射線学分野
研究者
C:臨床精神薬学
分野研究者
データは図やグラフの形で取っている。また反応の様子を動画
に収めることもある。一般的なソフトウェアで閲覧可能。
カルテデータ、レセプトデータ、医薬品副作用データは csv 形
式。R を用いてこれらのデータを解析している。
○ データのサイズはどれくらいか。また継続的に増加する可能性はあるか。
A:神経科学分野
一つの写真は約4MB、一日で約 200MB、一つのプロジェクトで約
5
研究者
3GB 程度になる。プロジェクトが長くなればなるほど増え、論文が
できたところが区切りとなる。
B:放射線学分野
動画でも数分程度のものなのであまり大きくはない
研究者
C:臨床精神薬学
表形式データのサイズは1GB 程。
分野研究者
○ データの寿命はどの程度か。
A:神経科学分野
研究終了後も問い合わせに備えて保存している。
研究者
B:放射線学分野
研究終了後も保存している。
研究者
C:臨床精神薬学
分野研究者
疫学の研究倫理申請を行う際に、データの保存期間を申請する
(例えば 3 年間)。研究中は申請内容に従って管理し、研究期間終
了後は不要なデータはすべて破棄する必要がある。
研究終了後もデータを保存する場合は理由が必要となる。
○ データの所有者は誰か。
A:神経科学分野
研究者
B:放射線学分野
各研究者のものになると思うが、一つのプロジェクトについて、
一人の所有者と言えるのかどうかはわからない。
研究を行った研究者のものとなる。
研究者
C:臨床精神薬学
分野研究者
カルテデータは病院、レセプトデータは作成会社の所有。解析
結果データについて明確な規定はないが、公開する場合は元デー
タの所有者の確認が必要と思われる。解析の際に作成したプログ
ラムについては自分の所有である。
○ どのようにデータ管理しているか。また、データ管理計画を作成しているか。
A:神経科学分野
研究者
バックアップを兼ねた共有のハードディスクを講座内でアクセ
スできるようにしている。自分の中では管理計画を持っているが、
それをリストにしたり、皆と共有したり、といったことはしてい
6
ない。データ管理の担当の人は決まっている。
B:放射線学分野
研究者
研究室で NAS を設置しその中のフォルダで管理している。研究
データ管理計画は作成していない。
C:臨床精神薬学
カルテデータ、レセプトデータはパソコンに保存している。外
分野研究者
付けハートディスクを用意し、合計 3 台でバックアップしている。
研究終了後は破棄する。
研究倫理申請を行う際に、研究実施計画書を作成する。研究の
方法及び期間、個人情報等の取扱いと匿名化の方法、試料・情報
等の保管及び廃棄の方法、公的データベースへの登録等を記載。
○ データセットは取扱いに注意が必要な情報を含んでいるか。
その場合、どのように管理しているか。
A:神経科学分野
含んでいない。
研究者
B:放射線学分野
含んでいない。
研究者
C:臨床精神薬学
分野研究者
アンケート、カルテデータ、レセプトデータ等、現在利用して
いるデータは取得時点ですべて匿名化されている。
アンケートは研究室で保管しているが、取扱いに注意が必要な
情報を含む場合は、医局内の鍵のかかる部屋に保存することにな
る。研究倫理申請する際にはデータの保存場所についても明記す
る必要がある。
○ データのタイトル、キーワード、性質等を表す情報は存在するか。
A:神経科学分野
研究者
プロジェクト毎のフォルダに、遺伝子名と番号等をつけて保存
している。日付を入れることもある。遺伝子名はキーワードにも
なる。改めてキーワードをつけるということはしていない。
B:放射線学分野
研究者
C:臨床精神薬学
分野研究者
研究ごとフォルダを作り分類している。ファイル名はあるがそ
れ以外の情報はない。
フォルダ及びファイル名で分類している。
メタデータを作成することは別途労力が必要でハードルが高
7
い。論文の元データであるならば、論文内にデータに関する記述
があるので、興味のある人に対してはそれで充分ではないかと思
う。
○ 分野の中でデータ共有は進んでいるか、進んでいる場合はその方法は何か。
A:神経科学分野
研究者
プライベートネットワーク内で管理しており、クラウドと呼ば
れるようなものは利用していない(一部の人は個人的に使ってい
るようである)
。
B:放射線学分野
個人研究なので、他人のデータを利用することは少ない。
研究者
C:臨床精神薬学
分野研究者
レセプトデータはデータベース製品として販売されている。副
作用自発報告をまとめた『医薬品副作用データベース』はオープ
ンデータとして公開されている。解析後のデータについて現在は
共有していない。
○ 他の研究者のデータが公開されたら再利用するか。その場合、データの質はどのように判断
するか。
A:神経科学分野
研究者
B:放射線学分野
研究者
C:臨床精神薬学
分野研究者
許可を得て教育目的に利用するということはあるが、研究目的
としてはない。
臨床分野では症例データベースがあればいいという話もある
が、自身の研究分野の場合は特にない。
他機関の病院データを利用する場合は、そこの機関の研究者と
共同研究する必要がある。その場合、研究デザインの提案はでき
るが、解析等の実際の作業は当該機関の研究者が行う。
アンケート等特定の目的のために集めたデータは二次利用には
向かないだろう。再利用する場合は、ある特定の目的のために研
究デザインが組まれていることやその解析手法についても正確に
報告する必要があるだろう。
汎用的なデータの場合は、一つの研究のためにデザインされデ
ータに比べるとエビデンスレベルは低くなるが、その分いろいろ
な切り口ができ使い勝手はよい。長期間に渡って、様々な切り口
でデータを解析して研究を行うケースもあり得るだろう。
データの質の評価は性善説にならざるを得ないと思う。しかし、
個人的な印象ではデータをきちんと扱って正確に記述している論
8
文は少なく感じている。患者の背景が違う場合やデータの抜けが
ある場合等、特殊な統計処理をかける必要があるが、それができ
ていないように感じる。
○ 自分のデータの再利用について、再利用する潜在的な利用者は想定できるか。
A:神経科学分野
研究者
学会発表等で一部をスライドで使う、ディスカッションの中で
資料として使う、といったことはあるが、自分のデータであって
もそれを新しい論文に再利用することはない。研究は新しいこと
を出すのが基本なので、他の人の利用も想定できない。
B:放射線学分野
研究者
C:臨床精神薬学
分野研究者
ニッチな研究分野であり、個人研究なので利用する人はいない
のではないか。
同じデータセットを違う目的で解析することはあり得る。例え
ば、ある患者のデータについて、医薬品のデータもあれば手術に
関するデータもある。別のテーマで研究を行うこともできるだろ
う。
○ データの公開について、どのように考えるか。抵抗感、懸念等はあるか。
また、機関リポジトリをデータ管理に利用する可能性はあるか。
A:神経科学分野
研究者
例えばグラフにした4例のデータのうち、典型的な1例は論文
に出すが、残りの3例は紙面の都合で出せないということがある。
そのような場合に4例全てをリポジトリ等で公開すれば、信頼性
が高くなる。ただし、現時点では、論文をジャーナルに投稿する
際に元データ公開の条件がある等、必要性があれば載せるが、管
理目的だけでは利用しない。
B:放射線学分野
研究者
業績評価においては論文を出すことが肝要であり、論文の付随
データを公開するのは理解できる。しかし、それ以上のデータを
公開することについては臨床研究ではあり得るかもしれないが、
自身の場合にはあてはまらない。
C:臨床精神薬学
分野研究者
個人的には研究終了後にデータを公開することについて抵抗は
ない。ただし、一般的にはデータへのアクセス権は研究のアドバ
ンテージになるので、無条件で公開することは抵抗があるのでは
ないか。メタデータのみの公開ならば問題ないのではないか。メ
9
タデータの公開だけでも比較研究につながるかもしれない。
○ データ公開を進めるにはどのような制度が必要と考えるか。
A:神経科学分野
研究者
業績は何度も提出する機会があるので大学で管理してあると良
いと思うが、それとは別と思う。データを公開するには、手間と
人手がかかる。また、データ量が多く細かいので、間違うと大変
なことになる。現状ではデータ公開はなかなか進まないかもしれ
ない。
B:放射線学分野
研究者
C:臨床精神薬学
分野研究者
やる気のある人がいてさらにお金があれば、データ公開のため
のデータベースができて公開が進むかもしれない。
データの所有者に公開することの明確なメリットがなければ進
まないのではないか。論文と同様にデータの引用数をきちんとカ
ウントし評価する文化が定着すると公開も進むと思う。
○ データの共有はどのような研究成果につながると考えるか。
A:神経科学分野
研究者
実験過程の細かいことがわかりやすくなるので、実験を見直す
際の参考にはなるが、わかりやすくなることが成果につながるか
というと、あまり変わらない気がする。
B:放射線学分野
(回答なし)
研究者
C:臨床精神薬学
分野研究者
データ公開が進むことで、研究成果の再現性の検証につながり、
研究の質の向上が期待できる。
○ データリポジトリを利用したことはあるか。データジャーナルへの投稿を考えているか。
A:神経科学分野
研究者
利用したことはない。リポジトリを利用した論文は、2 つの種類
のマウスに差がなかったネガティブデータであり、たまたまデー
タジャーナルに投稿することになったものだった。論文ができて
からどのジャーナルに出すかを決めるので、データジャーナルあ
りきではない。
B:放射線学分野
利用したことはない。
研究者
10
C:臨床精神薬学
分野研究者
利用したことはないが、今後は利用の可能性、必要性はあるの
ではないか。例えば、ランダム化比較試験は費用がかかり頻繁に
実施し難い。貴重な患者データ、臨床試験データは様々な切り口
で解析、検証、再利用できれば良い。現在データにアクセスでき
ない人の中に解析が得意な人がいるかもしれない。共有、公開が
進めば研究の効率性が上がり、費用を抑えつつ研究の質を上げる
ことができるだろう。
11