同時に学べる、理学系博士課程とコンピュータ科学の修士課程 〜デュアル・ディグリー プログラム〜

 計算科学研究センターの取り組みを紹介する、CCS Reports! 第三弾。今回はCCSの人材育成の取り組みとして、デュアル・ディグリープログラム(DDプログラム)をご紹介します。現在DDプログラムに在籍する久米さんに、博士課程と修士課程それぞれの研究の内容や、両者を同時並行するプログラムの実態をインタビューします!(取材日:2016.12.27)

久米慶太郎 さん

別分野の博士課程と修士課程を両立 !? DDプログラムとは

筑波大学のデュアル・ディグリープログラムは、博士後期課程の学生が専攻分野とは異なる関連分野の知識を身につけるために、博士後期課程に在籍しながら関連分野の博士前期課程(修士課程)でも学ぶことができるという教育プログラムです。 計算科学振興室長の北川先生によると、もともと、コンピュータ サイエンス専攻と生物・数理物質との間でDDプログラムが始まったのは、計算科学研究センターが働きかけたから、という経緯があるのだとか。 計算科学研究センターでは、物理学・地球環境・生物学などのサイエンス分野の博士後期課程に在籍しながら、コンピュータ科学・データ科学分野の博士前期課程(修士課程)で同時に学ぶDDプログラムを推進しています!

DDプログラムについて

—- 久米さんはDDプログラムを活用して研究科2つに所属していらっしゃいますよね?

「生命環境科学研究科 生物科学専攻(博士後期課程2年)・システム情報科学研究科 コンピュータサイエンス専攻(修士課程2年)です。」(取材当時)

 

—- 博士を取るだけでも大変なのに、同時に別の専門で修士を取るのは、すごく大変そうですが、実際はどうなのでしょう?

「そうですね。僕はもともとDDプログラムを始めようと思い立つ前から比較的情報系に興味があって、情報系の授業もなんとかついていけるよ、くらいのベースの知識はあったので、そこまでの苦労はなかったかなと思います。DDプログラムに来たいという方は分野としての情報系にも興味があると思うので、下地はあるのかなと。

ただスケジュール的にはやっぱり厳しくなる時はありますね。生物の方(博士課程)は、授業はそんなにないんですが、情報のゼミにも出て、生物のゼミにも出て、情報の(修士の)授業にも出て・・・となるので、忙しくはあります。特に情報系は生物に比べてゼミの回数も多いので・・・」

 

—- 忙しそうですね。そもそも、なぜ、DDプログラムを?

「学部3年くらいの時に、実験実習でTAをしてくれた方がDDプログラムを受けていらしたので、それで知りました。まだその時は、自分が入ることまでは考えていなかったですけども。

そもそも、僕が生物学類に入った時が2000年代の後半で、次世代シーケンサ*1がかなり本格的に使われ始めた頃だったと思うんです。その時点で、かなりのデータが吐き出されていた。そういうビッグデータを扱うための知識が必要になってくるだろうな、そういう知識を身につけたいな、と思っていたんです。

学部3年の後半に研究室を選ぶんですけれど、ちょうどコンピュータ系に強いということで稲垣先生のところを訪問して、ビッグデータの扱いとかやってみたいと考えているんですけど、と相談しました。それで、卒業研究をしている間に、DDプログラムを受けてみては? という話も出たので、受けてみようかな、と・・・。」

*1 次世代シーケンサ:DNAを構成する塩基配列を読み取る装置をシークエンサーという。次世代シークエンサーは、それまでの第一世代シークエンサーとは原理が全く異なっており、一度の解析で膨大な配列データを読み取ることができるようになり、扱える遺伝情報の量が飛躍的に増えた。

 

—- もともと生物・情報の両方に興味があったんですね。では、DDプログラムを受けて良かったなと思うところはどこですか? 

「やっぱり、データマイニングとか機械学習のプロの方と、直接議論をして意見を頂けるのが一番大きかったかなと思います。この分野は日進月歩でなかなか追いつくのは大変なんですけれど、極端なはなし、最新の技術や手法は論文を追いかければなんとか・・・もちろん時間はかかりますけど・・・知識としては得ることができます。

じゃあ研究で具体的に使う時に、果たしてその方法を使うのが妥当なのか? とか、学習手法として別のものの方が適しているんじゃないか、とか、そういうところになると、実際に専門の方から意見がもらえるのは大きいですね。

『最新のものを使っとけばいいんじゃないか』とか、思ってしまうところを、直接正していただいて、気づかなかったところまで知識を頂けるのは、かなり力になりましたし良かった点かなと思います。」

—- DDプログラムの制度についても聞かせてください。学費や院試について耳寄り情報をぜひ。

「DDプログラムは2つの研究科に入りますが、学費は片方分でいい、というような優遇措置があります。院試は、基本的には普通に大学院に入るのと同じです。ただDDプログラムの時は、修士と博士、両方の受け入れ教員に『DDプログラムを利用して院試を受ける』ことの承諾書をもらって提出する必要があります。しかもそれの締め切りが、大学院入試の出願の締め切りよりもかなり前で・・・僕はその締め切りに気がつくのがかなりギリギリだったんですよね。

確かにWebに掲載されているんだけれど、結構広い範囲を見ないといけないし周知もされていないし・・・僕は締め切り当日に慌てて承認をもらいました。試験もそうですけども、期限があるものはどれほど頑張っても取り返しがつかないので、情報収集をしっかりすることが大事です!」

*年度や研究科によっても締め切りなどが異なります。最新の情報を得るように注意してください。

 

DDプログラムの醍醐味!? 別分野の知識と専門性を活かした研究

久米さんがDDプログラムで実際にどんな研究を進めているのか、その研究の中身に迫ります!

—- 2つの学位をとるということで、それぞれ別の研究をされているんですよね?

「大きなテーマとしては同じなんですけども、やっている内容としては微妙に違いますね。博士課程の生物の方では、どちらかといえば生物そのものを扱ったウェットな研究をしています。タンパク質を扱ったり、あるいは生物自体の遺伝子組み換えをしようとしたりしていて・・・。でも今は修士のまとめの時期なので、生物そのものは扱わないドライの方の研究を主にやっています。」(取材当時)

—- 生き物そのものを扱う研究と、全く扱わない研究。求められるスキルが全然違いそうです。DDプログラムを始めてから、生物系の学会だけでなく情報処理系の学会でも発表の機会が増えたという久米さん。生物以外が専門の方向けに作ったスライドを元に、研究の話を説明していただきました。

「修士課程、博士課程での研究に共通するそもそもの大きなテーマというのが、『真核生物の進化を研究する』というものになります。その中でも、『真核生物がほとんど必ず持っているミトコンドリア』を研究しています。

ミトコンドリアはもともと、ある生物が他の生物であるバクテリアを取り込んだものだと言われています。このミトコンドリアがあるおかげで、生物はそれまでは毒であった酸素を効率の良いエネルギーとして使えるようになりました。つまり、ミトコンドリアの存在は生物の進化にとても大きな影響を与えたとして、少なくとも分子進化とか真核生物の進化の分野では注目されて扱われてきた材料なんです。」

「ただ、いざミトコンドリアを調べようとしても、これがなかなか難しくて。例えば、小さな細胞の中からさらに小さなミトコンドリアだけをきれいに取り出して、質量分析などでミトコンドリア内に何があるのか、どんなタンパク質があるのかなどを調べるとします。でも、そもそもミトコンドリアをきれいに取り出す方法が、限られた生き物、ヒトですとかマウスですとかといったモデル生物などでしか確立されていないんです。他の生き物でやろうとすると、ミトコンドリアをきれいに取り出す方法を作るところからやりましょう、となるので、とても時間がかかるんですね。

うちの研究室でも、最終的にはそれを実現しようと取り組んでいる学生がいますけども・・・。まずミトコンドリアを取り出す前段階として、研究したい真核生物だけを培養するというのに、たぶん数人で数年かかっています。」

—- というと?

「途中で先輩が卒業してしまって、別の学生が引き継いだりですね。そうやって数人で3年、4年かけて、やっと最初のステップである「研究したい真核生物だけを集める」ことができるわけです。」

—- うわー・・・。それでもまだミトコンドリアは取れていないですよね。

「次のステップとしてミトコンドリアだけをきれいに取ってくることになって、それにまた何年か。それがうまくできたとしても、ミトコンドリアのタンパク質解析をする段階でうまく解析できるかどうか。進化の研究としてはスポット的に1、2種類だけ見るわけにはいかず、もっと全体的にみないといけないのに、1つの種類に3年も4年もかけていたら、まぁ現実的じゃないな、と。」

—- たしかに・・・。

「そこで、じゃあ細胞全部をすりつぶして、その中から必要なミトコンドリアのタンパク質に関する情報だけを取ってこよう、と。機械学習*2の手法を使えば低コストに出来るんじゃないか、というアプローチが出てきます。」

*2 機械学習:コンピュータがあらかじめ与えられたデータセットからパターンを分析し、そのパターンに沿って新たに与えられたデータを判断するという技術。

—- それが、主にシステム情報科学研究科 コンピュータ サイエンス専攻(修士課程)で研究している内容ですね。ミトコンドリアのタンパク質を調べたいわけですよね。細胞をすり潰して分析機器にかけて・・・という “実験” はイメージできるのですが、ミトコンドリアに関連する必要な情報を機械学習で、というのはどうすれば実現できるのでしょうか?

「機械学習となると、何らかのパターンを学習させる必要があるんですけども、幸いにして使えるものがありそうだというのはわかっていました。タンパク質を構成しているアミノ酸の配列は、図のような文字列として表現できます。ミトコンドリアのタンパク質では、少なくとも文字列の最初のほうに特徴があるということが先行研究からわかっていました。このパターンを学習させることで、合致するもの、しないものを選別させることができるはずです。ただ、例によって、機械学習を使ってミトコンドリアタンパク質をより分ける先行研究では、ターゲットにされているのはモデル生物だけだったんです。」

—- ヒトやマウスといった限られた生き物ですね。久米さんが研究しているような生物では機械学習の研究も進んでいなかった、と。

「先行研究では、僕や真核生物の進化の研究をしている研究者がターゲットにしているような、広い生物種には力不足です。そこで、僕はモデル生物以外の “非モデル生物” でも、ミトコンドリアのタンパク質を機械学習で予測できるようにしようという研究をしています。ミトコンドリアの中には、ミトコンドリアDNAといってミトコンドリアに必要な遺伝情報をもっているものもいますが、僕が研究しているような真核生物ではミトコンドリアDNAが退縮していたり失われてしまっていたりして、ミトコンドリアで必要なタンパク質の遺伝子は細胞本体の核DNAにあります。ということは、核DNAの情報をもとに細胞内でつくられたミトコンドリアタンパク質は、ミトコンドリアまで輸送されているだろう、とあたりがつきますので、ミトコンドリアに運ぶための目印、シグナルがあるはずです。そうしたミトコンドリアに運ぶための目印を使って、機械学習でミトコンドリアタンパク質を選別できるわけです。」

—- その目印を探すだけでも大変そうですね。

「はい。1からその目印を考えるのは大変です。同じようなことをやっている先行研究はモデル生物ですでにあるので、使える部分はそれを利用したほうが良いと考えています。僕がまずやったこととしては主にトレーニングデータとして信頼性のあるデータを集めてくる、というところになりますね。」

—- 「これがAだよ」「これがBだよ」というラベルのついたデータを用意して、まずはそれでコンピュータにAとBのパターンを覚えてもらう、というのがトレーニングデータですね。答えが確実にわかっているデータのセット(トレーニングデータ)で学習したところに、答えがわからないデータを持ってきて、A or Bを判定してもらう・・・?

「そうですね。最終的な使われ方としては、そういうところを想定していますね。ただ、そのラベルのついたトレーニングデータというところが肝になってきます。非モデル生物の場合、ミトコンドリアのタンパク質とされているものの中には、ちゃんと実験でそれを示しているものと、予測ソフトを使ってたぶんミトコンドリアのタンパク質だろう、とされているものが混ざっていて、後者が結構多いんですね。なので、ちゃんとそこを区別しているデータベースや論文を探して、信頼できるラベルのついたデータを集める必要がありました。」

—- そうしてトレーニングデータが集まったら、あとはコンピュータに入力するだけ・・・なんてわけには、もちろんいかないんですよね・・・。

「先行研究で使われていた学習手法(サポートベクターマシン)よりも、もうちょっと多くの特徴量やデータ量に対応した学習手法の方が目的に適っているのではないか、という指摘も頂いたので、学習手法も変えて(Gradient boostingなどのアンサンブル学習法)研究しました。あとはひたすら、トレーニングデータで学習させて、判定のパフォーマンスを測定して、精度が上がるようにパラメータを調整していく、という作業になります。

機械学習の精度はROCカーブというもので性能評価をするんですけれども、結論としては、これまでのモデル生物を対象としたトレーニングデータで学習させたものに非モデル生物のデータを渡して判定させた際のパフォーマンス(イメージ図左端)よりも、非モデル生物を対象としたトレーニングデータで学習させたものに非モデル生物のデータを渡して判定させた際のパフォーマンス(真ん中)の方が、性能が向上しました。

非モデル生物にもバリエーションがあって、退化的なミトコンドリアをもつものとそうでないものがいたりします。こういう違いは、学習に使っている特徴の違いとしても現れます。なので、退化的なミトコンドリアをもつグループのデータを既存の機械学習で判定しようとするととても精度が落ちてしまいます。そこで退化的なミトコンドリアをもつグループのデータだけを選び出してきてトレーニングをしたら(イメージ図右端)、かなりいい結果が出るようになりました。」

—- ミトコンドリアがどういう状態なのかなど、あらかじめ自分の調べたいものと近いグループをトレーニングデータにすることで精度があげられるようになっているんですね。

「そうですね。こういう機械学習を使ってくれる人は生物を扱っている人なので、このタンパク質がミトコンドリアに行くか調べたい! という時に、そのタンパク質をもっていた生き物のことはあらかじめわかっていることが多いので、その生き物がどの生物群に属しているかは選択してもらうという使い方を想定しています。

これまでにトレーニングデータ用に集めてきた生物群がだいたい11、12セットあるんです。先ほどでた、退化的なミトコンドリアをもつものがこのうちの3つです。この3つをトレーニングデータに含めるか、含めないか、ですとか、トレーニングデータのセットによって調べたいものの精度が変わります。

今は、このセット全部の組み合わせを作って、どれを一緒にすると精度が上がるのかを調べています。11セット中の2個使う、3個使う、4個使う・・・など、1000通り以上ですね。特徴が違うものが入れば精度が下がりますし、傾向が似ているものが入る分には、データが増えた方が精度は上がります。」

—- ある程度、自分が調べたいものがわかっていればいいと思うんですが、例えば全然未知の、なんだかわからない生き物に使ってみるというのは難しいですか?

「それも今ちょうどやっていて、全くわからないものを調べる時にはどういうセットを使ったらいいのかというのも、組み合わせを作って調べています。やっぱり何か一つ作ろうと思うと、そこまで検証して根拠を示したものを作りたいですね。」

—- 本当に、生物の知識とデータ科学の知識を駆使した研究ですね。ちなみに、博士課程の研究は?

「博士課程では生き物そのものを扱った実験をしています。具体的には、ミトコンドリアに運ばれるようなタンパク質に蛍光ラベルをつけて、本当にミトコンドリアに運ばれているのかを観察しようとしています。これも退化的なミトコンドリアをもつグループで研究しているのですが・・・こちらの方は、まだあんまり結果がうまく出ているとはいえないので(笑)」

(写真: 暗幕の中で蛍光顕微鏡を操作する久米さん)

—- 光らせる方はうまくいっていない?

「光らせるところまでは行っているんですけれども・・・。これも最初の話と同じで、うまく光らせる技術が確立している生物はモデル生物など一部の限られた生物なんですね。幅広く色んな生き物を見ようと思うと、それぞれで技術の確立をしていかなくてはならないので、時間もかかり難しいですね。」

—- 例えば、機械学習の研究の成果がでてくれば、そうした難しい実験の数を減らしたりすることもできますか?

「そうですね。機械学習の研究と実際の実験は独立したアプローチとして捉える必要はなくて、機械学習による判定は実験をする際に “あたりをつける” のに使えますし、実験で新しいデータがでれば機械学習のトレーニングデータに組み込んで精度をあげることができるので、お互いの助けになると思います。」

—- 2つの研究がお互いの助けになって、研究がより進んで行くんですね。今後の研究にも期待しています! 久米さん、ありがとうございました。

計算科学研究センターにおけるデュアル・ディグリープログラム

デュアル・ディグリープログラムは、研究者または高度に専門的な業務の従事に必要な能力や学識の修得を目指す博士後期課程学生に、専攻分野とは異なる関連分野の学識を修得させるプログラムを提供し、深い専門性と広い学識に加えて高い適応力のある人材の育成を目的とします。計算科学研究センターでは、物理学・地球環境・生物学などのサイエンス分野の博士後期課程に在籍しながら、コンピュータ科学・データ科学分野の博士前期課程(修士課程)で同時に学ぶDDプログラムを推進しています。学生が在籍するのは研究科になりますので、募集要項や入試関連手続きはセンターではなく研究科で行われます。計算科学研究センターの「計算科学振興室」でも、DDプログラムに関する相談、サポートを受け付けています。対応している研究科などの詳細は、以下のページをご覧ください。

計算科学振興室デュアルディグリープログラムについて

北川先生(計算科学振興室長)コメント:

「計算科学の分野では、物理・地球環境・生物といった科学の専門性と同時に、先端的な情報技術に精通しそれを実際に応用する能力を有することが重要です。両方の分野の知識や技術を体得し、複合的な視点から新たな計算科学を開拓できる人材を育成するために、センターでは今後もDDプログラムの推奨と支援を続けていきます。」

l   DDプログラム問い合わせ先(センターに関連するもの):

 計算科学振興室長 北川博之 教授kitagawa [at] ccs.tsukuba.ac.jp

 広報・戦略室 pr [at] ccs.tsukuba.ac.jp


取材協力:

久米慶太郎(くめ けいたろう)さん(生命環境科学研究科 生物科学専攻 博士後期課程2年/システム情報科学研究科 コンピュータ・サイエンス専攻 修士課程2年)

北川博之(きたがわ ひろゆき)教授

関連リンク:

計算科学振興室 http://www.ccs.tsukuba.ac.jp/research/research_promotion/promotion-office