私たちの研究室では生命現象を情報科学的な手法を用いて解析する研究を進めています。 最近の実験技術の進歩によりゲノム配列など生物に関する非常に多くの情報が蓄積されていますが、 これらの情報の持つ意味が十分に理解出来ているとは言えません。 これらの膨大な情報を計算機を効率的に用いて解析することで、新しい知見を導き出したいと考えています。 これまでに私たちのおこなってきた研究の例を幾つか以下に紹介します。


次世代シーケンサーの情報処理

私たちの身体の機能は20種類のアミノ酸が繋がって出来たタンパク質という物質がおもに担っています。 それぞれのタンパク質のアミノ酸配列はゲノムと呼ばれるDNA分子に4種類の塩基(ATGC)の配列として記述されています。 DNA上のすべての塩基の並びを読み取れば遺伝子と呼ばれる我々の持っているすべてのタンパク質情報、が読み取れたことになります。 実際には、配列を読み取っても、その意味するところを解釈出来る様になるまでにはまだまだ時間がかかると考えられていますが、 それでもゲノム情報の読み取りは、これからの生物学研究の重要な第一歩であると言えます。 2001年にヒトゲノムプロジェクトが完成し、人間1人分のゲノム(30億塩基対・約700MB)が読み取られました。 この読み取りには約3000億円の予算と10年近い時間、多くの人たちの労力が投入されました。 現在ではもっと多くの生物の配列が読み取られていますが、地球上にはまだまだ沢山の生物が居ますし、 人間でも一人一人のゲノムは少しずつ違っているので一人読んだのでおしまいというわけにはゆきません。 そこで注目を集めているのが、過去五年程の間に急速に進歩して来た次世代シーケンサーと呼ばれる技術です。 この技術の特徴は、まずゲノムDNAを30~100塩基程の短い断片にして読み取り、 計算機の力で読み取った断片を適切に繋ぎ合わせようという方法です。 これにより現在ではヒト一人分のゲノムを十万円以下で読み取ることが出来るようになったと言われています。 この方法の問題点は短い断片情報を繋ぎ合わせる作業が必ずしも旨く行かないことがある点です。 私たちは、次世代シーケンサーとして最も普及しているイルミナ社の機種で、 特徴的な配列読み取りのエラーパターンが存在し、これが配列の繋ぎ合わせや変異箇所の特定に困難が生じる原因の ひとつとなっていることを特定しました。 現在、この情報を元に次世代シーケンサーから得られた情報を最大限に活用する手法の開発を進めています。

ゲノム(横軸)上にシーケンサーのデータをマップした図、
図の赤い部分が読み取りのエラーで、ゲノム配列上の特定の位置(二カ所)に集中していることがわかる


銅タンパク質の分子進化

生物学的に同じ機能を持つタンパク質でも、上に述べたようなアミノ酸配列という見方で比較すると、 たとえば生物種間で少しずつ異なっていることがわかります。 たとえば、すべての脊椎動物は血液の中で酸素を運搬するためのヘモグロビンというタンパク質を持っていますが、 このタンパク質のアミノ酸配列はヒトと魚類では半分以上も違っています。 生物種の分化、あるいは進化の歴史は、このようにアミノ酸配列がすこしずつ変化して来た過程と一致しています。 このようなアミノ酸配列の変化に依るタンパク質自身の進化を分子進化と呼びます。 多くの場合、アミノ酸配列の変化はタンパク質自身の機能を変化させることは無いのですが、 稀にタンパク質が今までに無い新しい機能を獲得することがあり、 そのようなプロセスを経て生物は新しいタンパク質と多様な機能を獲得してきたと考えられています。
通常、タンパク質は単独で機能するのではなく、糖鎖などの修飾を受けたり他の分子と共同して機能を発揮することが知られています。 また、金属イオンを利用するタンパク質も多く、タンパク質のうちの約半分は金属イオンと相互作用して機能していると言われています。 私たちは銅イオンを利用するマルチ銅オキシダーゼと呼ばれる一群のタンパク質についての分子進化解析を行ないました。 タンパク質が銅イオンを保持するためにはシステイン、ヒスチジンなど、特定のアミノ酸がきまった場所にある必要があることから、 配列解析だけである程度構造的な特徴を確認することが出来るという利点があります。 解析の結果、マルチ銅オキシダーゼとして、これまでに良く知られている亜硝酸還元酵素、ラッカーゼ、セルロプラスミンの三種 の進化上の中間体構造(下図の[A],[B],[C])を推定し、 さらにデータベース検索の結果、 その中間体の特徴に合致するアミノ酸配列がバクテリアのゲノムデータベースの中に多数存在することを発見しました。 これらの中間体タンパク質の立体構造が進化モデルから推定される図のような3量体構造を取っていれば、 私たちの進化仮説が強力に支持されることになります。 その結果、発表から数年のあいだに内外の4つのグループが独立に X線結晶構造解析を行なって下さり、 いずれも私たちの予測通り、3量体構造を取っていることが確認されました。

マルチ銅オキシダーゼの進化経路モデル
右端の3つが既知のマルチ銅オキシダーゼ(上から亜硝酸還元酵素、ラッカーゼ、セルロプラスミン)
中央下側の三つ([A],[B],[C])がこのモデルで存在が提唱された進化上の中間体
それぞれのタンパク質は左端のモノドメインのブルー銅タンパク質(キュプレドキシン)から進化したと考えられる.