Oct. 2020 No.039
ゲノム医学研究センター 副センター長川路 英哉
都医学研では第4期プロジェクトが2020年4月にスタートしましたが、これと同時に、ゲノム医学研究センターが新しく創設されました。本稿では、遺伝子とその制御に関する概要と、近年のゲノム解析技術を俯瞰した上で、当センターについてご紹介します。
2019年の人口統計によると、地球上には約77億人(77×108人)が生活しているそうですが、その約一万倍もの個数の細胞(約37兆個、37×1012個)が、ヒト一人の中で活動していると推定されています。一口に細胞といっても、免疫細胞は異物を攻撃し、筋細胞は刺激に応じて収縮するなど、それぞれ異なる役割を果たしています。これらは種々のタンパク質分子の挙動によって支えられており、タンパク質をコードする(アミノ酸の並びを指定する)情報は遺伝子としてゲノムDNAの塩基配列に書き込まれています。ゲノムは親から子へと世代を超えて継承される遺伝情報であると共に、体を構成する37兆個の細胞すべてに等しく受け継がれています。ただ、それぞれの細胞の中でゲノムに書き込まれている遺伝子すべてが活性化しているわけではありません。ゲノムには、遺伝子というタンパク質等の分子構造に関する情報と、遺伝子の活性を制御する情報の二種類が書き込まれています(図)。
ゲノム上に存在する遺伝子とその活性を制御する領域(遺伝子制御領域)を用いて、それぞれの細胞は異なる遺伝子を活性化さている。遺伝子近傍の制御領域であるプロモーターのみならず、離れて位置するエンハンサーからもRNAが作られており、この性質を利用することで遺伝子制御領域を同定することができる。
分子の構造とそれを制御する情報、その両方が生命にとって大切であることは言うまでもありません。たとえばジストロフィンというタンパク質をヒトは持っていますが、これを間違えてコードしてしまうゲノムDNA変異は、筋細胞が収縮できなくなり変性へと至る筋ジストロフィーの原因となることが知られています。その遺伝子を活性化する領域がゲノムから欠失した場合でも、やはり同じ病態へと至るでしょう。タンパク質の多くはマウス等のモデル生物に共通しており、その機能が次々と明らかにされてきました。一方、遺伝子の制御領域はヒト・マウスでさえ保存されている割合が低く、その研究は一筋縄ではいきません。個々人のゲノムDNA配列を読み取り診断や治療法選択へ活用する「ゲノム医療」が日本でも実現されつつありますが、現在のところ主な解析対象領域はゲノムの一部にすぎないタンパク質コード遺伝子です。遺伝子制御についての知見が十分に蓄積されれば、ゲノム医療がカバーできる範囲が大きく広がることから、世界中で研究が活発に進められています。
DNA塩基配列を超並列に読み取る次世代シーケンサー(NGS)が十数年前に登場し、ゲノム全領域を対象にした網羅的解析が容易になりました。同時期に登場したスマートフォンが生活の様々な場面で利用されているように、NGSも幅広い研究に使われています。ヒトゲノムの多様性の調査に加え、細胞の中で遺伝子が活性化される各段階の測定にも活用されており、個人間で様々な多様性が存在するゲノムを背景に、細胞ごとに異なる遺伝子活性化の過程を、くまなく測定できる技術が整いつつあります。
測定技術の進歩によって、データ解析にも質的な変化が生じます。測定範囲が限られている場合は、YES/NOで答えが出る問い、例えば「遺伝子制御に重要なのはこの領域では?」といった疑問に対して、測定結果が合致するかを調べます。一方、網羅的な測定を用いる場合ではWHATで始まる問い、例えば「遺伝子制御に重要なのはどの領域か?」といった疑問が出発点となり、過去データとの比較や、データと矛盾しないモデルの検討などへと展開します。たくさんのデータを扱うという意味においてはいわゆるビッグデータ解析の一種であるものの、「理由はともかく正解を当てる」ことに注力する機械学習とは趣きが異なり、学究的な思索に近いプロセスです。
新旧データの比較は解析の礎となりますので、取得したデータを研究者が皆で共有・利用することでゲノム科学は進んできました。例えば、ヒトが共通して持つゲノム配列は、解読された直後から20年間ずっとインターネット上でだれでも自由に閲覧やダウンロードできる状態ですし、遺伝子活性化のデータも筆者らを含む様々な研究チームが公開してきましたので「新型コロナウイルスSARS -Cov-2がヒトへ感染する際に足掛かりとする遺伝子ACE2が活性化している細胞はどれか」という問いに対しても、新しい測定を待たずに調べることができました。動物でなくヒト、一般論でなく疾患、欧米人でなく日本人、において有効な知見を得るためには、やはり日本人の疾患データが大きな役割を果たします。解析技術の高度化に加え、対比されるべきデータの効果的な蓄積・活用は、今後の研究を発展させる上で大変重要です。
当センターでは、実験による網羅的測定と計算機による情報解析を両輪として、ゲノムやゲノム機能の研究に取り組みます。筆者らはRNAの開始末端を定量的に測定する手法(CAGE, NET-CAGE)の開発・評価を行い、ヒトゲノムには遺伝子数の10倍以上もの数の遺伝子制御領域(遺伝子近傍より活性を制御するプロモーター、遠位より制御するエンハンサー)が存在することを明らかにしてきました(Kawaji et al. Genome Res., 24:708-717, 2014;Forrest et al. Nature 507:462-470, 2014; Hirabayashi et al.Nat Genet. 51:1369-1379, 2019)。特にエンハンサーと呼ばれる制御領域は活性化の際にRNAが双方向に作られる性質があり(図)、これを用いることで制御領域の推定が可能です。CAGE法により測定されたRNA開始末端が極めて正確であることから、他手法では曖昧にしか決められない制御領域の境界が明確になるという利点があります。これらの手法によって未知の制御領域の同定に取り組むと共に、生物種や個人の間で異なる遺伝子制御の活性、さらにはエンハンサーが活性に影響を与える遺伝子の同定などを、並列レポーターアッセイや一細胞解析技術などを通じて行う予定です。
また、都医学研で進められている他のプロジェクト研究や都立病院等と連携し、個別の生命現象や疾患の研究、更に臨床的課題の解決につながる研究を推進します。先に紹介したCAGE法は臨床研究にも効果的に用いられており、子宮体がんにおけるリンパ節転移の予測につながる分子マーカー(Yoshida et al. Sci. Rep., 7:14160, 2017)、肺がんにおいて薬効の異なるサブタイプを鑑別する分子マーカー (Takamochi et al. BMC Cancer, 16:760, 2016)の同定等に用いられてきました。制御領域単位での測定を通じて、既存手法では不可能であった分子マーカーの開発に手が届く、ユニークなアプローチといえるでしょう。これに留まらず、新しい技術についても効果的に活用していく予定です。新しい連携へも積極的にとりくんでいきたいと考えていますので、気軽にお声かけいただければと思います。スタートしたばかりの未熟な組織になりますが、ご指導ご鞭撻を賜りますよう、どうぞよろしくお願い申し上げます。