Jun's Blog

Output, activities, memo and etc.

シークエンサー

日本語で書きます。 理由は、日本語のゲノムの資料を今日読んで、「なんだ、そういうことだったのか」ということがあったからです。 残念なことに、まだまだ日本語の文章を読んだ方が格段に理解ができる、ということがわかりました。

国際ヒトゲノム参照配列の最新版 GRCh38.p11(Genome Reference Consortium Human Build 38 patch release 11) をダウンロードして、そのセグメントされた統計情報を読んでいました。 そのセグメントの定義が不明確だったのです。 それで、日本語の情報を探すことにしたのが、きっかけです。

GRCh38.p11の場合、抽出された塩基が32億個、そのうち、Assemblyされた(多くの部分配列から一列にならべれた)塩基が30億個。2億個は、うまく決定された配列に組み込めなかった塩基です。

サテライトDNAやテロメアなどの繰り返し(タンデム)配列は、Illuminaのシーケンサーのような短鎖型次世代シークエンサー」[1]の場合、一度に読める塩基の数がおよそ100個であるため、例えば3円塩基の長い繰り返し配列の場合、憶測ですが、繰り返し領域の合計の長さが、例えば100より長い場合、Assemblyに組み込めないと思います。 GRCh38は、この短鎖型次世代シークエンサーによって、解析されたのでしょう。

興味深いことに、一度に5000、10000塩基読めるシークエンサーもあり、それがPacBioのシークエンサーやOxford Nanopore社のMinIONです。 これを長鎖型次世代シーケンサーというようです[1]。

PacBioついては、その分、精度は落ちるようですが、その分何回も繰り返し読むことで、精度を確保したようです。日本人の基準ゲノム配列(Japan Reference Genomeの日本語訳ですが、「基準」と訳しているのは意味がわかりやすいです。)は、このPacBioを用いて解析されており、そのため、GRChよりも多くの塩基がAssemblyされています。

さて、ここにとても有益な次世代シークエンサーに関する資料があります[2]。

シークエンサーのAssemblyと、Reference Genome(ヒトゲノム参照配列)を用いたAlignmentの違いが理解できました。日本語でもっと早く読めばよかったと思うものの、英語で資料を読んだ時間は何だったんだと思わずにはいられないです。悔しい。

あと、シークエンサー毎の読み取り速度と一度に読める塩基数のグラフも興味深いです。 Oxford Nanoporeが最も一度に読める塩基の数が最も多いです。 Nanoporeにとても期待しています。楽しみです。

IlluminaやNanoporeのシーケンスのソフトウェアにソースをコントリビュートして、機能の改善ができるようになりたいと思っています。 2社ともgithubでソースを、全部ではないと思いますが公開しています。

今はまだIlluminaのシーケンサーでフルシーケンスすると、一人20万円から30万円かかります[3]。 この値段をもっと安くしたいです。

レイ・カーツワイルは、AIの研究者で、非常にポジティブな未来予想をする方ですが、彼によれば、ゲノム解析に関しては指数関数的にいろんな数値が上がっている(または下がっている)ようで、その仮説によれば、来年は半額、その次の年はさらに半額になるようです。2019年で7万円。2021年で1万円強。(将来、このブログを見直すことにします。)

記憶が曖昧ですが「PacBio、Nanoporeは2.5世代シーケンサー」だと、チェコでお会いした、とあるオランダの研究者は言っていました。

Nanoporeのシークエンサーはサイズが小さいのも、とてもよいと思います。

他にこの資料に載っていることは、NCBI(米国)、EBI(英国)、DDBJ(日本)が共有データベースを持っているのですが、個人が特定されない(個人情報じゃない)ゲノムは、この3つの機関がそれぞれ、公開しているサイトに登録すると、3者間で共有(同期)されます。 それが、NCBIのSRA(Sequence Read Archive)、EBIのENA(European Nucleotide Archive)、DDBJのDRA(DDBJ sequence Read Archive)というサイトです。

一方、個人が特定される情報は、取得に認証が必要となるNCBIのdbGaP(The DataBase of Genotypes and Phenotypes)、EGA(European Genome-phenome Archive)、JGA(何の略?Japan Genome-phenome Archive?)にそれぞれ管理されており、共有はされていないようです。

今までバラバラだった知識が繋がったことが、よかったです。

ところで、各サイトの名前の付け方が面白いです。 米国のサイトは、世界全体をターゲットにしている名前であるのに対し、英国のサイトはヨーロッパターゲットの名前、日本は、日本ターゲットの名前でかつ、他とうまく調和するような名前です。 これらの名前の違いから、これらのサービスが出来た歴史の変遷や各国らしさを想像できます。