2013年9月26日木曜日

[論文]DNAにデータを保存する

Towards practical, high-capacity, low-maintenance information storage in synthesized DNA
Goldman et al. (2013) Nature

今年の初めに出版されたSFのような面白い論文です。

タイトルの"information storage in synthesized DNA"という言葉のとおり、人工的に合成したDNAにデータを保存し、それを復元することに成功した、という内容の論文です。

DNAはとても長持ちします。保存状態にもよりますが、数万年という時間が経ったサンプルからでも情報を取り出すことができることがすでにわかっています。例えば、ネアンデルタール人やマンモスのゲノムが既に解読されています。

この論文では、その安定なDNAを超長期間のデータの保存に使うためのデータ保存法を報告しています。

-

以下のような方法がDNAへのデータの保存に使われました。

まず2進数のデータを3進数のデータに変換します。(DNAは4種類あるのになぜ3進数かというと、同じ塩基が隣り合わないようにするためです。同種の塩基が隣り合う状態(例、ATTTTAC)は既存のシークエンサーでは読み取りエラーが起こりやすいので、それを避けています)

その後、3進データをDNA配列に変換し、その配列を持ったDNAを合成します。長大なDNAの鎖を作るではなく、長さ100塩基ほどの断片を、配列の同じ部分を合計4回読むようにオーバーラップさせて合成します。(重複させるのはもちろん誤りの可能性を減らすためです) 断片の両端にはデータのインデックスになる情報を付加しておきます。

このような方法を使って4つのファイル、およそ760Kバイトの情報がDNAに書き込まれました。

そしてコードされた人工のDNAは、既存のシークエンサーで配列を調べられ、その配列を解読することで、ほぼ全てのデータを復元することに成功した、ということです。(この過程でDNAは一度フリーズドライされて普通の小包で別の研究機関に送ったそうです)

試算によると、このDNAを用いた情報保存法は、数百年から数千年といった期間においては、電磁気的な媒体よりもコストパフォーマンスが高くなる、ということです。テープのように定期的にコピーをとる必要がほとんど無く、保存のコストも低いのが大きな利点のようです。また、既存の方法(PCR)などを使って増幅が簡単にできるので、データの複製も簡単にできるようです。

-


SFのような話ですが、この論文を読むかぎり、意外に早くDNAを使ったデータ保存が実用化されるのでは?と思ってしまいます。

この論文の特徴的なのは、従来のDNAへのデータ保存の研究と違って3進数のコードを使ったり、DNA断片に冗長性を持たせたりしてエラーを抑える工夫がされているところだと思います。情報技術と生物学の綺麗な融合です。例えば"ホモポリマーはエラーが出やすい"といったことは多くの分子生物学者が知っていることですが、その知識がDNAにデータを保存するときにも重要になってくるというのは新鮮な驚きです。この論文の筆者はEBI(ヨーロッパバイオインフォマティクス研究所)の有名な研究者ですが、彼らの研究の幅の広さを感じさせます。

0 件のコメント:

コメントを投稿