2013年9月26日木曜日

[論文]DNAにデータを保存する

Towards practical, high-capacity, low-maintenance information storage in synthesized DNA
Goldman et al. (2013) Nature

今年の初めに出版されたSFのような面白い論文です。

タイトルの"information storage in synthesized DNA"という言葉のとおり、人工的に合成したDNAにデータを保存し、それを復元することに成功した、という内容の論文です。

DNAはとても長持ちします。保存状態にもよりますが、数万年という時間が経ったサンプルからでも情報を取り出すことができることがすでにわかっています。例えば、ネアンデルタール人やマンモスのゲノムが既に解読されています。

この論文では、その安定なDNAを超長期間のデータの保存に使うためのデータ保存法を報告しています。

-

以下のような方法がDNAへのデータの保存に使われました。

まず2進数のデータを3進数のデータに変換します。(DNAは4種類あるのになぜ3進数かというと、同じ塩基が隣り合わないようにするためです。同種の塩基が隣り合う状態(例、ATTTTAC)は既存のシークエンサーでは読み取りエラーが起こりやすいので、それを避けています)

その後、3進データをDNA配列に変換し、その配列を持ったDNAを合成します。長大なDNAの鎖を作るではなく、長さ100塩基ほどの断片を、配列の同じ部分を合計4回読むようにオーバーラップさせて合成します。(重複させるのはもちろん誤りの可能性を減らすためです) 断片の両端にはデータのインデックスになる情報を付加しておきます。

このような方法を使って4つのファイル、およそ760Kバイトの情報がDNAに書き込まれました。

そしてコードされた人工のDNAは、既存のシークエンサーで配列を調べられ、その配列を解読することで、ほぼ全てのデータを復元することに成功した、ということです。(この過程でDNAは一度フリーズドライされて普通の小包で別の研究機関に送ったそうです)

試算によると、このDNAを用いた情報保存法は、数百年から数千年といった期間においては、電磁気的な媒体よりもコストパフォーマンスが高くなる、ということです。テープのように定期的にコピーをとる必要がほとんど無く、保存のコストも低いのが大きな利点のようです。また、既存の方法(PCR)などを使って増幅が簡単にできるので、データの複製も簡単にできるようです。

-


SFのような話ですが、この論文を読むかぎり、意外に早くDNAを使ったデータ保存が実用化されるのでは?と思ってしまいます。

この論文の特徴的なのは、従来のDNAへのデータ保存の研究と違って3進数のコードを使ったり、DNA断片に冗長性を持たせたりしてエラーを抑える工夫がされているところだと思います。情報技術と生物学の綺麗な融合です。例えば"ホモポリマーはエラーが出やすい"といったことは多くの分子生物学者が知っていることですが、その知識がDNAにデータを保存するときにも重要になってくるというのは新鮮な驚きです。この論文の筆者はEBI(ヨーロッパバイオインフォマティクス研究所)の有名な研究者ですが、彼らの研究の幅の広さを感じさせます。

2013年9月24日火曜日

就職活動はレモン市場なのか...?

最近よくニュースでブラック企業の話を見ます。
特に見ていて気になるのは、"ブラック企業を警戒しすぎて雇用のミスマッチが起こっている"という話です。

就活生悩ませる「ブラック企業検証」 白か黒か…見分ける方法はあるのか -産経新聞

「ブラック企業」に怯える若者 情報不足、過剰警戒が生む雇用ミスマッチ  -産経新聞

「日本の企業なんてみんなブラックだろ...」と個人的には思いますけど、視点を変えて、どうしてこんなことになってしまったのか考えると、面白いことに気付きました。

それは就職活動をする学生の過剰な警戒だけでなくて、そもそも過熱して長期化する就職活動自体が"情報の非対称性"が原因で起こっているのではないか、ということです。

-

"情報の非対称性"という概念自体最近ある本を読んで知ったことなので、間違っている部分もあるかもしれませんが、簡単にいうと、売り手と買い手の間で商品について知っていることに差があることをいいます。

ある商品の価値が買い手にはわからないけど、売り手にはわかるとき、買い手は損を避けるため、安く買おうとします。この結果、本当に良いものを売る人は相対的に損をして、悪いものを売る人は得をします。結果良いものを売る売り手は市場から減り、悪いものを売る売り手が増えていきます。さらにその結果、買い手はより安い値段をつけようとして、商品の値段とクオリティーがどんどん下がっていきます。このような情報の非対称性のせいで機能しなくなる市場を"レモン市場"と経済学の世界では呼ぶそうです。

-

企業が学生を選抜するとき、学生が本当に役に立つかはわかりません。その結果、会社は"レモン"(悪い商品)と"サクランボ"(良い商品)を見分けることに必死になるはずです。その結果就職活動が長引きます(エントリーシート、一次面接、二次面接、etc...)。企業は大量の情報を学生から得ることで情報の非対称性を解消する、という戦略をとって損を防ごうとしているようです。

この戦略が学生に大きな負担を与えています。しかし、際限無く長くなる就職活動の期間を見る限り、企業は現在でも沢山の"レモン"を買っている(と考えている)可能性があります。

もし企業の情報収集が上手くいっているなら、優秀な学生は得をするはずです。これは望むべきことですが、過剰な情報収集は学生を疲弊させます。一方で情報がないと、レモン市場の理屈に従って優秀な学生は損をするはずです。そして人材のマーケットの質全体が低下していくはずです。これは就職活動の本質的なジレンマなのかもしれません。

 一方で、上のニュースでは不思議な逆転現象が起こっています。
これは、"学生の側からも企業の本当の姿がわからない"、というもう1つの情報の非対称性が、昨今のブラック企業問題によって明らかになったのではないかと思います。 学生にとってブラック企業に就職することは文字通り命に関わります。学生が企業の内部の情報を知り得ないかぎりは、彼らが取りうる戦略は"できる限り警戒する" ことぐらいです。この結果本来"サクランボ"である企業が"レモン"を避けるプロセスで損をしている。これが問題のミスマッチの原因だと思います。

単純な解決策は、ブラックでない企業は積極的に情報を開示すればいいんではないかと思います。残業の総時間や○年での離職率○%などなど。情報の非対称性を解消すれば良い"サクランボ"が売れるはずです。

そもそも、学生に全ての情報(学歴からサークル活動まで)を見せることを求めておきながら、企業はその必要がないという考え方自体がアンフェアです。そして、大学で働く人間としては、企業には"レモン"を避けることばかり考えずに"サクランボ"を育てることを考えて欲しいとも思います。