2013年9月26日木曜日

[論文]DNAにデータを保存する

Towards practical, high-capacity, low-maintenance information storage in synthesized DNA
Goldman et al. (2013) Nature

今年の初めに出版されたSFのような面白い論文です。

タイトルの"information storage in synthesized DNA"という言葉のとおり、人工的に合成したDNAにデータを保存し、それを復元することに成功した、という内容の論文です。

DNAはとても長持ちします。保存状態にもよりますが、数万年という時間が経ったサンプルからでも情報を取り出すことができることがすでにわかっています。例えば、ネアンデルタール人やマンモスのゲノムが既に解読されています。

この論文では、その安定なDNAを超長期間のデータの保存に使うためのデータ保存法を報告しています。

-

以下のような方法がDNAへのデータの保存に使われました。

まず2進数のデータを3進数のデータに変換します。(DNAは4種類あるのになぜ3進数かというと、同じ塩基が隣り合わないようにするためです。同種の塩基が隣り合う状態(例、ATTTTAC)は既存のシークエンサーでは読み取りエラーが起こりやすいので、それを避けています)

その後、3進データをDNA配列に変換し、その配列を持ったDNAを合成します。長大なDNAの鎖を作るではなく、長さ100塩基ほどの断片を、配列の同じ部分を合計4回読むようにオーバーラップさせて合成します。(重複させるのはもちろん誤りの可能性を減らすためです) 断片の両端にはデータのインデックスになる情報を付加しておきます。

このような方法を使って4つのファイル、およそ760Kバイトの情報がDNAに書き込まれました。

そしてコードされた人工のDNAは、既存のシークエンサーで配列を調べられ、その配列を解読することで、ほぼ全てのデータを復元することに成功した、ということです。(この過程でDNAは一度フリーズドライされて普通の小包で別の研究機関に送ったそうです)

試算によると、このDNAを用いた情報保存法は、数百年から数千年といった期間においては、電磁気的な媒体よりもコストパフォーマンスが高くなる、ということです。テープのように定期的にコピーをとる必要がほとんど無く、保存のコストも低いのが大きな利点のようです。また、既存の方法(PCR)などを使って増幅が簡単にできるので、データの複製も簡単にできるようです。

-


SFのような話ですが、この論文を読むかぎり、意外に早くDNAを使ったデータ保存が実用化されるのでは?と思ってしまいます。

この論文の特徴的なのは、従来のDNAへのデータ保存の研究と違って3進数のコードを使ったり、DNA断片に冗長性を持たせたりしてエラーを抑える工夫がされているところだと思います。情報技術と生物学の綺麗な融合です。例えば"ホモポリマーはエラーが出やすい"といったことは多くの分子生物学者が知っていることですが、その知識がDNAにデータを保存するときにも重要になってくるというのは新鮮な驚きです。この論文の筆者はEBI(ヨーロッパバイオインフォマティクス研究所)の有名な研究者ですが、彼らの研究の幅の広さを感じさせます。

2013年9月24日火曜日

就職活動はレモン市場なのか...?

最近よくニュースでブラック企業の話を見ます。
特に見ていて気になるのは、"ブラック企業を警戒しすぎて雇用のミスマッチが起こっている"という話です。

就活生悩ませる「ブラック企業検証」 白か黒か…見分ける方法はあるのか -産経新聞

「ブラック企業」に怯える若者 情報不足、過剰警戒が生む雇用ミスマッチ  -産経新聞

「日本の企業なんてみんなブラックだろ...」と個人的には思いますけど、視点を変えて、どうしてこんなことになってしまったのか考えると、面白いことに気付きました。

それは就職活動をする学生の過剰な警戒だけでなくて、そもそも過熱して長期化する就職活動自体が"情報の非対称性"が原因で起こっているのではないか、ということです。

-

"情報の非対称性"という概念自体最近ある本を読んで知ったことなので、間違っている部分もあるかもしれませんが、簡単にいうと、売り手と買い手の間で商品について知っていることに差があることをいいます。

ある商品の価値が買い手にはわからないけど、売り手にはわかるとき、買い手は損を避けるため、安く買おうとします。この結果、本当に良いものを売る人は相対的に損をして、悪いものを売る人は得をします。結果良いものを売る売り手は市場から減り、悪いものを売る売り手が増えていきます。さらにその結果、買い手はより安い値段をつけようとして、商品の値段とクオリティーがどんどん下がっていきます。このような情報の非対称性のせいで機能しなくなる市場を"レモン市場"と経済学の世界では呼ぶそうです。

-

企業が学生を選抜するとき、学生が本当に役に立つかはわかりません。その結果、会社は"レモン"(悪い商品)と"サクランボ"(良い商品)を見分けることに必死になるはずです。その結果就職活動が長引きます(エントリーシート、一次面接、二次面接、etc...)。企業は大量の情報を学生から得ることで情報の非対称性を解消する、という戦略をとって損を防ごうとしているようです。

この戦略が学生に大きな負担を与えています。しかし、際限無く長くなる就職活動の期間を見る限り、企業は現在でも沢山の"レモン"を買っている(と考えている)可能性があります。

もし企業の情報収集が上手くいっているなら、優秀な学生は得をするはずです。これは望むべきことですが、過剰な情報収集は学生を疲弊させます。一方で情報がないと、レモン市場の理屈に従って優秀な学生は損をするはずです。そして人材のマーケットの質全体が低下していくはずです。これは就職活動の本質的なジレンマなのかもしれません。

 一方で、上のニュースでは不思議な逆転現象が起こっています。
これは、"学生の側からも企業の本当の姿がわからない"、というもう1つの情報の非対称性が、昨今のブラック企業問題によって明らかになったのではないかと思います。 学生にとってブラック企業に就職することは文字通り命に関わります。学生が企業の内部の情報を知り得ないかぎりは、彼らが取りうる戦略は"できる限り警戒する" ことぐらいです。この結果本来"サクランボ"である企業が"レモン"を避けるプロセスで損をしている。これが問題のミスマッチの原因だと思います。

単純な解決策は、ブラックでない企業は積極的に情報を開示すればいいんではないかと思います。残業の総時間や○年での離職率○%などなど。情報の非対称性を解消すれば良い"サクランボ"が売れるはずです。

そもそも、学生に全ての情報(学歴からサークル活動まで)を見せることを求めておきながら、企業はその必要がないという考え方自体がアンフェアです。そして、大学で働く人間としては、企業には"レモン"を避けることばかり考えずに"サクランボ"を育てることを考えて欲しいとも思います。

2013年8月7日水曜日

epubで論文(2) Kindleバージョン

今年の初めごろにPMCでダウンロードしたepub形式の論文をブラウザで読んでみたことを書きました。(こちら)

そのときは電子書籍リーダーを持っていなかったので、PC上で読んでみたんですが、最近Kindle Paperwhiteを買ったので、そちらでepub形式の論文を表示させて見ました。

-

まずepubの論文をPMCからダウンロードします。
今回は、こちらの論文( Drummond et al. 2006)を使うことにしました。選んだ理由は有名な論文であることと、複雑な図表や数式が入っていることです。

Kindleは独自のmobi形式の電子書籍ファイルしか読めないので、まずepubをmobiに変換します。ここではcalibreという電子書籍管理ソフトを使いました。読み込んだepubファイルをクリック1つでmobiに変換できます。

mobi形式に変換された論文のファイルはAmazonの"send to kindle"サービスを使ってKindleに送ります。xxxx@kindle.comというメールアドレスにmobiファイルを送ると自動でライブラリにファイルが追加され、自分のKindleに自動でダウンロードされます。全部自動です。

epubをダウンロード→mobiに変換→Kindleに送る、というステップが多少面倒ですが、基本的にはとても簡単です。

Kindleにダウンロードしたものがこちらです。(以下の画像内の文章、図は全て Drummond et al.(2006) のものです)









そして本文はこんな感じです。









フォントや行間隔を調整すればかなり読みやすくなります。PDFの論文のように画面全体を見ることが出来ませんが、ただ読むだけならこれで充分だと感じます。

数式を表示させてみると...









...これはちょっと微妙な感じです。画像として埋め込まれていると思われる数式はちょっと小さすぎます。文章内の数式は少し崩れていますが、こちらは許容範囲だと思います。他のepubファイルで試したところ、数式を綺麗に表示できるときと、できないときがありました。原因はよくわかりません。

次は図ですが...









小さい文字はかろうじて読めるといったところです。小さすぎる数字は読むのがかなりしんどい感じです。色が使われている部分は濃淡があまりはっきりしないので、少し見づらいと思います。紙に印刷したものと比べると多少見劣りします。

-

全体的に、論文の文章部分はかなり読みやすいと思います。文章の多い論文はプリントアウトせずにKindleで読んでも事足りるかもしれません。一方で、数式が上手く表示されないときがあったり、図表が少し見にくかったりするので、普通の研究論文をKindleだけで読むのは少ししんどいかもしれません。複雑な図はPDFかPCのepubリーダーを使わないと何が描かれているのかわからないと思います。

上の論文以外にもいくつかの論文を読んでみましたが、現時点でKindleでepubの論文を読むのは不可能ではないと思いました。でも、図表を大量に使った論文を読むのはかなり大変です。一方でレビュー論文のように文章の多い論文はKindleでも上手く読めると思います。あるいは、論文の中に何が書いてあるのかを流し読みするようなことにも使えるかもしれません。

技術的にはまだまだ発展の余地があると思いますが、将来epub論文を専用のリーダーで読むのが主流になるかどうかはまだわからない、といったところだと思います。

2013年8月3日土曜日

[論文]謎の巨大ウイルス

一般向けニュースでも紹介された新種の巨大ウイルスについての論文を読んでみました。

Pandoraviruses: Amoeba Viruses with Genomes Up to 2.5 Mb Reaching That of Parasitic Eukaryotes
Philippe et al. (2013) Science

ニュースのほうは例えばこちら。(論文がオープンアクセスではないので)
パンドラウイルス、第4のドメインに? ‐ ナショナルジオグラフィック ニュース


ニュースでも紹介されている通り、今回発見されたPandoravirus salinusはゲノムの大きさが250万塩基対と通常のウイルスより遥かに大きく、ゲノム上の遺伝子の大部分が未知、ということです。

もう少し詳しく論文を見ていくと、いかにこの新種のウイルスが不思議な生物(?)であるかがわかります。

-

Pandoravirus salinusはチリの海底の泥の表面に住むアメーバの中から見つかりました。(もう1種のPandoravirus dulcisはオーストラリアの池のなかからです)宿主であるアメーバに寄生すると、自らのDNAをアメーバの細胞内部に放出し、宿主の細胞質内で増殖します。

ゲノムの大きさはおよそ250万塩基対で、推定された遺伝子の数はおよそ2,500です。この値は遺伝子の少ない真核生物レベルの大きさだそうです。

その2,500の遺伝子のうち、わずか186個(7%)しかNCBI(アメリカ国立生物工学情報センター。大規模な遺伝子のデータベースを公開している)のデータベース上で類似のタンパク質配列が見つかりませんでした。それ以外の93%の遺伝子はこれまで一度も見つかっていないタンパク質をコードしていると考えられます。またデータベース上で類似したタンパク質が見つかったもののうちのいくつかは宿主であるアメーバの配列に似ており、おそらく宿主から取り込んだ遺伝子ではないかと思われます。

これらの未知の遺伝子の機能を配列のモチーフや立体構造を用いて推定した結果、ATPの合成やタンパク質の翻訳といった機能を持つ遺伝子は一切見つからず、やはりこの生物(?)が、その大きさに関わらず、ウイルスであることを示しています。

また、Pandoravirusは遺伝子の一部にdsDNAウイルス(二本鎖DNAで遺伝情報を保持するウイルス)と似たものを持っているけれども、その他の遺伝子は普通のウイルスとまったく異なっていたり、本来ウイルスや細菌の遺伝子にはほとんど存在しないイントロン(タンパク質に翻訳されない遺伝子の領域)を持つ遺伝子を持っていたりします。

筆者らは論文の最後で、ある種のDNAポリメラーゼの配列を比較すると、Pandoravirusを含む巨大ウイルスのグループは従来知られた3つの生物のドメイン(真核生物、細菌、アーキア)のどれにも属さないグループを構成することから、第4のドメインが存在しているのではないか、と主張しています。

-

読めば読むほど不思議な生物(?)です。これら巨大ウイルスが第4のドメインを構成するかどうかはまだわかりませんが、生物の未知の多様性を教えてくれる発見だと思いました。

ウイルスの起源や生命の初期の進化について知る重要な手がかりになるかもしれません。今現在、生物は3つのドメインに分類されていますが、もしかしたら将来的にはそれらはより多様なグループの一員に過ぎないことがわかるのかもしれません。

2013年1月24日木曜日

epubで論文

昨年の終わりごろ、PMC(旧称PubMed Central, アメリカの論文アーカイブサイト)の論文検索結果の右上に
... | ePub (beta) | ...
という表示が出ていることに気付きました。
 論文をepubフォーマットで提供する試みみたいですが、どんなものか試しに論文をダウンロードして読んでみました。

とりあえずfirefoxの"EPUBReader"を使って開いたあと、フォントを自分の好きなものに変えて、サイズを調整して...










...なかなかいい感じじゃないですか?
これならPDFファイルをディスプレイ上で読むより快適かもしれません。
(表示の論文はHollingsworth et al. 2009です)


-

現在の学術論文のフォーマットの事実上の標準はPDFです。PDFの利点はどの環境でもレイアウトが崩れないこと、だと思います。実際に紙に印刷されるレイアウトがそのまま使えるので、プリントアウトするときには特に便利です。PCの画面上でも綺麗に表示されます。

しかし、最近は論文を読む方法は昔より多様になってきています。PC以外の端末、例えばスマートフォン、タブレット、Kindleなどなど... 読み手が使うデバイスが多様になればなるほど、PDFが持っていた利点が逆に欠点になってくるように思います。スマートフォンの小さい画面ではA4サイズの論文は大きすぎますし、Eインクを使った電子書籍リーダーでは固定されたレイアウトが逆に不便さにつながります。

epubにはそういう欠点がありませんから、このままペーパーレス化と端末の多様化が進めば、将来的には論文の標準フォーマットはepubになるかもしれません。(epub自体はhtmlをベースに作られています。すでに多くの論文はhtmlでも公開されていますから、htmlの論文をepubに変換するのにも大きな苦労はいらないと思います。)

-
Kindleを使って表示させたものはこちら