はてなダイアリーでは「へぴゅーNT/というわけで(ry」だった何か。
まとまった文章が中心。日々の短文はmb(ryにあります。

「Ph.DのPhはPhilosophyのPh」

後でもう少し追記する予定…が、結局全部一気に書ききってしまった。

最近、バイオインフォマティクスおよび統計についてあれこれ考えを巡らす機会があり、どうも釈然としないなあなどと思っていたら、こんなページに出くわしました。
http://takenaka-akio.cool.ne.jp/etc/stat_test/


この中の「なぜ統計学的仮説検定が使われるのか」の下りに、こんな記述があります。

野生生物の分野に限らず,心理学とか社会学といった soft な科学で統計学的仮説検定をやりたがる背景には,物理学のような hard な科学をうらやむ気持ちがあるんではないか.


物理学は,世界がどうなってるかについて理論をたてて,それに基づく予測を導く.その予測を科学的な仮説として真偽を検定する.予測が裏切られたら,理論が間違ってたことが分かる.いっぽう,野生生物の生態の分野で検定する仮説は,世界がどうなってるかについての理論から導かれる仮説ではない.たいていは,集団の性質についての統計学的な仮説だ.


まあ、自分は普段バイオインフォマティクスの一分野であるタンパク質のデータベース解析という分野の研究をやっているのですが、実際に手順として行っている事といえば、データベースの中からある基準で(比較的小さな)集団をかき集めて、あれこれと統計をとって何か性質/特徴を探してみたり、一つ一つ観察してみたり…という、いわゆる学問領域としての情報科学(=インフォマティクス)と聞いて想像するような手法とはちょっと趣の異なるものだったりします。
むしろ手順だけ見れば、情報科学というより「野生生物の生態の分野」のやり方と結構近いんじゃないか…という意見すらあります(サンプル集めて観察して統計とって集団に共通する性質を見つけて…)。


そんな気分で上の文章をぼんやり眺めているうち、バイオインフォマティクスにもきっと(情報科学的か、そうでもないかという意味で)softとhardがあるんだろう、という考えに至りました。
これは完全な私見ですが、同じテーマをやるにしても、情報科学的か否かでかなり内容は変わってくるように思えます。
hardな(情報科学よりの)バイオインフォは最終的に統計検定の結果が前面に来て、統計的にどうであるか、という事が多めに語られる感じがします。
対するsoftな(いわば野生生物ならぬ「(例えば)タンパク質の生態学」的)バイオインフォだと、概ね直感的に分かりやすいグラフと絵が続いて、統計検定の結果は載っていないことすらあります(載せるにしても一応載せておく程度です)。


ところが、この違いを分野外の理解してもらうのは非常に難しく、「インフォ」まで口走ったところで「ああ、情報学/コンピュータの人ね」で一くくりにされ、アルゴリズムやらプログラムやらバリバリな人のように思われるのを必死で避けるべく、口をパクパクさせながら「いやぁでも出身は生命系でして」とか「バイオインフォにはバイオよりとインフォよりがあって」などと言い訳のようなものを口にするのが精一杯なことも結構あったりするわけです。
こんな現状に対して、softとhardという区別はちょっと使える言葉かもしれない、と思いました。
「やっていることはsoftなバイオインフォマティクスです」…後はどうか、softをsoftwareの意味にとられないことを切に願うばかりです(爆/そしてまた全然違う誤解が始まる…orz)