無作為抽出 |
ミトコンドリアDNA、HLA遺伝子などに基づいた分子人類学が数百〜千程度のサンプルで日本人の「起源」を論じている。以前から、その程度の数で良いのか疑問に(良く判らない)思っていたので統計学とか推計学とかの本を読んでみた。 大きなポイントは:サンプルが「無作為抽出」されているか、どうか、ということのようだ。 ミトコンドリアDNAによる人類学では、静岡県三島の日赤産院に世話になった母の数値だったり、ウイルスの感染有無による人類学でも、どうもサンプルが有病者とその近親者に偏っている疑いが残る。いずれにしても「無作為抽出」したと書かれる論文には出会って居ない。 つまり、推計学の教えるところによると、これらの無作為抽出ではないサンプルに基づいて日本人全体を推し量るのはかなり危険だということになろう。 にもかかわらず、以下ではこれらのデータが無作為抽出されたものとして、話を進める。 サンプル集団が何種の類に分かれるのか、その類の数(例えばA,B,O形式の血液型なら3種類、というその数)が大事なことでありそうだ、と考えるに至った。 例えば母集団が10種の類に分かれることが判っている場合に例えば10人しか調べなかったとしたら、ある類では二人三人出てきたり、他の類の人は見つからなかったりするだろう。100人調べれば、類あたりの平均は10人だが、大抵の類では少なくとも1人は見つかるだろうが、ある類では20人近くも見つかることがあるだろう。 そういうことをLotus-123のマクロで疑似乱数を使って素朴にシミュレーションしてみた。 10種類に分類されるケースでサンプル数100でシミュレーションすると、大抵平均値+/−30%(標準偏差)ほどにばらける。(同じデータを2種類に分類すると、こちらは平均値+/−10%程度)。サンプル数を1000にすると+/−15%前後。実用上良し、と出来るか。頑張って10,000調べると+/−2%となりかなり精度のあるものとなる。
ところが、分子人類学的に日本人を分類したら10種類か、というと、そんなに少なくない。仮にHLAのデータから、日本人のHLAハプロタイプの種類数を100(もっと多いと思うが、うんと小さめにみている)とすると、サンプル数1000では+/−37%規模になる。10,000調べて+/−10%。
一般的に+/−何十%もあるようなデータでは、特定の種類が他よりも多いとか少ないとか論じるのは危険だと言えよう。更に諸データが「無作為抽出」ではないのに、そうである、と(好意的に)仮定している点も現状の諸データを読みとるときに忘れてはならない問題点だろう。 ここでは、分類される「種類の数」に応じてサンプル数を増やす必要がある、ということを言いたかったのだが、何か勘違いしていないか、ご意見を承りたいところ。 日本人の種類数、ってそんなにあるのか。 MtDNAのデータをみるとMtDNAの極く一部の比較でも、同じ塩基配列を持っている人の数は平均で2だ。(それもサンプルの偏りが大いに懸念される中での話。)まさか、一億を超える日本人が5千万種類ある、とは言わないまでも、相当膨大な種類数になるのではなかろうか。 HLAに就いては一番多い類で8.6%;上位6位までの類の合計で22%ほど;残り78%ほどは類あたり0.4%以下と推察される;つまり残りは少なくとも78/0.4=195種類あるのではないか。
一つ示唆的なことを書いておくと、HLAの分布に関して徳永勝士さんの1995の発表と2003の発表では:
|