突然変異（１） | 経営ブログ | 株式会社テクノウイング

監査役　古川正志

新年おめでとうございます．

今年は，例年と違いコロナ（COVID-19）の第３波の真只中の穏やかならぬ新年となりました．私の英国の友人からの新年のメッセージの中に

「You probably know that the UK has increasing numbers of Covid cases now due to a mutation which has accelerated the spreading.」とありました．すでに報道等で知られているように英国生まれの新型ウイルスは感染率がこれまでのものより1.7倍高いと報道されています．この英文の中にあるmutation が突然変異を示します．

この突然変異が新型としてどれくらいの影響を持つかを少し考えてみました．新しい最適化の理論の一つに遺伝的アルゴリズムと呼ばれるものがあります．この中のスキーマ理論をガイドとします．

遺伝的アルゴリズムは，1個体（生物）の遺伝子を0か1の文字（ビット）の並びで設定します．例えば，4種類の個体の遺伝子を6ビットで

s₁=[011001], s₂=[101100], s₃=[110101], s₄=[111000]

と設定します．この1と０の組み合わせが個体の環境への適応度（生存競争の強さ）を発現するとします．具体的には1であるとある形質（性質，機能など）が発現し，0だと発現しないを表し，それらの組み合わせによって環境に対する適応度が決まるとします．適応度をf(s)でし，

f(s₁)=25²=625, f(s₂)=44²=1936, f(s₃)=55²=2809, f(s₄)=56²=3136

と設定します．そうすると各遺伝子を持つ個体数の割合は，適応度の割合となりますからF=625+1936+2809+3136とすれば，s₁が個体の占める割合は625/8506=7.35%となります．同等にして計算するとS₂は22.76%，s₃は33.02%，s₄は36.87%となります．

ところで全ての遺伝子が適応度に貢献するわけではありません．そこでスキーマと呼ぶ概念を導入します．例えば4つのスキーマを次のように表します．

H₁=[11****], H₂=[1***0*], H₃=[1*****], H₄=[0****1]

ここで，1または0の文字はこのスキーマを持つ個体の適応度に影響するが，*は影響を与えない記号とします．*はドントケア記号（Don't care）と言われます．

このようにするとスキーマH₁は，s₁とs_４の遺伝子を持つ個体に含まれることがわかります．同様に，H₂はs₂とs₄，H₃はs₂，s₃とs₄，H₄はS₁に含まれます．各スキーマの適応度は含まれる個体の適応度の平均で計算します．各スキーマの適応度をf(H)で表せば，

f(H₁)=(2809+3136)/2=2973, f(H₂)=(1936+3136)/2,

f(H₃)=(1936+2909+3136)/2=2627, f(H₄)=625/1=625

と計算できます．

各スキーマにおいて*でない文字の個数を次数（order）と約束しo(H)で表現します．また，最初の*でない文字から最後の*でない文字迄の個数を遺伝子長（length）と約束し，δ(H)で表現します．各スキーマについてこれらを計算すると，次数は

o(H₁)=2, o(H₂)=2, o(H₃)=1, o(H₄)=1

遺伝子長は

δ(H₁)=1,δ(H₂)=4,δ(H₃)=0,δ(H₄)=5

となります．

遺伝的アルゴリズムは，1世代について（１）各個体の適応度に比例してそれぞれの子孫を作る再生と淘汰，（２）全個体の中で二つの個体をある確率で選択し，それらの遺伝子をある場所から切断して交叉（入れ替え）する操作，（３）一つの個体をある確率で選択しその個体が持つ遺伝子の一つをランダムに選択して1であれば0に，0であれば1に入れ替える突然変異，の3つの操作から構成され，これを各世代で繰り返します．淘汰は，適応度の高いものから決められた個体数までを生存させ，それ以外のものを死滅（消去）させる操作を意味します．この操作を繰り返すことにより，環境に最も適応した（生存競争に勝ち抜いた）個体をこのアルゴリズムは導きだします．この操作で交叉は似たような新種を個体のクラスターとして生成し，突然変異は単純に新種を生み出す役割を果たしています．

それではスキーマを用いて交叉および突然変異により個体数がどのように変化するかを考えてみます．

今，個体がM種類の遺伝子列を持つとし，これらの遺伝子列に1,2,...,Mと識別番号をつけます．jの識別番号を持つものを遺伝子列jと呼ぶことにします．従って，j=1,2,...,Mとなります．遺伝子列jを持つ個体の存在数をP(j)とします．また，遺伝子列jを持つ個体の適応度（生存競争力）をf(j)とします．

（再生）

再生から考えます．再生は子孫を作り出すことを意味します．世代を時刻tで表します．0世代から始めるとt=0,1,...となります．時刻tでの個体の全数をP(t)とします．P(t)に含まれるある（特定）スキーマHを含む遺伝子列の個体がm個あるとします．これをm(H,t)と表します．遺伝子列iを持つ個体の子孫数をP[i]とし，この個数は適応度の大きさによって比例分配されるとすれば，P[i]は確率

p_i=f_i/(f₁+f₂+...+f_j+...+f_M)=f_i/Σ_jf_j

によって決定されます．f(H)をスキーマHを持つ個体の平均適応度（最初の例で計算したもの）とすれば，スキーマHを表す次世代の個体数m(H,t+1)は，スキーマHを持つ個体一つにつきM・f(H)/Σ_jf_j子孫を作るので，m(H,t)の個体数からは

m(H,t+1)=m(H,t)・M・ f(H)/Σ_jf_j

と計算できます．全ての遺伝子列の適応度の平均をf_aveとすれば

f_ave = Σ_jf_j/M

となるので，これを上の式に代入すると

m(H,t+1)=m(H,t)・M・ f(H)/Σ_jf_j

　　　　　　　 = m(H,t) ・f(H)/ f_ave

となります．これからあるスキーマHを持つ個体はスキーマの平均適応度f(H)の平均適応度f_aveに対する比率で増加数することが分かります．すなわちスキーマHの平均適応度がスキーマ全ての平均適応度より大きいほど子孫を多く得ることができるようになります．この時はf(H)>f f_aveが成立しています．スキーマHを持つ個体の平均適応度がf_aveよりc%多いとすれば

f(H)= f_ave+c f_ave= f_ave(1+c)

となります．これを上の式に代入すると

m(H,t+1)= m(H,t) ・f(H)/ f_ave

　　　= m(H,t) ・f_ave(1+c)・/ f_ave

= m(H,t) ・(1+c)

となります．これが時刻t=0から繰り返されると時刻tでは

m(H,t+1)= m(H,t) ・(1+c)^t

となり，スキーマHの平均適応度が残隊の平均適応度より大きいものは指数的に子孫を増やし，小さいものは指数的に壊滅していくことが分かります．

字数が多くなりましたので，交叉および突然変異によりスキーマHを持つ個体の数がどのように推移するかを次回に考えたいと思います．