当初書いた以下の内容にスプレッドシートモデル作成上の大きな間違いが見つかった。人の死という非常にセンシティブな内容であるため、14日時点でのデータ、スプレッドシート等に置き換えた。以前のものは反省を込めて追記に回したい。
@kenmomd さんの年齢年代別の分析を拝見した。素人考えだが、各年代別に入院する率、あるいは死亡する率を掛けたら今後の必要病床数の予測や、被害の予測に役立つだろうと考えた。
東京都の倍加時間を30代以下、40-60代以下、70代以上の年代別に分析しました
— けんもう新型コロナ対策本部 (@kenmomd) 2020年7月12日
6/20〜7/11までの報告日基準の新規陽性者数から、Rのincidenceパッケージで算出 https://t.co/ume5AVqtgJ pic.twitter.com/zdsf19w3dL
データは、最近ようやく主ページの「左斜め上」に配置されたcsvファイルに気づいたジャグ・ジャパンさんのサイトと、厚労省のオープンデータ、そして厚労省の日本の致死率データからいただいてきた。4月に手入力していたころと比べると格段の進歩!
https://twitter.com/kenmomd/status/1276516135458897922
またとめシートはこちら。
まず、3月1日以降の全国の報告日ベースの年代別感染者のグラフ。
結果できたグラフ。報告日から14日の「間隔」を取っている。感染から発症で平均4,5日、発症から報告日まで一週間前後とすると、感染日からは三週間程度の「間隔」となる。不明者の部分を全体平均の5.4%ではなく、若い方が多いことを考慮し半分の2.7%にした以外は全く出たまま。3月14日から7月初旬までの累計死亡者数の実データと予測データの時系列での相関係数は0.9979。実データと予測データの単日死亡者数別に相関を取ると相関係数0.7007。統計的な有意の検定はしていないが、かなり高いだろうことは予想される。この予測からすると、これから二週間程度で30名程度の死亡者が出る可能性がある。私の間違いか、「コロナで死ににくくなっている」か、軽症化していて私の「予測」が外れることを祈る気持ちだ。
スプレッドシートの7月1日以降の部分。黄色をつけた実データの11日時点での死亡者数と二週間予測の24日時点での差が今後発生するかもしれない死者数となる。
ここから言えることは、
①本来一定の分布となる発症日、確定日、死亡日を推測すべきところだが、簡便に確定日から14日の経過で亡くなると仮定したにも関わらず相関が高くなった。
②一般的な致死率を掛けても、これだけグラフがフィットするということは現在のPCR陽性検査による感染者補足率は高い可能性がある。
③感染者は、7月以降に6月前半までの傾向を越えた感染者が出ているのでいくら若者が多いとは言え、これまでの傾向以上の死者がこれから出る可能性がある。
素人の推計なのでなんの役にも立たないが、確かに感染を抑制しないと死亡者は減らない。それでも、経済活動は再開されなければより多くの死亡者が出るだろうとしか思えないし、経済苦で一番苦しめられるのは子供達だと信じる。
熊谷さんって、WBSとかでずっと持論しかいわないあの人?👶#マシュマロを投げ合おうhttps://t.co/YdHwOYs6BH pic.twitter.com/EsqiE2nQEu
— 峰 宗太郎 (@minesoh) 2020年7月12日
■追記
ちょっとまだおかしいが、とりあえず。
できました。3月1日以降のデータに適用しました。当日新規分の組み合わせでも0.6程度の相関係数となりました。
— ひでき (@hidekih) 2020年7月14日
ただし、厚労省からの致死率を各年齢年代にかけていくと、5/20以降で200人弱ほど足りません。死亡率を20%ほどあげると合ってはくるのですが・・・。https://t.co/TLPdLEaP4U pic.twitter.com/GhqyaeeqEG
■追記 その2
いろいろ間違いが見つかり、現在の予測。
ちょっとバグがなおせず時間がかかりました。予測と実データで、
— ひでき (@hidekih) 2020年7月14日
累計相関係数 0.9979
相関係数 0.7007
相関の統計的検討は余力があれば明日以降に。
それでも、ここの所の感染者の増加でこれから二週間で30人程度の死亡者がでるかもしれません。https://t.co/djgBEjswcd pic.twitter.com/35ZWmH3k6W
■追記 その3 修正部分
以下は、修正する前の内容。反省を込めて記録しておく。
当初間違った内容を含むスプレッドシート
docs.google.com
6/1以降感染者グラフ
「不明」に10歳以下の感染者が入っていた。
「不明」については、全体平均の5.4%と、若い方が多いという仮定から1%としたグラフを描いた。2つのグラフで縦軸の最大値が動いてしまっていることにご留意を。
統計についてのコメント。相関はぐっと高くなった。相関のt検定はまだこれから勉強。
実データの死亡数累計と予測された死亡数累計の相関係数を計算するとR^2=0.93と高い相関となった。ところが、当日毎(新規感染者)ベースでの相関ではほとんど無相関だった。6月20日公表の17人が攪乱しているかもしれないと考え、ここを除外したが0.3程度の相関。時系列データの相関係数の判定は統計的に私の手には余る。今後相関係数のt検定くらいはできるようになりたい。
bellcurve.jp