自ら「グラフ職人」とおっしゃるほどすばらしい分析をされているbirdtakaさんの一連のツイットを拝見した。見事に分析されていらっしゃる。特に目を引いたのがこちらのグラフ。東京都内の「移動」(mobility)とRtの相関が示されている。
https://twitter.com/birdtaka/status/1277389491729084416
私も再現すべくやってみた。GoogleのMobility Report(42MBもあった!)をダウンロードして、Tokyoの部分を抜き出した。職場、住居、ショッピングなどカテゴリーがあるがbirdtakaさんに習って、「交通」(駅など)とRtを重ねて見た。3日平均した発表日ベース新規感染者のデータを1週間間隔の倍加日数計算させてRtに換算し、更にRtの7日移動平均を掛けているので、相当に遅いはず。だが、出てきたグラフは「移動」と割と重なる。*1
https://docs.google.com/spreadsheets/d/1Ue0UstHIO5cXMFDa_HdNXGbMJWEU5AEnQmeq-KYTdKA/edit?usp=sharing
両者の相関も取ってみた。R^2=0.52と時系列データとしてはまあまあかなと。そもそも、時系列データを折りたたんで相関係数を取ること自体統計的には無理はある。
ただ、birdtakaさんほど相関関係が強い時系列グラフにならなかったのお聞きしてみた。
移動平均ではなくて週平均ですが。
— birdtaka@裏道ランナー (@birdtaka) 2020年6月28日
私のは移動平均だったのでばらつきが大きく、birdtakaさんと同様の形にならなかった。一週間平均のグラフも作ってスムージングしてみるとかなり近いグラフはできた。同じデータなのだが、かなり印象は違う。
私が再現の努力をしようとした理由は、3月の欧州株の流入の影響がbirdtakaさんのグラフからは読み取れなかったことと、最近の感染でもこの相関関係が強いのかというところだった。スムージングすると埋もれてしまう3月のRtの上昇が私には意味が大きいように想う。3月の移動はそのままでRtが減っている時期がちょうど中国株の収束の辺りだったはず。
3月末から4月に掛けてのRtの山があるのだがこれは志村けんさんショックなどによる自粛が広がる時期に上昇しているように見える。その後はかなり移動とRt両方が低下傾向になる。最近の新規感染者が減った中からのRt上昇については、移動が30%程度大幅に増えているのに対し、Rtは1.0前半でまだ推移しているように見える。
でも、よくよく見ると3月後半と6月後半で差異(disparity)が生じているように見えます。3月のは欧州株で、6月後半は新しい生活様式の定着だと信じたいです。 pic.twitter.com/6u707aXkm9
— ひでき (@hidekih) 2020年6月28日
*2
今後も余談は許されないが、同じく東京都の感染者の年齢別の構成比を見ると60代以降はぐっと減っている。今度は移動とRt、新規感染者数のデカップリングとなるのではないかとまだ期待はしてもよいのかなと。
謎は解けなくとも、一番のPCR陽性者を出している都内のデータを見れば、6月は20代が主力で院内感染、施設内感染がほとんどないらしいことがよく分かります。4月に1000人を超えた60才以上陽性者が6月は百人以下のようです。つまり実質10分の1に押さえ込めていると。https://t.co/uZaFzGbmnv
— ひでき (@hidekih) 2020年6月29日
*3
birdtakaさんのおかげでこのエントリーが書けた。深く感謝します!
■追記、というか出すべきだった結論
よくよく考えてみると、私のRtの計算の仕方だと感染日から平均で一週間程度経って報告日が来、更に移動平均を二回取っているので、最低でも二週間程度「遅れ」が生じることになる。4月以降私のグラフでも「移動」とRtが重なっていることが不思議なこととなる。ではと、報告日から単純に日を戻して重ねようとしたが、グラフは重ならず、相関係数もどんどん減っていって0に近くなってしまった。
実は、Rt以外に毎日の公表ベースの新規感染者数とのグラフを作った。これだとなんとトレンドが反対となってしまった。左縦軸のTransit(移動)は正負をマイナスにしていることに留意されたい。
ちょっとこれは仮説に過ぎないのだが、もしかすると因果が逆なのかもしれない。日々公表される新規感染者の数がアラートになって移動量が変化しているということにはならないだろうか?そうでもないと、感染日でなく公表日との相関が高いこと、新規感染者の数はむしろネガティブ(マイナスの相関)の関係になっていることが説明できないように想う。ただし、グラフの右端、6月の終わりに近づいてグラフの間隔が近づいていることは注意すべきだろう。これは移動量に比例して感染者数が増えていることを示している。それでも、このグラフで見る限り、比例であって指数関数的な関係にはいまのところは見えない。これは、院内感染、施設内感染、ましてやクラスターからのクラスターが発生していないことを示すのではないだろうか?
*1:北大のボランティアの方の先行研究があったので日数を変化させて相関係数を計算することにトライしてみた。よく見ると相関していても、フィットさせて方程式では負の相関っぽい。うーん。
*2:mobileから確認すると画像が見えなかったので、代替にこちらに。
*3:同様にこちらに。