もうタイトルがすべて。本当にGoogle Datastudioのデータ集計機能はすごい。6万件余りのCovid-19に関するJag Japanさんのcsvデータを難なくグラフにしてしまえる!
以前、同じくCovid-19の日本における感染の状況をDatastudioで可視化させていた。この時のデータは厚労省のサイトから手で転記していた。
最近、スプレッドシートで半自動的にデータ取り込みが可能なことを知り、いくつかスプレッドシートを作った。
この大量のレコードを集約する機能を使って、都道府県別のCFRリスクと実際の死亡者数の比較ができるシートを作った。
しかし、これではあまりにハードルが高いようで使うづらいので、Datastudioに「移植」した。残念ながらDatastudioの制限で47都道府県では分析できず、各地方別の分析とした。いくつかパラメーターを変えて試してみたが、東京は特に陽性者数の割に死亡者数が少ない、東北はそもそも陽性者も少なく、死亡者も極端に少ないなど、発見があった。Datastudioなので多くの方に使っていただければ幸い。
https://datastudio.google.com/s/lX9p_Olhs6g
ついでに、年代別感染者数、ヒートマップ、マップ可視化などいくつかのページを作った。
https://datastudio.google.com/reporting/ef39eed9-4401-46fa-b532-ec33c0db4efd/page/8YycB
あまり説得力がないが、ちなみに、マップはプレゼン形式、動画形式で時系列表示してみてた。
改めて、Covid-19って東京の問題なのだなと痛感させられた。海外からの移転事例も、東京によって「増幅」されて初めて全国的な感染になったのだと。藤原かずえさんのご指摘が非常に刺さった。
とにかく、これらのグラフ等を一切プログラムを組むことなく作成できた。ヒートマップとして紹介したが巨大データでもピボットテーブルにしてしまえる。もちろん、「フィルター」としてスプレッドシートを使うのは有効だし、Google Apps Scriptでデータの整備をすれば更に有効な分析ができるだろう。ただ、プログラムレスだし、スプレッドシートではないため、「癖」はある。さらに言えば、スプレッドシートでは容易な二週間前、移動平均等時間を前後するデータ分析の方法は私には見つけられなかった。このため、リスク分析は本来二週間程度「ずらす」べきなところできていない。
最後に、データを提供いただいているJag Japanさん、東洋経済の荻原さん、三毛猫さんへの感謝を表明して終わりたい。
思いっきり依存させていただいておりまして・・・。もっとクレジットに記載させていただくのでは足りないほど感謝もうしあげております。https://t.co/HwdunroI7h
— ひでき (@hidekih) 2020年8月23日