HPO機密日誌

自己をならふといふは、自己をわするるなり。

Datastudioのデータ集計機能はすごい!

もうタイトルがすべて。本当にGoogle Datastudioのデータ集計機能はすごい。6万件余りのCovid-19に関するJag Japanさんのcsvデータを難なくグラフにしてしまえる!

以前、同じくCovid-19の日本における感染の状況をDatastudioで可視化させていた。この時のデータは厚労省のサイトから手で転記していた。

最近、スプレッドシートで半自動的にデータ取り込みが可能なことを知り、いくつかスプレッドシートを作った。

hpo.hatenablog.com

この大量のレコードを集約する機能を使って、都道府県別のCFRリスクと実際の死亡者数の比較ができるシートを作った。

hpo.hatenablog.com

しかし、これではあまりにハードルが高いようで使うづらいので、Datastudioに「移植」した。残念ながらDatastudioの制限で47都道府県では分析できず、各地方別の分析とした。いくつかパラメーターを変えて試してみたが、東京は特に陽性者数の割に死亡者数が少ない、東北はそもそも陽性者も少なく、死亡者も極端に少ないなど、発見があった。Datastudioなので多くの方に使っていただければ幸い。

f:id:hihi01:20200823221819p:plain

https://datastudio.google.com/s/lX9p_Olhs6g

ついでに、年代別感染者数、ヒートマップ、マップ可視化などいくつかのページを作った。

f:id:hihi01:20200823221928p:plain
f:id:hihi01:20200823221946p:plain
f:id:hihi01:20200823222112p:plain
f:id:hihi01:20200823222134p:plain

https://datastudio.google.com/reporting/ef39eed9-4401-46fa-b532-ec33c0db4efd/page/8YycB

あまり説得力がないが、ちなみに、マップはプレゼン形式、動画形式で時系列表示してみてた。

docs.google.com

www.youtube.com

改めて、Covid-19って東京の問題なのだなと痛感させられた。海外からの移転事例も、東京によって「増幅」されて初めて全国的な感染になったのだと。藤原かずえさんのご指摘が非常に刺さった。

agora-web.jp

とにかく、これらのグラフ等を一切プログラムを組むことなく作成できた。ヒートマップとして紹介したが巨大データでもピボットテーブルにしてしまえる。もちろん、「フィルター」としてスプレッドシートを使うのは有効だし、Google Apps Scriptでデータの整備をすれば更に有効な分析ができるだろう。ただ、プログラムレスだし、スプレッドシートではないため、「癖」はある。さらに言えば、スプレッドシートでは容易な二週間前、移動平均等時間を前後するデータ分析の方法は私には見つけられなかった。このため、リスク分析は本来二週間程度「ずらす」べきなところできていない。

最後に、データを提供いただいているJag Japanさん、東洋経済の荻原さん、三毛猫さんへの感謝を表明して終わりたい。

jag-japan.com

twitter.com