はじめに
筆者は統計学を勉強中の身であり、専門家ではありません。学習中に気になったことを実際のデータに当てはめて理解を深めていくことを目的として記載しています。
きっかけ

最近、”高齢者”が事故を起こすことが多いから免許返納を進めていくべきだ!というような意見をよく耳にするようになりました。
ちょうど、前回、前々回の記事で交通事故のデータを扱った検証をしていたので、この機会に検証してみることにしました。
交通事故の件数はポアソン分布に本当に従うのかを実際に検証してみた
従来の統計手法と何が違う?交通事故の予測をベイズ統計を用いて検証してみた
扱うデータ
本稿では、2021年の交通事故データを利用し、事故の発生件数(負傷者や死亡者の発生件数)を分析します。
警察庁Webサイトで公開されているオープンデータ(2021年)
それぞれのカラムの傾向を見てみる
オープンデータにはかなり多くの情報が入っており、みるだけで一苦労です。
とりあえず、全体的な傾向をまずは見てみようと思います。
それぞれのカラムの説明はこちらに記載されています。量が多いので、傾向がありそうなところだけ、後で見てみることにします。
私が見ていて気になった点はこちらです。
- 都道府県コード別で傾向がありそう
- 事故発生の日にちは傾向なさそうだけど、発生月と発生時間は傾向がありそう
- 天候や地形も傾向が見えそう
- 年齢は高齢者よりも40-50代がボリュームありそう

気になった要素でヒートマップを作ってみる
ヒストグラムだけでは、まだ情報量が少ない為、2つの変数を掛け合わせて傾向を見てみたいと思います。
発生月と発生日ではそんなに傾向はわからない
強いてあげると、10月~12月前半らへんまでが少し濃いところが多い気がします。

時間別で見ると、6時~8時、16時~18時が”魔の時間”といえそう
特に夕方の時間だと10月〜12月にかけてが多いことがわかります。

年齢は45歳×10月~11月が最も危険
どの月でも変わらず、45歳前後の事故が多いことがわかる。また、この中でも10-12月が全体的に色が濃いことがわかります。

晴れの日の方が事故りやすい
驚いたことに、雨や雪の日よりも晴れの日が圧倒的に事故の数が多いようです。
時間別で見ると、やはり朝方と夕方に事故が多いですね。


事故の大半は市街地で発生している
天候や年齢に関わらず人口が集中しているエリアで発生しているようです。



まとめ
今回は、交通事故のデータを用いて、どのような傾向があるのかを可視化してみました。この可視化したデータを持っても、人によって解釈は様々に分かれますが、私の解釈としてまとめてみます。
- 事故数は高齢者よりも45歳前後が1番多い
- 朝方と夕方が1番事故発生している
- 10月~11月に多い傾向
- 晴れの日で市街地が多い
この背景にはたとえば、朝の通勤ラッシュや季節の変わり目で暗くなりやすくなるなど、このデータだけでは見えない因子(影響)が隠れており、一概に上記が全てだと言うことはできません。
しかし、1つの事実として、世の中に出回っている情報との乖離や、事故が起きやすい時間、時期を把握して対策をするには十分使えるデータとなると思います。
次回はもう少し、統計を用いた検定などを踏まえながら、数字を用いた検証を行なっていきたいと思います。
追記1:因果推論をしてみた
年齢ごとの影響や都道府県ごとなどの変数間での影響を見る手段の1つとして、因果推論を実施してみました。
因果推論とは
因果推論とは、ある要因が他の要因によって引き起こされる効果を明らかにすることです。重回帰分析による因果推論では、結果の変化に寄与する要因を統計的に評価します。
今回は、交通事故のデータなので、事故が発生しているデータのみとなります。そのため、交通事故に寄与しているかどうかと言う検証はできません。(交通事故を起こしていないデータがないため)。そのため、解釈には注意が必要ですが、交通事故を起こした中でも、死亡者が発生する重大な事故かどうかを因果推論を用いて検証してみました。
因果推論の結果(年齢)
因果推論の見方はシンプルです。重回帰分析を実施して、その時の回帰係数(coef)がその因子の影響度ということになります。通常の回帰分析では、当てはまり度(Rなど)を見ますが、因果推論においては、回帰係数ごとのP-値(意味のある値かどうか)だけをチェックします。
下記は有意水準5%で有意となった回帰係数のうち、年齢に関するものだけピックアップしたものです。
これまでのデータの結果から40代が1番高いかと思っていましたが、70代が1番高く、60代と比べて3倍ほど死亡事故につながる確率が高いことがわかります。

因果推論の結果(都道府県)
下記は5%水準で有意だった都道府県のうち、ワースト5と、トップ5を出したものです。
※死亡者数に寄与するので、回帰係数(coef)が高い方が悪いという見方となります。
ワースト5のコード
- 11: 北海道(函館方面)
- 13: 北海道(釧路方面)
- 14: 北海道(北見方面)
- 70: 鳥取
- 52: 福井

トップ5のコード
- 95: 宮崎
- 54: 愛知
- 91: 佐賀
- 49: 静岡
- 42: 群馬

交通事故が発生した中でも、重大な事故につながる可能性がここの因果推論では表現されていると考えられるので、そもそも母数となる交通事故数が少ない方が、1件の死亡事故の影響を大きく受けてしまう可能性もあり、上記の結果はなんとなくそのような傾向がありそうです。
比較する際の各都道府県でのサンプルサイズを調整するなどの対策が必要なようです。
追記2:サンプルサイズを調整して因果推論をしてみた
追記1で因果推論を実施してみたのですが、そもそもの事故数の件数が違うため、因果推論も影響を受けてしまっている印象を持ちました。
そのため、今回はサンプルサイズをランダムに削減して1番最小の都道府県(591件)に合わせて再度、因果推論を実施してみました。

因果推論の結果(年齢)
実施した結果、10%水準でも有意となる回帰係数がありませんでした。


因果推論の結果(都道府県)
今回はワーストでも、マイナスの寄与へと変わっていました(前回はプラス)
なんとなく肌間があっている?といっては主観的となってしまいますが、このようなワースト5となりました。
- 30: 東京
- 48: 長野
- 62: 大阪
- 50: 富山
- 95: 宮崎

こちらがトップ5です。
- 54: 愛知
- 41: 栃木
- 24: 山形
- 49: 静岡
- 42: 群馬

ワーストとトップとの違いは0.007で、比率で表すと1.53倍という結果になりました。