JAPAN SYSTEMS Driving for NEXT NEW with Comfort and Convenience

オープンデータからの知見⑥(東京都江東区 機械学習編)

データを活用するためのソフトウェアの発展と、データを処理するハードウェアの低価格化が、より大量のデータ分析やより高度な可視化を可能にしています。組織においてはデータからいかに知見を得て活用するかということが課題になっているのではないでしょうか

当社でもビジネスインテリジェンスソリューションとして、いかにしてお客様が持つデータを有用な知見に変えるかということに日々取り組んでおります。本コラムでは誰もが利用できるオープンデータの可視化から、どのような知見が得られるかを試していきたいと思います。

第6回目はジャパンシステムの東京イーストオフィスがある東京都江東区のオープンデータから新たな発見や知見を得られるかチャレンジしたいと思います。

江東区は錦糸町、亀戸、深川地区などの古くからの下町と臨海副都心や南砂地区などの大規模高層マンション群による比較的新しい町がある地域です。また、築地市場の移転先としてメディアをにぎわせている豊洲市場も江東区にあります。

豊洲市場ばかりがニュースを賑わしていますが、江東区は2000年から2010年で8万人以上も人口が増えています。
8万人と言われてもピンときませんよね ^(・・?)。本コラム第3回目で取り上げた名古屋市中区の人口とだいたい同じくらいです。

2010年国勢調査(小地域)江東区町丁区分人口(データ出典:www.e-stat.go.jp

kotokuPoulation.png

これほど人口が増加している地域で人口構成がどのように変化したか興味ありませんか?
国勢調査の男女別5才階級人口データを使って見てみることにしましょう
2000年当時は江東区と日本全体の男女別5才階級人口構成はだいたい似たような形に見えますね

agePyramid2000.png
人口急増後の2010年は日本全体の人口構成の形に比べて出るところと引っ込むところがはっきりしてきたのではないでしょうか

agePyramid2010.png

いきなりですが「機械学習」という言葉を耳にしたことがあるかと思います。AI(Artificial Intelligence, 人工知能)や自動運転などの言葉と関連付けて記憶されているのではないでしょうか。人工知能や自動運転という言葉に比べると、機械学習という言葉はなにか想像がつきづらいと思いませんか?(私だけかも知れませんが)

今回はこの「機械学習」を使って、江東区とよく似た人口構成の市区町村を全国から探していきたいと思います。

2010年の国勢調査において市町村コードが5桁の年齢5才階級人口データを使用します。ちなみに江東区の市町村コードは「13108」です。5桁の市町村コードは1901ありました。

年齢5才階級「0~4才」....「75才以上」で16種類。加えて性別がありますので各地域に32種類の数値データがあります。このデータを「機械学習」を使ってコンピューターにグループわけしてもらいましょう。
bPPC11.png

まずは、1901の地域データを何個に分けるのが最適かを計算します。今回のデータは10グループに分けるのが良いとの結果が出ました。上のグラフは機械学習で10グループに分けられた1901の地域を主成分分析で計算された第1主成分軸(Dim.1)と第2主成分軸(Dim.2)上にプロットしたものです。

一口メモ:32次元あるとグラフ描くのややこしいですよね?これは32ある多次元のデータ(5才階級男女別人口)の次元数を主成分分析という計算手法で集約しています。集約された次元のうちの2つの軸を使って平面に可視化しています。

江東区がどこにいるかというと。。。
右下の水色のプロットグループ(cluster 03)にグループ分けされました。
bPPC12.png各グループの人口構成を箱ひげグラフで可視化してみましょう

clusterGroup.gif

江東区と似た人口構成を持つ地域「cluster 03」グループに属する地域を見てみましょう
境界線データ:国土交通省「国土数値情報(行政区域データ)」

clusterJP03.png

「cluster 03」に分類される市区町村は123地域でした。札幌、仙台、東京近郊、名古屋、京都、大阪、神戸、広島、福岡などの大都市部がグルーピングされているのがわかると思います。大都市圏外に1箇所、長野県の川上村がグルーピングされていました。(長野県 川上村をWEBで検索して調べたところ、とても裕福な村のようです)

機械学習で分類された全グループを見てみましょう

clusterJp.gif
先ほどの主成分分析においてピンク色のプロット「cluster 05」の周りを縁取るように江東区が所属する水色のプロット「cluster 03」が分布していましたよね

地図に重ねてみると大都市「cluster 03」とその郊外「cluster 05」という関係でした。人口構成は大都市部である「cluster 03」の方が男女ともに若い人(25〜34才)の人口割合が多いようです。

それぞれのグループに特徴があるのですが、「cluster 02」は特徴的ですね
cluster02.png

15〜19才の人口が一旦減り、20〜24才、25〜29才で増加している。また、地域分布が島に集中しているのもわかります。
「cluster 02」グループは人口構成や地域分布から以下の仮説がたつのではないでしょうか

「進学のために一度転出されて学問を修めたのちに戻られている」

いつか機会がありましたらこの仮説の証明を行いたいですね。

機械学習にはいろいろな手法があるのですが、今回は「教師なし機械学習」の「K-means クラスタリング」を利用しました。50年以上前に発表された計算手法なんですよ。もしよかったら覚えておいてください。

本文書記載の図は出典元WEBサイトで公開されているデータをジャパンシステム株式会社が編集加工したものです。

注意書き
国勢調査には未記載などによる「不詳」データがあります。
属性による集計値(年齢階層別の集計値など)は「不詳」データを含みません。
2010年の国勢調査における「不詳」の発生状況PDF

Adobe® Reader®

PDFファイルの閲覧には、Adobe® Reader®が必要です。

Adobe® Reader®のダウンロード

お問い合わせ