JAPAN SYSTEMS Driving for NEXT NEW with Comfort and Convenience

オープンデータからの知見11(訪日外国人編)

データを活用するためのソフトウェアの発展と、データを処理するハードウェアの低価格化が、より大量のデータ分析やより高度な可視化を可能にしています。組織においてはデータからいかに知見を得て活用するかということが課題になっているのではないでしょうか。当社でもビジネスインテリジェンスソリューションとして、いかにしてお客様が持つデータを有用な知見に変えるかということに日々取り組んでおります。本コラムでは誰もが利用できるオープンデータの可視化から、どのような知見が得られるかを試していきたいと思います。

さて、訪日観光客が近年急増しているというニュースを聞かれることが多くなったのではないでしょうか。当社では旅行業不正検知共通プラットフォーム「JIRSTA」(クレジットカードの不正取引を防ぐための仕組み)の運営も行っております。「楽天トラベル」「じゃらん」「一休」などのサイトが当社のサービスを利用しているんですよ。
プレスリリース:「旅行業界、共同で不正利用対策を強化 〜ジャパンシステムが旅行業不正検知共通プラットフォーム「JIRSTA」を運営」

今回は訪日外国人に関するオープンデータから何か新しい発見や知見が得られるかにチャレンジしたいと思います。

まずは訪日外国人の推移を見てみましょう。2015年に入国する外国人(グラフ赤線)が出国する日本人(グラフ緑線)の数を上回り昨年2016年には2300万人となりました。(データ出典:法務省入国管理局)


inOut.png

ではどちらの国から沢山いらしているのでしょうか?ご存知の方は静かにしていてくださいね
inboundHC2016.png

答えはもちろん中国です。「爆買い」という新語ができるほどの社会現象もありましたね。中国は人口が飛び抜けて多いので国別で比べるにはちょっと不公平ですよね、そこで次は人口1万人ごとの入国者で比較してみます
inboundHCPerPopulation2016.png人口1万人あたりで比べると、1年で人口の10%以上の人数が訪日する国(韓国と台湾)を除いては、ほとんどの国が薄い色になってしまい違いがわからなくなってしまいました(._.)

もう少し詳細なデータを使って国別の特徴を探していくことにします。法務省が公開している入国外国人データには年令や性別といったデータがあります。本コラム6回目の東京都江東区編で紹介した機械学習による年令性別パターン分類で分類してみます。

2006年からの入国外国人データを年令性別パターン分類して、分類したパターンに当てはまる年が何回あったかを示しています。(東ヨーロッパ、中東、アフリカの国々のデータについては2013年からの4年分のみです)

inboundClusterAnime.gifデータは約30000個の数字の羅列なのですが、北朝鮮とイスラエル、モナコからの入国者のみが示すまれなパターン(高齢者の比率が多いcluster 9)もスッキリ見分けてくれます。このような機械学習の技術は当社が運用する旅行業不正検知共通プラットフォーム「JIRSTA」でも大活躍しているんですよ。

入国外国人の滞在期間についても機械学習でパターン分類してみましょう。出国時の滞在日数の年毎のデータをパターン分けして、分類されたパターンに当てはまる年が何回あったかを示しています。こちらのデータは東ヨーロッパ、中東、アフリカについても2006年からのデータがありました。

inboundStayPeriodClusterAnime.gif

もう少し詳しく見てみましょう。滞在日数パターン間の移動の動線を図表化したものが下図です。2012年以前は「cluster 1(滞在期間5日以下が多い)」と「cluster 2(滞在期間6-10日が多い)」の間を大きな流れが行ったりきたりしているのが見て取れます、近年は「cluster 2」に流れが集まっていますね。

この図は「サンキーダイアグラム」と呼ばれていて流量と遷移を可視化するのによく利用されています。「サンキー」は考案したサンキー(Sankey)さんのお名前だそうです。Google Chartsのサービスを利用するとインタラクティブなグラフが作成できます。もしよろしかったらマウスでグラフ上をクリックしてみてください。

遷移が多すぎてクラクラしちゃいますよね、「サンキーダイアグラム」から時系列の要素を取り除いて「ベンダイアグラム」にしてみてみましょう。ずっと同じパターンにいる国は「cluster 1」の13カ国、「cluster 2」の11カ国、「cluster 4」の6カ国しかありません。多くの国は年によって滞在日数のパターンが変わっているのですね。「ベンダイアグラム」の「ベン」は考案したベン(Venn)さんのお名前だそうです。
stayPatternClusterVenn.png

今回は訪日外国人に関する公開データの中のいくつかを可視化してみました。
なにか新しい発見はありましたでしょうか? 間近に迫った東京オリンピックではたくさんの外国の方に来ていただき日本を楽しんでもらいたいですね(^-^)/

本文書記載の図は出典元WEBサイトで公開されているデータをジャパンシステム株式会社が編集加工したものです。

Adobe® Reader®

PDFファイルの閲覧には、Adobe® Reader®が必要です。

Adobe® Reader®のダウンロード

お問い合わせ