withコロナの時代を乗り切るために、正しいデータ活用で正確な洞察を得よう
世界経済が劇的に変化するなか、不動産ビジネスも土台から大きく変わろうとしています。
withコロナの不確実性が高い時代を乗り切るためには、データを正しく活用して、正確な洞察が必要となります。
この連載では、テクノロジーに関する深い知識がなくとも、AI・データ活用の考え方や事例を学びたいという方に向け、データの解釈の仕方や、機械学習を活用したインサイトの発見など、AIの基礎と実ビジネスへの応用を紹介します。筆者の仙石裕明さんは麗澤大学AIビジネス研究センター准教授、東京大学空間情報科学センター客員研究員として、高龍野さんは東京大学大学院経済学研究科に所属して、それぞれデータ解析の研究中です。(リビンマガジンBiz編集部)
緊急事態宣言の5月いっぱいまでの延長が公表されました。コロナの世界的な収束まではまだ当面の時間がかかるといわれ、先の見えない情勢が続きそうです。日々さまざまな情報が行き交い、社会全体において不安やストレスが蔓延していることが伺えます。しかし、こうした時だからこそ言論に左右されず、客観的なデータに基づいて自分の頭で判断・行動していく力が求められているのではないでしょうか。
その代表的な例は、台湾政府の対応です。台湾政府は中国でのコロナ感染報告があった2019年12月末という早期に独自の調査を開始し、感染拡大を抑止したことが話題になっています。マスクの配布方法や公共交通機関利用時の検査体制の徹底など、データに基づく現状把握と対策で強いリーダーシップを発揮しました。過去に発生したSARS感染を教訓に、データの特性を捉え、起こりうるリスクの認識と行動をとることができた良い例といえるでしょう。
企業というレベルにおいても、従業員の在宅ワーク方針の策定や融資の申請など、臨機応変な対応を早期にとれているか次第では、活動の生産性が大きく異なってくるでしょう。必ずしも政府からの救済措置を得られるとも限られないなか、今後の見通しを立てるためにも客観的な判断材料としての指標を持つことが重要です。
本記事では第一線で活躍するビジネスパーソンがデータを解釈し、インサイト(物事を見抜く力)を得る基礎的な素養を身につけることを目的とし、具体例を示していきたいと思います。
第1回は、COVID-19感染拡大が民泊業界へ与える影響をデータから読み解いてみたいと思います。
図 東京23区におけるAirbnbホストの分布(筆者作成)
(東京23区におけるairbnbホストの分布。新宿駅北部や上野〜浅草間において集中していることが確認できる。)
データについて
普段、私達が分析するオープンデータの1つとして、Inside Airbnbというデータセットがあります。本データセットはAirbnb(エアービーアンドビー)における民泊に関するデータを定期的に集約し、公開したものです。宿泊所や予約状況に関する情報が蓄積されています。
● 対象期間 : 2020年2-12月
● 対象地域: 東京都全域
● 対象件数: 13,132件
コロナ感染拡大に伴う民泊への影響
1. Inside Airbnbでは約1ヶ月毎に予約状況データが公開されます。本記事では2019年12月29日、2020年1月29日、2月29日、3月22日に公開されたデータを利用しています。
月別の宿泊予約データをみていきましょう。このグラフには、2019年12月29日時点、2020年1月29日時点、2020年2月29日時点の予約受付状況 がプロットされています。2019年12月29日時点のデータでは、2月頭時点の予約率は約6-7割でした。1カ月後の2020年1月29日時点では、直前であるにも関わらず約2割も予約率が落ちています。
2月第1週の予約率
2019年12月29日時点 6割
2020年1月29日時点 4割
並行して感染者数の推移データを見ていきましょう。2019年12月29日時点では、中国においてもまだ感染者数は少数であり、コロナ感染が発生する前の状況と大きな変わりはなかったといえます。2020年1月29日時点では中国における感染者数は4桁台にまで増加したことが確認できますが、他国においてはまだ感染者数があまり発生していませんでした。このことから、さきの2月第1週の宿泊予約者の減少は中国人観光客のキャンセルによるものと考えられます。
感染が各国に拡大した2020年2月29日時点では、稼働率は3割程度まで落ち込んでいます。この時点では、まだ外国人観光客の宿泊があったことが考えられます。
3月後半に入り、米国や欧州諸国における感染者数が1万人を越え始めた段階の2020年3月22日時点のデータを確認すると、3月末の週では稼働率が約2割強まで下落しています。海外からの旅行客数は激減しているため、日本人の国内旅行者による宿泊と考えられます。
(WHO公式資料はこちらから)このように、予約状況データと感染者数データには、時間差がありながらも、原因と結果の関係が考えられます。実際に因果関係の有無や効果の大きさを確かめるには、統計的な分析によって検証していきます。
東京オリンピック延期決定前の予約状況について
もはや言うまでもありませんが、COVID-19は東京オリンピック開催に甚大な影響を及ぼしています。オリンピックが延期になる前の予約状況に注目し、もともとの開催予定日であった2020年7月24日(金)~8月9日(日)の予約状況をみていきましょう。
やはりオリンピック開催期間の7-8月においては、半年以上先にも関わらず、稼働率が劇的に高いことが確認できます。
しかし、2019年12月29日、2020年1月29日、2月29日、3月22日と時間が経つにつれて予約状況が落ちていることが確認できます。コロナ感染が拡大するに従って、利用者側のキャンセルやホスト側の受入中止があったことが考えられます。
感染拡大前の2019年12月29日と感染拡大後の2020年3月22日時点の稼働率を比較すると、約13~15%の下落を確認できます。オリンピック延期が決定した時点の情報はここには入っていませんが、大幅な需要下落が起きていることは想像に難くありません。
データ解釈から仮説構築へ
ここまでデータを眺めながら、解釈の一例を紹介してきました。「あれ、こんな程度で良いの?」と思われた方もいらっしゃるかもしれません。もちろん、これだけで今後の方針がみえてくるわけではありませんが、このプロセスは決して省略することができない最初のステップです。「ファクトから思考せよ」と言及しているビジネス書がありますが、まさにファクトを整理し、判断の出発地点を持つステップであるといえます。
私達は無意識のうちに、見たいものを見たくなるといった傾向があり、時に大きなバイアスとなってしまうことがあります。たとえば、業界に長く携われる方であれば、長年培われた土地勘や同業種の関係者との情報交換から得た知見に富んでいるかと思います。当然、そうした知見がそのまま当てはまるケースもあるかもしれません。しかし、今回のコロナショックのように刻々と状況が変わる情勢においては当てはまらなくなってしまうことがありえます。また、情報交換から得られた情報においても既にバイアスがかかっており、事実とは異なる場合もありえるでしょう。ファクトとなりえるデータから客観的な解釈を得ることが、正しい判断と行動を導くために求められます。
もう1つ見落とされがちになる点として、データを確認する際においては信頼できるソースから公開されているデータであることや、可能な限り加工がされていない生データに近い状態のデータを扱うことも重要です。
こうしたプロセスを経て、得られた解釈があってはじめて、仮説を構築していきます。先述の宿泊予約を例にすると、感染者数が増加すると、稼働率が減少するという解釈が得られます。この逆相関の関係に注目し、たとえば、「宿泊予約件数によって宿泊予約数を説明することができそうだ」という仮説を得ることができます。
この例はいささかシンプルすぎますが、現実ではさまざまな変数が複雑に絡み合い、定量的に示すことが難しい場合や、社会経済現象では実際に扱うことができるデータにも限りがあることが少なくありません。仮説に基づいて限られたリソースのなかで、具体的に行動していくことが求められます。統計解析を経て、検証が出てきたところから、今後のインサイトにつながっていきます。
以上はデータから解釈・仮説を得るプロセスについて説明しました。実業で成果を上げてきた第一線のビジネスマンほど自身の経験や勘に自信を持ち、仮説ありきで判断・行動してしまうことが少なくありません。遠回りのようにみえるかもしれませんが、こうした土台がないことには組み立てた仮説や計画も根底から崩れ去ってしまいかねません。データサイエンティストといわれる職種は、まさに日々こうした生データと向き合いながら、解釈や仮説を紡ぎ出していきます。こうしたプロセスの先にAIサービス実装が行われています。