[データ分析って何?]データは誰にでも必要、しかし、分かりやすくなければ意味がない

Python

  連日、バレーボールのデータ分析をしてる本ブログ筆者ですが、かつて業務として毎日のようにデー分析していたことと現在の行動は無縁ではありません。そして、データ分析歴が長い私には「自分のデータ分析は分かりやすさが特長」と自信を持って言えます。バレーの知識が皆無な方には少々分かりづらいと思いますが、バレーの知識のない人がそもそもこのブログに興味を持たないでしょう(笑)。

  バレーに興味があり、アタック効果率だったり、レセプション効果率が重要であることなど、バレーの基本が理解できていればこのブログは理解可能なはずです。つまり必要なのはバレーの知識だけで、例えば統計の知識とか、機械学習の知識とか、全く不要です。もちろん、バレーだけがデータ分析の対象ではなく、例えば営業活動分析にも同様な手法が使えます。

  私はデータ分析は分かりやすくなければ、意味がないと思っています。あらかじめ統計の勉強が必要になるようなデータ分析なら、何が起きるでしょう?そのデータ分析のユーザーが激減します。稀にしか存在しないユーザー向けのデータ分析に何の意味があるでしょうか?

正統派データ分析と我流データ分析

正統派データ分析の悩ましさ

  一般的にデータ分析と言うと統計学を土台にした分析手法と認識されています。本ブログでも表面的に用語は出さないにしろ、平均値やバラつきに触れています。しかしそれをもって、「このブログを理解するには統計学の基礎理解が必須だ」と思う人はいないでしょう。私自身も相手に専門知識を求める話し方が「良い」とは思いません。何故なら、伝える以上は、「多くの人に伝えたい」「心底理解して欲しい」と思うからです。その意味で、相手の専門知識を前提にしない話し方(専門用語を避けるなど)に合理性があります。

  そもそもデータ分析はゴールじゃなく、分析結果から「行動の選択肢」をより合理的に選択し、より良い結果を得ることが目的です。

  データ分析をしたAさん自身が分析結果のユーザーであるならば、どれだけ専門知識を駆使して分析し、専門知識を並べて分析結果を説明しても、何ら問題ありません。しかし、普通、データ分析をしたAさんと分析結果を利用するBさんは別人です。しかもBさんにデータ分析に関わる専門知識(統計学・多変量解析など)があることは稀です。一方、データ分析結果を利用する立場のBさんは、データ分析の対象(バレーボール、営業活動など)については精通し、高い専門性を持っています。逆にデータ分析者Aさんは、この領域については専門家ではないことが普通です。

  この関係を絵で表現するとこんな感じです(分析対象がバレーボールの場合)。

  データ分析結果には統計学、多変量解析手法からくる専門用語が散りばめられます。結果、データ分析を利用する側が、分析結果を理解するための努力(勉強)をする羽目に陥ります。本来の役割が、「分析結果の利用」であるのに、ふと気づくと「分析結果の理解(分析手法の勉強)」に多くの時間を割いている、という奇妙な状況に陥ります。いわゆる「手段の目的化」です。

  しかしこれがデータ分析の典型的なスタイルです。私自身もこのようなプロジェクトに「データ分析者」側として、参画した経験があります。従って「データ分析結果利用者」側が抱く不満を熟知しています。しかし、統計学・多変量解析を土台にしたデータ分析である以上、彼らの不満を解決することは恐らく不可能です。

  またこの記事を書く前にwebでいわゆるデータサイエンティストが多変量解析手法を利用し、バレーボールデータを分析、実在するバレーボールチームの強化ポイントを抽出する事例を読みました。その分析の結論は、

  (1) バレーボールの勝率を上げることに貢献する重要項目top5は、重要度順に、

    ① ブロック得点数向上
    ② アタック決定率向上
    ③ サービスエース率向上
    ④ アタック決定数向上
    ⑤ 被ブロック数の低減

  (2) 「レセプション効果率」の向上は勝率にあまり寄与しない。

  (3) 各項目強化による勝率向上度合いの定量的予測が可能

とのことです。バレーボールを知る人の感想は、「そりゃそうだろう」「ブロック得点力強化が1番効果的なの?アタック決定数じゃないの?本当?」「アタック決定率強化とアタック決定数強化を分けている理由は何?」「ブロック得点『数』とアタック決定『率』を比較するのは妥当なの?」「え!レセプションの練習しなくても大丈夫なの?」のような感じでしょう。『腹に落ちる』『納得』『なるほど!』と言う感じではなさそうです。

  おそらくデータ分析者が大量のデータ処理、統計学・多変量解析の厳密な運用に心と時間を奪われ、肝心の分析対象であるバレーボールの基礎理解にまで頭が回っていない部分があろうかと思います。私が携わったプロジェクトでも多かれ少なかれ、似たような問題があったかと思います。

我流データ分析のメリット

  そこで私は下図イメージの姿が、より良い結果を生むことが少なくないと考えています。

  つまり、分析者自身が分析対象の本質、分析に使用するデータの意味理解を最優先、専門知識を要する分析手法を使用することなく「データの見せ方」に集中。「データの見せ方」検討においては「分析結果利用者」の参画も求める。このようなインタラクティブなプロセスを経ることで、データ分析への「腹落ち」度が比較にならないほど改善します。統計学やら多変量解析の話など一切する必要が無いのが大きなメリットです。つまり分析対象のみに集中できる、と言うわけです。

  実は、本ブログで掲載しているバレーボールデータ分析もこのような思想に基づいております。

  「広義」と言うべきか「我流」と言うべきか迷うところですが、私に言わせれば「データ分析とはデータの見せ方」に尽きると思っています。「データの可視化」という言い方もありますが、データは何の工夫もなく、グラフやチャートで「可視化」できます。しかし「だから何?」で終わることがほとんどです(笑)。

  「データの見せ方」には「可視化」より踏み込んだ「意図」があります。それは「データに語らせる」というものです。データが語るものは誰かの意思や命令ではありません。ましてや、企みや罠が仕組まれたものではありません。実際に起きている出来事を当事者と共有し、取るべき行動に誘導させるため「データを見せる」ことがデータ分析の本質と考えています。

2つの「わかる」:「共感」と「共有」、データ分析の役割

  私は子供時代、どちらかと言うと引っ込み思案で物静かな少年でした。しかし社会人になると、そのスタイルを貫くことは「業務上の怠慢」とも取られかねません。下に書いたのは新入社員のころ、先輩たちから浴びた言葉の一例です。まだ昭和の時代です。今ではこのような言葉のやり取りを見ることはないかもしれませんが(笑)。

  ◆ 君の主観に興味はない
  ◆ 上司がそう言えと?君はどう思ってるの?君の考えが知りたい
  ◆ 君がそう思うに至った背景、筋道は何?

こんな感じです。考えてみれば「君の主観に興味はない」は今でも「ひろゆき」さんが言いそうですね。「それはあなたの感想ですよね?」でしたっけ(笑)?

  結構ボコボコにされてました(笑)。でも、おかげまっとうな社会人になれたわけで、感謝してます。ちなみに新入社員として配属されたのは技術部門なので、そこから来る特殊性もあったかと思います。日本人なのに、日本人的な曖昧さを嫌う雰囲気が間違いなくありましたから。

  今考えると「安易に『わかった』と言うな!」が毎日言われていたことと思っています。日本人的な「わかる」「わかった」は結構いい加減です。下記のような発言を聞いたことありませんか?

  ◇ 僕(A)はBさんが言っていることが良くわかります

とか。しかし、AさんはBさんの意見を代弁できるほど「わかっている」ことは稀です。
多くの場合、「(1) AさんはBさんに共感してる」に過ぎなく、「(2) AさんはBさんと意見を共有している」わけではないことがほとんどです。共感と共有ではえらい違いです。全く意味が違うにも関わらず、日本語では、ともに「わかる」で区別されません。

  意見を共有するとはBさんに代わって、AさんがBさんの意見を説明できることです。つまり、Bさんの意見はAさんの意見でもある、この状態を「共有する」と言います。共有可能な意見はどんどん、広がってゆき、間もなく「Bさんの意見」とすら呼ばれなくなります。組織内で求められるのはこのような意見共有に至るコミュニケーションです。共感を呼ぶコミュニケーションは不要です(笑)。

  共有可能な意見には次のような特徴があります。

  (1) 疑う余地のない根拠に基づいている
  (2) 疑う余地のない論理に基づいている
  (3) 誰かの意思、意図、意向、主張を含んでいない 

  データ分析は(1)を提供することに役立ちます。また優れた「データの見せ方」は自然に(2)を誘導します。また(2)や(3)を確かなものにするには、自由なディスカッションを促す健全な組織風土が必要です。私が経験した範囲では、ほとんどの組織が健全な組織風土を有していますが、稀にそうでない組織も存在します。そういう組織ではデータ分析は何の役にも立ちません(笑)。

データ分析無用の謎組織も稀にあります(笑)

  日本文化では、質問を控える傾向があります。英語圏では意見を述べたら「Why?」と質問されることが普通なのだそうです。なので質問に答えられるよう、自分の考えをまとめ時は、自問自答せざるを得ないですよね。技術者や企画担当者も自分の意見を説明する場面が多く、自問自答は日常です。理論武装と言う言葉が日常的に使われます。しかし、一般の日本人は質問されることが稀なので、ものを深く考えないで済んでしまっている人もいるのでしょう。そんな人の集まりで、かつ自由なディスカッションに対して前向きでない組織内では、共感と共有の区別がつかない人が少なくないかも知れません。

  私の場合、テレビを見てて人の発言を不思議に思うことが少なくありません。例えばあるタレントさんが少し前に「新型コロナの5類移行は言うまでもなく妥当。遅すぎる!」と眉間にしわを寄せ、強い口調で発言していたのですが、理由も述べずそう言い切ることに、私は大きな違和感を覚えました。

  「新型コロナの5類移行」にメリットがあるのはその通りだと思いますが、デメリットやリスクも当然あるはずです。日本のテレビ番組ではあまりメリット・デメリットを整理して、みんなでディスカッションすることは稀ですね。まるで誰かに忖度しているかのように、いきなり(誰かに都合の良い?)結論を押し付けられているような気分になります。ここ数十年、日本に元気がないのもそんなところからきているのではないかと疑ってしまいます。

「説明責任を果たす」とは情報・データ・ロジックを「共有」すること

  ちなみに新入社員当時の私の仕事は製品設計です。設計には膨大な意思決定を伴います。誤った意思決定をすると会社に大きな損失をもたらしますし、当然責められます。なので、理論武装しながら業務を進めなければいけません。

  またそこには「説明責任」も発生します。これに関しては設計部門に限った話ではありません。万一、自分の担当業務でトラブルが発生すると血相を変えて上司が説明を求めに来ます。

  「なぁぁんで『L』を選んだ?『M』を選んでおけばこんな問題は起きないはずだろ!?」

  「(検討資料を見せながら)今回の製品で『M』を選択した場合のリスクが大きいことに気付き、『L』を選択しました。今回の問題発生リスクにも気づいており、その場合『m』の追加で対策可能と考えています。」

  「分かった!いっしょに部長に説明に行こう!」

  当然組織として仕事をしていますから、情報・データ・ロジックを共有する必要があります。共感や共鳴では組織が組織として機能しようがありません。感性や主観は共有することはできません。感性や主観は必ず「Aさんの感性」「Bさんの主観」と「誰の〇〇」と必ず「所有者」が存在します。逆に言えば「共有できない」ことを意味します。共有できないモノは伝達もできません。

  よほど小さな会社なら「社長が全責任を負って」、と言うことも有るかもしれませんが、その決断によっては社員の給料やボーナスにも影響します。そもそも「責任を取る」ってどういう意味なんでしょうね?怪しい日本語ですね(笑)。社員の給料やボーナスが絶対に減らないように、未来永劫会社が繁栄することを保証するってこと?そんなことは不可能です。できることは最善を尽くす、ということです。それは社長が一人で決断することとイコールではないでしょう。

  せっかく社員と言うリソースがあって、そこからの知識や知恵が期待できるなら、最大限に活用すべきですよね。三人寄れば文殊の知恵っていうじゃないですか。それこそ最善を尽くす、と言うことですよね。その場面で、情報・データを共有、ロジックを練り上げ、最善の選択肢を見つけ出す、と言うのが健全な組織でしょう。

  しかし、漫然と情報・データを共有してもなかなか良い知恵が湧いてくるものではありません。仮に問題がバレーボールの試合や営業活動のような法則性・経験則のあるオペレーション改善であれば、「データの見せ方」を工夫することで、答えが瞬時に出てくる可能性があります。これこそデータ分析の真髄です。

  例えば先日別記事で、バレーボール女子のトルコチームと日本チームの得点パフォーマンス分析チャートをお見せしました。再掲します。上がトルコチーム、下が日本チームです。トルコチームではバブルの並びが右上がり、日本チームでは右下がりと逆になっていますよね。どちらが合理的かと言うと、「右上がり」、つまりトルコチームの戦術のほうが合理的なのです。その合理性を検証する情報もこのバブルチャートに盛り込まれています。

  勝率を高めるべく、日本チームは戦術を見直す余地があります。このように凝った分析をするまでもなく、工夫次第で直ぐに改善ポイントが見つかるデータの見せ方ができます。

  下のチャートの詳細については、本ブログ記事を参照ください。

  もちろん、統計学・多変量解析に基づいたデータ分析が必須の問題もあるでしょう。しかし、そうではない場合において、統計学・多変量解析の利用が問題解決をむしろ遅らせたり、活動を徒労に終わらせることすらあります

  「そもそも何が目的なのか?」が肝心なのですが、往々にしてここがおろそかになります。目的を明確にしたうえで最適な手段を講ずる、というのがあるべき順番ですが、往々にして手段の選択が先行しがちです。

肝心要は目的の明確化

警戒すべきは「手段の目的化」

  組織が大きな問題に直面しているとき、やるべきことは明確です。例えば客先に納品した機械が故障し、お客様に大きな損害が発生したような場合、組織全体に危機感が共有され、設計部門・品質保証部門・製造部門・営業部門など関係部門が綿密に連携をとり、問題解決に向け速やかに行動します。一方、通常業務から外れ、複数部門から人が集まる「〇〇プロジェクト」のような活動においては、しばしば目的がぼんやりしがちです。

  2023年6月現在がどうなのかよくわかりませんが、定期的に「データ活用の重要性」が言われ、時折「ブーム」にすらなることがありました。最近ではChat-GPTが大ブームですね。実は私も愛用しています。主に「ググる」代わりにGPT君に相談します。結局うまくいかないことも有りますが、「ググる」しかない状況に比べ、はるかに知りたいことに早く到達できたり、早く問題解決できたりします。

  しかし、データ活用にせよ、Chat-GPT利用にせよ、問題解決や改善の「手段」に過ぎません。そもそも「どんな問題を解決するのか」「何を改善するのか」といった目的を定めることなく、

  ◇ (Chat-GPTを使って)業務改善しよう
  ◇ (データ活用して)売上拡大しよう

みたいなプロジェクトが始まると警戒が必要です。上記のカッコ内はあくまで手段に過ぎないのですが、スポットライトが当たりがちです。しばらくすると自分たちが何をしようとしているのか分からなくなります(笑)。「手段の目的化」に要注意です。意識的に、定期的に目的を再確認する必要があります。

「凝った手段」には特に要注意

  特に「手段」が凝ったもの(多変量解析とか)になるほど、その学習に時間がかかってしまって、気が付けば「多変量解析勉強会」になってたりします。これも「手段の目的化」ですね。

  「難解なもの=価値あるもの」という錯覚が起きがちです。難解なことと、価値あることとは全く別なことなのですが、ふと気づくと難解なことを必死に理解しようと頑張ったりします。難解なことを理解しようとすると自ずと時間がかかります。時間をかけて必死に頑張るうち、それが「価値あるもの」に見えてきてしまうのです。

  これ結構やばいです(笑)。凝った手段ほど「手段の目的化」への入り口になりがちです。趣味でやってるなら良いですが、仮にも給料もらって取り組んでるプロジェクトです。意識的に、定期的に「目的、何だっけ?」と互いに声掛けが必要です。

日本のデータ活用の伸びしろ

マスメディアによるデータの見せ方

  毎日ニュースやワイドショーなどで様々な情報、データが提供されていますが、言語あるいはテキストを媒体として提供されることがほとんどで、図表などを使って伝えられることは少ないです。「本日は1ドル143.83円で円安が進んでる」と言われて「143.83円だから円安」と理解できる人は少ないでしょう(私は結構気にしてるのでわかるのですが)。

  やはりチャートで見せてもらわないとピンときませんよね。しかも、1年スパンでもピンとこないんで5年スパンぐらいで見せてもらわないと。。5年スパンでドル円チャートを見ると凄いことになってることに気付きます。もしかして誰かの意向で「真の現状」を国民に見せないようにしてるのでは?と疑ってしまいます。ま、単純に「データの見せ方」が下手なだけなんでしょうけど。

  2020年からの新型コロナのせいである程度マスメディアによる「データの見せ方」は改善されたと思います。新型コロナの初期のころは「本日の感染者数は昨日の90%ほどで減少しています。」とか平気で言ってましたよね。1週間周期で感染者数の増減があることが分かってるのに、そういう伝え方じゃダメですよね。「先週に比べて」という伝え方に切り替わのに、随分時間がかかりました。

  最近のコロナに関しての「データの見せ方」はだいぶ洗練されて来てると思います。しかしその進化がドル円レートとか物価については、活かされることなく「円安が進行している」「物価が高騰している」と言葉で伝えることがほとんどです。

  私が会社で何かを説明するときは必ずPowerPointにexcelで作成したチャートを貼り付け、データを参照しながら説明していました。データを参照せずに話すと、「え?主観で語ってる?」と疑われますし、データの見せ方が下手だと、あくびされます(笑)。世間一般から見るとデータ活用に厳しい会社だったんだと思います。

新型コロナの(洗練された)データの見せ方

  新型コロナに関しては「データの見せ方が洗練されてきた」と申しましたが、今、NHKのサイトを見てみました。洗練されたと言ってもまだまだ伸びしろがあります。伸びしろとして、下記のようなことを感じました。

 (1) 同じページに新しい情報(2023年6月23日 )と古い情報(5月8日 )が混在していて誤解を招きやすい。

 (2) 「都道府県ごとの感染者数」は「直近1週間の人口あたり(*1)の感染者数」だけで良いのでは? 
    ※人口の多い東京や大阪の感染者数が多いのは当たり前。
    ※1年前、2年前の感染者数まで含む「累計」は無くて良い。
  注(*1):または、「1医療機関あたり」

また、よく似たチャートが大量にあると分かりづらいため、チャート点数を絞るか、似たチャートを近くに配置し、それぞれのチャートの違い、関係を分かりやすく表示する、などの配慮が欲しいところです。

  ちなみに私の会社時代の役割は企画策定であり、データ分析だけやっていたわけではなく、企画の意図や妥当性をデータ分析で裏付けていたという関係です。従って、チャートは作れば良いというものではなく、分かりやすく説得力があることが肝心と心得ていました。NHKがどうか分かりませんが、組織によってはチャート作成は「データ分析の専門家」に任せるところもあろうかと思います。特に近年、「データアナリスト」「データサイエンティスト」と言う言葉が一般化し、データ分析の専門化が進んでいるように見えます。しかし、データ分析自体はあくまで手段であり、データ分析という道具あるいは部品を使って何かを組み上げる人と、データ分析する人が別人というのは、目的を達成するうえで阻害要因になり得ます。特に人にモノを言うのに遠慮がちな、日本人の場合は。

  そこで、上記のデータ分析に凝った手法を使用しない「我流データ分析のメリット」という話に繋がってゆきます。

情報を伝える媒体(言語・図表)について

百聞は一見に如かず

  下記は東京新聞のwebサイトから引用させていただいたコロナ感染者数の表です。

  東京新聞は、他新聞が「今日のコロナ感染者は昨日から〇〇人増え、XX人となりました」なんて残念な使え方をしていたころ、いち早く上の表を導入しました。各日の感染者数にプラスして、対前週からの変動も「+24」等と表示し、パッとこの表を見ただけで感染者が少なくとも2週間増加し続けていることが分かります。また感染者数の1週間周期の変動も踏まえて、カレンダー形式の表にまとめています。私はこういうことこそデータ分析の第1歩と考えています。極めて素朴な表にも見えますが、非常にスマートで頭良いと思います。

  この素朴な表ですが、この表が持つ情報を言葉で伝えることは可能ですか?可能か不可能かと言えば可能でしょう。しかしかなりの長文になり、伝えるのに時間がかかります。時間がかかりますので、聞き手(読み手)は話を聞き終えたころには前半部分は全て忘れています(笑)。また話を頭の中で整理し、上の表の内容として理解できる聞き手は天才的頭脳の持ち主でしょう。おそらく、そんな人いないと思われます。

  つまり、この2次元上に数値を配置しただけの表は言語に比べて極めて優れた情報媒体なのです。また、一般的なグラフ、チャートと呼ばれるものも同様に優れた情報媒体なのです。「百聞は一見に如かず」と言いますが、このような事例でもこのことわざの意味を説明できます

  逆に言葉というものが、情報伝達手段として極めて弱いものであることを認識すべきです。

図表・グラフ・チャートも工夫次第

  言語に比べ、かくも優れた図・グラフ・表ですが、コロナの収束傾向もあり、我々の日常の中で見る機会は少ないと思います。おそらく、「情報の受け手にとって、言葉のほうが分かりやすい」「情報発信側にとって、分かりやすい図表作成にはそれなりの手間がかかる」ことなどが理由と思われます。新型コロナなど、長丁場で統計を扱い続ける必要性が生じたときに整備される程度でしょう。

  一方、社内でのコミュニケーションでは、データなしにだらだら文章書かれても「何これ?」って扱いになりませんか?私の経験ではそうなりました。「君の主観には興味ない」「徒然なるがままに何を語ってるの?」って感じです(笑)。

  データは通常、数表やチャートで表示します。文章の中にデータを散りばめる手もありますが、それではデータが可視化されません。しかし、チャートや数表はむやみたくさん作っても、どう解釈していいのか、読み手を悩ませるだけのことも少なくありません。私がいた部門内でも「むやみにたくさんの」チャートが量産されているのを見たことがあります。

  チャートは通常二次元の情報を持っていますが、仕事(製品計画とか)おするうえで、必要なデータは膨大です。膨大なデータを二次元のチャートに埋め込む考えで行きますと膨大なチャートが必要になります。膨大なチャートは、データの受け手の頭を混乱させます。「たくさんチャートあって、一つ一つが言ってること分かるけど、総合すると何?」って感じです。

  そこで分かりやすくする工夫が必要になります。例えば新型コロナ感染者数のチャートの直下に同じ時系列の重傷者数チャートを配置するとか、チャートの並びかたを工夫するだけでも随分分かりやすくなります。また同じチャート内に感染者数と重傷者数をまとめてしまうとかすると、感染者数から少し遅れて立ち上がる重傷者数など両者の関係も読み取りやすくなります。また本記事で例示しましたバレーボールの「得点パフォーマンスチャート(バブルチャート)」はアタック効果率、アタック打数、総得点数という互いに関連性のある3次元ののデータを持たせ、かつ複数選手のデータを1枚のチャートに埋め込むことで、トス回しの改善ポイントが見えてきたりします。また3次元のデータを持たせられるため、チャートの数も減り、分かりやすくなります。

  つまり、チャートの設計次第でデータ分析の成果が大きく左右されるのです。このブログでは、当面バレーボール分析を題材にさらに気の利いた分析手法(データの見せ方)を提案してゆくつもりです。読者の方で何か感じるものとかあれば、ご指摘いただけますと幸いです。

バレーボールランキング にほんブログ村 その他スポーツブログ バレーボールへ バレーボールランキング にほんブログ村

  

タイトルとURLをコピーしました