革命的!「ChatGPT Code Interpreter」を使ってみた!(2)——[バレーボールデータ分析]VNL2023女子代表13試合データ分析

ChatGPT

  前記事で「ChatGPT Code Interpreter」を紹介しましたが、引き続きVNL2023女子代表13試合データを対象に「ChatGPT Code Interpreter」を利用したデータ分析をしてみましたので共有します。 

  ちなみに、本ブログ筆者はたまたまデータ分析ヲタクなので、「ChatGPT Code Interpreter」を使って、もっぱらデータ分析していますが、「ChatGPT Code Interpreter」の用途はデータ分析に限られません。ご興味があればググってみてください。

  ところで、本ブログ筆者がデータ分析好きなのは、

  (1) かつて業務の一貫として馴染んできたから(知識・スキル)
  (2) データ分析に基づき説明することで、納得いただけることが多いから
  (3) 自分の考えが整理でき、かつ誤りがないことを確認できるから
  (4) データ分析の過程で視野が広がり、他者の意見も理解しやすくなるから
  (5) 協議の場に「科学的態度」「客観性重視」「誠実さ」「尊重」の空気を作り出せるから

などのためです。ミーティングや会議などで、時に対立的な空気が流れることがありますが、そのような悪い流れを防止することにデータ分析は、大変役立ちます。

「ChatGPT Code Interpreter」に依頼したこと

  今回、下図のようなデータ表を「ChatGPT Code Interpreter」にアップロードし、相関分析を依頼しました。このデータ表はVNL2023女子代表13試合からのものです。

  データの形式は「自チームの攻撃/守備データと相手チームの守備/攻撃データ」を1行にまとめたものです。例えば日米戦ならば、「自チーム=日本」とした1行と「自チーム=米国」とした1行で2行のデータが得られます。従って、13試合で合計26行のデータとなります。(この説明が分かりづらいようでしたら、下図のデータ表をご確認ください。)

  また「セット当たり」の値を使っているのは、試合ごとにセット数が異なっているためです(3セットで終わる試合もあれば、5セット目まで進む試合もあります)。今回相関分析をするわけですが、「アタック得点合計」と相手チームの「ブロック得点合計」はともにセット数が多いほど大きな数値になります。これによりあたかも「正の相関」があるかのように見えてしまいます。一方、バレーボールの常識として、「アタック得点合計」と相手チームの「ブロック得点合計」間には負の相関があるはずです。つまり、バレーボールの場合、セット数が相関分析のノイズになってしまうわけです。これを防止するため「セット当たり」の値を使用しています。ちなみに5セット目は通常の25点先取と異なり、15点先取であるため、「15/25=0.6」より、「0.6セット」として計算しています。従って、5セットマッチは計算上「4.6セット」としています。

「ChatGPT Code Interpreter」のアウトプット

  上記の依頼に対する「ChatGPT Code Interpreter」からのアウトプットは下記のとおりです。

  まず、下の図はヒートマップと呼ばれるもので、今回はデータペア間の相関係数を計算し、その結果、「正の相関係数」が得られたデータペアに赤色(オレンジ色に近い)を割り当て、「負の相関係数」が得られたものには青色を割り当てています。また相関係数の絶対値の大きなものにはより濃い赤色、あるいは青色を割り当てています。右斜め下向きの赤いライン(相関係数「1.0」のライン)ができていますが、これは同じデータ同士の「相関係数=1(自己相関)」を示しています。

  「データペア間の相関係数」とは、例えば「自チームのアタック効果率」と「相手チームのブロック効果率」間の相関係数です。今回の項目数は14項目あり、そのうち2項目の組み合わせになりますので、(計算手順は略しますが)91個の相関係数が計算できることになります。

  「ChatGPT Code Interpreter」はこのヒートマップに加え、次のようなコメントを提供してくれます。「相関係数」についても、下記の通り、ChatGPTが解説してくれています。なお、「1.」~「4.」については当たり前の話になってしまっていますので読み飛ばしてください。今回の分析で言えることについては、追って、本ブログ筆者が解説いたします。ところで、「1.」~「4.」以外のいわゆる「一般論」については、機械が作り出した言語とは思えないほど自然できれいな文章ですね。

データ間の相関行列を生成しました。相関行列の各要素は、対応する2つの変数間の相関係数を示しています。相関係数は-1から1までの値を取り、1に近ければ近いほど強い正の相関があり、-1に近ければ近いほど強い負の相関があります。相関係数が0の場合、2つの変数間には相関がないと解釈されます。

次に、この相関行列を基にヒートマップを作成し、相関の強さを視覚化します。このヒートマップでは、色が暗いほど相関が強いことを示します。

~~~~~

ヒートマップにより、データ間の相関が視覚化されました。赤い色ほど相関が強く、青い色ほど相関が弱いことを示します。対角線上のセルは各データ自体との相関(つまり自己相関)で、その値は常に1です。

このヒートマップから以下のことが読み取れます:

  1. 「Team’s Attack Pts_sum / set」と「Team’s Attack Efficiency」の間には強い正の相関があります。これは、チームの攻撃ポイントが増えると、攻撃の効率も向上することを示しています。
  2. 「Team’s Attack Error_sum / set」と「Opponent’s Block Pts_sum / set」の間にも強い正の相関があります。これは、チームの攻撃ミスが増えると、相手チームのブロックポイントも増える傾向があることを示しています。
  3. 一方、「Team’s Attack Efficiency」と「Opponent’s Block Pts_sum / set」の間には強い負の相関があります。これは、チームの攻撃効率が高くなると、相手チームのブロックポイントが減少する傾向があることを示しています。
  4. 「Opponent’s Dig Error_sum / set」と「Opponent’s Dig Efficiency」の間には強い負の相関が見られます。これは、相手チームのディグ(守備)のエラーが増えると、ディグの効率が低下することを示しています。

これらの情報は、試合の戦略を立てる際に役立つ可能性があります。例えば、自分のチームの攻撃効率を高めることで、相手チームのブロックポイントを減らすことが可能であるといった戦略を考えることができます。

ただし、これらの相関はあくまで統計的なものであり、一方の変数が増加または減少すると必ずもう一方の変数が増加または減少するわけではないことに注意が必要です。また、相関は因果関係を示すものではないため、一方の変数が他方の変数の変動を引き起こすと結論付けることはできません。

「ChatGPT Code Interpreter」のアウトプットを受けての分析

  まず、若干手を加えたうえでヒートマップを再掲します。

  左下の三角形領域をグレーで塗りつぶしているのは、右上三角形領域の内容と重複するためです。例えば、右上に「データAとデータBの相関係数」が掲載されているのに対し、左下でも「データBとデータAの相関係数」と言う形で全く同じ意味の同じ値が掲載されているためです。(いわゆる対象行列です。)

  図中に〇印を付けたのは主として絶対値が0.5以上の値を示している部分です。今回は0.5以上であれば、相関有りと見なしました。また、丸の色と太さは下記の意味です。但し、「☆2」行内で重要と思われる部分には0.4以上で丸印を付与しています。

  以下は丸の色と太さについての説明になります。

◇ 赤丸/細線:相関はあるが、データの意味や定義から相関があることが自明なケース
  例えば※1は「アタックエラー数」と「相手チームのブロック得点」の相関ですが、「アタックエラー」の定義として、被ブロック失点が含まれますので、相関があって当然です。また、※2は「アタック本数」と「相手チームブロック本数」に相関有りと言うものですが、ブロックはアタックに応じて飛ぶものですから、相関があって当然です。従って、ここでは話題にしないこととしました。(しかしながら、この相関係数の大小から「攻撃パターンが読まれている」「相手ブロッカーを機能させない攻撃になっている」等の洞察が得られるケースも想定されます。)

◇ 赤丸/太線緑丸/太線:今回トピックとして取り上げたいポイントです。緑丸/太線の部分については「意外」と感じているポイントです。

◇ 灰色丸/太線:相関があるようですがその理由が現時点で不明なものです。ディグ及びディグとブロックの関係に関するものなのですが、正確なデータ定義が把握できれば相関の理由が判明するかと思っています。(検索してみたのですが、VNLあるいはFIVBによる各スタッツの定義詳細が見当たらず、最も詳しいと思われるサイトのスタッツ定義を使用しています。)

  それでは、今回話題にしたいポイントについて述べます。

バレーボールにおいて得点力を高めるポイント

  「バレーボールにおいて得点力を高めるポイント」と「大きなタイトル(笑)」を付けましたが、あくまでVNL2023女子日本代表の13試合データから導き出した分析ですので偏りがある可能性が高いです。あくまで「分析事例」として共有します。

  また下でも述べますが、このような「(日本女子チームに)偏りがあるデータ分析結果」を「(別チームに)偏りがあるデータ分析結果」と比較することで、日本女子チームの特性や課題を発見できる可能性があると考えています。従って「偏りがある」=「価値が低い」といった短絡思考は避けたいと思っています。つまり「偏りにこそ有用な情報がある」と言う考え方です。

  まず上のヒートマップにおいて、「☆1」の行をご覧ください。この行から「(セット当たり)アタック得点(Team’s Attack Pts_sum / set)」を高めるためのポイントが読み取れます。アタック得点に着目する理由ですが、3つの得点方法「アタック得点」「ブロック得点」「サーブ得点」のうち、圧倒的に大きな割合を占めるのが「アタック得点」だからです。

  その「(セット当たり)アタック得点」と最も相関が高いのは「アタック効果率(Team’s Attack Efficiency)」という結果になりました。これは当然ですね。何故なら、

アタック効果率(Attack Efficiency)                                 
= [アタック得点(Attack Points) – アタックエラー(Attack Error)]
  /[総アタック数(Attack Total)]   [%]

であり、「アタック効果率」の定義式に「アタック得点」が含まれているのですから。当然高い相関があります。

  本ブログ筆者の考え(と言うより当然な話ですが)では、「アタック効果率」は「1本のアタックから期待される得点」を意味します。例えば選手Aがコンスタントにアタック効果率0.5(%表示なら50%)を維持している選手なら彼に2本トスを上げアタックさせることでチームは1点獲得することが期待できます。選手Bのアタック効果率が0.25なら、4本のトスで1点獲得できる計算になります。

  このロジックからすると、「アタック得点」への貢献は「アタック効果率」のみならず「(セット当たり)アタック打数(Team’s Attack Total_sum / set)」も大きいはずです。しかしながら、「アタック得点」と「アタック打数」間の相関係数は0.15とほぼ無相関という結果になりました。この点について何故なのか、他のデータセット分析やデータの正規化も含め、引き続き検討していきたいと思っています。

  いずれによ、アタッカーの「アタック効果率」を高めることが、チームの得点力を高めるための重要ポイントと言うことは間違いありません。

  また「アタック効果率」を高めるには、アタッカーのスキルアップ(パワー+技+臨機応変な対応力)のみならず、セッターの技術・判断力、チームとしての「全員攻撃能力(バックアタック力・得点力の高いMBなど)(相手ブロックの的を絞らせない)」なども寄与します。

バレーボールにおいて相手チームの得点力を抑え込むポイント

  次に上のヒートマップにおいて、「☆2」の行をご覧ください。と言いますか、上下にスクロールするのも大変なので、下にヒートマップを再掲します。

  「☆2」行は、「☆1」行で得点力を高めるためのポイントとされた「アタック効果率」に関する行です。この行には赤く塗られた項目(正の相関)より、青く塗られた項目(負の相関)が多く、また「相手チームデータ」がほとんどなので、本項のタイトルも「バレーボールにおいて相手チームの得点力を抑え込むポイント」というタイトルにしました。

  「アタック効果率」との(負の)相関が高いのは、「(相手チームの)ブロック得点(-0.42)(Opponent’s Block Pts_sum / set)」「(相手チームの)ブロック効果率(-0.41)(Opponent’s Block Efficiency)」「(相手チームの)ディグ成功数(-0.58)(Opponent’s Digs_sum / set)」です。ここで「ブロック効果率」と「ブロック得点」は下式の関係があります。

ブロック効果率(Block Efficiency)
= [ブロック得点(Block Points) – ブロックエラー(Block Error)]

  /[総ブロック数(Block Total)] [%]

  上式を踏まえ、簡潔に言い換えますと、相手チームの得点力を抑え込むポイントは、「ブロック力」と「ディグ力」の向上です。当たり前と言えば当たり前ですが、逆に「当たり前と思っていたことが、思い込みではないことが、データで確認できた」と言うことです。

  しかし、当たり前と思っていたことがデータ分析で確認できず、「意外な発見だらけ」になっていたら要注意です。そのデータ分析自体に間違いがある可能性が高いです。その場合は、分析結果を妄信することなく、分析の方法や大元のデータの不備など疑ってみることが大切です。

  実は本記事の分析でも、当初、負の相関であるべきところに正の相関係数が計算されて「?」となっていました。そのため、アタック得点合計等、その試合の「セット数」に影響を受けるデータを「セット当たりの)アタック得点合計」等に置き換えることにした経緯があります。

  データ分析結果の多くが直感に反せず、腹落ちするようであれば、その分析手順・方法に間違いがないと考えられます。数値解析・データ分析等では、このような「直感チェック」がとても大切です。

意外な結果から課題発見

  しかし「☆2」行の中に意外なデータがあります。緑色/太で囲んだ「アタック効果率」と「レセプション成功数合計」の相関が「-0.18」とほぼ無相関になっている点です。

  一見、不自然に思われる結果ですが、言われて見れば、特に日本女子代表チームの場合、セッター位置にボールが綺麗に戻るようなレセプションであっても必ずしもアタック決定率は高くないように見えます。一方、ライバルチームの中にはセッターが動かずに済むようなレセプション、いわゆるAパスが戻ったとき、かなりの高確率で得点できるチームもあります。そんなチームがあるからこそ日本男女代表は「サーブで崩す」戦略を一貫して取り、サーブを強化しています。

  他のデータとも比較が必要と思いますが、もしかすると、この分析結果(あると思われる相関が無相関)は日本女子代表の攻撃能力面の伸びしろ(課題)を示しているのかもしれません。極端に一人のOHにトスを多く配分していれば、確かにいわゆるAパスと呼ばれる最高のレセプションをチャンスとして活かすことは難しくなりますから。

  あるいは、直感に反し、実はレセプションで高いレベルを追求すること自体、効果的でないということも有るのかもしれません。過去記事で紹介したデータサイエンティストによる分析結果でも「『レセプション効果率』の向上は勝率にあまり寄与しない。」と言う結果が出ており、今回の相関分析と一致しています。しかし、長くバレーボールを見てきて、また学生時代自分自身でもプレーしてきた本ブログ筆者には、どうしても信じられないという気持ちです。そのため、VNL2023スタッツの「レセプション成功」の基準の問題のようにも思えます。「レセプション成功」の基準が「Aパス限定」なのか「AまたはBパス」なのかによっても、分析結果が変わると思いますので。

  いずれにせよ、引き続き見てゆきたいポイントです。

守備と攻撃の接点

  「☆3」では、「(セット当たり)アタック打数(Team’s Attack Total_sum / set)」と「(セット当たり)レセプション+ディグ成功数(Team’s Reception+Dig(success)_sum / set)」の相関が高い(相関係数=0.63)ことが確認できます。とにかく拾いまくってこそ、アタック打数を増やし、結果、得点のチャンスを広げられるということです。

統計学をベースにする伝統的なデータ分析の落とし穴

  今回の相関分析は概ね合点のいく結論となっておりますので、分析としては正しそうです。しかし、それは「想定通りの結果」「常識の確認」となったと同義で、これまでのバレーボールチーム強化ポイントの「妥当性が確認できた」に過ぎないことになります。これではデータ分析のありがたみが半減ですよね。

  しかし、今回の分析はあくまで日本女子代表の試合データをもとにしています。これが例えば、米国女子代表チームの試合データを中心に分析すればまた違った結果になるはずです。そこを深堀り考察すれば、日本女子代表の効果的強化ポイントが見えてきたりするのではないか、と本ブログ筆者は考えています。

  統計学をベースにする伝統的なデータ分析ではとかく膨大なデータを集計・分析することで「普遍的なバレーボール法則」「偏りのない平均値」を炙り出そうとします。過去記事で紹介したデータサイエンティストによる分析がその典型例です。従って「日本女子代表の試合データ」などと言う偏ったデータは通常使用しません。

  しかし、データ分析のそもそもの目的は「普遍的なバレーボール法則」の発見などではなく「目の前のチームの課題抽出」だったり「他チームとの比較」だったりします。伝統的データ分析に囚われていたらその目的に到達できなくなってしまいます。肝心なことはデータ分析することではなく、目的を達成することです。データ分析は目的達成の手段に過ぎないことを忘れてはいけません。

  世の中で発生している「失敗原因」の多くは「手段の目的化」です。最近のニュースでよく聞く「マイナンバーカードの迷走」もその最たるものです。本ブログ著者の観察によれば、日本人は「手段」や「道具」と言われるものに「磨きをかける」ことに熱中しがちです。言い換えると「カッコつけたがり」なのでしょうか?

  とにかく、毎日毎日「目的の再確認」をすることが大切と思います。素朴ですがこれ、とても大切です。

バレーボールランキング にほんブログ村 その他スポーツブログ バレーボールへ バレーボールランキング にほんブログ村
タイトルとURLをコピーしました