Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile
Suguru🇬🇧データサイエンティスト

@st_data_science

英国公認統計家 | 王立統計学会(RSS) 認定講座審査員 | 東工大→LSE統計学科修士卒 国内最大手AI講座複数監修 | 統計,AI, データサイエンスを発信 RSS認定講座の監修 | 国際認定資格『RSS認定データアナリスト』登録事業運営

ID: 1335829372326952962

linkhttps://bdlab.or.jp/services/data-analyst-accreditation calendar_today07-12-2020 06:11:59

1,1K Tweet

5,5K Takipçi

1,1K Takip Edilen

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

元々、データ収集計画するのは統計家の業務の一環ではあった。ただAIと同様、データ収集の概念も電子化で大きく変わっている。行動履歴データなどの大規模データは、「データを機械的に取得する仕組みや計画作り」ができること前提になる。なのでデータ基盤開発技術は前提スキルになっていくと思う。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

データサイエンティストは元々「データ分析」と「AIの実装」の二つの異なる役割が混在していた。後者は、生成AIによって、根本的に解決作が変わるケースが多い。業務上のボトルネックは機械学習の知識から、根本的なITの知識や実装能力に切り替わった。この変化には柔軟に適応していく必要がある。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

意外と生成AIで直接影響を受けにくいのは、「データ分析」の方に強みを持っていた方の人。データ分析は実務上、何をしたかより『誰が言ったか』に強く作用される。だからデータアナリストは、従来通り、実務経験や実績、資格などの側面で自身のプロとしての信頼性を高める必要がある。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

生成AIは最頻値的な回答を出すと言われるが、これはプログラミングではともかく、データ分析では結構困る。最頻値的な回答で作られたデータ分析の質は知れているからだ。ただ、面倒なコーディングが生成AIで助けられるのは、実務者にとってはこの上ない助けではある。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

「データ分析」と「データ活用」は似てるけど違う。大学や資格で学ぶものは大体前者。会社が必要としてるのは大体後者。なんとなく響きは似ているからよくスルーされる。データ活用では実際のところ統計の知識なんてそこまで必要なかったりする。ただ選べるなら統計詳しい人を選ぶよね、という感じ。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

Codex, Claude Code, Gemini CLIなど色々出てきてるけど、既存のLLMは全てコンテキストウィンドウの制限により実用にハードルがある。今後も当面は改善はされないと思う。 今のAIエージェントは定期的に再起動する必要があって、これは数回会話する度に記憶喪失する人間と仕事をするに等しい。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

CLAUDE.mdファイルみたいな記憶保存を使えば何とかできると思っている人も多い。けど、これはやっぱり記憶喪失した人間に過去の出来事の要約を見せているようなもので、焼石の水に過ぎない。AIエージェントにどれだけ開発競争が起きようと、必ず早いうちに成長の頭打ちがくる。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

LLMのコンテキストウィンドウの限界がある以上、AIエージェントに任せられる作業は、文脈や背景が少ない単純作業に限られる。ある程度の規模の仕事になると、この膨大な『文脈』は必ず人が把握している必要がある。 だから今のAIの成長の延長線上では、人を置き換えていくのは実は現実的じゃない。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

こう考えると、人間が睡眠を必要とするのは理にかなっている。睡眠はきっとコンテキストウィンドウの知識を『学習済みモデル』の方に移行して、コンテキストウィンドウを白紙に戻す作業なのかもしれない。 今普及している生成AIは、この機能が欠落しているし、この欠陥がある以上人は越えられない。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

人間の睡眠をAIで模す、機械学習で言う再学習は、現状莫大な計算コストがかかる 少なくともこの数年で、これを各ユーザーのアカウントごとに実施するという課題には、どの巨大企業もなんら解決策を提示できなかったと思う 意外にも生成AI市場は、かつてのAIの進化と同様、成長の限界に直面している

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

サムアルトマンがどこかに書いていたけど、AIエージェントのボトルネックはLLMそのものにある。 一方でここ数年のGPTやClaudeなどのモデルの改善は、先に挙げた問題点に向き合ったものには見えない。 生成AI市場は局所最適化に舵を切ってしまっているように思う。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

実際に使っている人は分かると思うけど、今のAIエージェントでソフトウェア開発をすると、一つの問題を解決するために、過去に解決済みの問題を崩壊させるということが多発する。 過去の実施内容をまるっきし覚えていないからだ。なので、過去のやり取りを全て記憶して指示する人間が不可欠になる。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

データ数によって使うモデルは変わりうる。ニューラルネットワークが最たる例だけど、パラメータが多いモデルほど学習には多くのデータが必要。 逆に単純なモデルほどデータは少なくとも学習できるので、きちんとトレードオフがある。 前者は更に計算量という、実務で無視できない欠点が出てくる。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

ちなみに今風のAIモデルを無闇に使い、会議で話しても「誰にも理解されない」か「専門家不在で指摘もされない」状況は、現代のデータサイエンティストが経る厨二病みたいなもの。 ただ実際にやってみないと「難しいモデル使いたいコンプレックス」は解消されないので、成長に必要なステップでもある。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

科学的には、統計モデルは現実のデータ生成過程を模すべきもので、その選択はデータ数に依存すべきではないというのは、理になっている。 ただ、「すべてのモデルは誤っているが、いくつかは使える」と言われるように、すべての統計モデルもやはり「ゴリ押し」だとも考えている。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

ちなみに計算量は、Kaggleや統計検定でも触れられにくい、実務の重要ポイント。正直統計学は、応用数学やCS領域と比べるとこの概念を軽視しがちに思う。MLOpsなんてよく話題になっていたけど、機械学習をビジネスやプロダクトのフローに組み込もうとすると、モデルの複雑さは極力避けたいものになる。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

思えば統計学の、『推定パラメータの収束性の議論』は、理論的には大切なんだろうけど、『で、そもそもそのモデルの学習は実用に耐えられる計算規模のものなの?』はもう少し気にされて良いものなような気がする。 逆行列一つ算出するにも、規模が大きければ現実的でないほど時間がかかる。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

線形モデルは、『現実はどんな構造かわからないけど、とりあえず一番単純な線形の仮定を置こう!』という「始めの一歩」的な感じで使われる。仮に非線形なんておくと、「なんでその非線形性を仮定した?」みたいに逆に突っ込み所を生みかねない。意外と免罪符的な役割を持っている。

Suguru🇬🇧データサイエンティスト (@st_data_science) 's Twitter Profile Photo

これは新卒AIエンジニアやデータアナリストが間違えやすいこと。大学だとどうしても、難しいモデルや理論を教わりがちになる。