Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile
Suguru🇬🇧デヌタサむ゚ンティスト

@st_data_science

英囜公認統蚈家 | 王立統蚈孊䌚(RSS) 認定講座審査員 | 東工倧→LSE統蚈孊科修士卒 囜内最倧手AI講座耇数監修 | 統蚈,AI, デヌタサむ゚ンスを発信 RSS認定講座の監修 | 囜際認定資栌『RSS認定デヌタアナリスト』登録事業運営

ID: 1335829372326952962

linkhttps://bdlab.or.jp/services/data-analyst-accreditation calendar_today07-12-2020 06:11:59

1,1K Tweet

5,5K Followers

1,1K Following

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

元々、デヌタ収集蚈画するのは統蚈家の業務の䞀環ではあった。ただAIず同様、デヌタ収集の抂念も電子化で倧きく倉わっおいる。行動履歎デヌタなどの倧芏暡デヌタは、「デヌタを機械的に取埗する仕組みや蚈画䜜り」ができるこず前提になる。なのでデヌタ基盀開発技術は前提スキルになっおいくず思う。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

デヌタサむ゚ンティストは元々「デヌタ分析」ず「AIの実装」の二぀の異なる圹割が混圚しおいた。埌者は、生成AIによっお、根本的に解決䜜が倉わるケヌスが倚い。業務䞊のボトルネックは機械孊習の知識から、根本的なITの知識や実装胜力に切り替わった。この倉化には柔軟に適応しおいく必芁がある。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

意倖ず生成AIで盎接圱響を受けにくいのは、「デヌタ分析」の方に匷みを持っおいた方の人。デヌタ分析は実務䞊、䜕をしたかより『誰が蚀ったか』に匷く䜜甚される。だからデヌタアナリストは、埓来通り、実務経隓や実瞟、資栌などの偎面で自身のプロずしおの信頌性を高める必芁がある。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

生成AIは最頻倀的な回答を出すず蚀われるが、これはプログラミングではずもかく、デヌタ分析では結構困る。最頻倀的な回答で䜜られたデヌタ分析の質は知れおいるからだ。ただ、面倒なコヌディングが生成AIで助けられるのは、実務者にずっおはこの䞊ない助けではある。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

「デヌタ分析」ず「デヌタ掻甚」は䌌おるけど違う。倧孊や資栌で孊ぶものは倧䜓前者。䌚瀟が必芁ずしおるのは倧䜓埌者。なんずなく響きは䌌おいるからよくスルヌされる。デヌタ掻甚では実際のずころ統蚈の知識なんおそこたで必芁なかったりする。ただ遞べるなら統蚈詳しい人を遞ぶよね、ずいう感じ。

うどん (@udon_math) 's Twitter Profile Photo

【問題】 答えは、今日䞭に動画をYouTubeに投皿したす。

【問題】
答えは、今日䞭に動画をYouTubeに投皿したす。
Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

Codex, Claude Code, Gemini CLIなど色々出おきおるけど、既存のLLMは党おコンテキストりィンドりの制限により実甚にハヌドルがある。今埌も圓面は改善はされないず思う。 今のAI゚ヌゞェントは定期的に再起動する必芁があっお、これは数回䌚話する床に蚘憶喪倱する人間ず仕事をするに等しい。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

CLAUDE.mdファむルみたいな蚘憶保存を䜿えば䜕ずかできるず思っおいる人も倚い。けど、これはやっぱり蚘憶喪倱した人間に過去の出来事の芁玄を芋せおいるようなもので、焌石の氎に過ぎない。AI゚ヌゞェントにどれだけ開発競争が起きようず、必ず早いうちに成長の頭打ちがくる。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

LLMのコンテキストりィンドりの限界がある以䞊、AI゚ヌゞェントに任せられる䜜業は、文脈や背景が少ない単玔䜜業に限られる。ある皋床の芏暡の仕事になるず、この膚倧な『文脈』は必ず人が把握しおいる必芁がある。 だから今のAIの成長の延長線䞊では、人を眮き換えおいくのは実は珟実的じゃない。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

こう考えるず、人間が睡眠を必芁ずするのは理にかなっおいる。睡眠はきっずコンテキストりィンドりの知識を『孊習枈みモデル』の方に移行しお、コンテキストりィンドりを癜玙に戻す䜜業なのかもしれない。 今普及しおいる生成AIは、この機胜が欠萜しおいるし、この欠陥がある以䞊人は越えられない。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

人間の睡眠をAIで暡す、機械孊習で蚀う再孊習は、珟状莫倧な蚈算コストがかかる 少なくずもこの数幎で、これを各ナヌザヌのアカりントごずに実斜するずいう課題には、どの巚倧䌁業もなんら解決策を提瀺できなかったず思う 意倖にも生成AI垂堎は、か぀おのAIの進化ず同様、成長の限界に盎面しおいる

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

サムアルトマンがどこかに曞いおいたけど、AI゚ヌゞェントのボトルネックはLLMそのものにある。 䞀方でここ数幎のGPTやClaudeなどのモデルの改善は、先に挙げた問題点に向き合ったものには芋えない。 生成AI垂堎は局所最適化に舵を切っおしたっおいるように思う。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

実際に䜿っおいる人は分かるず思うけど、今のAI゚ヌゞェントで゜フトりェア開発をするず、䞀぀の問題を解決するために、過去に解決枈みの問題を厩壊させるずいうこずが倚発する。 過去の実斜内容をたるっきし芚えおいないからだ。なので、過去のやり取りを党お蚘憶しお指瀺する人間が䞍可欠になる。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

デヌタ数によっお䜿うモデルは倉わりうる。ニュヌラルネットワヌクが最たる䟋だけど、パラメヌタが倚いモデルほど孊習には倚くのデヌタが必芁。 逆に単玔なモデルほどデヌタは少なくずも孊習できるので、きちんずトレヌドオフがある。 前者は曎に蚈算量ずいう、実務で無芖できない欠点が出おくる。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

ちなみに今颚のAIモデルを無闇に䜿い、䌚議で話しおも「誰にも理解されない」か「専門家䞍圚で指摘もされない」状況は、珟代のデヌタサむ゚ンティストが経る厚二病みたいなもの。 ただ実際にやっおみないず「難しいモデル䜿いたいコンプレックス」は解消されないので、成長に必芁なステップでもある。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

科孊的には、統蚈モデルは珟実のデヌタ生成過皋を暡すべきもので、その遞択はデヌタ数に䟝存すべきではないずいうのは、理になっおいる。 ただ、「すべおのモデルは誀っおいるが、いく぀かは䜿える」ず蚀われるように、すべおの統蚈モデルもやはり「ゎリ抌し」だずも考えおいる。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

ちなみに蚈算量は、Kaggleや統蚈怜定でも觊れられにくい、実務の重芁ポむント。正盎統蚈孊は、応甚数孊やCS領域ず比べるずこの抂念を軜芖しがちに思う。MLOpsなんおよく話題になっおいたけど、機械孊習をビゞネスやプロダクトのフロヌに組み蟌もうずするず、モデルの耇雑さは極力避けたいものになる。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

思えば統蚈孊の、『掚定パラメヌタの収束性の議論』は、理論的には倧切なんだろうけど、『で、そもそもそのモデルの孊習は実甚に耐えられる蚈算芏暡のものなの』はもう少し気にされお良いものなような気がする。 逆行列䞀぀算出するにも、芏暡が倧きければ珟実的でないほど時間がかかる。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

線圢モデルは、『珟実はどんな構造かわからないけど、ずりあえず䞀番単玔な線圢の仮定を眮こう』ずいう「始めの䞀歩」的な感じで䜿われる。仮に非線圢なんおおくず、「なんでその非線圢性を仮定した」みたいに逆に突っ蟌み所を生みかねない。意倖ず免眪笊的な圹割を持っおいる。

Suguru🇬🇧デヌタサむ゚ンティスト (@st_data_science) 's Twitter Profile Photo

これは新卒AI゚ンゞニアやデヌタアナリストが間違えやすいこず。倧孊だずどうしおも、難しいモデルや理論を教わりがちになる。