データ分析な日々 (@data_everyday) 's Twitter Profile
データ分析な日々

@data_everyday

データ分析のブログ書いてます. 統計検定1級 (人文科学, 理工学).

ID: 1444238492259602432

linkhttps://data-everyday.com/recent_post/ calendar_today02-10-2021 09:51:12

85 Tweet

1,1K Followers

1,1K Following

データ分析な日々 (@data_everyday) 's Twitter Profile Photo

excel が空欄を0と見做すおかげで、excel で計算して作られた特徴量にはしばしば0擬態ステルス欠損値が潜んでいる

タランチュラ | データサイエンティスト (@tarantula_ds_) 's Twitter Profile Photo

【次元削減手法まとめ】 次元削除手法をみんなはいくつ知ってる?🤔 代表的な次元削除手法をまとめたよ! ☑️LDA ☑️t-SNE ☑️PCA ☑️UMAP 各手法ごとに特徴があるから、ぜひ概要をチェックしてね👍

【次元削減手法まとめ】
次元削除手法をみんなはいくつ知ってる?🤔
代表的な次元削除手法をまとめたよ!

☑️LDA
☑️t-SNE
☑️PCA
☑️UMAP

各手法ごとに特徴があるから、ぜひ概要をチェックしてね👍
データ分析な日々 (@data_everyday) 's Twitter Profile Photo

主成分分析って正規分布仮定してる? 古いけどこちらにも書いてある(”前提”って記載)んだけど、正規分布の仮定でPCAのどの性質や計算が導かれてるか分からんです ism.ac.jp/editsec/toukei…

データ分析な日々 (@data_everyday) 's Twitter Profile Photo

よくありそうな設定だしささっと読んどくか、って買って非心系の分布に打ちのめされた&何回も読み返してるこいつが頭に浮かぶ

よくありそうな設定だしささっと読んどくか、って買って非心系の分布に打ちのめされた&何回も読み返してるこいつが頭に浮かぶ
データ分析な日々 (@data_everyday) 's Twitter Profile Photo

これ言う人は見たことないけど、「DS の人らはすぐ Python いじっちゃう」と言い超速でExcelで前処理なり可視化なりする人なら見たことがある

データ分析な日々 (@data_everyday) 's Twitter Profile Photo

notebook はその名の通り、ある程度見せる結果が決まってて、それをノートにまとめる(tutorial とかその典型)って使い方ならわかる

データ分析な日々 (@data_everyday) 's Twitter Profile Photo

球面集中現象初めて知ったんだけど、多次元になると超球の体積のうち表面付近の体積がほとんどの割合を占めるから、ランダムに発生させた高次元ベクトルは必然的に球の表面付近に分布するって話なのかな

データ分析な日々 (@data_everyday) 's Twitter Profile Photo

”線形回帰で多重共線性がある場合、一般逆行列でも解決できるけど、スパース推定で一般逆行列は利用されてないのはなぜ?”(JMRA内容の意訳) 縮小推定すれば少なくともパラメタ推定できるって意味で多重共線性の問題はないのでその発想はなかったけど、うーん、擬似逆行列で置き換える必要がない?

データ分析な日々 (@data_everyday) 's Twitter Profile Photo

定義通りの変化率xは、log(1+x)のx=0周りの線形近似なので、図の通り変化率が0から離れると対数差分の変化率は負の方向に偏るという理解です。 1枚目:近似の様子 2枚目:変化率が0から離れるとどう乖離するか

定義通りの変化率xは、log(1+x)のx=0周りの線形近似なので、図の通り変化率が0から離れると対数差分の変化率は負の方向に偏るという理解です。
1枚目:近似の様子
2枚目:変化率が0から離れるとどう乖離するか
データ分析な日々 (@data_everyday) 's Twitter Profile Photo

MultiOutputRegressor() って渡したモデルを単純に並列計算で独立に推定してるだけなのか 別に全部の目的変数に対して同じモデルを使う必要もないしなぁ