zono@Data Engineer (@zono_data) 's Twitter Profile
zono@Data Engineer

@zono_data

Data Engineer / Stats & Machine Learning Enthusiast / As an Amazon Associate, I earn from qualifying purchases / Tweets are totally personal & my own

ID: 1655799847541411842

linkhttps://note.com/zono_data calendar_today09-05-2023 05:00:40

424 Tweet

865 Takipçi

88 Takip Edilen

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

メダリオンアーキテクチャの進化であるPlatinum層。 従来のBronze、Silver、Goldの各層がデータの品質と構造を段階的に基本的な役割を果たす一方で、Platinum層がその上に位置することで、AIや機械学習の高度なニーズに対応できる。 データ品質をさらに強化するための設計。 linkedin.com/pulse/why-add-…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

BI as CodeでSQLやMarkdown等のコードを用いてデータ変換、視覚化、ワークフロー管理を定義し、バージョン管理や自動化を可能にする。 今後、AIの浸透によってコード管理できないBIツールは選択されなくなる未来もあるかもしれない。 medium.com/h7w/business-i…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

記事を更新し、書籍を追加しました。 「データ利活用とプライバシー個人情報保護」はデータの利用用途やデータを加工した場合の取り扱いの比較等、実務で困った時に大変役立つ内容だと思います。 note.com/zono_data/n/nf…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

CRYPTREC暗号リストという日本政府が推奨する暗号技術の選定基準と、背景にある安全性評価の仕組み。 具体的な暗号技術の組み合わせの暗号スイートの設定方法等も解説されている。 この記事でも紹介されているデジタル庁等が作成した資料も見てほしい。 alpha.co.jp/blog/202502_01/

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

完全性や一意性といったデータ品質アセスメントをなんとなく実施していて、どのように改善したら良いかが分からなければ、この本はオススメ。 幅広いプロセスの全体像を把握でき、品質の評価とビジネスインパクトの評価を往復する重要性が分かる。 テンプレートも複数ある。 amzn.to/46z0QN4

chira as データマネジメント専門家 (@chira) 's Twitter Profile Photo

このデータ品質本の著者のダネっトさんは親日の方で、素朴な質問にも丁寧に答えてくれる方。この日経BPのデータマネジメント書籍シリーズのひとつ、「データスチュワードシップ」の著者のデビッドさんと30年ぐらいの友人で、仕事でもお互いの考え方の前提にしていたりします。データ品質の前提になるメ

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

こちらで紹介されている「データスチュワードシップ」。 データスチュワードに関する日本語で読める唯一の書籍なはず。 担当領域のデータ知識をどう活用し、どのようにガバナンスを担っていくのかが丁寧に書かれており、とても興味深い内容だと思います。 amzn.to/40HXh3n

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

企業が個人情報の取り扱いに関する方針を示す「プライバシーポリシー」の作成・改訂におけるポイント。 ポリシーを作成する前に考慮すべき対象範囲、必要な情報開示、同意取得の要否、そして法的性質といった様々な視点からの検討事項が提示されている。 speakerdeck.com/sekihara/purai…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

Apache Icebergの日本語書籍が販売予定らしい。 データエンジニアにとって、これから更に利用機会が増えてくる可能性もあるため読んで損はないかもしれない。 「Icebergを前提とした次世代のデータプラットフォームアーキテクチャについて解説」が楽しみ。 amzn.to/40VkFdM

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

この話、データエンジニアやデータチームにも非常に刺さる。 書籍を元に関係性の構築を行ったり、一次請けによる高負荷を避けたりしている。 SLIやSLO、データの品質もビジネスサイドとの対話が必須で、彼らと合意をするために正しい対話が必要になる。 speakerdeck.com/aeonpeople/the…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

個人情報に限らず、様々な設計に携わる重要性が増してきているような気がする。 生成AIによってプログラミング自体の時間や価値が少しずつ減ってきているので、もう少し幅を広げていくことが求められていると思っている。 この領域も代替されていくかもしれないが。 note.com/zono_data/n/n0…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

データエンジニアリングにおける冪等性。 ログテーブルを利用したファイル追跡、ステージングテーブルの活用、再実行時のオーバーライド等のいくつかの方法を書いた。 冪等性を担保するにはコストもかかりるため、大切なのはトレードオフを理解した上で仕組みを作ること。 note.com/zono_data/n/n8…

データエンジニア最新ニュース (@data_eng_news) 's Twitter Profile Photo

データエンジニアリングの冪等性|zono - note --- note.com/zono_data/n/n8… #データエンジニア #データエンジニアリング #データ基盤

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

データスタックの過剰な利用がコストの増大、メンテナンスの困難さ、非効率性に直面していると主張している記事。 実際は仕方ないと思う反面、できるだけシンプルに設計しつつ(ツールも含めて)変更可能な状態を継続していくしか無いのが現実かなとも思う。 medium.com/@tfmv/the-mode…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

イシュー(課題)を能動的に定義し分析を設計する能力が重要。 事業に直接貢献する「事業直接貢献型」と組織全体の分析能力を高める「組織能力向上型」に専門性が別れ、問いの質を高めることが必要になってくる。 ドメインや経験、人間性に重きが置かれるのではないか note.com/mercari_data/n…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

Airflow、Spark、Kafkaといったバッチ処理とストリーミング処理の両方に対応する信頼性の高いデータパイプラインを設計・管理する方法。 もし更にリトライやパイプラインを止めないようにするならDead Letter Queueとか使いたいかなと思う。 tsaiprabhanj.medium.com/designing-and-…

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

同じ考えで まずはデータ活用を進めるのが優先で、様々な課題が出てきたタイミングでガバナンスを進める方が良いと思っている。 なかなかデータを使ってもらえない状況だと整備側は辛くなってくる。 影響範囲が大きくなって、多少不満や苦情が出てくるのは仕方ないと思っている。

zono@Data Engineer (@zono_data) 's Twitter Profile Photo

2025年におけるAI時代のデータエンジニアリングの重要な役割。 これまではKafkaやAirflowが書ければ価値になっていたが、それ以上にレイテンシやクエリコスト削減等の何ができたかが重要になってくる。 新規参入者には厳しい時代が来るのか。 Delta LakeやIcebergが人気。 medium.com/projectpro/the…