Kotaro Kinoshita / MLism (@kinocoai) 's Twitter Profile
Kotaro Kinoshita / MLism

@kinocoai

MLism Inc. / YomiTokuの商用利用に関してはmlism.comにお問い合わせください/機械学習、 画像処理、文書画像解析

ID: 1843800986747621376

calendar_today08-10-2024 23:49:56

198 Tweet

766 Followers

899 Following

Kotaro Kinoshita / MLism (@kinocoai) 's Twitter Profile Photo

今回、取り組んでいる問題設定はKIEやTSRとして類似タスクは存在しますが、日本の実務帳票(行列が存在しない、Key-Value構造と格子構造の混在ケース)は既存の研究の解法を当てはめても解けない課題でした。

Kotaro Kinoshita / MLism (@kinocoai) 's Twitter Profile Photo

表解析機能はは情報取得だけではなく、情報入力にも使えると思います。PDFフォームは入力、編集しづらいけど、座標がわかれば入力システム自体は割と簡単に作れるはず 重要なのは紙をなくすより、紙とデジタルのインターフェースを如何にシーレスにするかだと最近は考えています。

Kotaro Kinoshita / MLism (@kinocoai) 's Twitter Profile Photo

実は情報がPDFやドキュメントになった時点で意味構造が失われているのが課題です。 ファイル内部に構造化情報を保持した方が良さそうですが、従来のドキュメントの意味構造は人が視覚情報から暗黙的に補完する前提で作られており、印刷前の時点で明示的な意味情報は欠落しています。

Kotaro Kinoshita / MLism (@kinocoai) 's Twitter Profile Photo

レイアウトやデザインは文化的な影響が大きいと思っていまして、日本はハイコンテキスト文化だから、帳票にも暗黙知の情報が無意識に埋め込まれてるから複雑になります。

Kotaro Kinoshita / MLism (@kinocoai) 's Twitter Profile Photo

OCRやってる自分でもOCRなんか必要のない社会の方が合理的だと思ってます。 しかし、人が情報を相互に送受、共有し合う限りはなかなか、なくならないと思う。 文書はシステム間ではなく、人間間で情報を共有、理解するために認知負荷が少なく合理的だから。

Kotaro Kinoshita / MLism (@kinocoai) 's Twitter Profile Photo

多分、AI-Nativeな新しいフォーマットの作成、入力ツールが普及するスピードより文書理解AIが普及するスピードの方が早いので、前者は浸透しないと予想してます。 あと10年以内に社会全体のエクセル、ワード、PDFを置きかえられると可能性は低いと思う