TT AI Log

人工知能 / AI / 脳機能解析 に関する「個人」の調査・研究・参照ログ

DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース

【要点】

◎DeepSeekがAIモデル「DeepSeek-OCR」を公開。視覚情報でテキストを10分の1に圧縮し、97%の情報を保持。超長文処理に道を開く。


【要約】

DeepSeekは、視覚情報を用いてテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」を発表した。6.6GBのOCR特化モデルで、文書内情報の97%を保持しつつ、トークン数を10分の1に削減できる。画像処理を行う3.8億パラメータのDeepEncoderと、5.7億パラメータのDeepSeek3B-MoEテキスト生成器から構成される。1日20万ページ処理可能で、A100 GPU20基では3300万ページに達する。効率的な文脈圧縮により、超長文の処理も視野に入る。


【ニュース】

◆DeepSeekが視覚情報を使用してテキスト入力を圧縮するマルチモーダルAIモデル「DeepSeek-OCR」をリリース (Gigazine, 2025/10/21 13:20)
https://gigazine.net/news/20251021-deepseek-ocr/


Copyright (C) 谷川哲司 (Tetsuji Tanigawa) 1997 - 2023