コンテンツへスキップ
- Visual In-Context Prompting [100.9]
本稿では,オープンセットのセグメンテーションや検出といった視覚的タスクのためのユニバーサルな視覚的インコンテキストプロンプトフレームワークを提案する。 エンコーダ-デコーダアーキテクチャ上に構築し,ストロークやボックス,ポイントなど,さまざまなプロンプトをサポートする汎用的なプロンプトエンコーダを開発する。 広範にわたる調査の結果,提案した視覚的インコンテクストは,異常参照と汎用セグメンテーション機能を引き起こすことが示された。
論文 参考訳(メタデータ) (Wed, 22 Nov 2023 18:59:48 GMT)
- Vision領域でのIn-context promptingを実現するモデルの提案。対象タスクはreferring segmentation、generic segmentation tasksとのこと。(テキスト領域で想像されるものとは異なるような・・・きもしなくもない)
- リポジトリはGitHub – UX-Decoder/DINOv
- Tracking the Newsworthiness of Public Documents [107.1]
この研究は、サンフランシスコ・クロニクル(San Francisco Chronicle)によるサンフランシスコ・ベイエリアにおける地方公共政策のニュース報道に焦点を当てている。 まず、新聞記事、公共政策文書、会議記録を収集し、確率的関係モデルを用いてそれらをリンクする。 第二に、ポリシー項目がカバーされるかどうかを予測するために、newsworthiness predictionという新しいタスクを定義します。
論文 参考訳(メタデータ) (Thu, 16 Nov 2023 10:05:26 GMT)
- 政策とニュースのリンク、および報道する価値があるか予測するnewsworthiness predictionというタスクの提案。リアルなニーズに自然言語処理で対応していく論文であり興味深い。また、シンプルな手法が複雑な手法を上回っている部分もありその点も面白い。一方でLLMを使う部分はleakの懸念がぬぐえない気もする。
- Towards more Practical Threat Models in Artificial Intelligence Security [71.5]
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。 我々の論文は、人工知能のセキュリティにおけるより実用的な脅威モデルを研究するための行動である。
論文 参考訳(メタデータ) (Thu, 16 Nov 2023 16:09:44 GMT)
- AIセキュリティに関して研究と実際の差を分析した論文。key findingsを見るだけでも結構なギャップがありそう。。。
- Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.5]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。 我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。 提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (Wed, 22 Nov 2023 06:46:37 GMT)
- Vicuna-7Bを拡張する形式のMLLM、データを自前で集めている点はすごい、こちらLLaVARを上回る性能。
- DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [98.4]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。 既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (Mon, 20 Nov 2023 14:42:25 GMT)
- 「 DocPedia directly processes visual input in the frequency domain rather than the pixel space.」というのが特徴的な文章理解モデル。DCT → Frequency Adapter → …と興味深いブロック図になっている。。。
- LLaVARやmPLUG-Owlに比べて性能は高いがsupervisedなSOTAとは距離がある。
- TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems [25.9]
本稿では,大規模言語モデル(LLM)のタスク計画・ツール利用(TPTU)能力の向上を目的とした包括的フレームワークを提案する。 このフレームワークは、これらの課題に対処するために設計された3つの重要なコンポーネントで構成されている。(1) API Retrieverは、利用可能な広範囲な配列の中で、ユーザタスクに最も関連するAPIを選択し、(2) LLM Finetunerは、タスク計画とAPI呼び出しにより適するように、ベースLSMをチューニングし、(3)Demo Selectorは、難しいAPIに関連するさまざまなデモを適応的に検索する。
論文 参考訳(メタデータ) (Sun, 19 Nov 2023 12:37:30 GMT)
- TPTU: Task Planning and Tool Usage of Large Language Model-based AI Agents – arXiv最新論文の紹介 (devneko.jp)のv2、3ヶ月で更新という今のスピード感。
- API Retriever、LLM Finetuner、Demo Selectorからなる構成、ToolBenchの結果は高いように思えるが詳細な情報が欲しいところ。。
- Program-Aided Reasoners (better) Know What They Know [59.3]
プログラム支援言語モデル(PAL)の校正と,5つのデータセットにまたがるテキストベースのChain-of-Thought(COT)技術の比較を行った。 以上の結果から, PALは75%の症例で校正の改善につながることが示唆された。
論文 参考訳(メタデータ) (Thu, 16 Nov 2023 04:17:49 GMT)
- PALとCOTの比較、「Overall, we demonstrate that, in the majority of cases, program-aided reasoners better know what they know than text-based counterparts.」とのこと。理由が知りたいところ。
- リポジトリはhttps://github.com/mathuryash5/code-calibratesとのこと