Alignment for Honesty

  • Alignment for Honesty [113.4]
    我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。 この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。 正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
    論文  参考訳(メタデータ)   (Tue, 12 Dec 2023 06:10:42 GMT)
  • 分からないときは分からない(質問に答えない)ようにするフレームワークの提案。メトリクスの定義や検証など参考になる点も多い。
  • リポジトリはGitHub – GAIR-NLP/alignment-for-honesty

SESAME: SEe, SAy, segMEnt

  • See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.4]
    この課題を解決するために,LMMのカスケードと共同学習手法を提案する。 得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 18:58:04 GMT)
  • 微妙に間違ったクエリに対応可能なMLLMの提案、テニスの写真に対して「バスケットボール選手を見つけてと指示」したとき「テニス選手ならいます」と答えて船首部分をセグメンテーションすることが可能。
  • 「detecting the presence of objects (”see”), advising users about non-existent objects or modifying queries accordingly (“say”), and precisely segmenting objects that are actually present in the image (“segment”)」でSESAMEらしい

SciGuardとSciMT-Safety

  • Control Risk for Potential Misuse of Artificial Intelligence in Science [85.9]
    我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。 化学科学における誤用の実例を取り上げる。 我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 18:50:57 GMT)
  • 科学におけるAI誤用の危険性を防ぐフレームワークを提案。化学分野での具体的検討して有毒物質の合成経路を出させるものを挙げている。
  • 上記を防ぐため規制ガイドラインデータベースなどを中に持つSciGuard フレームワークを提案。同時にベンチマークとしてSciMT-Safetyを提案。「The SciMT-Safety dataset comprises hundreds of refined red-teaming queries that span the fields of chemistry and biology.」とのこと。不公正・攻撃性の高い言動や違法行為に関するような社会的な誤用に対するベンチマークはよく見るが、科学分野におけるベンチマークは珍しい。
  • ベンチマークはGitHub – SciMT/SciMT-benchmarkで公開予定とのこと。

Context Tuning for Retrieval Augmented Generation 

  • Context Tuning for Retrieval Augmented Generation [1.2]
    本稿では、スマートコンテキスト検索システムを用いて関連する情報を取得するRAGのためのコンテキストチューニングを提案する。 実験の結果,文脈調整が意味探索を著しく促進することが示された。 また,Reciprocal Rank Fusion (RRF) とLambdaMARTを用いた軽量モデルでは,GPT-4に基づく検索よりも優れていることを示す。
    論文  参考訳(メタデータ)   (Sat, 9 Dec 2023 23:33:16 GMT)
  • LLMの実利用において重要なRAGの検証と、LambdaMART with Reciprocal Rank Fusionが有効だったという報告
  • データ構築部分に「This methodology provided a comprehensive and realistic dataset, essential for the evaluation of our context tuning approach in RAG-based planning systems.」とあるが、この設定がrealisticかは見解が分かれそうに思う…(結果は興味深いけど)

Progressive Rectification Prompting

  • Get an A in Math: Progressive Rectification Prompting [42.1]
    CoT(Chain-of-Thought)プロンプト法により,大規模言語モデル(LLM)が推論経路を生成し,算術語問題(MWP)を解くことが可能になった。 77.3から90.5までの8MWPデータセットの平均精度を向上させるために,PRP (Progressive Rectification Prompting) という新しい手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 11 Dec 2023 22:25:57 GMT)
  • 検証修正を繰り返すタイプのプロンプティング手法 Progressive Rectification Prompting (PRP)によってCoTからの性能向上を報告。
  • self-consistency, progressive-hint, progressive rectificationと工夫がされて行っていて面白いが、ここまで性能上がるものなんだろうか。(&日本語でも効果があるんだろうか)

CyberSecEval

  • Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models [41.1]
    本稿では,Large Language Models (LLMs) のプログラミングアシスタントとしてのサイバーセキュリティを促進するために開発された,包括的なベンチマークであるCyberSecEvalを提案する。 CyberSecEvalは、2つの重要なセキュリティ領域におけるLSMの徹底的な評価を提供する。
    論文  参考訳(メタデータ)   (Thu, 7 Dec 2023 22:07:54 GMT)
  • セキュリティ関連のベンチマークとして「安全でないコードの生成」「サイバー攻撃の支援に対するコンプライアンス」を評価するもの。Purple Llama CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models | Research – AI at Metaの立ち上げに伴うもの。
  • 「On average, LLMs suggested vulnerable code 30% of the time over CYBERSECEVAL ’s test cases. Furthermore, models complied with 53% of requests to assist in cyberattacks on average across all models and threat categories.」とのことで道はながそう。GPT-4であれば大丈夫という結果でもない。
  • リポジトリはPurpleLlama/CybersecurityBenchmarks at main · facebookresearch/PurpleLlama · GitHub

CogAgent

  • CogAgent: A Visual Language Model for GUI Agents [40.2]
    GUI理解とナビゲーションに特化した視覚言語モデル(VLM)であるCogAgentを紹介する。 低解像度画像エンコーダと高解像度画像エンコーダの両方を利用することで、CogAgentは1120*1120の解像度で入力をサポートする。 CogAgentは、VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、 infoVQA、DocVQA、MM-Vet、POPEを含む5つの一般的なVQAベンチマークで、技SoTAを達成している。
    論文  参考訳(メタデータ)   (Thu, 14 Dec 2023 13:20:57 GMT)
  • GUIを理解し実行するためのAgent、複数のVQAベンチマークでもSoTAを主張
  • リポジトリはGitHub – THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型

A Survey of the Evolution of Language Model-Based Dialogue Systems

  • A Survey of the Evolution of Language Model-Based Dialogue Systems [25.3]
    Task-oriented_dialogue_system (TOD) とopen-domain_dialogue_system (ODD) は大きな変換を経ている。 この調査は、対話システムの歴史的軌跡を掘り下げ、言語モデルの進歩と関係を解明するものである。 我々の調査は、LMのブレークスルーに沿った時系列的な視点を提供し、最先端の研究成果の包括的なレビューを提供する。
    論文  参考訳(メタデータ)   (Tue, 28 Nov 2023 13:51:32 GMT)
  • 対話システムのサーベイ、LargeがつかないLaugage Model-Basedとある通り、割と昔からのサーベイとなっていて最近の技術進歩や歴史を理解するうえでも良い資料

LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem

  • LLM as OS (llmao), Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem [48.8]
    本稿では,Large Language Model(LLM)がIOS(Artificial Intelligent Operating System)として機能する,革命的なAIOS-Agentエコシステムを構想する。 LLMの影響はAIアプリケーションレベルに限らず、コンピュータシステム、アーキテクチャ、ソフトウェア、プログラミング言語の設計と実装に革命をもたらすものと期待している。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 18:50:26 GMT)
  • LLMをAI用のOSと捉えた時、既存OSとの対比やそれが実現した時の将来について整理した論文。刺激的な内容で面白い。

Multimodal Large Language Models: A Survey

  • Multimodal Large Language Models: A Survey [36.1]
    マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。 本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。 実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。 最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
    論文  参考訳(メタデータ)   (Wed, 22 Nov 2023 05:15:12 GMT)
  • マルチモーダルな大規模言語モデルのサーベイ、いろいろあるなというのとテクニカルに重要なポイントがまとまっているのがうれしい。