2024年2月6日 – arXiv最新論文の紹介

Navigating the OverKill in Large Language Models

Navigating the OverKill in Large Language Models [84.6]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,”キル”のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (Wed, 31 Jan 2024 07:26:47 GMT)
LLMは「kill」のような単語に過剰反応し性能を落とすことがあり、その対策方法の提案。安全性を高める取り組みが過剰反応を引き起こすことはありそうで面白い。
リポジトリはInvokerStark/OverKill (github.com)

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 16:52:56 GMT)
ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文参考訳（メタデータ） (Fri, 26 Jan 2024 03:38:23 GMT)
特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。

Document Structure in Long Document Transformers [64.8]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文参考訳（メタデータ） (Wed, 31 Jan 2024 08:28:06 GMT)
文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと（現在は404）