2024年2月 – ページ 5 – arXiv最新論文の紹介

Efficient Tool Use with Chain-of-Abstraction Reasoning

Efficient Tool Use with Chain-of-Abstraction Reasoning [65.2]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。マルチステップ推論問題におけるツールの実行には,微調整LLMエージェントの課題が残されている。マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 21:53:30 GMT)
変数を変数としてそのまま使えるような抽象化したChainを扱えるようLLMをfine tuning、そのモデルを使って実処理を別ツールとして切り出す手法の提案。
面白いし性能上がってそうだが評価するの難しそうな印象。

YOLO-World

YOLO-World: Real-Time Open-Vocabulary Object Detection [87.1]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 18:59:38 GMT)
ゼロショット能力があるYOLO。YOLOらしく（？）動作速度が速い
リポジトリはAILab-CVC/YOLO-World: Real-Time Open-Vocabulary Object Detection (github.com)

MM-LLMs: Recent Advances in MultiModal Large Language Models

MM-LLMs: Recent Advances in MultiModal Large Language Models [51.5]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。 MM-LLMのさらなる研究を促進するための総合的な調査を行う。
論文参考訳（メタデータ） (Thu, 25 Jan 2024 03:46:15 GMT)
マルチモーダルLLMのサーベイ
SOTA-LLM、ベンチマーク結果表などとてもありがたい、一方ですぐ情報がアップデートされるのだろうなとも。。。
プロジェクトサイトはhttps://mm-llms.github.io/とのことだが現状４０４

AgentBoard

AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [77.0]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (Wed, 24 Jan 2024 01:51:00 GMT)
LLMエージェントの分析的評価のためのフレームワーク
対象タスクは9つ。Embodied AI / AlfWorld, ScienceWorld, BabyAI、Game / Jericho, PDDL、Web / WebShop, WebArena、Tool / Tool-Query, Tool-Operation。論文で比べられているものの中ではGPT-4の性能が圧倒的。
リポジトリはhkust-nlp/AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents (github.com)、リーダーボードはResult | AgentBoard: An Analytical Evaluation Board of Multi-Turn LLM Agents (hkust-nlp.github.io)

ACES: Translation Accuracy ChallengE Set

Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.4]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (Mon, 29 Jan 2024 17:17:42 GMT)
機械翻訳に関する評価手法に対するベンチマーク。当然といえば当然だがBLEUのスコアが非常に低い。「we advise the reader not to draw any conclusions based solely on the ACES-Score」とは書かれているものの・・・。
リポジトリはnikitam/ACES · Datasets at Hugging Face、ライセンスはCreative Commons Attribution Non-Commercial Share Alike 4.0 (cc-by-nc-sa-4.0)

AI for social science and social science of AI: A Survey

AI for social science and social science of AI: A Survey [47.5]
人工知能の最近の進歩は、人工知能の可能性を再考するきっかけとなった。 AIの人間的能力の増大は、社会科学研究にも注目されている。
論文参考訳（メタデータ） (Mon, 22 Jan 2024 10:57:09 GMT)
AIと社会科学に関するサーベイ。
AI for social science、social science of AI、public tools and resourcesの構成。LLMをうまく使って研究するものもあればLLM自体を研究するものもあり、興味深い。

Navigating the OverKill in Large Language Models

Navigating the OverKill in Large Language Models [84.6]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。以上の結果から,モデル内にショートカットが存在することが明らかとなり,”キル”のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文参考訳（メタデータ） (Wed, 31 Jan 2024 07:26:47 GMT)
LLMは「kill」のような単語に過剰反応し性能を落とすことがあり、その対策方法の提案。安全性を高める取り組みが過剰反応を引き起こすことはありそうで面白い。
リポジトリはInvokerStark/OverKill (github.com)

UltraTool

Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
論文参考訳（メタデータ） (Tue, 30 Jan 2024 16:52:56 GMT)
ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文参考訳（メタデータ） (Fri, 26 Jan 2024 03:38:23 GMT)
特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。

Document Structure in Long Document Transformers

Document Structure in Long Document Transformers [64.8]
長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
論文参考訳（メタデータ） (Wed, 31 Jan 2024 08:28:06 GMT)
文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと（現在は404）

2024年2月
月	火	水	木	金	土	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29