2024年9月 – ページ 6 – arXiv最新論文の紹介

Controllable Text Generation for Large Language Models: A Survey

Controllable Text Generation for Large Language Models: A Survey [27.1]
本稿では,大規模言語モデルにおける制御可能なテキスト生成の最近の進歩を体系的にレビューする。我々はCTGタスクをコンテンツ制御と制御の2つの主要なタイプに分類する。現在の研究における重要な課題には、流用率の低減や実用性といった課題に対処する。
論文参考訳（メタデータ） (Thu, 22 Aug 2024 17:59:04 GMT)
Controllable Text Generationのサーベイ、LLM全般としても良い資料で広範な内容。サーベイの構造はCTGSurvey/figures/framework.png at main · IAAR-Shanghai/CTGSurvey · GitHub
リポジトリはGitHub – IAAR-Shanghai/CTGSurvey

Can Unconfident LLM Annotations Be Used for Confident Conclusions?

Can Unconfident LLM Annotations Be Used for Confident Conclusions? [34.2]
大規模言語モデル (LLMs) は、様々なタスクにおいて、人間と高い合意を示してきた。信頼性駆動推論(Confidence-Driven Inference)は、LCMの信頼度インジケータを組み合わせて、どのアノテーションを収集すべきかを戦略的に選択する手法である。
論文参考訳（メタデータ） (Tue, 27 Aug 2024 17:03:18 GMT)
LLMと人間が手分けしてアノテーションをする状況下で、LLMのアノテーション及びLLMの信頼度を使って人間がやるべきアノテーションを選択する手法の提案。「We demonstrate the effectiveness of CONFIDENCE-DRIVEN INFERENCE over baselines in statistical estimation tasks across three CSS settings—text politeness, stance, and bias—reducing the needed number of human annotations by over 25% in each.」とのこと。
リポジトリはGitHub – kristinagligoric/confidence-driven-inference

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.2]
強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
論文参考訳（メタデータ） (Thu, 29 Aug 2024 17:32:35 GMT)
合成データ生成におけるstronger but more expensive (SE) model と a weaker but cheaper (WC) modelの比較。「Our results indicate that it is more compute-optimal to sample from a WC model as opposed to the common-practice of sampling from a SE model.」とのこと。
「3) a new paradigm we introduce called Weak-to-Strong Improvement, where a strong student LM improves using synthetic data from a weaker teacher LM.」という設定、および、意外なことにこれが有効である点も興味深い。

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models [33.2]
Cybenchは、サイバーセキュリティタスクを特定し、それらのタスク上でエージェントを評価するためのフレームワークである。エージェント能力を評価するために,gpt-4o,claude 3 opus,claude 3.5 sonnet,mixtral 8x22b instruct,gemini 1.5 pro,llama 3 70b chat,llama 3.1 405b instructの7モデルを評価する。
論文参考訳（メタデータ） (Thu, 15 Aug 2024 17:23:10 GMT)
CTFコンペから抽出したタスクをLLMが解けるかのベンチマーク。ガイドなしだとまだまだ難しそうな感じ。閲覧時点ではClaude 3.5 Sonnet > GPT-4o > Claude 3 Opusで、オープン系のLlama 3.1 405B Instructは商用モデルに比べてかなり性能が低い。
リポジトリはCybench

Dolphin, ReMamba, The Mamba in the Llama: Distilling and Accelerating Hybrid Models

（主としてRAGを想定した）高速化、Transformerに代わるかもしれないMamba（Mamba – arXiv最新論文の紹介 (devneko.jp)）の改善提案、既存LLMのMambaへの変換など計算効率を高める研究は多く行われている。

Codestral Mamba | Mistral AI | Frontier AI in your hands（mistralai/Mamba-Codestral-7B-v0.1 · Hugging Face）など実用性のあるモデルも出てきていて興味深い。このあたりのブレイクスルーがあると分野全体が面白くなるので要注目。

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models [9.9]
Dolphinは、言語モデルにおける長いコンテキストのエネルギー効率の高い処理のための新しいデコーダデコーダアーキテクチャである。弊社のアプローチは、デバイス上のモデルに固有の、エネルギー消費とレイテンシの問題に対処する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 04:06:14 GMT)
「By treating extended context as a distinct modality, Dolphin utilizes a compact 0.5B parameter decoder to distill contextual information into memory tokens, which are then processed by a larger 7B parameter decoder.」と小規模なパラメータと大規模なパラメータの構造を組み合わせた手法の提案。小規模部分で（RAGにありがちな）長いコンテキストを処理させることを想定している。MLLMのProjectorと近しい構成。
リポジトリはNexaAIDev/Dolphin · Hugging Face

ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.5]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 02:47:27 GMT)
Mambaの改善、長文において記憶すべき情報を選択し状態空間に保存する機構を追加、性能を向上とのこと。Llama2とかなり良い勝負

The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.6]
我々は,アカデミックGPUリソースを用いてアテンション層からの線形投影重みを再利用することにより,大きなトランスフォーマーを線形RNNに蒸留できることを実証する。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (Tue, 27 Aug 2024 17:56:11 GMT)
LLMをハイブリッドMambaに変換、ゼロから学習したものより高性能だったとする論文。残念ながら「The distilled pure (0%) model does degrade significantly in accuracy.」
普通に小型化するのと比べて優位性があるのだろうか。

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive Survey [42.1]
我々は,データセット,タスク指向手法,普遍的基礎モデルの観点から,医療マルチモーダル学習の現状を包括的に調査する。我々は、データや技術からパフォーマンス、倫理に至るまで、医療における高度な技術の本当の影響を探るため、5つの課題から提案された質問について議論する。答えは、現在の技術は普遍的な知性を達成しておらず、実行すべき重要な道程がまだ残っているということだ。
論文参考訳（メタデータ） (Fri, 23 Aug 2024 07:31:01 GMT)
マルチモーダルな医療モデルの現状についてサーベイした論文。universal intellegenceというタイトルが印象深い。現実的にはまだまだとはいえ、このような言葉がつかえるようになってきたのは大きな進歩のように思う。
「The answer is that current technologies have NOT achieved universal intelligence and there remains a significant journey to undertake.」と結論。
リポジトリはGitHub – DeepReasoning/aihealth

LogicGame

LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.5]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (Wed, 28 Aug 2024 13:16:41 GMT)
ルールを用いた推論能力について、計画と実行の軸で評価するベンチマーク
GPT-4 turboとGPT-4o、Claude 3.5 sonnetの優秀さが目立つ

Large Language Model Driven Recommendation

Large Language Model Driven Recommendation [34.5]
言語主導のレコメンデーションの出現は、リコメンデーションのための自然言語(NL)インタラクションの使用を解放した。この章では、LLMの一般NL能力が、高度にパーソナライズされたRSを構築する新しい機会を導く方法について論じる。
論文参考訳（メタデータ） (Tue, 20 Aug 2024 15:36:24 GMT)
LLMを用いたレコメンデーション。Surveyというよりは教科書の一部という感じ。

SurveySum

SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section [7.4]
本稿では,複数の学術論文を要約した新しいデータセットについて紹介する。筆者らの貢献は,(1)ドメイン固有の要約ツールのギャップに対処する新しいデータセットであるサーベイサム,(2)科学論文を1つのセクションにまとめる2つの特定のパイプライン,(3)これらのパイプラインの評価を複数の指標を用いて比較することである。
論文参考訳（メタデータ） (Thu, 29 Aug 2024 11:13:23 GMT)
学術論文の要約データセット
リポジトリはunicamp-dl/SurveySum · Datasets at Hugging Face

要約といえば段階を踏んだ方が有効といわれているが、上記データセットでも同様の傾向があるのだろうか。

Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization [31.8]
Prompt ChainingとStepwise Promptの2つの戦略は反復的なプロセスを実行するように設計されている。本稿では,これら2つの手法をテキスト要約の文脈で検証し,比較することを目的とした。実験結果から, プロンプト連鎖法によりより良好な結果が得られることが示された。
論文参考訳（メタデータ） (Sat, 01 Jun 2024 17:28:38 GMT)

2024年9月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30