2024年2月22日 – arXiv最新論文の紹介

Chain-of-Layer

Chain-of-Layer: Iteratively Prompting Large Language Models for Taxonomy Induction from Limited Examples [36.6]
Chain-of-Layerは、特定のエンティティセットから誘導されるように設計された、コンテキスト学習フレームワークである。実世界の4つのベンチマークにおいて,Chain-of-Layerが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 03:05:54 GMT)
自動分類のためのプロンプトテクニックの提案。zeroshot設定のCoL-Zero(GPT-4)が非常に強力だけど、リークの疑いなどが気になるところではある。（実用上はあまり問題にならない気はしつつ）
リポジトリはQingkaiZeng/Chain-of-Layer: Code for Chain-of-Layer (github.com)

Continual Learning for Large Language Models: A Survey [95.8]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (Fri, 2 Feb 2024 12:34:09 GMT)
LLMに対する継続学習のサーベイだが、Continual Pre-training、Continual Instruction Tuning、Continual Alignment と事前学習以後の話題を扱っているのが興味深い。
Fact, Domain, Language, Task, Skills, Values, Preferencesのどこを対象としているか表している図２も参考にある（ザックリとしているので異論もあるだろうけど）

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate [17.8]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文参考訳（メタデータ） (Fri, 9 Feb 2024 06:16:08 GMT)
問題解決と評価能力は別なのでは？という問いへの検証。「Results indicate a significant disparity, with LLMs exhibiting lower performance in evaluation tasks compared to generation tasks」とのこと
TriviaQA での検証だが、おそらくタスクやデータセットによって異なるんだろうとは思う。評価用に生成AIを使うことは多いがそろそろGPT-4が他を圧倒というわけでもなくなっているので興味深い。

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [98.5]
Diffusion-of-Thought (DoT) は、拡散過程を通じて時間とともに拡散する推論ステップを可能にする。実験の結果,マルチ桁乗算と小学校数学における DoT の有効性が示された。 DoTは、自己整合性復号化のような既存の推論エンハンス技術による有望な自己補正能力とメリットを紹介している。
論文参考訳（メタデータ） (Mon, 12 Feb 2024 16:23:28 GMT)
CoTの改善に拡散モデルを使おうとする取り組み。implict CoTより優れているとのこと。面白い取り組みである一方「A notable limitation of DoT is its requirement for additional training to achieve accurate reasoning.」とある通り、この条件下だと比較ができているのかはやや疑問。汎用的なものを作れるんだろうか。。。
リポジトリはHKUNLP/diffusion-of-thoughts (github.com)