2024年1月 – ページ 5 – arXiv最新論文の紹介

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

Multilingual Instruction Tuning With Just a Pinch of Multilinguality [33.2]
多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。複数の言語において、多言語混合に調整されたモデルが同等または優れた性能を示すことが観察された。この結果から,多言語命令調整モデルの構築は,ごく少数の多言語命令応答で行うことが可能であることが示唆された。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 17:48:10 GMT)
LLMにおける多言語対応に関する報告。LLM以前のマルチリンガルなPLMでも同様の指摘はあったが「Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instructionresponses.」は重要な特性だと思う。
言語の壁は意外と低いのか、pre trainの重要さが非常に大きいのか、理由が知りたいところ。

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 15:51:12 GMT)
入力画像＋テキストからのアニメーション生成。アニメ中の破綻が少ない。
リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 [26.1]
本稿では,大規模言語モデルのクエリとプロンプトのプロセスの合理化を図った26の原則を紹介する。 LLaMA-1/2 (7B, 13B, 70B) と GPT-3.5/4 を用いて実験を行い, 提案法の有効性を検証した。
論文参考訳（メタデータ） (Tue, 26 Dec 2023 18:59:33 GMT)
LLMへのプロンプトでよく言われているベストプラクティス的な手法を試し比較した論文。それなりに有効そうなものが多い。
リポジトリはVILA-Lab/ATLAS: Principled instruction dataset on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 (github.com)

LogicAsker

A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文参考訳（メタデータ） (Mon, 1 Jan 2024 13:53:53 GMT)
LLMの論理的推論（命題論理・述語論理）能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
GPT-4でも結構間違うな、という印象

AppAgent

AppAgent: Multimodal Agents as Smartphone Users [22.4]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 11:52:45 GMT)
スマートフォンアプリケーションを操作することに焦点を当てたマルチモーダルエージェントフレームワークの提案。 Exploration Phase で自律的にアプリを操作する中で情報を得て、その情報を使いDeployment Phaseで与えられたタスクを解くフレームワークになっている。
AppAgent: Multimodal Agents as Smartphone Users (appagent-official.github.io)、リポジトリはmnotgod96/AppAgent: AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps. (github.com)、OSSで公開されている

Self-Contrast

Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [48.2]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 00:32:33 GMT)
Self-verification系の手法だがチェックリストを用いる点が特徴的。よく言われている「The aforementioned experiments indicate that feedback generated by the self-evaluate process is either highly random or excessively confident.」に対応するため「We abstract insightful checklists from these pairwise contrastive differences and then use them to resolve the inconsistencies across various perspectives for a consensus.」という手順をとる。
多くの関連研究がある分野だが、多種の手法と比較しても優れていたとのこと。
すごくコストをかけてもよい状況下の人っぽいアプローチで興味深い。

The Earth is Flat? Unveiling Factual Errors in Large Language Models

The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.9]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (Mon, 1 Jan 2024 14:02:27 GMT)
WIkidataをベースに 3種類（Yes-No, Multiple-Choice, WH (whで始まる疑問詞を使った質問)）のファクトチェックテストデータFactCheckerを構築したとの報告、ルールベースの要素が多い。
「FactChecker can substantially enhance the factual accuracy, resulting in an average improvement of 6.5% for the ICL method, and a notable enhancement of 33.2% for the fine-tuning method.」というのも興味深い（が、この評価を解釈するのは難しそう…）、コード等公開予定とのこと。

ChartAssisstant

ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.9]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。タスク固有の微調整なしで、様々なチャートタスク間の競争性能を達成する。その結果、OpenAIのGPT-4V(ision)を実世界のチャートデータで上回り、最先端のUniChart法よりも大きな性能向上を示した。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 17:51:48 GMT)
こちらはチャートを扱える（Vision-Languageでチャートに特化した）マルチモーダルなLLM。特化しているからかGPT-4VやBardを大きく上回る性能。
リポジトリはhttps://github.com/OpenGVLab/ChartAstとのことだが現時点では404。データセットを作っているのも大きな貢献だと思うので公開されるのが楽しみ。

DocLLM

DocLLM: A layout-aware generative language model for multimodal document understanding [12.1]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (Sun, 31 Dec 2023 22:37:52 GMT)
bounding boxの情報を組み込んだLLM、画像への拡張よりも効率的とのこと。実装上有用なアプローチに思える。著者がJPMorgan AI Researchというのも興味深い。
「DocLLM is a multi-modal system that integrates lightweight visual information by utilizing the spatial positions and dimensions of text tokens obtained using OCR.」ということでbounding boxはOCRから得るのが前提ではあるが、テキストやブロック構造が得られる電子ファイルが使える場合はさらによく動きそう（非現実的な仮定でもない）。

A Comprehensive Study of Knowledge Editing for Large Language Models

A Comprehensive Study of Knowledge Editing for Large Language Models [83.7]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (Tue, 2 Jan 2024 16:54:58 GMT)
Knowledge Editingのサーベイとベンチマークの提案。この分野の非常に良いサーベイ。
リポジトリはzjunlp/KnowEdit · Datasets at Hugging Faceで、ReMaKE: Retrieval-augmented Multilingual Knowledge Editor – arXiv最新論文の紹介 (devneko.jp)でも使われていたzjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs. (github.com)のチームによるもの

2024年1月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31