arXiv最新論文の紹介

Model Editing Can Hurt General Abilities of Large Language Models

Model Editing Can Hurt General Abilities of Large Language Models [128.3]
大規模言語モデル(LLM)は、パラメータに格納された知識にアクセスするための新しいパラダイムを開放した。大規模言語モデル(LLM)の最近の進歩は、パラメータに格納された知識にアクセスするための新しいパラダイムを開放した。更新情報によるLLMの再学習は資源集約的であるため,モデル編集への関心が高まっている。
論文参考訳（メタデータ） (Tue, 9 Jan 2024 18:03:15 GMT)
モデル編集の副作用に関する検証、GPT2-XLとLlama-1-7Bを対象にKN、MEND、ROME、MEMITでModel Editingし、8タスクで評価。結果として性能はかなり劣化したとのこと。
結果としては納得感があり、これら技術を使うには当該分野のテスト方法を確立する必要がありそう。
リポジトリはJasonForJoy/Model-Editing-Hurt (github.com)

UniHuman

UniHuman: A Unified Model for Editing Human Images in the Wild [52.4]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文参考訳（メタデータ） (Fri, 22 Dec 2023 05:00:30 GMT)
人間の画像を編集するためのモデルの提案、Adobeがかかわっており、「 we curated 400K high-quality image-text pairs for training and collected 2K human image pairs for out-of-domain testing.」はさすが。

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.7]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文参考訳（メタデータ） (Tue, 2 Jan 2024 17:56:30 GMT)
ハルシネーション対策手法のサーベイ
色々出てはいるが実装時に使えるもの使えないものがあり、効果も様々。言語影響が大きいものもあってなかなか決定版はない印象。

HyKGE: Hypothesis Knowledge Graph Enhanced

Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models [21.2]
我々は、検索補助生成(RAG)とファインチューニング(FT)の2つの戦略に焦点を当てる。本稿では,医療用LLMの強化に知識グラフを活用した仮説知識グラフ拡張(HyKGE)フレームワークを提案する。
論文参考訳（メタデータ） (Tue, 26 Dec 2023 04:49:56 GMT)
LLM + Knowledge GraphなRAGの提案。

Multilingual Instruction Tuning With Just a Pinch of Multilinguality

Multilingual Instruction Tuning With Just a Pinch of Multilinguality [33.2]
多くの言語が単言語チューニングから命令追従機能を他の言語に移行していることを示す。複数の言語において、多言語混合に調整されたモデルが同等または優れた性能を示すことが観察された。この結果から,多言語命令調整モデルの構築は,ごく少数の多言語命令応答で行うことが可能であることが示唆された。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 17:48:10 GMT)
LLMにおける多言語対応に関する報告。LLM以前のマルチリンガルなPLMでも同様の指摘はあったが「Our results suggest that building massively multilingual instruction-tuned models can be done with only a very small set of multilingual instructionresponses.」は重要な特性だと思う。
言語の壁は意外と低いのか、pre trainの重要さが非常に大きいのか、理由が知りたいところ。

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [15.7]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 15:51:12 GMT)
入力画像＋テキストからのアニメーション生成。アニメ中の破綻が少ない。
リポジトリはPIA: Personalized Image Animator (pi-animator.github.io)、デモもある。

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 [26.1]
本稿では,大規模言語モデルのクエリとプロンプトのプロセスの合理化を図った26の原則を紹介する。 LLaMA-1/2 (7B, 13B, 70B) と GPT-3.5/4 を用いて実験を行い, 提案法の有効性を検証した。
論文参考訳（メタデータ） (Tue, 26 Dec 2023 18:59:33 GMT)
LLMへのプロンプトでよく言われているベストプラクティス的な手法を試し比較した論文。それなりに有効そうなものが多い。
リポジトリはVILA-Lab/ATLAS: Principled instruction dataset on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 (github.com)

LogicAsker

A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models [65.9]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。 LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文参考訳（メタデータ） (Mon, 1 Jan 2024 13:53:53 GMT)
LLMの論理的推論（命題論理・述語論理）能力を測るベンチマークの提案、ICLによる改善も評価している。データ等は公開予定とのことだが、現時点でリポジトリは見つけられなかった。
GPT-4でも結構間違うな、という印象

AppAgent

AppAgent: Multimodal Agents as Smartphone Users [22.4]
我々のフレームワークは、エージェントが簡易なアクション空間を通じてスマートフォンアプリケーションを操作できるようにする。エージェントは、自律的な探索または人間のデモを観察して、新しいアプリをナビゲートし、使用することを学ぶ。エージェントの実用性を実証するため、10種類のアプリケーションで50以上のタスクを広範囲にテストした。
論文参考訳（メタデータ） (Thu, 21 Dec 2023 11:52:45 GMT)
スマートフォンアプリケーションを操作することに焦点を当てたマルチモーダルエージェントフレームワークの提案。 Exploration Phase で自律的にアプリを操作する中で情報を得て、その情報を使いDeployment Phaseで与えられたタスクを解くフレームワークになっている。
AppAgent: Multimodal Agents as Smartphone Users (appagent-official.github.io)、リポジトリはmnotgod96/AppAgent: AppAgent: Multimodal Agents as Smartphone Users, an LLM-based multimodal agent framework designed to operate smartphone apps. (github.com)、OSSで公開されている

Self-Contrast

Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [48.2]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 00:32:33 GMT)
Self-verification系の手法だがチェックリストを用いる点が特徴的。よく言われている「The aforementioned experiments indicate that feedback generated by the self-evaluate process is either highly random or excessively confident.」に対応するため「We abstract insightful checklists from these pairwise contrastive differences and then use them to resolve the inconsistencies across various perspectives for a consensus.」という手順をとる。
多くの関連研究がある分野だが、多種の手法と比較しても優れていたとのこと。
すごくコストをかけてもよい状況下の人っぽいアプローチで興味深い。

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30