LLM – ページ 39 – arXiv最新論文の紹介

LLaVA-Interactive

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 15:13:43 GMT)
オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo

Myriad: multi-modal model by applying vision experts for industrial anomaly detection

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文参考訳（メタデータ） (Sun, 29 Oct 2023 16:49:45 GMT)
たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.

WIMBD: WHAT’S IN MY BIG DATA?

What’s In My Big Data? [67.0]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:59:38 GMT)
大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

Multilingual Mathematical Reasoning

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 06:56:14 GMT)
多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。 rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

LEMA: LEarning from MistAkes

Learning From Mistakes Makes LLM Better Reasoner [112.8]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:52:22 GMT)
GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い（新たな情報が多い）のはそうなんだろうと思う。
リポジトリはGitHub – microsoft/CodeT　？

Data-Centric Financial Large Language Models

Data-Centric Financial Large Language Models [27.5]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文参考訳（メタデータ） (Sat, 7 Oct 2023 04:53:31 GMT)
金融分野向けにLLMを活用するため、データの前処理を工夫・拡張（AAR: abductive augmentation reasoning ）など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain＋LLMより有効とのこと。
「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.3]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 18:11:32 GMT)
AIが作ったテキストを検出できるか否かに関するサーベイ。DetectionとAttackの2方向から網羅的に調査しているので研究のアプローチが分かりやすい一方で著者が主張するスコアを並べるような調査にはなっていない。
「Specifically, Liang et al (2023) observe perplexitybased detectors having a high misclassification rate for non-native authored TOEFL essays despite being nearly perfectly accurate for college essays authored by native speakers.」のような話はとても重要。fugumt.comで全文訳提供をやめた理由の一つが某剽窃チェッカーの誤判定に関する問い合わせが多く来たことであり、この手のツールを社会実装する場合はその責任を自覚してほしいと思う。最終判断はユーザに任せているという内容の（たいして読まれない）EULAで逃げないでほしい。

Prompt Injection Attacks and Defenses in LLM-Integrated Applications

Prompt Injection Attacks and Defenses in LLM-Integrated Applications [63.9]
本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 15:12:09 GMT)
LLMに対する攻撃を整理した報告
リポジトリはGitHub – liu00222/Open-Prompt-Injection: Prompt injection attacks and defenses in LLM-integrated applications

English benchmark for stress-testing machine ToM

FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.6]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文参考訳（メタデータ） (Wed, 25 Oct 2023 06:46:42 GMT)
Theory of MindのベンチマークFANToMに関する論文。どうでもよいが、English benchmark for stress-testing machine ToM という略称の作り方は無理筋なのでは・・・
「We show that FANTOM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chainof-thought reasoning or fine-tuning.」とのことで難しいベンチマークとのこと。「We do not believe that current LLMs possess an actual ToM.」という注釈も興味深い。LLMのスコアは人間のスコアよりも著しく悪く、プロジェクトサイトでは「LLMs do not have a coherent theory of mind」と書かれている。
社会的・倫理的考察では「While the concept of ToM attempts to capture the ability to attribute mental states to oneself and others (Premack and Woodruff, 1978), it is important to clarify that AI models do not possess subjective consciousness or true understanding of intentions, beliefs, or desires. Our experiment results also demonstrate that current large language models do not exhibit any coherent ToM reasoning; instead, they primarily rely on word correlations.」とのことで、単語の相関関係のみで何かがあるように見えているだけなのでは？というのが一番ありそう。（人間はどうなんだ？という話もあり、議論が発散していきそうな領域でもある）
プロジェクトサイトはFANToM: A New Benchmark for Machine ToM in Interactions (hyunw.kim)

Personalized Large Language Model Alignment

Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging [148.8]
パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。 LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
論文参考訳（メタデータ） (Tue, 17 Oct 2023 20:22:13 GMT)
RLHFにおいてパーソナライズされた方向にアライメントするP-MORL: PROMPTED-MORL、P-SOUP: PERSONALIZED SOUPSを提案。人による評価とGPT-4による評価が割れているのも興味深いところ。。
リポジトリはGitHub – joeljang/RLPHF: Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31