LLM – ページ 46 – arXiv最新論文の紹介

OPRO: Optimization by PROmpting

Large Language Models as Optimizers [111.9]
本研究では,最適化タスクを自然言語で記述する大規模言語モデル(llms)を最適化器として活用するための,単純かつ効果的な手法であるoproを提案する。 OPROによって最適化された最良のプロンプトは、GSM8Kでは最大8%、Big-Bench Hardタスクでは最大50%性能が向上することを示した。
論文参考訳（メタデータ） (Thu, 7 Sep 2023 00:07:15 GMT)
LLMを用いて最適化を行う手法の提案。テキスト入力、テキスト出力なLLM利用におけるプロンプト自体も最適化していけるのが興味深い。
見つかったトップインストラクションの事例「Take a deep breath and work on this problem step-by-step.」や「A little bit of arithmetic and a logical approach will help us quickly arrive at the solution to this problem（GPT-3.5向け）」「Let’s combine our numerical command and clear thinking to quickly and accurately decipher the answer（GPT-4向け）」はベースラインである「Let’s think step by step.」よりかなり良いスコアだが、人間へのアドバイスのようで非常に面白い。

LLASM: Large Language and Speech Model

LLaSM: Large Language and Speech Model [11.9]
大言語・音声モデル(Large Language and Speech Model, LLaSM)は、多モーダル言語モデルである。初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
論文参考訳（メタデータ） (Wed, 30 Aug 2023 10:12:39 GMT)
LLM＋音声なマルチモーダルモデルの提案
Whisper で分散表現に変換Modal Adaptorを通したものをテキストとともに扱う形式、ベースのLLMは Chinese-LLAMA2-7Bとのこと。fine tuning用データはtext-to-speech APIで作成。性能評価が無いような気がするが、この方針でうまくいくのだろうか・・・？
リポジトリはGitHub – LinkSoul-AI/LLaSM: 第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验，同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。、HuggingFaceはLinkSoul/LLaSM-Cllama2 · Hugging Face

Mental-LLM

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data [38.9]
オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
論文参考訳（メタデータ） (Wed, 16 Aug 2023 06:04:48 GMT)
メンタルヘルス予測タスクへのLLM活用に関する報告。zero shot, few shot, instruction finetuningといった様々な方法＆Alpaca, FLAN, GPT-3.5, GPT-4など様々なモデルで評価されており興味深い。
「Instruction finetuning on multiple mental health datasets can significantly boost the performance of LLMs on various mental health prediction tasks.」や「Although task-solving-focused LLMs may have better performance in the zero-shot setting for mental health prediction tasks, dialogue-focused LLMs have a stronger capability of learning from human natural language and can improve more significantly after finetuning.」など興味深い結果となっている。メンタルヘルスというドメインに依存した話なのか一般的な傾向なのかはよくわからないが、様々なアプローチの結果を比較するのは重要であるとの感想。

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.9]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLLMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (Wed, 30 Aug 2023 11:35:21 GMT)
LLM + RobotなシステムとしてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を提案、ChatGPTを命令のサマライズに用い、DINO, SAM, SAR-NetでVisual groundingを行い、物理ロボットに展開と最近のAIモデルをフル活用している印象

Identifying and Mitigating the Security Risks of Generative AI

Identifying and Mitigating the Security Risks of Generative AI [179.2]
本稿では,GenAIによるジレンマに関するGoogleのワークショップの成果を報告する。 GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。この話題について,コミュニティの短期的,長期的目標について論じる。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 18:51:09 GMT)
LLMなど生成AIを使った攻撃と防御に関して整理した論文。Capability, Attack, Defenceと整理されている。AttackのところではSpear-phishing、Hallucinations、Dissemination of deepfakes、Proliferation of cyberattacks、Low barrier-of-entry for adversaries、Lack of social awareness and human sensibility、 Data feedback loops、Unpredictabilityが挙げられている。Unpredictabilityに「Currently, we remain unaware of the full range of capabilities and threats posed by GenAI models.」とあるのが興味深い。

Can Programming Languages Boost Each Other via Instruction Tuning?

Can Programming Languages Boost Each Other via Instruction Tuning? [31.2]
本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の実験を行います。結果は、プログラミング言語が互いに著しく改善できることを示しています。
論文参考訳（メタデータ） (Thu, 31 Aug 2023 15:53:51 GMT)
異なるプログラミング言語に関するfine tuningが他のプログラミング言語のコード生成に良い影響を与えるかを検証した論文。結果は効果がある。
「CODEM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X.」はまぁ分かるとして「 CODEM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1.」は不思議。結果を見るとなんとなく近い言語がより強化されているように見える気はする。
リポジトリはGitHub – NL2Code/CodeM

ZhuJiu

ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models [17.6]
大規模言語モデル(LLM)評価のためのZhuJiuベンチマークを提案する。 ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供している。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 06:56:44 GMT)
LLM評価のためのベンチマーク、評価観点など参考になる点は多い。
プロジェクトサイトはHome (zhujiu-benchmark.com)

LongBench

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [59.6]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (Mon, 28 Aug 2023 11:53:40 GMT)
LLM評価を前提としたベンチマークであり、バイリンガルかつ長文を対象としたもの。対象のタスクはMulti-document QA, Single-document QA, Summarization, Few-shot learning（「TREC: A classification task that requires categorizing questions, includes 50 categories in total」など）, Synthetic Tasks（「PassageRetrieval-en: Given 30 English Wikipedia paragraphs, determine which paragraph the given summary corresponds to」など）, Code Completionとのこと。カテゴリに若干違和感があるがタスクの詳細はLongBench/task.md at main · THUDM/LongBench · GitHubで様々な観点が入っている。ChatGLM2-6B-32kはかなり優秀のよう。
リポジトリはGitHub – THUDM/LongBench: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

A Survey on Large Language Model based Autonomous Agents

A Survey on Large Language Model based Autonomous Agents [107.8]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。本稿では,自律エージェントの分野を包括的観点から体系的に検討する。社会科学,自然科学,工学の分野におけるLLMベースのAIエージェントの様々な応用について概説する。
論文参考訳（メタデータ） (Tue, 22 Aug 2023 13:30:37 GMT)
LLMを用いたAIエージェントに関するサーベイ。フレームワークとしてprofiling module, memory module, planning module, action moduleでの構成が想定されている。LLM活用が流行ってからエージェントへの応用、さらにそれらのサーベイが出るというスピード感がとても早い。。。
関連するリポジトリが用意されている。https://github.com/Paitesanshi/LLM-Agent-Survey

An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [74.0]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい情報を学ぶ際に学習した情報を忘れたときに発生する現象である。本研究では,大言語モデルの知識における忘れ現象を,ドメイン知識,推論,理解という観点から実証的に評価する。
論文参考訳（メタデータ） (Thu, 17 Aug 2023 02:53:23 GMT)
破壊的忘却に関する報告、デコーダonlyなBLOOMZとエンコーダ-デコーダなmT0を比較すると、BLOOMZの方が知識を維持しやすいという結果。「 diverse instruction tuning can help mitigate the CF phenomenon 」を含めとても興味深い。
リポジトリはhttps://github.com/LuoXiaoHeics/Continual-Tune

2025年8月
月	火	水	木	金	土	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31