LLM – ページ 44 – arXiv最新論文の紹介

Don’t Make Your LLM an Evaluation Benchmark Cheater

Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (Fri, 3 Nov 2023 14:59:54 GMT)
LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。

Causal Inference Using LLM-Guided Discovery

Causal Inference Using LLM-Guided Discovery [34.0]
グラフ変数(因果順序)に対する位相的順序は、因果効果の推論にのみ十分であることを示す。本稿では,Large Language Models (LLMs) から因果順序を求める頑健な手法を提案する。提案手法は発見アルゴリズムと比較して因果順序精度を大幅に向上させる。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 17:23:56 GMT)
LLMを用いた因果推論のサポート、トリプルを作っていくアプローチで既存手法より性能が高いとのこと。
Fugu-MT 論文翻訳(概要): Causal Reasoning and Large Language Models: Opening a New Frontier for Causality (fugumt.com)でもあったが意外と相性が良い？

LLaVA-Interactive

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 15:13:43 GMT)
オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo

Myriad: multi-modal model by applying vision experts for industrial anomaly detection

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
論文参考訳（メタデータ） (Sun, 29 Oct 2023 16:49:45 GMT)
たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.

WIMBD: WHAT’S IN MY BIG DATA?

What’s In My Big Data? [67.0]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:59:38 GMT)
大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

Multilingual Mathematical Reasoning

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文参考訳（メタデータ） (Wed, 1 Nov 2023 06:56:14 GMT)
多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。 rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

LEMA: LEarning from MistAkes

Learning From Mistakes Makes LLM Better Reasoner [112.8]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
論文参考訳（メタデータ） (Tue, 31 Oct 2023 17:52:22 GMT)
GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い（新たな情報が多い）のはそうなんだろうと思う。
リポジトリはGitHub – microsoft/CodeT　？

Data-Centric Financial Large Language Models

Data-Centric Financial Large Language Models [27.5]
大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
論文参考訳（メタデータ） (Sat, 7 Oct 2023 04:53:31 GMT)
金融分野向けにLLMを活用するため、データの前処理を工夫・拡張（AAR: abductive augmentation reasoning ）など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain＋LLMより有効とのこと。
「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.3]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (Mon, 23 Oct 2023 18:11:32 GMT)
AIが作ったテキストを検出できるか否かに関するサーベイ。DetectionとAttackの2方向から網羅的に調査しているので研究のアプローチが分かりやすい一方で著者が主張するスコアを並べるような調査にはなっていない。
「Specifically, Liang et al (2023) observe perplexitybased detectors having a high misclassification rate for non-native authored TOEFL essays despite being nearly perfectly accurate for college essays authored by native speakers.」のような話はとても重要。fugumt.comで全文訳提供をやめた理由の一つが某剽窃チェッカーの誤判定に関する問い合わせが多く来たことであり、この手のツールを社会実装する場合はその責任を自覚してほしいと思う。最終判断はユーザに任せているという内容の（たいして読まれない）EULAで逃げないでほしい。

Prompt Injection Attacks and Defenses in LLM-Integrated Applications

Prompt Injection Attacks and Defenses in LLM-Integrated Applications [63.9]
本稿では,インジェクション攻撃とその防御を形式化する枠組みを提案する。我々のフレームワークは、既存の攻撃を組み合わせることで、新たな攻撃を設計できる。また,迅速なインジェクション攻撃に対する防御を体系化する枠組みを提案する。
論文参考訳（メタデータ） (Thu, 19 Oct 2023 15:12:09 GMT)
LLMに対する攻撃を整理した報告
リポジトリはGitHub – liu00222/Open-Prompt-Injection: Prompt injection attacks and defenses in LLM-integrated applications

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31