Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

  • Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.5]
    利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。 モデルは間違った解に強い自信を表現し、しばしば非感覚的な「推論」のような説明を提供する。
    論文  参考訳(メタデータ)   (Wed, 05 Jun 2024 23:23:54 GMT)
  • 強力なはずのLLMが単純な問題「Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?」に回答できないという指摘。MMLUの結果との乖離が大きい。
    • Leakを含め色々な問題があるんだろうと思うけど、「We also noticed during early experimentation that depending on choice of N and M and also the ordering of brothers and sisters in the sentence, the rate of correct responses may vary substantially.」は面白い。
  • リポジトリはGitHub – LAION-AI/AIW: Alice in Wonderland code base for experiments and raw experiments data

Buffer of Thoughts, Chain of Agents

なんとか of Thoughts、Chain of なんとかというタイプの改善手法提案は多い。

  • Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models [65.5]
    Buffer of Thoughts (BoT) は、斬新で多目的な思考補足的推論手法である。 そこで我々はメタバッファーを提案し,一連の情報的高レベルの思考を記憶する。 各問題に対して、関連する思考タイミングを検索し、特定の推論構造で適応的にインスタンス化する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 17:22:08 GMT)
  • メタバッファにあるThought template を使用しながら深く試行していく手法の提案。ToTなどを上回る性能を主張。メタバッファ自体を更新していくアーキテクチャで評価が難しそうな気がする。
  • リポジトリはGitHub – YangLing0818/buffer-of-thought-llm: Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

  • Chain of Agents: Large Language Models Collaborating on Long-Context Tasks [39.3]
    CoA(Chain-of-Agents)は、自然言語によるマルチエージェントコラボレーションを利用して、情報集約とコンテキスト推論を可能にする新しいフレームワークである。 CoAは読み出しと推論をインターリーブすることで入力全体を処理し、各エージェントに短いコンテキストを割り当てることで、長いコンテキストのフォーカス問題を軽減します。
    論文  参考訳(メタデータ)   (Tue, 04 Jun 2024 23:36:08 GMT)
  • 主に長いコンテキストの問題に対応するためのマルチエージェントなフレームワークの提案。長いデータをチャンクに分けワーカエージェントに処理させ(シーケンシャルな通信を含む)、マネージャーエージェントが取りまとめるような動作。よく使われるRAGより高性能であるとのこと。

GLM-4-9B, Qwen2

ZHIPU AI OPEN PLATFORM (bigmodel.cn)より、GLM4 9Bが、About Us | Qwen (qwenlm.github.io)よりQwen2が発表された。いずれもWeightが公開されている。「While Qwen2-72B as well as its instruction-tuned models still uses the original Qianwen License, all other models, including Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, and Qwen2-57B-A14B, turn to adopt Apache 2.0!」(Hello Qwen2 | Qwen (qwenlm.github.io))と、Qwen2の小型モデルはOSSである。

いつもの英語→日本語の機械翻訳性能で検証しているが、両モデルともに1 shotでBELUが30前後とかなり優秀である。中国の研究機関によるモデルは日本語性能が高いことが多く期待大。

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art 

  • Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art [70.1]
    文化的に認識され、適応された自然言語処理への関心の高まりは、近年の研究にインスピレーションを与えている。 文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。 本稿では,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 10:16:43 GMT)
  • NLP、特にLLMが知識と処理の両方を兼ねている現状において重要と思われる文化に関する分類、サーベイ。
  • (長く研究されてきた分野ではあるが)最近特に注目が集まっている分野だと思う。

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis 

  • Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.1]
    Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。 我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。 我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
    論文  参考訳(メタデータ)   (Fri, 31 May 2024 17:59:47 GMT)
  • ビデオ解析を対象としたベンチマーク。900個、256時間の動画に対して2.7KのQAを人がのテーションしている。ドメインも様々(GitHub – BradyFU/Video-MME: ✨✨Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis)。
  • 現時点のベンチマーク結果はGemini Proがもっともよく、Gemini Flash、GPT-4o、GPT-4Vが続いている。APIによって使えるデータ種類が異なるなど前提を合わせるのが難しい点に注意が必要。例えば「Since the video interface of GPT-4o has not been released yet, we sample 10 frames and evaluate the model using multiple images as input.」という注釈がある。
  • リポジトリはVideo-MME: Welcome

X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions 

  • X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions [43.9]
    大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。 そこで本研究では,低リソース言語における英語の命令と応答を併用した言語間命令を新たに構築する手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 06:45:23 GMT)
  • 下記3段階(リポジトリより)で低リソースな言語用にcross-lingual instructions datasetを作る手法の提案。
    • X-Instruction Generation: Language models learn to generate cross-lingual instructions for multilingual texts using seed data.
    • X-Instruction Refinement: Language models iteratively label and refine cross-lingual instruction samples.
    • X-Instruction Diversification: The final instruction data are sampled from different clusters of embedding from the English instruction to increase the diversity.
  • リポジトリはGitHub – ZNLP/X-Instruction: Official code and data for ACL-2024 paper “X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions”

Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey 

  • Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey [9.1]
    予測保守(PdM)は産業4.0の柱の一つとして登場した。 この調査は、鉄鋼業界におけるAIベースのPdM分野における知識の現状を総合するものである。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 13:32:46 GMT)
  • 鉄鋼業界&予測保守におけるAI活用のサーベイ。
  • 業界・タスク特化であるが35ページと長く伝統的な手法を含めていろいろなアプローチがされているのだなと興味深かった。 PdMだとProduct Managerを思い浮かべるかもしれないが、ここではPredictive Maintenance。

The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities 

  • The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities [18.2]
    機械翻訳のための微調整大型言語モデル(LLM)は、全体的な翻訳品質が改善されている。 モデルサイズは70億から65億までの範囲で,LLaMAおよびファルコン系のモデルに対して広範な翻訳評価を行う。 フォーマルなステアリングを行う能力の低下、数ショットの例による技術的翻訳の作成、文書レベルの翻訳を行う能力の低下を観察する。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 14:25:56 GMT)
  • 「Our results show that while fine-tuning improves the general translation quality of LLMs, several abilities degrade.」に対して「We show that incorporating a mix of monolingual and parallel data during fine-tuning can preserve abilities of LLMs.」とのこと
  • 翻訳特化にしたら下がる能力もあるのは当然だと思うが、単言語なデータを入れるのみで能力の維持が可能というのに驚き。

Transformer in Touch: A Survey 

  • Transformer in Touch: A Survey [29.6]
    自然言語処理の分野で最初に大きな成功を収めたTransformerモデルは、最近、触覚認識の応用に大きな可能性を示している。 本稿では,触覚技術におけるトランスフォーマーの適用と開発について概観する。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 13:26:27 GMT)
  • 触覚の領域にもTransformerが応用されつつあるようで、そのサーベイ
  • いろいろなところで使われていて本当にすごい

METRAG: Multi–layEred Thoughts enhanced RetrievalAugmented Generation framework

  • Similarity is Not All You Need: Endowing Retrieval Augmented Generation with Multi Layered Thoughts [39.5]
    我々は、類似性は必ずしもパナセアではなく、類似性に完全に依存することは、時として検索拡張生成の性能を低下させるであろうと論じている。 我々はMulti layEred ThoughtsEnhanced Retrieval Augmented GenerationフレームワークであるMetRagを提案する。
    論文  参考訳(メタデータ)   (Thu, 30 May 2024 09:50:38 GMT)
  • ただの類似検索によるRAGではなく、類似検索+supervisedな学習を行ったモデルの組み合わせにさらに適応型要約を使ってRAGを行うアプローチの提案
  • 非常に重そうなアプローチではあるがベンチマークでは他手法に比べて優れた結果を出している