Leveraging Large Language Models for NLG Evaluation: A Survey

  • Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
    LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。 既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。 この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
    論文  参考訳(メタデータ)   (Sat, 13 Jan 2024 15:59:09 GMT)
  • LLMを用いた評価手法のサーベイ
  • 「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。

In context learningの分析とサーベイ

普通に用いられているIn context learningだが、その動きに関する分析と検索併用に関するサーベイが出ていた。AI 事業者ガイドライン案(13gaidorain.pdf (cao.go.jp))でコンテキスト内学習と呼ばれているもので、なんでこんなことができるのかの解析は進んできている(What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization – arXiv最新論文の紹介 (devneko.jp)When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations – arXiv最新論文の紹介 (devneko.jp))ものの。やっぱり不思議だなーと思う。

  • In-Context Language Learning: Arhitectures and Algorithms [73.9]
    我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。 我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
    論文  参考訳(メタデータ)   (Tue, 23 Jan 2024 18:59:21 GMT)
  • 「this paper provides evidence supporting the hypothesis that real language models can in-context learn using known learning algorithms.」とのこと。
  • 「Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks.」とも書かれていて(ICLL= in-context language learning、未知の形式言語に対する推論でオンザフライで学習しないと対応できない)Transformerの後継を狙ったモデルはTransformerに匹敵できていない。
  • In-context Learning with Retrieved Demonstrations for Language Models: A Survey [22.4]
    インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。 最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。 本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
    論文  参考訳(メタデータ)   (Sun, 21 Jan 2024 23:34:42 GMT)
  • こちらは与える情報を得る手法を中心としたサーベイ
  • 実用的に使うために参考になる情報

Natural Language Processing for Dialects of a Language

  • Natural Language Processing for Dialects of a Language: A Survey [59.8]
    最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。 この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。 方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 03:04:38 GMT)
  • 方言の取り扱いに関するサーベイ
  • 英語、アラビア語、ドイツ語が対象とのことだったが、日本語での研究も触れられていた。

Video Understanding with Large Language Models: A Survey

  • Video Understanding with Large Language Models: A Survey [101.9]
    本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。 この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
    論文  参考訳(メタデータ)   (Fri, 29 Dec 2023 01:56:17 GMT)
  • LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
  • リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)

TrustLLMとLLMのリスク分類

LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。

  • TrustLLM: Trustworthiness in Large Language Models [446.2]
    本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。 まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
    論文  参考訳(メタデータ)   (Wed, 10 Jan 2024 22:07:21 GMT)
  • LLMの信頼性に関する包括的なサーベイ
  • 「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
  • プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)

  • Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
    大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。 本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 09:29:56 GMT)
  • LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の4つを対象としている。
  • 非常によくまとまっているのとライセンスがCC-BYというのがありがたい。

A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

  • A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.7]
    大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。 重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。 本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
    論文  参考訳(メタデータ)   (Tue, 2 Jan 2024 17:56:30 GMT)
  • ハルシネーション対策手法のサーベイ
  • 色々出てはいるが実装時に使えるもの使えないものがあり、効果も様々。言語影響が大きいものもあってなかなか決定版はない印象。

From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

  • From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape [5.9]
    生成人工知能(AI)の現状と今後の動向について批判的考察 GoogleのGeminiや、予想されるOpenAI Q*プロジェクトといったイノベーションが、さまざまなドメインにわたる研究の優先順位とアプリケーションをどう変えているのかを調査した。 この研究は、倫理的および人間中心の手法をAI開発に取り入れることの重要性を強調し、社会規範と福祉の整合性を確保した。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 01:11:39 GMT)
  • 生成AIに関するサーベイで歴史を振り返るのに参考になる。刺激的な内容も含まれるがほんまかいなと思わなくもない。

Retrieval-Augmented Generation for Large Language Models: A Survey 

  • Retrieval-Augmented Generation for Large Language Models: A Survey [12.6]
    Retrieval-Augmented Generation (RAG)は、大きな言語モデルで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。 情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。 本稿では,大規模言語モデルの時代におけるRAGの開発パラダイムについて概説する。
    論文  参考訳(メタデータ)   (Mon, 18 Dec 2023 07:47:33 GMT)
  • 応用例が増加しているRAGのサーベイ
  • リポジトリはTongji-KGLLM/RAG-Survey (github.com)、論文へのリンク集も有用

A Survey of Text Watermarking in the Era of Large Language Models

  • A Survey of Text Watermarking in the Era of Large Language Models [84.9]
    テキスト透かしは、テキストの起源を追跡し検証し、誤用や海賊行為を防ぐのに役立つ。 この調査は、現在のテキスト透かし技術を包括的に要約することを目的としている。
    論文  参考訳(メタデータ)   (Wed, 13 Dec 2023 06:11:42 GMT)
  • LLM時代のテキスト watermarkingのサーベイ。重要性は増しているものの攻撃方法も進化しており大変な印象。

Efficient Large Language Models: A Survey

  • Efficient Large Language Models: A Survey [37.9]
    この調査は、効率的なLarge Language Models (LLMs) 研究の体系的で包括的なレビューを提供する。 文献を3つの主要なカテゴリからなる分類学で整理し、異なるが相互に相互に繋がる効率的なLLMのトピックを網羅する。 この調査で紹介された論文をコンパイルするGitHubリポジトリも作成しました。
    論文  参考訳(メタデータ)   (Wed, 6 Dec 2023 19:18:42 GMT)
  • LLMの効率化に関するサーベイ、手法開発が盛んでとても参考になる。
  • リポジトリはGitHub – AIoT-MLSys-Lab/Efficient-LLMs-Survey: Efficient Large Language Models: A Survey