- Natural Language Processing for Dialects of a Language: A Survey [59.8]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。 この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。 方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 03:04:38 GMT) - 方言の取り扱いに関するサーベイ
- 英語、アラビア語、ドイツ語が対象とのことだったが、日本語での研究も触れられていた。
タグ: Survey
Video Understanding with Large Language Models: A Survey
- Video Understanding with Large Language Models: A Survey [101.9]
本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。 この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
論文 参考訳(メタデータ) (Fri, 29 Dec 2023 01:56:17 GMT) - LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
- リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)
TrustLLMとLLMのリスク分類
LLMの信頼性、安全性に関する論文。TrustLLMは著者数がすごい。
- TrustLLM: Trustworthiness in Large Language Models [446.2]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。 まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。 これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (Wed, 10 Jan 2024 22:07:21 GMT) - LLMの信頼性に関する包括的なサーベイ
- 「 “to be trustworthy, LLMs must appropriately reflect characteristics such as truthfulness, safety, fairness, robustness, privacy, machine ethics, transparency, and accountability.”」をスタートにしている。
- プロジェクトサイトはTrustLLM-Benchmark (trustllmbenchmark.github.io)
- Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.8]
大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。 しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。 本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 09:29:56 GMT) - LLMのリスクに関する分析と分類、「入力モジュール」「言語モデル」「ツールチェイン」「出力モジュール」の4つを対象としている。
- 非常によくまとまっているのとライセンスがCC-BYというのがありがたい。
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models
- A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.7]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。 重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。 本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文 参考訳(メタデータ) (Tue, 2 Jan 2024 17:56:30 GMT) - ハルシネーション対策手法のサーベイ
- 色々出てはいるが実装時に使えるもの使えないものがあり、効果も様々。言語影響が大きいものもあってなかなか決定版はない印象。
From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape
- From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape [5.9]
生成人工知能(AI)の現状と今後の動向について批判的考察 GoogleのGeminiや、予想されるOpenAI Q*プロジェクトといったイノベーションが、さまざまなドメインにわたる研究の優先順位とアプリケーションをどう変えているのかを調査した。 この研究は、倫理的および人間中心の手法をAI開発に取り入れることの重要性を強調し、社会規範と福祉の整合性を確保した。
論文 参考訳(メタデータ) (Mon, 18 Dec 2023 01:11:39 GMT) - 生成AIに関するサーベイで歴史を振り返るのに参考になる。刺激的な内容も含まれるがほんまかいなと思わなくもない。
Retrieval-Augmented Generation for Large Language Models: A Survey
- Retrieval-Augmented Generation for Large Language Models: A Survey [12.6]
Retrieval-Augmented Generation (RAG)は、大きな言語モデルで質問に答える前に、外部知識ベースから関連する情報を検索することを指す。 情報源を引用することで、ユーザーは回答の正確さを確認し、モデルの出力に対する信頼を高めることができる。 本稿では,大規模言語モデルの時代におけるRAGの開発パラダイムについて概説する。
論文 参考訳(メタデータ) (Mon, 18 Dec 2023 07:47:33 GMT) - 応用例が増加しているRAGのサーベイ
- リポジトリはTongji-KGLLM/RAG-Survey (github.com)、論文へのリンク集も有用
A Survey of Text Watermarking in the Era of Large Language Models
- A Survey of Text Watermarking in the Era of Large Language Models [84.9]
テキスト透かしは、テキストの起源を追跡し検証し、誤用や海賊行為を防ぐのに役立つ。 この調査は、現在のテキスト透かし技術を包括的に要約することを目的としている。
論文 参考訳(メタデータ) (Wed, 13 Dec 2023 06:11:42 GMT) - LLM時代のテキスト watermarkingのサーベイ。重要性は増しているものの攻撃方法も進化しており大変な印象。
Efficient Large Language Models: A Survey
- Efficient Large Language Models: A Survey [37.9]
この調査は、効率的なLarge Language Models (LLMs) 研究の体系的で包括的なレビューを提供する。 文献を3つの主要なカテゴリからなる分類学で整理し、異なるが相互に相互に繋がる効率的なLLMのトピックを網羅する。 この調査で紹介された論文をコンパイルするGitHubリポジトリも作成しました。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 19:18:42 GMT) - LLMの効率化に関するサーベイ、手法開発が盛んでとても参考になる。
- リポジトリはGitHub – AIoT-MLSys-Lab/Efficient-LLMs-Survey: Efficient Large Language Models: A Survey
Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future
- Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future [118.0]
このレビューは、70以上のオープンソースの自動運転データセットを体系的に評価する。 高品質なデータセットの作成の基礎となる原則など、さまざまな側面に関する洞察を提供する。 また、解決を保障する科学的、技術的課題も検討している。
論文 参考訳(メタデータ) (Wed, 6 Dec 2023 10:46:53 GMT) - 自動運転データセットのサーベイ。センサータイプが色々あるのが興味深い。オープンなものが多く出ていることに驚き。
- リポジトリはGitHub – OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System
A Survey of the Evolution of Language Model-Based Dialogue Systems
- A Survey of the Evolution of Language Model-Based Dialogue Systems [25.3]
Task-oriented_dialogue_system (TOD) とopen-domain_dialogue_system (ODD) は大きな変換を経ている。 この調査は、対話システムの歴史的軌跡を掘り下げ、言語モデルの進歩と関係を解明するものである。 我々の調査は、LMのブレークスルーに沿った時系列的な視点を提供し、最先端の研究成果の包括的なレビューを提供する。
論文 参考訳(メタデータ) (Tue, 28 Nov 2023 13:51:32 GMT) - 対話システムのサーベイ、LargeがつかないLaugage Model-Basedとある通り、割と昔からのサーベイとなっていて最近の技術進歩や歴史を理解するうえでも良い資料