コンテンツへスキップ
- Long-form factuality in large language models [59.3]
大規模言語モデ ル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。 まず最初にGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成します。 そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (Wed, 27 Mar 2024 17:48:55 GMT)
- 事実性の間違いを重視したベンチマーク、「SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results.」「Empirically, we demonstrated that SAFE achieves superhuman performance by agreeing with 72% of human annotations and winning 76% of examples out of a set of 100 randomly-sampled disagreement cases.」とのこと。ベンチマークとしての評価結果はGPT-4-turbo > Gemini Ultra > Calude-3 OPUSでClaude 3 OPUSはハルシネーションが多いのでは?という印象を裏付けていそうに思う。SAFEは評価用だけでなく二次チェックにも有用そう。
- リポジトリはgoogle-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper “Long-form factuality in large language models.” (github.com)
- Is Mamba Effective for Time Series Forecasting? [30.2]
状態空間モデル(SSM)は、シーケンス内の複雑な依存関係をキャプチャする能力によって、注目を集めている。 本稿では,時系列予測(TSF)のための2つの簡単なSSMモデルを紹介する。 S-MambaとD-MambaはGPUメモリとトレーニング時間を節約しながら優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (Sun, 17 Mar 2024 08:50:44 GMT)
- 時系列予測へのMambaの応用、「S-Mamba employs one Mamba block to process VC, while D-Mamba incorporates an additional mamba block compared to S-Mamba for VC.」(VC = variates correlations )という違いを持つ2つの構成で実験、効果を確認とのこと。
- 「The results prove Mamba possesses robust capabilities and exhibits remarkable potential to replace Transformer in the TSF tasks.」とのことだが、ほんまかいなと思わなくもなく、解釈が気になるところ。。。
- Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey [57.5]
Efficient Fine-Tuning (PEFT) は、様々な下流タスクに対して大きなモデルを効率的に適応することで、実用的なソリューションを提供する。 PEFTは、事前訓練された大規模モデルのパラメータを調整して特定のタスクに適応させ、追加のパラメータや計算リソースの数を最小限にするプロセスを指す。 この調査は、PEFTアルゴリズムとそのシステム実装の両方を理解することを目的とした研究者にとって必須のリソースであり、最近の進歩と実用化に関する詳細な知見を提供する。
論文 参考訳(メタデータ) (Thu, 21 Mar 2024 17:55:50 GMT)
- PEFTのサーベイ
- 非常に多くの研究成果が出ている領域であり、ほんとうにありがたい
- ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.7]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する 既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。 優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (Thu, 21 Mar 2024 11:34:26 GMT)
- CoTプロンプト自動作成のためのフレームワークCoT Geniusとfine tuningしたモデルの提案。CoT Geniusは「CoTGenius is developed based on three major evolution strategies, i.e., complicate, diversify, and specify—alongside two filtering mechanisms: evolutionary success judgement and correctness verification.」と進化+フィルタリングで構成されている。
- リポジトリはRUCAIBox/ChainLM (github.com)
- ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.2]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。 本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。 キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (Sun, 17 Mar 2024 14:49:09 GMT)
- チャート要約データセットChart-Sum-QAとチャート要約のモデルChartThinkerの提案。OCR併用の方が性能が高いのが気になるのと、GPT-4Vのような最新モデルを使った場合の結果が知りたいところ。
- リポジトリはAnonymized Repository – Anonymous GitHub (4open.science)
- WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs [53.2]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。 このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (Sun, 10 Mar 2024 16:09:02 GMT)
- Prompt Enhancer + Key Frame Generator + Video Generator での動画生成フレームワーク。「This innovative approach enables the generation of captivating videos that encapsulate rich and realistic world models.」とあるが本当なんだろうか。。。