- CARE: A Clue-guided Assistant for CSRs to Read User Manuals [21.9]
ユーザマニュアル、特に情報豊富なものを読む際に、顧客サービス表現(CSR)のための読書アシスタントを構築するのに時間がかかります。 本稿では,CSRのための時間節約かつ注意深い読解支援システムであるCAREを提案する。 これにより、CSRは明示的な手がかりチェーンを通じて、ユーザマニュアルから適切なレスポンスを素早く見つけることができる。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 08:44:44 GMT) - CARE: Clue-guided Assistant for CSRs to REad user manuals の提案。現実的なユースケース
- 「To overcome the shortage of supervised data, we adopt the self-supervised strategy for model learning.」など近年のLLMのみのアプローチとは異なる点が興味深い。
Self-Taught Evaluators
- Self-Taught Evaluators [77.9]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。 我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (Mon, 05 Aug 2024 17:57:02 GMT) - 基本的に簡単ではない評価を行うモデルを合成データ経由で作る研究。
- 「Our Self-Taught evaluator with iterative training over these synthetic preferences greatly boosts the accuracy of a strong seed LLM (Llama3-70B-Instruct) as an evaluator, from 75.4 to 88.7 on RewardBench, a new state-ofthe-art for generative LLM-as-a-Judge methods.」とのこと。通常のモデル構築における合成データの有効性を鑑みると驚きではないものの、(これ以外でも最近のself-なんとかな報告を見ると)この方向性を突き詰めるとAGIに・・・という気がしないでもない。
Self taughtだとSTaR(Self-Taught Reasoner)関連も面白い。
- Lean-STaR: Learning to Interleave Thinking and Proving [53.9]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。 Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (Sun, 14 Jul 2024 01:43:07 GMT)
- Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking [34.6]
自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
論文 参考訳(メタデータ) (Thu, 14 Mar 2024 17:58:16 GMT)
- STaR: Bootstrapping Reasoning With Reasoning [39.5]
自己学習推論(Slf-Taught Reason:STaR)は単純なループに依存し、多くの疑問に答えるために理性を生成する。 結果,STaRは最終回答を直接予測するモデルと比較して,複数のデータセットのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (Mon, 28 Mar 2022 03:12:15 GMT)
PLaMo-100B, EXAONE 3.0 7.8B, ShieldGemma
先週も多くの話題があったが、注目はPFNのPLaMo-100Bで詳細がBlogに公開されている。日本語での性能はGPT-4(0125 Preview)とほぼ同等と高い。その他のベンチマークでの評価も気になるところ。1,000億パラメータの独自LLM「PLaMo-100B」の事後学習が完了 – Preferred Networks Research & Development
LG AI Researchの小規模で強力なLLM、Gemmaベースのsafety content moderation modelなども興味深かった。
- EXAONE 3.0 7.8B Instruction Tuned Language Model [42.2]
EXAONE 3.0命令調整言語モデルは、Large Language Models (LLMs) の最初のオープンモデルである。 EXAONE 3.0は、同じ大きさの他の最先端のオープンモデルに対して、命令追従機能を備えた非常に競争力のある実世界のパフォーマンスを示す。 比較分析の結果,EXAONE 3.0は韓国では特に優れており,一般的なタスクや複雑な推論において魅力的な性能を実現していることがわかった。
論文 参考訳(メタデータ) (Wed, 07 Aug 2024 04:38:38 GMT) - 韓国語の性能に優れるLLM
- リポジトリはLGAI-EXAONE/EXAONE-3.0-7.8B-Instruct · Hugging Face
- ShieldGemma: Generative AI Content Moderation Based on Gemma [49.9]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。 モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:48:14 GMT) - 強力な性能のGemmaベースなコンテンツモデレーションモデル
- サイトはShieldGemma | Google AI for Developers、リポジトリはgoogle/shieldgemma-2b · Hugging Face
LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.4]
我々は、細粒度MGT検出用に設計されたシステムであるtextbfLLM-DetectAIveを提示する。 テキストは、人書き、機械生成、機械化、人書きの機械ポリッシュの4つのカテゴリに分類することができる。
論文 参考訳(メタデータ) (Thu, 08 Aug 2024 07:43:17 GMT) - 機械が生成したテキストを検出するシステムの提案。
- デモがMGT – a Hugging Face Space by raj-tomar001にある。残念ながら日本語には対応していなさそう。というのと、この論文のAbstractがMachine Generaterdと判定されたのだが。。。(というのとConclusionは入れる文の数によって判定が変わり、長さに対するロバストさもなさそう…)
Compositional Physical Reasoning of Objects and Events from Videos
- Compositional Physical Reasoning of Objects and Events from Videos [122.7]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。 我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。 また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 15:19:55 GMT) - ビデオ映像から物性を認識、推定するフレームワークPhysical Concept Reasoner (PCR)を提案。データCompositional Physical Reasoning (ComPhy) datasetも提供されている。
- 実社会での実装上とても重要な能力であり、GPT-4VやGeminiなど汎用モデルで解くのは簡単ではなさそうな結果。
- リポジトリはCompositional Physical Reasoning of Objects and Events from Videos (physicalconceptreasoner.github.io)
AssistantBench
- AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.4]
言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。 自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。 我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
論文 参考訳(メタデータ) (Mon, 22 Jul 2024 15:18:45 GMT) - WEBエージェントが時間をかけて解決するようなタスクを集めたベンチマーク。「What Daniel Craig movie that is less than 150 minutes and available on Netflix US has the highest IMDB rating?」というようなタスクだそうで、簡単ではない。
- プロジェクトサイトはAssistantBench
MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts
- MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [90.3]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。 MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:46:51 GMT)
Towards Effective and Efficient Continual Pre-training of Large Language Models
- Towards Effective and Efficient Continual Pre-training of Large Language Models [163.3]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。 本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。 バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (Fri, 26 Jul 2024 13:55:21 GMT) - Llama-3に対して継続学習を実施、中国語能力と科学技術関連の推論能力を強化した報告。合成データを活用している点が興味深い。
- リポジトリはGitHub – RUC-GSAI/Llama-3-SynE、現時点ではcoming soon
LongVideoBench
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (Mon, 22 Jul 2024 16:00:55 GMT) - 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
- プロジェクトサイトはLongVideoBench
A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More
- A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。 しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
論文 参考訳(メタデータ) (Tue, 23 Jul 2024 06:45:52 GMT) - アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
- 「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む(というよりは少し前から出来上がってきた)分野