コンテンツへスキップ
- LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.4]
我々は、細粒度MGT検出用に設計されたシステムであるtextbfLLM-DetectAIveを提示する。 テキストは、人書き、機械生成、機械化、人書きの機械ポリッシュの4つのカテゴリに分類することができる。
論文 参考訳(メタデータ) (Thu, 08 Aug 2024 07:43:17 GMT)
- 機械が生成したテキストを検出するシステムの提案。
- デモがMGT – a Hugging Face Space by raj-tomar001にある。残念ながら日本語には対応していなさそう。というのと、この論文のAbstractがMachine Generaterdと判定されたのだが。。。(というのとConclusionは入れる文の数によって判定が変わり、長さに対するロバストさもなさそう…)
- Compositional Physical Reasoning of Objects and Events from Videos [122.7]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。 我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。 また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (Fri, 02 Aug 2024 15:19:55 GMT)
- ビデオ映像から物性を認識、推定するフレームワークPhysical Concept Reasoner (PCR)を提案。データCompositional Physical Reasoning (ComPhy) datasetも提供されている。
- 実社会での実装上とても重要な能力であり、GPT-4VやGeminiなど汎用モデルで解くのは簡単ではなさそうな結果。
- リポジトリはCompositional Physical Reasoning of Objects and Events from Videos (physicalconceptreasoner.github.io)
- AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.4]
言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。 自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。 我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
論文 参考訳(メタデータ) (Mon, 22 Jul 2024 15:18:45 GMT)
- WEBエージェントが時間をかけて解決するようなタスクを集めたベンチマーク。「What Daniel Craig movie that is less than 150 minutes and available on Netflix US has the highest IMDB rating?」というようなタスクだそうで、簡単ではない。
- プロジェクトサイトはAssistantBench
- MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts [90.3]
MoMaは、モダリティを意識したミックス・オブ・エキスパートアーキテクチャで、混合モーダル、アーリーフュージョン言語モデルを事前訓練する。 MoMa 1.4Bモデルには4人のテキスト専門家と4人の画像専門家が参加し、FLOPの大幅な節約を実現している。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:46:51 GMT)
- Towards Effective and Efficient Continual Pre-training of Large Language Models [163.3]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。 本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。 バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (Fri, 26 Jul 2024 13:55:21 GMT)
- Llama-3に対して継続学習を実施、中国語能力と科学技術関連の推論能力を強化した報告。合成データを活用している点が興味深い。
- リポジトリはGitHub – RUC-GSAI/Llama-3-SynE、現時点ではcoming soon
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。 私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。 我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (Mon, 22 Jul 2024 16:00:55 GMT)
- 8-15 seconds, 15-60 seconds, 3-10 minutes, 15-60 minutesと様々な長さのビデオに対するQAベンチマーク。長いフレームを見ないと回答できないことが特徴。
- プロジェクトサイトはLongVideoBench
- A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More [16.5]
大規模言語モデル(LLM)は、人間のクエリに対する事実的かつ一貫性のある応答を生成することができる。 しかし、学習データの混合品質は、望ましくない応答を発生させる可能性がある。
論文 参考訳(メタデータ) (Tue, 23 Jul 2024 06:45:52 GMT)
- アライメント手法に関するサーベイで、salesforceのチームによる包括的なもの
- 「Over the past two years, various methods have been proposed from different perspectives to enhance LLMs, particularly in aligning them with human expectation.」とある通り、近年急速に研究が進む(というよりは少し前から出来上がってきた)分野
- The Llama 3 Herd of Models [345.5]
本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。 Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。 Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
論文 参考訳(メタデータ) (Wed, 31 Jul 2024 17:54:27 GMT)
- Llama3の様々なバリエーションの紹介、モデル構築に関連する情報も多くとても興味深いのと、マルチモーダル化を進めているよう。「The resulting models are not yet being broadly released as they are still under development.」、「We note that our multimodal models are still under development and not yet ready for release.」など今後を期待させる表現も多い。
- Formalizing UML State Machines for Automated Verification — A Survey [15.0]
モデリング言語(UML)は、動的システムのモデリングの標準である。 本稿では、設計段階でモデルチェックを行う目的でUMLステートマシンセマンティクスの形式化に関する1997年から2021年までの既存の研究を包括的に調査する。
論文 参考訳(メタデータ) (Wed, 24 Jul 2024 12:15:31 GMT)
- UMLについて形式検証を軸に調査したサーベイ
- 本サーベイにも関係するがLLMを用いて自然言語で書かれた使用を形式言語に変換、形式検証に持ち込むようなアプローチは興味深いと思っている(研究はされている)