- Lumiere: A Space-Time Diffusion Model for Video Generation [67.6]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。 これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。 空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (Tue, 23 Jan 2024 18:05:25 GMT) - Twitterでも話題になったビデオ合成用の拡散モデルの提案。Space-Time U-Netを活用とのことでStable diffuionの素直な拡張なのだろうか。デモサイトのビデオが高画質でびっくり。Video Stylization、Cinemagraphs、Video Inpainting、すべてが高レベル。
- リポジトリはLumiere (lumiere-video.github.io)
投稿者: staka
CodeAgent
- CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [44.0]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。 私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。 我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文 参考訳(メタデータ) (Sun, 14 Jan 2024 18:12:03 GMT) - 単純なコード生成ではなく、リポジトリレベルでコードを作成する研究
- 当然ながら(?)高難度でエージェント的な動きが不可欠、今はかなり難しいタスク。この手の研究にトライしようと思えるようになったことに進化を感じる。
- リポジトリはhttps://github.com/zkcpku/CodeAgentとのこと
Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models
- Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models [47.4]
本稿では,多言語大言語モデル(LLM)の多言語多言語翻訳性能の向上に焦点をあてる。 言語間整合性正規化(XConST)を導入し、異なる言語間の表現ギャップを埋め、ゼロショット変換性能を向上させる。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 12:11:30 GMT) - 多対多の機械翻訳性能を上げる正規化の活用。zero shotでの性能が大きく上がっている。
- リポジトリはgpengzhi/CrossConST-LLM: Code for arXiv paper “Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models” (github.com)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
- The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [92.1]
現在の言語モデルは、ハードデータで訓練されたモデルと同様に、比較的容易にハードデータから一般化されることが多い。 ハードデータ上でモデルパフォーマンスを最も気にしている場合でも、ハードデータよりも簡単なデータを収集してトレーニングする方がよいことを示す。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 18:36:29 GMT) - 易しい問題でチューニングしたモデルが難しい問題に対してもかなり有効であるとの報告。とっても面白い性質。
- 「Our findings suggest that the scalable oversight problem may be easier than previously thought.」とあるものの意図せず、強力なものを作ってしまう危険性もあるような。。(参考:Fugu-MT 論文翻訳(概要): Measuring Progress on Scalable Oversight for Large Language Models (fugumt.com))
- リポジトリはallenai/easy-to-hard-generalization: Code for the arXiv preprint “The Unreasonable Effectiveness of Easy Training Data” (github.com)
Natural Language Processing for Dialects of a Language
- Natural Language Processing for Dialects of a Language: A Survey [59.8]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。 この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。 方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 03:04:38 GMT) - 方言の取り扱いに関するサーベイ
- 英語、アラビア語、ドイツ語が対象とのことだったが、日本語での研究も触れられていた。
Secrets of RLHF in Large Language Models Part II: Reward Modeling
- Secrets of RLHF in Large Language Models Part II: Reward Modeling [135.0]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。 また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 17:56:59 GMT) - Secrets of RLHF in Large Language Models Part I: PPO – arXiv最新論文の紹介 (devneko.jp) のパート2、報酬モデルに関する解説
- 前回に引き続きすごい資料
DebugBench
- DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (Thu, 11 Jan 2024 11:48:36 GMT) - デバッグ性能を評価する大規模なベンチマーク
- 「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
- リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)
SciGLM
- SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning [60.1]
LLM(Large Language Models)は、科学的な発見を支援することを約束している。 我々はSciGLMを紹介した。SciGLMは大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。 より広い研究コミュニティの利益のために、私たちはSciInstruct、SciGLM、そして自己表現フレームワークと微調整コードをリリースします。
論文 参考訳(メタデータ) (Mon, 15 Jan 2024 20:22:21 GMT) - LLMの科学分野の能力を向上するデータ作成フレームワークを提案、モデルを構築し高い性能を達成。C-Eval Hardなど中国語のタスクにおいてはGPT-4をこえているように見える。CoT、self-reflective frameworkなど様々なテクニックを使ってデータを作るアプローチ。
- リポジトリはTHUDM/SciGLM: SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning (github.com)
Question Translation Training for Better Multilingual Reasoning
- Question Translation Training for Better Multilingual Reasoning [113.5]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (Mon, 15 Jan 2024 16:39:10 GMT) - 多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment(質問を英語に翻訳するタスク)、Stage II: Response Alignment(英語または混合の質問回答ペアでのチューニング)の2ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
- リポジトリはNJUNLP/QAlign (github.com)
ANIM-400K
- ANIM-400K: A Large-Scale Dataset for Automated End-To-End Dubbing of Video [3.3]
Anim-400Kは、日本語と英語で425Kを超えるアニメーションビデオセグメントのデータセットである。 自動ダビング、同時翻訳、ガイド付きビデオ要約、ジャンル/スタイル分類など、様々なビデオ関連タスクをサポートする。
論文 参考訳(メタデータ) (Wed, 10 Jan 2024 18:32:38 GMT) - アニメーションビデオのデータセット、日本語と英語のデータでautomated dubbingでの活用を想定
- リポジトリはDavidMChan/Anim400K: Anim400K: A dataset designed from the ground up for automated dubbing of video (github.com)