2024年1月 – arXiv最新論文の紹介

Vlogger

Vlogger: Make Your Dream A Vlog [67.5]
Vloggerは、ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムである。 Script, (2) Actor, (3) ShowMaker, (4) Voicer など,vlog のプロフェッショナルにとって重要な役割を果たすために,様々な基礎モデルを実行します。 Vloggerは、スクリプトとアクターのビデオコヒーレンスを失うことなく、オープンワールドの説明から5分以上のvlogを生成することができる。
論文参考訳（メタデータ） (Wed, 17 Jan 2024 18:55:12 GMT)
ビデオ生成、デモもすごい
リポジトリはzhuangshaobin/Vlogger: Make Your Dream A Vlog (github.com)

DeepEdit: Depth-first Search based Progressive Decoding for Knowledge Editing

DeepEdit: Knowledge Editing as Decoding with Constraints [129.8]
我々は,制約付き復号化として,大規模言語モデル(LLM)の知識編集の新しい視点を開発する。 DeepEditは、知識編集を改善するニューラルシンボリックな方法であり、推論の一貫性、質問への関連性、更新された知識の認識を改善する。
論文参考訳（メタデータ） (Fri, 19 Jan 2024 03:48:27 GMT)
デコード時に対応するタイプのKnowledge editing、出力を直接コントロールできるためプロンプトによる対応よりも強制力が強い。そしてブラックボックスモデルに対しても適用可能とのこと。リアルタイム性には課題を抱えそうだが、面白い方法だと思う。
リポジトリはwangywUST/DeepEdit: Repository for our paper “DeepEdit: Knowledge Editing as Decoding with Constraints”. https://arxiv.org/abs/2401.10471 (github.com)

MaLA-500

MaLA-500: Massive Language Adaptation of Large Language Models [18.0]
MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。 SIB-200における実験により,MALA-500は,現在最先端のテキスト内学習結果が得られることが示された。
論文参考訳（メタデータ） (Wed, 24 Jan 2024 08:57:39 GMT)
534言語をカバーするLLM、データはcisnlp/Glot500: Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages (ACL’23) (github.com)、LLaMA 2 7Bを継続学習するアプローチ。
モデルはMaLA-LM/mala-500 · Hugging Face

CivRealm

CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents [63.8]
文明ゲームに触発された環境であるCivRealmを紹介する。 CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文参考訳（メタデータ） (Fri, 19 Jan 2024 09:14:11 GMT)
AIがプレイするFreeciv ベースの環境の提案、当然だが現状で解くのは簡単ではない。AutoGPTを階層的に束ねた手法でも海賊への対策に失敗するとのこと。「The performance contrast between Mastaba and BaseLang highlights the necessity of a hierarchical decision architecture for tackling the complex scenarios presented by CivRealm.」というのはとても興味深い（人間の社会を見ているよう・・・）
リポジトリはbigai-ai/civrealm: CivRealm is an interactive environment for the open-source strategy game Freeciv-web based on Freeciv, a Civilization-inspired game. (github.com)

Orion-14B: Open-source Multilingual Large Language Models

Orion-14B: Open-source Multilingual Large Language Models [15.6]
我々は,140億のパラメータを持つ多言語大言語モデルの集合であるOrion-14Bを紹介する。データスケジューリング手法を用いて、英語、中国語、日本語、韓国語、その他の言語のテキストから得られた2.5兆トークンの多種多様なコーパスに基づいて基礎モデルを訓練する。評価の結果,Orion-14Bは様々なタスクにおいて最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (Sat, 20 Jan 2024 12:29:27 GMT)
日本語でも高性能として話題になったOrion-14Bの論文、コードはApache-2ライセンスだがウェイトは独自ライセンス。
リポジトリはOrionStarAI/Orion: Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型，包括对话模型，长文本模型，量化模型，RAG微调模型，Agent微调模型等。 (github.com)、日本語のプレスリリースも出ているOrionStarはオープンソースのマルチリンガルLLM「Orion-14B」をリリースしました。

Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility [61.3]
機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割について検討する。 2018年12月から2023年10月までの間に、8000以上の論文の包括的なデータセットを収集しました。分析の結果,これらのインフルエンサーが支持する論文の引用量は,対照群に比べて2～3倍に増加した。
論文参考訳（メタデータ） (Wed, 24 Jan 2024 20:05:49 GMT)
私もよく見ているAK (@_akhaliq) とAran Komatsuzaki (@arankomatsuzaki)の影響を分析した論文。「Influencers as Catalysts for Visibility: Our comprehensive analysis reveals that papers shared by AK and Komatsuzaki receive statistically higher citation counts compared to non-endorsed works, confirming the significant role these influencers play in amplifying the reach of specific research.」と主張。
著者にフォーカスして（例えば過去数年のトップカンファ発表数や所属機関のトップカンファ発表数やニュース等での注目度）スコアリングすると対象となったインフルエンサーが紹介するプレプリントの多くを見つけるモデルが作れるので、著者データを使っていない分析が妥当かは非常に疑問。
上記モデルはfugumt.comのスコアリングに使われている（Fugu-MT:arXivの最新論文の表示をカスタマイズ (fugumt.com)）。「スコア」と「同一日付内でver.1の論文をインフルエンサーが紹介するかどうかの2値」でのROCAUCは直近で0.85 – 0.90くらいでスコアが高い。

In context learningの分析とサーベイ

普通に用いられているIn context learningだが、その動きに関する分析と検索併用に関するサーベイが出ていた。AI 事業者ガイドライン案（13gaidorain.pdf (cao.go.jp)）でコンテキスト内学習と呼ばれているもので、なんでこんなことができるのかの解析は進んできている（What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization – arXiv最新論文の紹介 (devneko.jp)、When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations – arXiv最新論文の紹介 (devneko.jp)）ものの。やっぱり不思議だなーと思う。

In-Context Language Learning: Arhitectures and Algorithms [73.9]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (Tue, 23 Jan 2024 18:59:21 GMT)
「this paper provides evidence supporting the hypothesis that real language models can in-context learn using known learning algorithms.」とのこと。
「Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks.」とも書かれていて（ICLL＝ in-context language learning、未知の形式言語に対する推論でオンザフライで学習しないと対応できない）Transformerの後継を狙ったモデルはTransformerに匹敵できていない。

In-context Learning with Retrieved Demonstrations for Language Models: A Survey [22.4]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文参考訳（メタデータ） (Sun, 21 Jan 2024 23:34:42 GMT)
こちらは与える情報を得る手法を中心としたサーベイ
実用的に使うために参考になる情報

Lumiere

Lumiere: A Space-Time Diffusion Model for Video Generation [67.6]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文参考訳（メタデータ） (Tue, 23 Jan 2024 18:05:25 GMT)
Twitterでも話題になったビデオ合成用の拡散モデルの提案。Space-Time U-Netを活用とのことでStable diffuionの素直な拡張なのだろうか。デモサイトのビデオが高画質でびっくり。Video Stylization、Cinemagraphs、Video Inpainting、すべてが高レベル。
リポジトリはLumiere (lumiere-video.github.io)

CodeAgent

CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [44.0]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文参考訳（メタデータ） (Sun, 14 Jan 2024 18:12:03 GMT)
単純なコード生成ではなく、リポジトリレベルでコードを作成する研究
当然ながら（？）高難度でエージェント的な動きが不可欠、今はかなり難しいタスク。この手の研究にトライしようと思えるようになったことに進化を感じる。
リポジトリはhttps://github.com/zkcpku/CodeAgentとのこと

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models [47.4]
本稿では,多言語大言語モデル(LLM)の多言語多言語翻訳性能の向上に焦点をあてる。言語間整合性正規化(XConST)を導入し、異なる言語間の表現ギャップを埋め、ゼロショット変換性能を向上させる。
論文参考訳（メタデータ） (Thu, 11 Jan 2024 12:11:30 GMT)
多対多の機械翻訳性能を上げる正規化の活用。zero shotでの性能が大きく上がっている。
リポジトリはgpengzhi/CrossConST-LLM: Code for arXiv paper “Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models” (github.com)

2024年1月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31