- DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models [78.4]
DoraemonGPTは、大規模言語モデル(LLM)によって駆動される、動的ビデオタスクを処理する包括的なシステムである。 DoraemonGPTは、質問/タスクのあるビデオが与えられたら、入力されたビデオを大量のコンテンツで変換し、シンボリックメモリに変換して、textittask関連の属性を格納する。 特殊なドメインに関しては,LLMには内部知識が限られていることを認識し,外部知識を評価し,異なるドメインにわたるタスクに対処するためのプラグイン・アンド・プレイ・ツールが組み込まれている。
論文 参考訳(メタデータ) (Tue, 16 Jan 2024 14:33:09 GMT) - どうやって略称にしたのかもよくわからない名前のモデル。タイトルの鈴や図がかわいい。(研究はまじめで実用性も高い)
- z-x-yang/DoraemonGPT: Official repository of DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (github.com)
投稿者: staka
Machine Translation Models are Zero-Shot Detectors of Translation Direction
- Machine Translation Models are Zero-Shot Detectors of Translation Direction [52.2]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。 本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,p(texttranslation|text Origin)>p(textgenic|texttranslation)という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (Fri, 12 Jan 2024 18:59:02 GMT) - ある言語の文とそこからある言語に翻訳されれた文があったとき、翻訳の方向を検出する手法の提案。とてもシンプルな仮定だがうまくいくよう。(言語的に遠い場合でも大丈夫なのかは興味がある)
- リポジトリはZurichNLP/translation-direction-detection: Unsupervised translation direction detection using NMT systems (github.com)
Leveraging Large Language Models for NLG Evaluation: A Survey
- Leveraging Large Language Models for NLG Evaluation: A Survey [56.2]
LLM(Large Language Models)の導入は、生成されたコンテンツ品質を評価するための新たな道を開いた。 既存のLCMに基づく評価指標を整理するためのコヒーレントな分類法を提案する。 この調査は、研究者に洞察を提供し、より公平で高度なNLG評価手法を提唱することを目的としている。
論文 参考訳(メタデータ) (Sat, 13 Jan 2024 15:59:09 GMT) - LLMを用いた評価手法のサーベイ
- 「Taxonomy of research in NLG evaluation with large language models」の図がとても参考になる。
Vlogger
- Vlogger: Make Your Dream A Vlog [67.5]
Vloggerは、ユーザ記述のミニレベルビデオブログ(vlog)を生成する汎用AIシステムである。 Script, (2) Actor, (3) ShowMaker, (4) Voicer など,vlog のプロフェッショナルにとって重要な役割を果たすために,様々な基礎モデルを実行します。 Vloggerは、スクリプトとアクターのビデオコヒーレンスを失うことなく、オープンワールドの説明から5分以上のvlogを生成することができる。
論文 参考訳(メタデータ) (Wed, 17 Jan 2024 18:55:12 GMT) - ビデオ生成、デモもすごい
- リポジトリはzhuangshaobin/Vlogger: Make Your Dream A Vlog (github.com)
DeepEdit: Depth-first Search based Progressive Decoding for Knowledge Editing
- DeepEdit: Knowledge Editing as Decoding with Constraints [129.8]
我々は,制約付き復号化として,大規模言語モデル(LLM)の知識編集の新しい視点を開発する。 DeepEditは、知識編集を改善するニューラルシンボリックな方法であり、推論の一貫性、質問への関連性、更新された知識の認識を改善する。
論文 参考訳(メタデータ) (Fri, 19 Jan 2024 03:48:27 GMT) - デコード時に対応するタイプのKnowledge editing、出力を直接コントロールできるためプロンプトによる対応よりも強制力が強い。そしてブラックボックスモデルに対しても適用可能とのこと。リアルタイム性には課題を抱えそうだが、面白い方法だと思う。
- リポジトリはwangywUST/DeepEdit: Repository for our paper “DeepEdit: Knowledge Editing as Decoding with Constraints”. https://arxiv.org/abs/2401.10471 (github.com)
MaLA-500
- MaLA-500: Massive Language Adaptation of Large Language Models [18.0]
MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。 SIB-200における実験により,MALA-500は,現在最先端のテキスト内学習結果が得られることが示された。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 08:57:39 GMT) - 534言語をカバーするLLM、データはcisnlp/Glot500: Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages (ACL’23) (github.com)、LLaMA 2 7Bを継続学習するアプローチ。
- モデルはMaLA-LM/mala-500 · Hugging Face
CivRealm
- CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents [63.8]
文明ゲームに触発された環境であるCivRealmを紹介する。 CivRealmは、意思決定エージェントにとってユニークな学習と推論の課題である。
論文 参考訳(メタデータ) (Fri, 19 Jan 2024 09:14:11 GMT) - AIがプレイするFreeciv ベースの環境の提案、当然だが現状で解くのは簡単ではない。AutoGPTを階層的に束ねた手法でも海賊への対策に失敗するとのこと。「The performance contrast between Mastaba and BaseLang highlights the necessity of a hierarchical decision architecture for tackling the complex scenarios presented by CivRealm.」というのはとても興味深い(人間の社会を見ているよう・・・)
- リポジトリはbigai-ai/civrealm: CivRealm is an interactive environment for the open-source strategy game Freeciv-web based on Freeciv, a Civilization-inspired game. (github.com)
Orion-14B: Open-source Multilingual Large Language Models
- Orion-14B: Open-source Multilingual Large Language Models [15.6]
我々は,140億のパラメータを持つ多言語大言語モデルの集合であるOrion-14Bを紹介する。 データスケジューリング手法を用いて、英語、中国語、日本語、韓国語、その他の言語のテキストから得られた2.5兆トークンの多種多様なコーパスに基づいて基礎モデルを訓練する。 評価の結果,Orion-14Bは様々なタスクにおいて最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (Sat, 20 Jan 2024 12:29:27 GMT) - 日本語でも高性能として話題になったOrion-14Bの論文、コードはApache-2ライセンスだがウェイトは独自ライセンス。
- リポジトリはOrionStarAI/Orion: Orion-14B is a family of models includes a 14B foundation LLM, and a series of models: a chat model, a long context model, a quantized model, a RAG fine-tuned model, and an Agent fine-tuned model. Orion-14B 系列模型包括一个具有140亿参数的多语言基座大模型以及一系列相关的衍生模型,包括对话模型,长文本模型,量化模型,RAG微调模型,Agent微调模型等。 (github.com)、日本語のプレスリリースも出ているOrionStarはオープンソースのマルチリンガルLLM「Orion-14B」をリリースしました。
Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility
- Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility [61.3]
機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割について検討する。 2018年12月から2023年10月までの間に、8000以上の論文の包括的なデータセットを収集しました。 分析の結果,これらのインフルエンサーが支持する論文の引用量は,対照群に比べて2~3倍に増加した。
論文 参考訳(メタデータ) (Wed, 24 Jan 2024 20:05:49 GMT) - 私もよく見ているAK (@_akhaliq) とAran Komatsuzaki (@arankomatsuzaki)の影響を分析した論文。「Influencers as Catalysts for Visibility: Our comprehensive analysis reveals that papers shared by AK and Komatsuzaki receive statistically higher citation counts compared to non-endorsed works, confirming the significant role these influencers play in amplifying the reach of specific research.」と主張。
- 著者にフォーカスして(例えば過去数年のトップカンファ発表数や所属機関のトップカンファ発表数やニュース等での注目度)スコアリングすると対象となったインフルエンサーが紹介するプレプリントの多くを見つけるモデルが作れるので、著者データを使っていない分析が妥当かは非常に疑問。
- 上記モデルはfugumt.comのスコアリングに使われている(Fugu-MT:arXivの最新論文の表示をカスタマイズ (fugumt.com))。「スコア」と「同一日付内でver.1の論文をインフルエンサーが紹介するかどうかの2値」でのROCAUCは直近で0.85 – 0.90くらいでスコアが高い。
In context learningの分析とサーベイ
普通に用いられているIn context learningだが、その動きに関する分析と検索併用に関するサーベイが出ていた。AI 事業者ガイドライン案(13gaidorain.pdf (cao.go.jp))でコンテキスト内学習と呼ばれているもので、なんでこんなことができるのかの解析は進んできている(What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization – arXiv最新論文の紹介 (devneko.jp)、When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations – arXiv最新論文の紹介 (devneko.jp))ものの。やっぱり不思議だなーと思う。
- In-Context Language Learning: Arhitectures and Algorithms [73.9]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。 我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (Tue, 23 Jan 2024 18:59:21 GMT) - 「this paper provides evidence supporting the hypothesis that real language models can in-context learn using known learning algorithms.」とのこと。
- 「Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks.」とも書かれていて(ICLL= in-context language learning、未知の形式言語に対する推論でオンザフライで学習しないと対応できない)Transformerの後継を狙ったモデルはTransformerに匹敵できていない。
- In-context Learning with Retrieved Demonstrations for Language Models: A Survey [22.4]
インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。 最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。 本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
論文 参考訳(メタデータ) (Sun, 21 Jan 2024 23:34:42 GMT) - こちらは与える情報を得る手法を中心としたサーベイ
- 実用的に使うために参考になる情報