Orion-14B: Open-source Multilingual Large Language Models

Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility

  • Tweets to Citations: Unveiling the Impact of Social Media Influencers on AI Research Visibility [61.3]
    機械学習研究の可視性向上におけるソーシャルメディアインフルエンサーの役割について検討する。 2018年12月から2023年10月までの間に、8000以上の論文の包括的なデータセットを収集しました。 分析の結果,これらのインフルエンサーが支持する論文の引用量は,対照群に比べて2~3倍に増加した。
    論文  参考訳(メタデータ)   (Wed, 24 Jan 2024 20:05:49 GMT)
  • 私もよく見ているAK (@_akhaliq) とAran Komatsuzaki (@arankomatsuzaki)の影響を分析した論文。「Influencers as Catalysts for Visibility: Our comprehensive analysis reveals that papers shared by AK and Komatsuzaki receive statistically higher citation counts compared to non-endorsed works, confirming the significant role these influencers play in amplifying the reach of specific research.」と主張。
  • 著者にフォーカスして(例えば過去数年のトップカンファ発表数や所属機関のトップカンファ発表数やニュース等での注目度)スコアリングすると対象となったインフルエンサーが紹介するプレプリントの多くを見つけるモデルが作れるので、著者データを使っていない分析が妥当かは非常に疑問。
  • 上記モデルはfugumt.comのスコアリングに使われている(Fugu-MT:arXivの最新論文の表示をカスタマイズ (fugumt.com))。「スコア」と「同一日付内でver.1の論文をインフルエンサーが紹介するかどうかの2値」でのROCAUCは直近で0.85 – 0.90くらいでスコアが高い。

In context learningの分析とサーベイ

普通に用いられているIn context learningだが、その動きに関する分析と検索併用に関するサーベイが出ていた。AI 事業者ガイドライン案(13gaidorain.pdf (cao.go.jp))でコンテキスト内学習と呼ばれているもので、なんでこんなことができるのかの解析は進んできている(What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization – arXiv最新論文の紹介 (devneko.jp)When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations – arXiv最新論文の紹介 (devneko.jp))ものの。やっぱり不思議だなーと思う。

  • In-Context Language Learning: Arhitectures and Algorithms [73.9]
    我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。 我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
    論文  参考訳(メタデータ)   (Tue, 23 Jan 2024 18:59:21 GMT)
  • 「this paper provides evidence supporting the hypothesis that real language models can in-context learn using known learning algorithms.」とのこと。
  • 「Transformers significantly outperform neural sequence models with recurrent or convolutional representations on ICLL tasks.」とも書かれていて(ICLL= in-context language learning、未知の形式言語に対する推論でオンザフライで学習しないと対応できない)Transformerの後継を狙ったモデルはTransformerに匹敵できていない。
  • In-context Learning with Retrieved Demonstrations for Language Models: A Survey [22.4]
    インコンテクスト学習者(ICL)は入力コンテキストでのデモを少しだけ行うだけで、新しいタスクに適応できる。 最近の開発では、固定された一連のデモを使う代わりに、各入力クエリに合わせたデモを検索する。 本稿では,検索モデル,検索訓練手順,推論アルゴリズムの異なる設計選択について論じ,比較する。
    論文  参考訳(メタデータ)   (Sun, 21 Jan 2024 23:34:42 GMT)
  • こちらは与える情報を得る手法を中心としたサーベイ
  • 実用的に使うために参考になる情報

Lumiere

  • Lumiere: A Space-Time Diffusion Model for Video Generation [67.6]
    本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。 これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。 空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
    論文  参考訳(メタデータ)   (Tue, 23 Jan 2024 18:05:25 GMT)
  • Twitterでも話題になったビデオ合成用の拡散モデルの提案。Space-Time U-Netを活用とのことでStable diffuionの素直な拡張なのだろうか。デモサイトのビデオが高画質でびっくり。Video Stylization、Cinemagraphs、Video Inpainting、すべてが高レベル。
  • リポジトリはLumiere (lumiere-video.github.io)

CodeAgent

  • CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [44.0]
    大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。 私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。 我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
    論文  参考訳(メタデータ)   (Sun, 14 Jan 2024 18:12:03 GMT)
  • 単純なコード生成ではなく、リポジトリレベルでコードを作成する研究
  • 当然ながら(?)高難度でエージェント的な動きが不可欠、今はかなり難しいタスク。この手の研究にトライしようと思えるようになったことに進化を感じる。
  • リポジトリはhttps://github.com/zkcpku/CodeAgentとのこと

Towards Boosting Many-to-Many Multilingual Machine Translation with Large Language Models

The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

Natural Language Processing for Dialects of a Language

  • Natural Language Processing for Dialects of a Language: A Survey [59.8]
    最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。 この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。 方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 03:04:38 GMT)
  • 方言の取り扱いに関するサーベイ
  • 英語、アラビア語、ドイツ語が対象とのことだったが、日本語での研究も触れられていた。

Secrets of RLHF in Large Language Models Part II: Reward Modeling

DebugBench

  • DebugBench: Evaluating Debugging Capability of Large Language Models [89.1]
    DebugBench – LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。 ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
    論文  参考訳(メタデータ)   (Thu, 11 Jan 2024 11:48:36 GMT)
  • デバッグ性能を評価する大規模なベンチマーク
  • 「The experimental results reveal that while closed-source models are less effective compared to human performance, open-source models struggle to yield efficient outcomes in debugging tasks.」という結果で既存のOSSモデルはゼロショットでのデバッグができず、GPT-4でも十分とはいいがたい結果のよう。
  • リポジトリはthunlp/DebugBench: The repository for paper “DebugBench: “Evaluating Debugging Capability of Large Language Models”. (github.com)