LongNet

  • LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
    LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:59:38 GMT)
  • 1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
  • プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)

A Survey on Evaluation of Large Language Models 

  • A Survey on Evaluation of Large Language Models [69.7]
    大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。 本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 16:28:35 GMT)
  • LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい(そして素早いなと思う)
  • 2ページ目の図が分かりやすく、様々な側面(NLPの性能、頑健性、倫理、社会科学、・・・)からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
  • リポジトリがあり、こちらも参考になる GitHub – MLGroupJLU/LLM-eval-survey

CausalVLRとLLMを用いた因果グラフの同定

  • CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [120.6]
    CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。 これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
    論文  参考訳(メタデータ)   (Fri, 30 Jun 2023 08:17:38 GMT)
  • 因果関係の発見と因果推論を言語/画像の面で処理できるツールの詰め合わせ。
  • リポジトリはGitHub – HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning
  • Causal Discovery with Language Models as Imperfect Experts [119.2]
    専門知識を用いて因果グラフの同定を改善する方法について検討する。 整合性に基づく専門家の知識を改良するための戦略を提案する。 本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 16:01:38 GMT)
  • 別の研究でLLMを用いた因果グラフの道程に関する論文も出ていた。LLMを完全ではない専門家として用いる場合のケーススタディがあり、専門家ほどではないが一定の効果はありそうとのこと。

Towards Open Vocabulary Learning: A Survey

  • Towards Open Vocabulary Learning: A Survey [122.4]
    ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。 近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。 本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
    論文  参考訳(メタデータ)   (Wed, 28 Jun 2023 02:33:06 GMT)
  • open vocabulary object detection やsegmentaitonといったOpen Vocabulary Learningのサーベイ。リポジトリがGitHub – jianzongwu/Awesome-Open-Vocabularyにあり、論文一覧やカテゴリなど非常に参考になる。

Large Language Models Enable Few-Shot Clustering

  • Large Language Models Enable Few-Shot Clustering [88.1]
    大規模言語モデルは、クエリ効率が良く、数発の半教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。 最初の2つのステージにLLMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
    論文  参考訳(メタデータ)   (Sun, 2 Jul 2023 09:17:11 GMT)
  • 大規模言語モデルを用いたクラスタリング手法提案。「GPT-3.5 is remarkably more effective than a true oracle pairwise constraint oracle at this price point; unless at least 2500 pairs labeled by a true oracle are provided, pairwise constraint KMeans fails to deliver any value for entity canonicalization.」とのことでLLMに支援されたクラスタリングは非常に有効としている。
  • リポジトリはGitHub – viswavi/few-shot-clustering

Jailbroken: How Does LLM Safety Training Fail?

  • Jailbroken: How Does LLM Safety Training Fail? [92.9]
    ChatGPTの初期リリースに対する”jailbreak”攻撃は、望ましくない振る舞いを引き起こす。 このような攻撃がなぜ成功し、どのように発生できるかを考察する。 障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:58:10 GMT)
  • LLM(のAPIなどのサービス)に対するJailbreak攻撃に関して整理とGPT-4, Claude v1.3, GPT-3.5 Turboに対する評価結果。単純な攻撃は成功しにくいが複合的な攻撃は有効など、対策はしているが完全とは言い難いよう。Appendixも参考になる。

Prompt前半と後半が優先される?

  • Lost in the Middle: How Language Models Use Long Contexts [91.0]
    入力コンテキスト内の関連情報を識別する必要がある2つのタスクのパフォーマンスを解析する。 入力コンテキストの開始時や終了時に関連情報が生じた場合、パフォーマンスが最も高いことが分かっています。 明示的な長期コンテキストモデルであっても、入力コンテキストが長くなるにつれて、パフォーマンスは大幅に低下する。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 17:54:11 GMT)
  • 長いコンテキストを入れた時、前半と後半に関連する情報がある方が回答性能が高く、中間にある場合は性能が低くなるという指摘。claude-1.3, claude-1.3-100k, gpt-3.5-turbo-0613, gpt-3.5-turbo-16k-0613, mpt-30b-instruct, longchat-13b-16kと多種類のLLMやAPIで同傾向のようで、重要な情報や命令はPrompt前後に書くと良いというなんとなくの知見を裏付けるように思う。
  • リポジトリはGitHub – nelson-liu/lost-in-the-middle: Code and data for “Lost in the Middle: How Language Models Use Long Contexts”

Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning

  • Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [83.3]
    英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。 並列かつ大規模な多言語会話データセットであるXSGDを紹介する。 我々は、アライメントプロンプトを学習するための効率的なプロンプトチューニングベースの手法を開発した。
    論文  参考訳(メタデータ)   (Sat, 24 Jun 2023 06:18:33 GMT)
  •  English-only Schema-Guided Dialogue (SGD)を翻訳して作成した大規模な多言語対話データセットXSGDの紹介とプロンプトチューニング方法の提案
  • データセットはgoogle driveからダウンロードできるとのこと

From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

  • From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought [124.4]
    言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。 我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。 LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。 認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
    論文  参考訳(メタデータ)   (Fri, 23 Jun 2023 06:05:31 GMT)
  • 「rational meaning construction」を目指す計算フレームワークに関する論文。 probabilistic language of thought (PLoT) などとても面白い考え方だと思う。昔から難問として知られているもので今であれば扱えるのかどうなのかというのが気になる。
  • (実はAIというタグが無いのに気付いて初めて付与した)
  • リポジトリはGitHub – gabegrand/world-models

Kosmos-2

  • Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
    マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。 オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。 この研究は、Embodiment AIの開発の基礎を定めている。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 09:11:34 GMT)
  • マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている?(KOSMOS-2 achieves impressive results )との結果。GRIT(Grounded Image-Text pairs)というデータセットも公開予定とのこと。
  • リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub