X-Align++ 

  • X-Align++: cross-modal cross-view alignment for Bird’s-eye-view segmentation [44.6]
    X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。 X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
    論文  参考訳(メタデータ)   (Tue, 6 Jun 2023 15:52:55 GMT)
  • カメラとLiDARデータの融合(ゆえにクロスモーダル)によるBird’s-eye-viewセグメンテーション手法の提案、nuScenesでのSoTAを主張。

M3Exam 

  • M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [30.4]
    M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。 我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 13:21:29 GMT)
  • マルチリンガル、マルチモーダルなLLM評価用のベンチマーク。残念ながら日本語は入っていない。このベンチマークではGPT-4 > ChatGPT > Calude > Vicuna > BLOOMとのこと。前提条件などにもよるのだろうが参考になる。
  • リポジトリはGitHub – DAMO-NLP-SG/M3Exam: Data and code for paper “M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models”

Clinical Note Generation from Doctor-Patient Conversations using Large Language Models

  • WangLab at MEDIQA-Chat 2023: Clinical Note Generation from Doctor-Patient Conversations using Large Language Models [2.4]
    我々はMEDIQA-Chat 2023の共有タスクを医師と患者との会話から自動的な臨床ノート作成のために提出した。 本稿では,共有タスクデータに事前学習言語モデル(PLM)を1つ,大言語モデル(LLM)を2つ導入し,その2つについて報告する。 専門家の人間の精査は、ICLベースのGPT-4によるアプローチによって生成されたメモが、人間によるメモと同じくらい頻繁に好まれていることを示している。
    論文  参考訳(メタデータ)   (Sat, 3 Jun 2023 17:56:29 GMT)
  • 患者との対話記録からの臨床ノート作成、コンペティションで行われたもののよう。GPT-4 + ICLがPLM + finetuneに勝っている点、GPT-4 + ICLが人が書いたGrund Truthと互角レベルで人に好まれる点など面白い結果となっている。
  • リポジトリはGitHub – bowang-lab/MEDIQA-Chat-2023: A repository for organizing our submission to the MEDIQA-Chat Tasks @ ACL-ClinicalNLP 2023

An Empirical Study on Challenging Math Problem Solving with GPT-4

  • An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
    この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。 本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。 我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
    論文  参考訳(メタデータ)   (Thu, 8 Jun 2023 02:34:35 GMT)
  • ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
  • リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub
  • Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
    CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。 ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
    論文  参考訳(メタデータ)   (Sun, 4 Jun 2023 17:02:59 GMT)
  • こちらも数学的な問題を解くためのフレームワーク提案(データセットの提案も)
  • リポジトリはGitHub – RUCAIBox/CARP

Deep Weakly-supervised Anomaly Detection

DIONYSUS: dynamic input optimization in pre-training for dialogue summarization

  • DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
    DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。 実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
    論文  参考訳(メタデータ)   (Fri, 26 May 2023 17:29:01 GMT)
  • 対話要約モデルをヘルパーとして用い任意のドメインを要約できる手法の提案。事前学習に疑似要約を使うかGap Sentence Generation Plusで得られた文を使うかを選択している点が特徴的。DIONYSUS can be fine-tuned with only 10 examples to outperform vanilla T5 fine-tuning with 1,000 examples.とのこと。ヘルパー自体がかなり強力である必要があるような気もする。

Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs

  • Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs [65.9]
    大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。 LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
    論文  参考訳(メタデータ)   (Mon, 5 Jun 2023 13:35:01 GMT)
  • 公共の文書を分類するためにLLMを使うという報告。なのだが使われているのがRoBERTa系なので、これをLLMといってよいのかは謎。PromptやICLを使う戦略でもなくPLMを使ったという表現の方がしっくりくる。
  • 結論としてSVMの併用が有効としているのは実用的にはそうだよねーと思う

InstructZero

RASO

  • Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge [155.8]
    Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。 GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。 我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
    論文  参考訳(メタデータ)   (Tue, 30 May 2023 08:34:13 GMT)
  • 画像からImageCaptionning+PLMでありえそうなQAを大量に作ったうえで回答選択モデルによって回答するアプローチの提案。OK-VQAでSoTAを主張。PLMの知識を引き出せているとの見解。
  • コードとモデルはGenerate then Select: Open-ended Visual Question Answering Guided by World Knowledge – Publications – Cognitive Computation Group (upenn.edu)でリリース予定とのこと

What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization

  • What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.3]
    本稿では,インテクスト学習(ICL)の総合的研究を行う。  (a)言語モデルで学習されるICL推定器の種類は? b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。 (c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか? 答えは a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。 このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化される。 b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, regret O(1/T)を確立する。 (c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られている。
    論文  参考訳(メタデータ)   (Tue, 30 May 2023 21:23:47 GMT)
  • ICLの分析、本当なのかはちょっと疑問ではあるので証明を追ってみたいところ。