Hallucinations in Large Multilingual Translation Models

  • Hallucinations in Large Multilingual Translation Models [70.1]
    大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。 野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。 幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
    論文  参考訳(メタデータ)   (Tue, 28 Mar 2023 16:17:59 GMT)
  • 最近よく話題になるHallucinationについて多言語翻訳の観点で分析した論文。ChatGPTの検証も行っている。
  • 多言語翻訳モデルでは(当然ながら)リソースの少ない言語に対してHallucinationが多発するが、ChatGPTではむしろ中リソースの言語に対して問題が多く行るのが興味深い。Hallucinationの緩和としてfallback systemを使う場合、同じトレーニングデータとアーキテクチャを共有するモデルでは効果が薄く別の外部システムを使うことが有効としている。

MUG: Meeting Understanding and Generation benchmark

  • MUG: A General Meeting Understanding and Generation Benchmark [60.1]
    我々はAliMeeting4MUG Corpusを構築した。 本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
    論文  参考訳(メタデータ)   (Fri, 24 Mar 2023 11:52:25 GMT)
  • 会議の理解と生成に関するデータセット
  • SLP(spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
  •  サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
  • リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

週刊GPT

今週もGPT-4関連の話題が多かった。面白そうな論文をメモがてら記載しているが、発表が多すぎて読むのが大変。

などオープンソースの取り組みも盛ん。

  • GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment [64.0]
    GPTEvalは、大規模言語モデルにチェーン・オブ・シンドロームとフォームフィリング・パラダイムを使って、NLG出力の品質を評価するためのフレームワークである。 GPT-4 をバックボーンモデルとした GPTEval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
    論文  参考訳(メタデータ)   (Wed, 29 Mar 2023 12:46:54 GMT)
  • GPT-4(+CoT)を用いたNLGの評価手法
  • LLMでLLMを評価するような事にもなりかねないが、平均的な性能でUniEvalを超えているのはすごい
  • BloombergGPT: A Large Language Model for Finance [26.3]
    我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。 Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。 我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
    論文  参考訳(メタデータ)   (Thu, 30 Mar 2023 17:30:36 GMT)
  • 金融ドメインのデータとしてFinPileを構築、一般的なデータを含めて学習された金融に強いLLM
  • 流石というべきか、金融関連のタスクにおいてはBLOOM 176Bを上回る性能、BIG-BENCHにおけるBLOOM 176BやPaLM 540Bの結果を比較するにドメイン特化型のLLMは特定ドメインに優れた性能を発揮するのは間違いないように思う。
  • HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace [70.7]
    大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。 HuggingGPTは、さまざまなモダリティとドメインで、多数の高度なAIタスクをカバーすることができる。
    論文  参考訳(メタデータ)   (Thu, 30 Mar 2023 17:48:28 GMT)
  • ChatGPTとHuggingFaceを連携することで様々なMLタスクを解くという提案
  • 自然言語で様々なタスクを解くためにChatGPTをインタフェースとして用いるというのはChatGPT pluginと同じ感じがして興味深く、LLMのプランニング能力をうまく使っている。下記のTaskMatrix.AIに近い気がするのだが、どういう関係にあるのだろう?
  • リポジトリはGitHub – microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community
  • TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs [71.7]
    私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。 このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
    論文  参考訳(メタデータ)   (Wed, 29 Mar 2023 03:30:38 GMT)
  • ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
    また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
    論文  参考訳(メタデータ)   (Mon, 27 Mar 2023 09:59:48 GMT)
  • tweetのアノテーションタスクでAmazon Mechanical TurkよりもChatGPTの方が優れていたとする報告。訓練されたアノテータも超えているのが凄い。
  • (とはいえ報告されたAccuracyを見るにクラウドワーカーの品質がいちいちという感じもする)
  • AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [64.0]
    GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。 LLMをより良いアノテータにするために、我々は2段階のアプローチ「explain-then-annotate」を提案する。
    論文  参考訳(メタデータ)   (Wed, 29 Mar 2023 17:03:21 GMT)
  • 上記と近しい報告。
  • 良いプロンプトの作り方にまで踏み込んでいて参考になる。(のだが、GPT-3.5の規約上このように作られたアノテーションデータを使ってモデルを作ることはできないのでは?という気もしている。競合するLLMでなければ大丈夫だったりするのだろうか?最新の利用規約など詳細の確認が必要。)
  • ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark [11.4]
    ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。 商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。 また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
    論文  参考訳(メタデータ)   (Wed, 15 Mar 2023 00:35:50 GMT)
  • ChatGPTの文法エラー訂正能力の検証
  • 商用製品に比べるとパフォーマンスは劣るとの評価。GPT-3.5の能力としてはそうだろうと思いつつGPT-4だとどうなるのかは興味がある。

InceptionNeXt

  • InceptionNeXt: When Inception Meets ConvNeXt [167.6]
    IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
    論文  参考訳(メタデータ)   (Wed, 29 Mar 2023 17:59:58 GMT)
  • Transformer系モデルのテクニックをCNNに応用したConvNeXtより高速で優れた性能を持つ構造の提案。
  • リポジトリはGitHub – sail-sg/inceptionnext: InceptionNeXt: When Inception Meets ConvNeXt

PRESTO

A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges

  • A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges [25.3]
    限定ラベル付きデータを用いたモデル一般化能力の向上を目的として,事前学習,即時予測の新たな訓練パラダイムが提案されている。 この調査は構造化グラフ間のギャップを埋め、将来の方法論開発を促進するために設計を促す試みである。
    論文  参考訳(メタデータ)   (Mon, 13 Mar 2023 16:49:43 GMT)
  • グラフ構造の知識をプロンプトに反映、または、プロンプトを使ってグラフを分析などグラフ構造とPromptを用いたモデルの関係をサーベイした論文
  • 短めであるがいろいろな試みがなされているのがわかる。

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models 

  • A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
    GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。 実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
    論文  参考訳(メタデータ)   (Sat, 18 Mar 2023 14:02:04 GMT)
  • GPTシリーズモデルの性能比較
  • 学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
  • 日本語での評価も知りたいところ。(比較すればよいって話ではあるが。。。)

MEGA: Multilingual Evaluation of Generative AI 

  • MEGA: Multilingual Evaluation of Generative AI [6.3]
    生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。 ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。 これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
    論文  参考訳(メタデータ)   (Wed, 22 Mar 2023 13:03:10 GMT)
  • データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
  • davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

Edit-A-Video

  • Edit-A-Video: Single Video Editing with Object-Aware Consistency [21.0]
    本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。 本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。 各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
    論文  参考訳(メタデータ)   (Thu, 23 Mar 2023 03:04:45 GMT)
  • テキストによる動画編集。「人間がギターを弾いているビデオ」+「“a bear is playing a guitar”」という入力で、ギターを弾いている人をクマに変更ができる。
  • 画像でできたことは動画でもできる、というのはわかるがとても面白い。
  • プロジェクトサイトはEdit-A-Video<span>:</span> Single Video Editing with Object-Aware Consistency

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

  • Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning [16.1]
    タスクのセマンティクスは入力から出力までの例のセットやテキストによる命令で表現できる。 コミュニティは、NLPの新しい監視-探索パラダイム、すなわちタスク命令から学ぶことに、ますます関心を払っている。
    論文  参考訳(メタデータ)   (Tue, 21 Mar 2023 01:27:16 GMT)
  • PromptのようなInstruction Learningのサーベイ
  • 新興分野でもありまた現在の流行の中で重要な要素でもあり、歴史を振り返る上でも参考になる