arXiv最新論文の紹介

Foundation Models and Fair Use

Foundation Models and Fair Use [96.0]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 03:58:40 GMT)
Foundation ModelとFair Useに関する分析。様々なデータセットにグレーなデータが入っているのは事実で「Thus, the risk of infringement is real, and fair use will not cover every scenario where a foundation model is created or used.」という指摘は重要
結局は裁判の中で決着していくものであろうし、日本の著作権法だとまた違った見解になるのだろうが、この報告の中では（完ぺきではないにしろ）緩和策にも触れられているのがありがたい。

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling

The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.7]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 06:42:22 GMT)
デンマーク語,アイスランド語,ノルウェー語,スウェーデン語の1.2TBのデータセット構築に関する論文。1.2TBはPile（800GB）以上の規模で大規模言語モデル構築で十分機能するデータ量
日本語データを作ってみたいなーと思いつつ、参考になる情報（データセットが構築できても計算環境が厳しいが…）

Hallucinations in Large Multilingual Translation Models

Hallucinations in Large Multilingual Translation Models [70.1]
大規模多言語機械翻訳システムでは、多数の言語間で直接翻訳できることが顕著に示されている。野生に配備されると、これらのモデルが幻覚翻訳を生成し、ユーザーの信頼を著しく損なう可能性があり、安全性の懸念が高まる。幻覚に関する既存の研究は、主に高ソース言語で訓練された小さなバイリンガルモデルに焦点を当てている。
論文参考訳（メタデータ） (Tue, 28 Mar 2023 16:17:59 GMT)
最近よく話題になるHallucinationについて多言語翻訳の観点で分析した論文。ChatGPTの検証も行っている。
多言語翻訳モデルでは（当然ながら）リソースの少ない言語に対してHallucinationが多発するが、ChatGPTではむしろ中リソースの言語に対して問題が多く行るのが興味深い。Hallucinationの緩和としてfallback systemを使う場合、同じトレーニングデータとアーキテクチャを共有するモデルでは効果が薄く別の外部システムを使うことが有効としている。

MUG: Meeting Understanding and Generation benchmark

MUG: A General Meeting Understanding and Generation Benchmark [60.1]
我々はAliMeeting4MUG Corpusを構築した。本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文参考訳（メタデータ） (Fri, 24 Mar 2023 11:52:25 GMT)
会議の理解と生成に関するデータセット
SLP（spoken language processing)として topic segmentation、topic-level and session-level extractive summarization、topic title generation、 keyphrase extraction、action item detectionというタスクが設定されているとのこと。商用として非常に重要なタスク群だと思う
サイトを見るとコンペティションのような形式なのかなと思いつつ、面白い題材だと思う。
リポジトリはAlimeeting4MUG数据集 · 数据集 (modelscope.cn)

週刊GPT

今週もGPT-4関連の話題が多かった。面白そうな論文をメモがてら記載しているが、発表が多すぎて読むのが大変。

などオープンソースの取り組みも盛ん。

GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment [64.0]
GPTEvalは、大規模言語モデルにチェーン・オブ・シンドロームとフォームフィリング・パラダイムを使って、NLG出力の品質を評価するためのフレームワークである。 GPT-4 をバックボーンモデルとした GPTEval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 12:46:54 GMT)
GPT-4（＋CoT）を用いたNLGの評価手法
LLMでLLMを評価するような事にもなりかねないが、平均的な性能でUniEvalを超えているのはすごい

BloombergGPT: A Large Language Model for Finance [26.3]
我々は、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを提示する。 Bloombergの広範囲なデータソースに基づいて,汎用データセットから345億のトークンを付加した,363億のトークンデータセットを構築しました。我々の混合データセットトレーニングは、財務タスクにおける既存のモデルをかなりのマージンで上回るモデルにつながります。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:30:36 GMT)
金融ドメインのデータとしてFinPileを構築、一般的なデータを含めて学習された金融に強いLLM
流石というべきか、金融関連のタスクにおいてはBLOOM 176Bを上回る性能、BIG-BENCHにおけるBLOOM 176BやPaLM 540Bの結果を比較するにドメイン特化型のLLMは特定ドメインに優れた性能を発揮するのは間違いないように思う。

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace [70.7]
大規模言語モデル(LLM)は、言語理解、生成、相互作用、推論において例外的な能力を持つ。 LLMは、複雑なAIタスクを解決するために既存のAIモデルを管理するコントローラとして機能する可能性がある。 HuggingGPTは、さまざまなモダリティとドメインで、多数の高度なAIタスクをカバーすることができる。
論文参考訳（メタデータ） (Thu, 30 Mar 2023 17:48:28 GMT)
ChatGPTとHuggingFaceを連携することで様々なMLタスクを解くという提案
自然言語で様々なタスクを解くためにChatGPTをインタフェースとして用いるというのはChatGPT pluginと同じ感じがして興味深く、LLMのプランニング能力をうまく使っている。下記のTaskMatrix.AIに近い気がするのだが、どういう関係にあるのだろう？
リポジトリはGitHub – microsoft/JARVIS: JARVIS, a system to connect LLMs with ML community

TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs [71.7]
私たちは、基礎モデルと数百万のAPIを結合してタスク補完を行う、新しいAIエコシステムとしてTaskMatrix.AIを紹介します。このようなエコシステムを構築するためのビジョンを示し、それぞれの重要なコンポーネントを説明し、このビジョンの実現可能性と次に取り組むべき主な課題の両方を説明するために研究ケースを使用します。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 03:30:38 GMT)

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks [0.0]
また、ChatGPTは、いくつかのアノテーションタスクにおいて、クラウドワーカーよりも優れていることを示す。 ChatGPTのアノテーションあたりのコストは0.003ドル未満で、MTurkの約20倍安い。
論文参考訳（メタデータ） (Mon, 27 Mar 2023 09:59:48 GMT)
tweetのアノテーションタスクでAmazon Mechanical TurkよりもChatGPTの方が優れていたとする報告。訓練されたアノテータも超えているのが凄い。
（とはいえ報告されたAccuracyを見るにクラウドワーカーの品質がいちいちという感じもする）

AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [64.0]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。 LLMをより良いアノテータにするために、我々は2段階のアプローチ「explain-then-annotate」を提案する。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 17:03:21 GMT)
上記と近しい報告。
良いプロンプトの作り方にまで踏み込んでいて参考になる。（のだが、GPT-3.5の規約上このように作られたアノテーションデータを使ってモデルを作ることはできないのでは？という気もしている。競合するLLMでなければ大丈夫だったりするのだろうか？最新の利用規約など詳細の確認が必要。）

ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction Benchmark [11.4]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文参考訳（メタデータ） (Wed, 15 Mar 2023 00:35:50 GMT)
ChatGPTの文法エラー訂正能力の検証
商用製品に比べるとパフォーマンスは劣るとの評価。GPT-3.5の能力としてはそうだろうと思いつつGPT-4だとどうなるのかは興味がある。

InceptionNeXt

InceptionNeXt: When Inception Meets ConvNeXt [167.6]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文参考訳（メタデータ） (Wed, 29 Mar 2023 17:59:58 GMT)
Transformer系モデルのテクニックをCNNに応用したConvNeXtより高速で優れた性能を持つ構造の提案。
リポジトリはGitHub – sail-sg/inceptionnext: InceptionNeXt: When Inception Meets ConvNeXt

PRESTO

PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs [39.6]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文参考訳（メタデータ） (Fri, 17 Mar 2023 02:26:52 GMT)
多言語の会話データセット550K-examples、6言語と大規模。日本語が入っているのがうれしい。ライセンスはクリエイティブ・コモンズ — 表示 4.0 インターナショナル — CC BY 4.0 (creativecommons.org)
リポジトリはGitHub – google-research-datasets/presto: A Multilingual Dataset for Parsing Realistic Task-Oriented Dialogs

A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges

A Survey of Graph Prompting Methods: Techniques, Applications, and Challenges [25.3]
限定ラベル付きデータを用いたモデル一般化能力の向上を目的として,事前学習,即時予測の新たな訓練パラダイムが提案されている。この調査は構造化グラフ間のギャップを埋め、将来の方法論開発を促進するために設計を促す試みである。
論文参考訳（メタデータ） (Mon, 13 Mar 2023 16:49:43 GMT)
グラフ構造の知識をプロンプトに反映、または、プロンプトを使ってグラフを分析などグラフ構造とPromptを用いたモデルの関係をサーベイした論文
短めであるがいろいろな試みがなされているのがわかる。

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models

A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [59.5]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文参考訳（メタデータ） (Sat, 18 Mar 2023 14:02:04 GMT)
GPTシリーズモデルの性能比較
学習戦略やデータセットとの相性によって新しいモデルが常に優れているわけではないというのが興味深い。個人的にはtext-davinci-002から003の間でかなりの性能差があったように思うがタスクにもよるっぽい。
日本語での評価も知りたいところ。（比較すればよいって話ではあるが。。。）

MEGA: Multilingual Evaluation of Generative AI

MEGA: Multilingual Evaluation of Generative AI [6.3]
生成AIモデルは、多くの自然言語処理タスクにおいて印象的なパフォーマンスを持つ。ジェネレーティブ・Large Language Models (LLMs) に関するほとんどの研究は英語に限られている。これらのモデルが、他の言語を理解して生成する能力がどの程度あるかは定かではない。
論文参考訳（メタデータ） (Wed, 22 Mar 2023 13:03:10 GMT)
データセット、プロンプト、翻訳有無など設定が難しいLLMの多言語評価に関する論文。現時点ではコード等が公開されていないが、”We plan to release the MEGA benchmarking code to facilitate this.”にも”We plan to conduct a similar benchmarking of GPT4 in the near future.”にも期待大
davinci-003の結果は「健闘しているがfine tuningされたSoTAレベルには及ばず」「翻訳を介するtranslate-test が有効」という感じだが、GPT-4でどう変わっているかが気になるところ。

2025年10月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31