arXiv最新論文の紹介

Augmented Language Modelのサーベイ

Augmented Language Models: a Survey [56.0]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:25:52 GMT)
CoTのようなサブタスク化した上での推論、外部知識の利用、データベース検索、ツールの利用など大規模言語モデルを拡張するアプローチのサーベイ。reasoning がAugmentedなのか？という問いには「 reasoning is a way for LMs to combine diﬀerent tools in order to solve complex tasks, and tools are a way to not fail a reasoning with valid decomposition.」との記載があり、分けて語るべきではないという見解？

今週のChatGPT

今週のChatGPT。

Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.1]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文参考訳（メタデータ） (Thu, 16 Feb 2023 04:41:30 GMT)
要約ベンチマーク結果ではイマイチという報告もあったが、この論文では「ChatGPT’s performance is comparable to traditional ﬁne-tuning methods in terms of Rouge scores」とのこと。
この論文でも「we can tell the ChatGPT-generated summaries are surprisingly good and even better than the given references」と述べられており、ベンチマークデータセットの問題が品質評価に影響している可能性がある。また、「We are of the conviction that in the near future (possibly within a few months), ChatGPT could conceivably exceed the performance achieved through ﬁnetuning, owing to the utilization of superior prompts」とも書かれており、ChatGPTの要約性能をベンチマークスコアで測るのは不適切な可能性があり、また、そのスコアも改善する可能性が高いものと思われる。

Can GPT-3 Perform Statutory Reasoning? [37.7]
我々は,SARA と呼ばれる定式化データセット上で,最も有能な GPT-3 モデルである text-davinci-003 の能力を考察した。我々は, GPT-3 は SARA を基盤とする実際の米国法令の事前知識が不十分であることを発見した。
論文参考訳（メタデータ） (Mon, 13 Feb 2023 04:56:11 GMT)
StAtutory Reasoning Assessment (SARA) データセットでのベンチマーク結果。過去の手法に比べて性能は高いものの不十分との結論
リポジトリはGitHub – BlairStanek/gpt-statutes: Probe how GPT-3 performs on statutory reasoning

Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.0]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。そこで我々は,ChatGPTのゼロショット学習能力を7つの代表的なタスクカテゴリをカバーする20のNLPデータセットで評価し,実証分析を行った。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 17:46:20 GMT)
ChatGPTの総合評価。優れたモデルであるが苦手としているタスクもあるよう。「ChatGPTは汎用モデルとしての能力があるが、ﬁne-tuneされたモデルよりもパフォーマンスが悪いことが多い」「ChatGPTはcommonsense, symbolic, logical reasoning タスクではGPT-3.5を下回る。」「ChatGPTはnatural language inference tasksとquestion answeringでGPT-3.5を上回る。」「sequence tagging tasksはChatGPT、GPT-3.5ともに苦手としている。」

Towards Agile Text Classifiers for Everyone

Towards Agile Text Classifiers for Everyone [10.4]
本稿では,アジャイルテキスト分類の手法を紹介し,評価する。そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
論文参考訳（メタデータ） (Mon, 13 Feb 2023 17:34:13 GMT)
大規模言語モデル＋ソフトプロンプトの強力さが分かる論文
PaLM 62Bモデルのプロンプトチューニングの場合100以下の事例で十分な性能のテキスト分類器を構築可能とのこと。この方針だと大量のアノテーションを行わなくても良く実用的。GPT-3.5などのfew shotも強力だが、頑張ればアノテーションできる量の情報を過不足なく使うという方針もとても有望だと思う。

BigSurvey: 学術論文の大規模データセット

Generating a Structured Summary of Numerous Academic Papers: Dataset and Method [20.9]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。我々は,7千件以上の調査論文から対象要約を収集し,その43万件の参考論文の要約を入力文書として活用する。数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 11:42:07 GMT)
7,000サーベイと430,000の参照論文からなるデータセット。Multi Documentな要約の貴重なデータで長文であることからも難しい対象だと思う。ベースライン実装ではBigBIRD-PEGASUやLEDを上回っている。
リポジトリはGitHub – StevenLau6/BigSurvey: A large-scale dataset for numerous academic papers summarization、ライセンスはOpen Data Commons Attribution License (ODC-By) v1.0 — Open Data Commons: legal tools for open data

Weakly Supervised Anomaly Detection: A Survey

Weakly Supervised Anomaly Detection: A Survey [75.3]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。弱教師付き異常検出法(WSAD)の総合的な調査を行った。各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 10:27:21 GMT)
弱教師有り設定の異常検知（WSAD: Weakly Supervised Anomaly Detection）に関するサーベイ
異常検知はアノテーションが難しいことが多く、通常の教師有り学習をしにくいことが多い。かといって単純に教師無し学習を適用すると精度的な問題を抱える事も多い。直接的ではないが何らかの情報を与える弱教師ありのようなアプローチは非常に有望だと思う。

ERNIE-Music / Noise2Music

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [54.9]
拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。インターネットからテキストと音楽のペアのデータセットを収集します。波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 06:27:09 GMT)
Baiduからの音楽生成モデル（Diffusion Model）の提案。生成系のモデルはテキストや画像（動画）を超えて競争が激化している。

Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.7]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 07:27:27 GMT)
こちらはGoogleからの提案
Noise2Music (google-research.github.io)

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning

Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [112.3]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 18:57:56 GMT)
外部知識を利用可能なマルチモーダルモデル。Image CaptioningでFlamingoをoutperformとのこと。マルチモーダルな外部知識を活用できるのは純粋にすごいと思う。世の中のシステムのほとんどは（WEB検索を除き）画像検索はできない…。

LEXTREME

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain [12.3]
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 18:05:08 GMT)
法律ドメインのマルチリンガルデータセット・ベンチマーク
（お前がやれという話ではあるが）この手のデータに日本語を差し込んでいかないと、という危機感がある。。。
データセット・リポジトリはjoelito/lextreme · Datasets at Hugging Face、GitHub – JoelNiklaus/LEXTREME: This repository provides scripts for evaluating NLP models on the LEXTREME benchmark, a set of diverse multilingual tasks in legal NLP

Toolformer

Toolformer: Language Models Can Teach Themselves to Use Tools [62.0]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 16:49:57 GMT)
どのAPIを使うかを判断しながら自分で学んでいけるTransformer、と書くととても未来を感じる。外部知識の活用からの進化と考えれば妥当なのかも。
GPT-Jをベースに実験がされていて、より大きなモデル（GPT-3）よりも優れた性能を発揮。
昔はやったマッシュアップを思い出して非常に興味深い。

text-to-protein generation

A Text-guided Protein Design Framework [79.0]
ProteinDTは、タンパク質設計のためのテキスト記述を利用するマルチモーダルフレームワークである。筆者らは,(1)タンパク質特性予測ベンチマークの6つ中4つにおいて連続的に優れた性能を示すこと,(2)テキスト誘導タンパク質生成の90%以上の精度を示すこと,(3)ゼロショットテキスト誘導タンパク質編集の有望な結果を示すこと,の3つの側面から,ProteinDTの有効性を実証的に検証した。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 12:59:16 GMT)
テキストからのたんぱく質設定。珍しいText-to-○○○だと思うが、検索からの進化という意味では正統なのかもしれない。
UniProtからデータセットを構築しているとのこと。

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31