arXiv最新論文の紹介

FairPy

FairPy: A Toolkit for Evaluation of Social Biases and their Mitigation in Large Language Models [7.3]
大規模な事前訓練された言語モデルは、人種、性別等に基づく社会集団に対する偏見を示すことが研究で示されている。様々な研究者がこれらのバイアスを定量化し識別するための数学的ツールを提案している。本稿では,人種,性別,民族,年齢など,さまざまなバイアスの包括的定量的評価を行う。
論文参考訳（メタデータ） (Fri, 10 Feb 2023 20:54:10 GMT)
バイアスの定量化、緩和のためのフレームワーク。様々な手法に対応。
リポジトリはGitHub – HrishikeshVish/Fairpy

ControlNet、MultiDiffusion

単純にテキストから画像を生成するのではなく、その構図等を制御可能な研究報告が出ていた。何ができているかはサンプルを見るのが早い。欲しい絵があった場合、その描き方が根底から変わりそうな…

Adding Conditional Control to Text-to-Image Diffusion Models [43.8]
本研究では,事前学習した大規模拡散モデルを制御するニューラルネットワーク構造であるControlNetを提案する。 ControlNetは、エンドツーエンドでタスク固有の条件を学習し、トレーニングデータセットが小さい場合でも、学習は堅牢である。
論文参考訳（メタデータ） (Fri, 10 Feb 2023 23:12:37 GMT)
リポジトリはGitHub – lllyasviel/ControlNet: Let us control diffusion models

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.6]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (Thu, 16 Feb 2023 06:28:29 GMT)
制御可能な（マスクごとにテキストを設定することなどが可能な）画像生成モデルの提案
リポジトリはMultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

Long Text and Multi-Table Summarization: Dataset and Method

Long Text and Multi-Table Summarization: Dataset and Method [20.9]
FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 00:46:55 GMT)
年次レポートからの要約データセット。長文と表データの取り扱いが必要な構成になっている。年次報告書の特性からして結構当たるんじゃないかなと思わなくもない気がしていて（著者もやっているが）データ自体の分析を行ってみたいところ。
リポジトリはGitHub – StevenLau6/FINDSum: A Large-Scale Dataset for Long Text and Multi-Table Summarization

GPTScore

GPTScore: Evaluate as You Desire [40.1]
本稿では,生成事前学習モデルから創発的能力(ゼロショット命令など)を利用して生成したテキストをスコアする新しい評価フレームワークGPTScoreを提案する。 4つのテキスト生成タスク、22の評価側面、およびそれに対応する37のデータセットに関する実験結果から、GPTScoreは、自然言語命令だけでテキストに対して評価したいことを効果的に実現できることを示した。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 16:17:29 GMT)
要約におけるBARTScoreのようにGPTシリーズを評価に使おうという試み。ROUGEのような単純な手法よりはるかに良く、BARTScoreのようなDeepベースの手法とも競合可能な結果。
このタスクだとGPT3-text-davinci-003よりもGPT3-text-davinci-001の方が性能が良いとのことで興味深い。
リポジトリはGitHub – jinlanfu/GPTScore: Source Code of Paper “GPTScore: Evaluate as You Desire”

Augmented Language Modelのサーベイ

Augmented Language Models: a Survey [56.0]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 18:25:52 GMT)
CoTのようなサブタスク化した上での推論、外部知識の利用、データベース検索、ツールの利用など大規模言語モデルを拡張するアプローチのサーベイ。reasoning がAugmentedなのか？という問いには「 reasoning is a way for LMs to combine diﬀerent tools in order to solve complex tasks, and tools are a way to not fail a reasoning with valid decomposition.」との記載があり、分けて語るべきではないという見解？

今週のChatGPT

今週のChatGPT。

Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization [28.1]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文参考訳（メタデータ） (Thu, 16 Feb 2023 04:41:30 GMT)
要約ベンチマーク結果ではイマイチという報告もあったが、この論文では「ChatGPT’s performance is comparable to traditional ﬁne-tuning methods in terms of Rouge scores」とのこと。
この論文でも「we can tell the ChatGPT-generated summaries are surprisingly good and even better than the given references」と述べられており、ベンチマークデータセットの問題が品質評価に影響している可能性がある。また、「We are of the conviction that in the near future (possibly within a few months), ChatGPT could conceivably exceed the performance achieved through ﬁnetuning, owing to the utilization of superior prompts」とも書かれており、ChatGPTの要約性能をベンチマークスコアで測るのは不適切な可能性があり、また、そのスコアも改善する可能性が高いものと思われる。

Can GPT-3 Perform Statutory Reasoning? [37.7]
我々は,SARA と呼ばれる定式化データセット上で,最も有能な GPT-3 モデルである text-davinci-003 の能力を考察した。我々は, GPT-3 は SARA を基盤とする実際の米国法令の事前知識が不十分であることを発見した。
論文参考訳（メタデータ） (Mon, 13 Feb 2023 04:56:11 GMT)
StAtutory Reasoning Assessment (SARA) データセットでのベンチマーク結果。過去の手法に比べて性能は高いものの不十分との結論
リポジトリはGitHub – BlairStanek/gpt-statutes: Probe how GPT-3 performs on statutory reasoning

Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.0]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。そこで我々は,ChatGPTのゼロショット学習能力を7つの代表的なタスクカテゴリをカバーする20のNLPデータセットで評価し,実証分析を行った。
論文参考訳（メタデータ） (Wed, 15 Feb 2023 17:46:20 GMT)
ChatGPTの総合評価。優れたモデルであるが苦手としているタスクもあるよう。「ChatGPTは汎用モデルとしての能力があるが、ﬁne-tuneされたモデルよりもパフォーマンスが悪いことが多い」「ChatGPTはcommonsense, symbolic, logical reasoning タスクではGPT-3.5を下回る。」「ChatGPTはnatural language inference tasksとquestion answeringでGPT-3.5を上回る。」「sequence tagging tasksはChatGPT、GPT-3.5ともに苦手としている。」

Towards Agile Text Classifiers for Everyone

Towards Agile Text Classifiers for Everyone [10.4]
本稿では,アジャイルテキスト分類の手法を紹介し,評価する。そこで本研究では,PaLM 62Bのような高速チューニング型大規模言語モデルに対して,80例までのラベル付きデータセットを適用すれば,最先端のパフォーマンスを実現することができることを示す。これはテキスト分類のパラダイムシフト、特により安全なオンライン談話をサポートするモデルに有効である、と我々は主張する。
論文参考訳（メタデータ） (Mon, 13 Feb 2023 17:34:13 GMT)
大規模言語モデル＋ソフトプロンプトの強力さが分かる論文
PaLM 62Bモデルのプロンプトチューニングの場合100以下の事例で十分な性能のテキスト分類器を構築可能とのこと。この方針だと大量のアノテーションを行わなくても良く実用的。GPT-3.5などのfew shotも強力だが、頑張ればアノテーションできる量の情報を過不足なく使うという方針もとても有望だと思う。

BigSurvey: 学術論文の大規模データセット

Generating a Structured Summary of Numerous Academic Papers: Dataset and Method [20.9]
本稿では,各トピックに関する多数の学術論文の包括的な要約を生成するための,最初の大規模データセットであるBigSurveyを提案する。我々は,7千件以上の調査論文から対象要約を収集し,その43万件の参考論文の要約を入力文書として活用する。数十の入力文書から多種多様な内容を整理するために,カテゴリベースアライメント・スパース・トランスフォーマー (CAST) と呼ばれる要約手法を提案する。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 11:42:07 GMT)
7,000サーベイと430,000の参照論文からなるデータセット。Multi Documentな要約の貴重なデータで長文であることからも難しい対象だと思う。ベースライン実装ではBigBIRD-PEGASUやLEDを上回っている。
リポジトリはGitHub – StevenLau6/BigSurvey: A large-scale dataset for numerous academic papers summarization、ライセンスはOpen Data Commons Attribution License (ODC-By) v1.0 — Open Data Commons: legal tools for open data

Weakly Supervised Anomaly Detection: A Survey

Weakly Supervised Anomaly Detection: A Survey [75.3]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。弱教師付き異常検出法(WSAD)の総合的な調査を行った。各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 10:27:21 GMT)
弱教師有り設定の異常検知（WSAD: Weakly Supervised Anomaly Detection）に関するサーベイ
異常検知はアノテーションが難しいことが多く、通常の教師有り学習をしにくいことが多い。かといって単純に教師無し学習を適用すると精度的な問題を抱える事も多い。直接的ではないが何らかの情報を与える弱教師ありのようなアプローチは非常に有望だと思う。

ERNIE-Music / Noise2Music

ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [54.9]
拡散モデルを用いて任意のテキストを受信できる最初のテキスト-波形音楽生成モデルを提案する。インターネットからテキストと音楽のペアのデータセットを収集します。波形領域で生成された音楽は、多様性、品質、およびテキスト・音楽の関連性において、これまでの作品よりも大幅に優れていた。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 06:27:09 GMT)
Baiduからの音楽生成モデル（Diffusion Model）の提案。生成系のモデルはテキストや画像（動画）を超えて競争が激化している。

Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.7]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 07:27:27 GMT)
こちらはGoogleからの提案
Noise2Music (google-research.github.io)

2026年2月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28