arXiv最新論文の紹介

TransFool

TransFool: An Adversarial Attack against Neural Machine Translation Models [49.5]
敵攻撃に対するニューラルネットワーク翻訳(NMT)モデルの脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。クリーンなサンプルと高いレベルのセマンティックな類似性を保ったソースコード言語で、流動的な逆の例を生成する。自動的および人的評価に基づいて、TransFoolは、既存の攻撃と比較して成功率、意味的類似性、流布率の改善につながる。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 08:35:34 GMT)
ニューラル機械翻訳に対する（ホワイトボックスな）敵対的攻撃手法の提案。高い攻撃成功率を達成とのこと。「Our attack is also transferable to black-box settings with different structures and even different target languages.」という転送可能性があるというのが非常に面白い。本質的に解釈が難しい文が作れるとかなんだろうか。
コードはhttps://github.com/sssadrizadeh/TransFoolで公開予定とのことだが、現時点では404

Extracting Training Data from Diffusion Models

Extracting Training Data from Diffusion Models [77.1]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 18:53:09 GMT)
Diffusionモデルは絵を生成している？複製している？ – arXiv最新論文の紹介 (devneko.jp)と近しい話題で画像を記憶し元データと非常に近い画像を出力することがあるとの報告。「We see that state-of-the-art diffusion models memorize 2× more than comparable GANs」と記載があり、GANより深刻とのこと。
人間でも似たようなことはある…という話はあるものの社会実装では対策が必要だと思う。（元画像に近いかどうかというものだが、著作権や商標を侵害しなけない出力への対応も必要）

PrimeQA

PrimeQA: The Prime Repository for State-of-the-Art Multilingual Question Answering Research and Development [24.0]
PRIMEQAは、QAの再調査を民主化し、最先端(SOTA)QAメソッドの複製を容易にすることを目的とした、ワンストップのQAレポジトリである。検索や読解といったコアQA機能と,質問生成などの補助機能をサポートする。フロントエンドアプリケーションの構築、pub-licベンチマーク上のSOTAメソッドの複製、既存のメソッドの拡張など、さまざまなユースケースのためのエンドツーエンドツールキットとして設計されている。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 15:48:03 GMT)
Question Answeringに関するオープンなリポジトリ＆フレームワーク
QAを対象にしたもの（かつここまで整理されたもの）はあまりなさそうな気がする
リポジトリはPrimeQA · GitHub、HuggingFaceにフレームワークで使えるモデルも公開されているPrimeQA (PrimeQA) (huggingface.co)

ChatGPTの分析

ChatGPTの分析が複数出ていた。一つ目は数学的能力の検証で今までも指摘されている通りよろしくない結果となっている（改善バージョンが最近出ているのでどうなっているかも興味がある）。もう一つは倫理的側面で過去のモデルに対しての改善はみられるものの、なかなか厳しい指摘がなされている。

Mathematical Capabilities of ChatGPT [35.7]
我々は、ChatGPTの数学的能力について、公開データセットや手作りデータセットで検証し、その性能をMinervaのような数学的コーパスで訓練された他のモデルと比較することで検討する。また,ChatGPTの数学能力は,平均的な数学の大学院生の数学能力よりも有意に劣っていると結論づけた。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 18:59:03 GMT)
リポジトリはGitHub – friederrr/science-GHOSTS

Exploring AI Ethics of ChatGPT: A Diagnostic Analysis [19.9]
大きな言語モデル(LLM)は要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えている。観察の結果、LSMは社会的偏見と毒性を示し、無責任な結果の倫理的および社会的危険を生じさせる可能性が示唆された。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 13:20:48 GMT)

ExaRanker

ExaRanker: Explanation-Augmented Neural Ranker [67.5]
本研究は,ニューラルランカーが説明の恩恵を受けることを示す。我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。 ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 11:03:04 GMT)
大規模言語モデルを用いた説明をNeural Rankerの補強として使うという論文。BM25、monoT5をout perform。
リポジトリはGitHub – unicamp-dl/ExaRanker

Chain-of-Thoughtの改善

マルチモーダル化、プロンプトの合成、新たな構築フレームワークとChain-of-Thoughtに関する改善を対象とした論文が複数出ていた。有用なテクニックとして認知されたのかなと思う＆改善が結構な幅で行われているのが凄い。

Multimodal Chain-of-Thought Reasoning in Language Models [80.9]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。 Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 07:51:19 GMT)

Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models [121.5]
大規模言語モデルはチェーン・オブ・ソート・プロンプトを使用して様々な推論タスクを実行でき、ステップ・バイ・ステップのデモを通じて回答を見つけることができる。そこで本研究では,手作りの例を数種類活用して,モデルにさらに多くの例を生成する手法であるSynthetic promptingを紹介する。本手法は数値的,記号的,アルゴリズム的推論タスクにおいて評価し,既存のプロンプト手法よりも優れていることを示す。
論文参考訳（メタデータ） (Wed, 1 Feb 2023 17:33:12 GMT)

Faithful Chain-of-Thought Reasoning [29.9]
CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 03:04:26 GMT)

Dreamix

Dreamix: Video Diffusion Models are General Video Editors [22.1]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 18:58:58 GMT)
ビデオに対してテキストで指示する事によるビデオ合成。デモを見るのが分かりやすいが、やっと画像で対してできるようになった感があることが動画に対して実現できている。また、画像→動画への変換も可能。
デモなどはDreamix: Video Diffusion Models are General Video Editors (dreamix-video-editing.github.io)
論文中には「VDMs are computationally expensive」と書かれているが、最近の状況を考えると早期にクリアされそうな予感がする。

Benchmarking Large Language Models for News Summarization

Benchmarking Large Language Models for News Summarization [79.4]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 18:46:19 GMT)
GPT-3(.5)時代の自動要約に関する論文。「LLMのゼロショット要約能力の鍵となるのは、モデルサイズではなく、命令チューニング」「既存の研究は低品質の参照によって制限されている」など重要な指摘がある
リポジトリはhttps://github.com/Tiiiger/benchmark_llm_summarizationとのことだが、現時点では404

REPLUG: Retrieve and Plug

REPLUG: Retrieval-Augmented Black-Box Language Models [101.6]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文参考訳（メタデータ） (Wed, 1 Feb 2023 00:15:18 GMT)
外部コーパスを併用することで言語モデルの性能を上げる試み。類似度で使う情報を得る事もできるが、REPLUG LSR (REPLUG with LM-Supervised Retrieval)はRetrieval部分を調整（学習）可能なモジュールとする。GPT, OPT, BLOOMといった超巨大な言語モデルを含めて性能が向上するとのこと。（当然かもだが）REPLUG LSRの方が性能が高そう。
検索系手法との併用は結構な確率で嘘を混ぜ込む現状に対しての現実解な気がする。ただ、この手法を用いてさえ「REPLUG lacks interpretability as it is unclear when the model relies on retrieved knowledge or parametric knowledge」と書かれている。

The Flan Collection

The Flan Collection: Designing Data and Methods for Effective Instruction Tuning [118.7]
本研究は,Flan 2022の開発を壊し,一般公開された指導チューニング手法の設計決定について検討する。タスクバランスやエンリッチメントの手法は見過ごされがちだが、効果的な指導チューニングには不可欠である。インストラクションチューニングの研究を加速するために、データセット、テンプレート、メソッドのFlan 2022コレクションを公開しています。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 15:03:44 GMT)
instruction tuningに関するコレクションとそれと使って構築したモデルに関する論文。 Flan-T5 XL は過去のモデル（GLM 130BやOPT-175Bなど巨大モデル含）を超える性能。
リポジトリはFLAN/flan/v2 at main · google-research/FLAN · GitHub

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31