arXiv – ページ 95 – arXiv最新論文の紹介

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [91.6]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文参考訳（メタデータ） (Thu, 11 May 2023 05:19:47 GMT)
LLMが機械翻訳出も優れた性能を出すことは知られており（というか初期のモチベーションの1つでもあり）、その性能を引き出すため辞書的な情報をプロンプトに入れる手法の提案
多くの言語でテストしており非常に有望な結果。日本語では効果がなさそうな理由を知りたいところ。

Vera: A General-Purpose Plausibility Estimation Model for Commonsense Statements

Vera: A General-Purpose Plausibility Estimation Model for Commonsense Statements [109.9]
本稿では,コモンセンス知識に基づく宣言文の妥当性を推定する汎用モデルであるVeraを紹介する。 19のQAデータセットと2つの大規模ナレッジベースから生成された7Mのコモンセンスステートメントに基づいてトレーニングされた。 Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。
論文参考訳（メタデータ） (Fri, 5 May 2023 17:15:32 GMT)
LLMが生成する文書をフィルタリングするような用途で使える常識の推測モデルの提案。既存データセットをうまく使い、LLM＋プロンプトよりもかなり性能が高い。生成分を何らかの方法で検証するような動きは有用だと思う
デモがVera – a Hugging Face Space by liujch1998にある

Reasoning with Language Model Prompting: A Survey

Reasoning with Language Model Prompting: A Survey [63.2]
推論は複雑な問題解決に不可欠な能力であり、様々な現実世界のアプリケーションに対するバックエンドサポートを提供することができる。本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。
論文参考訳（メタデータ） (Mon, 8 May 2023 16:46:58 GMT)
推論関連のプロンプトのサーベイ。進化が速く追うのが困難な分野なのでとってもありがたい。引用されている論文は最近のものが多く勢いが分かる
リポジトリはGitHub – zjunlp/Prompt4ReasoningPapers: Repository for the ACL2023 paper “Reasoning with Language Model Prompting: A Survey”.

A Survey on Efficient Training of Transformers

A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (Thu, 4 May 2023 01:23:12 GMT)
Transformerの効率的な学習に関するサーベイ、ver3

A Survey on Out-of-Distribution Detection in NLP

A Survey on Out-of-Distribution Detection in NLP [115.5]
現実世界における機械学習システムの信頼性と安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。本稿では,OOD検出の最近の進歩について,特に自然言語処理に焦点をあてて概説する。
論文参考訳（メタデータ） (Fri, 5 May 2023 01:38:49 GMT)
NLPにおけるOOD検出のサーベイ。ざっくりと知るには良い内容。
自然言語処理なAIをデプロイするときには欲しくなり、LLM時代に重要性がさらに増す分野な予感。

Visual Tuning

Visual Tuning [141.9]
微調整ビジュアルモデルは、多くの下流視覚タスクにおいて有望なパフォーマンスを示すことが広く示されている。最近の進歩は、事前訓練されたパラメータ全体をフルチューニングするよりも優れたパフォーマンスを達成することができる。この調査は、最近の作品の大規模かつ思慮深い選択を特徴付け、作業とモデルの体系的かつ包括的な概要を提供する。
論文参考訳（メタデータ） (Wed, 10 May 2023 11:26:36 GMT)
下流タスクへの適合方法を扱ったサーベイ。研究が盛んな分野であり、非常に参考になる。
Table 2 A comprehensive review and classiﬁcation of visual tuning methods.が良く、ﬁne-tuning、prompt tuning、adapter tuning、parameter tuning、remapping tuningと多様な手法が紹介されている。

GPT-#のライバル、Google Bard、Anthropic Claude

Google Bard、AntropicなどOpenAI GPTシリーズの対抗モデルのニュースが多い一週間だった。

Google Japan Blog: Bard が日本語に対応 (googleblog.com)
色々テストしてみた感じ、Bardはかなり強力な感じ。いつもの翻訳でのベンチマークをしてみたいところ。

palm2techreport.pdf (ai.google)
より優れた多言語および推論能力を持ち、前任の PaLM (Chowdhery et al , 2022) よりも計算効率が高い新しい最先端言語モデルである PaLM 2 を紹介する。PaLM 2は、UL2(Tay et al , 2023)と同様の目的の混合を用いて訓練されたトランスフォーマーベースのモデルである。英語と多言語の広範な評価と推論タスクを通じて、PaLM2は異なるモデルサイズにわたる下流タスクの品質を著しく向上させ、同時にPaLMと比較してより高速で効率的な推論を示すことを実証する。この改善された効率により、より広範なデプロイが可能になり、モデルがより自然なインタラクションのペースで迅速に応答できるようになる。PaLM 2は、BIG-Benchや他の推論タスクにおけるPaLMの大幅な改善によって例示される堅牢な推論能力を示す。
PaLMの ver2で推論能力が大幅に向上。翻訳性能でGoogle Translateを超えているという評価は驚き。

Anthropic | Introducing 100K Context Windows
非常に長いコンテキストに対応したClaude、こちらも日本語が使えるようでベンチマークをしてみたい。

日本企業もLLM構築を行っているようでこちらも期待大

競合が多く出てくるフェーズでは性能や速度など正しく評価するのが大事だと思う。

Text Adversarial Purification as Defense against Adversarial Attacks

Text Adversarial Purification as Defense against Adversarial Attacks [46.8]
敵の浄化は敵の攻撃に対する防御機構として成功している。本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文参考訳（メタデータ） (Wed, 3 May 2023 09:09:22 GMT)
単語置き換えの攻撃を防御するため、[MASK]を入れる or [MASK]に置き換える処理を行った後、MLMによって復元、データを浄化するプロセスを提案。
シンプルな戦略だが効果は有るようで、多くのベンチマークで防御に成功している。

SeqDiffuSeq

SeqDiffuSeq: Text Diffusion Model with Encoder-Decoder Transformers for Sequence-to-Sequence Generation [50.9]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文参考訳（メタデータ） (Wed, 3 May 2023 07:43:22 GMT)
Diffusion Modelによる系列データ（テキストデータ）の作成、タスクによって結果はまちまちという感じで機械翻訳性能はベースラインに負けていそう。
リポジトリはGitHub – Yuanhy1997/SeqDiffuSeq: SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Unlimiformer

Unlimiformer: Long-Range Transformers with Unlimited Length Input [74.5]
Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。 BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
論文参考訳（メタデータ） (Tue, 2 May 2023 17:35:08 GMT)
長文を扱えるTransformer、Unlimiformerという名前が凄い
仕組み上バックボーンには様々なモデルが使えそう。でもこれで○○formerと名乗ってよいかは謎。（有用そうであることは確か）
リポジトリはGitHub – abertsch72/unlimiformer: Public repo for the preprint “Unlimiformer: Long-Range Transformers with Unlimited Length Input”

月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31