arXiv – ページ 63 – arXiv最新論文の紹介

GPT-#のライバル、Google Bard、Anthropic Claude

Google Bard、AntropicなどOpenAI GPTシリーズの対抗モデルのニュースが多い一週間だった。

Google Japan Blog: Bard が日本語に対応 (googleblog.com)
色々テストしてみた感じ、Bardはかなり強力な感じ。いつもの翻訳でのベンチマークをしてみたいところ。

palm2techreport.pdf (ai.google)
より優れた多言語および推論能力を持ち、前任の PaLM (Chowdhery et al , 2022) よりも計算効率が高い新しい最先端言語モデルである PaLM 2 を紹介する。PaLM 2は、UL2(Tay et al , 2023)と同様の目的の混合を用いて訓練されたトランスフォーマーベースのモデルである。英語と多言語の広範な評価と推論タスクを通じて、PaLM2は異なるモデルサイズにわたる下流タスクの品質を著しく向上させ、同時にPaLMと比較してより高速で効率的な推論を示すことを実証する。この改善された効率により、より広範なデプロイが可能になり、モデルがより自然なインタラクションのペースで迅速に応答できるようになる。PaLM 2は、BIG-Benchや他の推論タスクにおけるPaLMの大幅な改善によって例示される堅牢な推論能力を示す。
PaLMの ver2で推論能力が大幅に向上。翻訳性能でGoogle Translateを超えているという評価は驚き。

Anthropic | Introducing 100K Context Windows
非常に長いコンテキストに対応したClaude、こちらも日本語が使えるようでベンチマークをしてみたい。

日本企業もLLM構築を行っているようでこちらも期待大

競合が多く出てくるフェーズでは性能や速度など正しく評価するのが大事だと思う。

Text Adversarial Purification as Defense against Adversarial Attacks

Text Adversarial Purification as Defense against Adversarial Attacks [46.8]
敵の浄化は敵の攻撃に対する防御機構として成功している。本稿では,テキストの敵対的攻撃に対する防御に焦点を当てた,新たな敵対的浄化手法を提案する。本研究では, Textfooler や BERT-Attack などの強力な攻撃手法を用いて, 提案手法を検証した。
論文参考訳（メタデータ） (Wed, 3 May 2023 09:09:22 GMT)
単語置き換えの攻撃を防御するため、[MASK]を入れる or [MASK]に置き換える処理を行った後、MLMによって復元、データを浄化するプロセスを提案。
シンプルな戦略だが効果は有るようで、多くのベンチマークで防御に成功している。

SeqDiffuSeq

SeqDiffuSeq: Text Diffusion Model with Encoder-Decoder Transformers for Sequence-to-Sequence Generation [50.9]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文参考訳（メタデータ） (Wed, 3 May 2023 07:43:22 GMT)
Diffusion Modelによる系列データ（テキストデータ）の作成、タスクによって結果はまちまちという感じで機械翻訳性能はベースラインに負けていそう。
リポジトリはGitHub – Yuanhy1997/SeqDiffuSeq: SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Unlimiformer

Unlimiformer: Long-Range Transformers with Unlimited Length Input [74.5]
Unlimiformerはすべてのレイヤの注意をひとつの$k$-nearest-neighborインデックスにオフロードする。 BookSumデータセットから350kのトークン長の入力を、テスト時に入力トランケーションなしでまとめることができる。
論文参考訳（メタデータ） (Tue, 2 May 2023 17:35:08 GMT)
長文を扱えるTransformer、Unlimiformerという名前が凄い
仕組み上バックボーンには様々なモデルが使えそう。でもこれで○○formerと名乗ってよいかは謎。（有用そうであることは確か）
リポジトリはGitHub – abertsch72/unlimiformer: Public repo for the preprint “Unlimiformer: Long-Range Transformers with Unlimited Length Input”

Doc2SoarGraph

Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text Documents with Semantic-Oriented Hierarchical Graphs [73.3]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文参考訳（メタデータ） (Thu, 4 May 2023 10:02:39 GMT)
報告書のようなドキュメントに対するテーブルを含むQA、いろいろ盛り込まれているものの実務的にはよくある問題。階層型のグラフ構造を用いており凄いパイプライン構成。

Huatuo-26M

Huatuo-26M, a Large-scale Chinese Medical QA Dataset [29.1]
本稿では,2600万対のQAペアを用いた医療質問応答(QA)データセットをリリースする。検索と生成の両方の観点から、データセットの既存のアプローチをベンチマークします。このデータセットは、医学研究に貢献するだけでなく、患者と臨床医の両方にも役立ちます。
論文参考訳（メタデータ） (Tue, 2 May 2023 15:33:01 GMT)
2600万QAペアと非常に大規模な医療ドメインのQAデータセット、言語は中国語
リポジトリはGitHub – FreedomIntelligence/Huatuo-26M: The Largest-scale Chinese Medical QA Dataset： with 26,000,000 question answer pairs.

A Cookbook of Self-Supervised Learning

A Cookbook of Self-Supervised Learning [85.2]
我々は,調理書のスタイルに基礎と最新のSSLレシピを組み込むことで,SSL研究への参入障壁を低くすることを目指している。興味のある研究者がメソッドの地形をナビゲートし、さまざまなノブの役割を理解し、SSLがいかに美味しいかを探求するために必要なノウハウを得ることを願っています。
論文参考訳（メタデータ） (Mon, 24 Apr 2023 15:49:53 GMT)
Self-Supervised Learningの教科書と言ってもよい論文

NaturalSpeech 2

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.8]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (Thu, 4 May 2023 17:08:20 GMT)
NaturalSpeech のバージョン２、Diffusion modelの利用、Speech prompting mechanisms for in-context learningによって強力な音声合成が可能
プロジェクトサイトはNaturalSpeech 2 (speechresearch.github.io)、サンプルの音声があるが、聞き分けがなかなか難しいレベルに感じる

Img2Vec

Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders [17.6]
我々は、深い特徴を持つマスク画像モデリング(MIM)のためのイメージ・トゥ・ベクター(Img2Vec)のパイプラインを提示する。 Img2Vecは、MIM学習を深く特徴付けるのに適した、シンプルで効果的なフレームワークである。
論文参考訳（メタデータ） (Tue, 25 Apr 2023 03:01:37 GMT)
2vec系、Img2Vec

Learning to Reason and Memorize with Self-Notes

Learning to Reason and Memorize with Self-Notes [41.7]
大規模言語モデルは、限られた文脈記憶と多段階推論に苦しむことが示されている。本稿では,これらの問題を解決するための簡単な手法を提案する。
論文参考訳（メタデータ） (Mon, 1 May 2023 14:02:48 GMT)
Self-Noteというスクラッチパッドとして機能する部分をプロンプトに入れてモデル自体がそこをメモとして利用可能とする研究
LLMを使っていると長さ制限に苦しむことが多く非常に欲しい機能

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31