arXiv最新論文の紹介

LinkGAN

LinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis [63.6]
この研究は、GANトレーニングのための使い易い正規化器を示し、潜在空間のいくつかの軸を画像領域や意味圏に明示的にリンクするのに役立つ。実験の結果,LinkGANと呼ばれる正則化器の4つの魅力特性が確認された。
論文参考訳（メタデータ） (Wed, 11 Jan 2023 17:56:36 GMT)
任意の領域のみを対象とした生成ができる手法の提案
プロジェクトサイトはLinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis (zhujiapeng.github.io)

テキスト分類に何を使うか？（GPT-3? T5? ロジスティック回帰?）

Which Model Shall I Choose? Cost/Quality Trade-offs for Text Classification Tasks [40.1]
本稿では,テキスト分類タスクに着目し,この課題の定量的分析を行う。分類精度を主指標として,様々なモデルの分類器の性能を評価する。次に、推論に必要なサンプルが多数存在するような状況におけるモデル選択について議論する。
論文参考訳（メタデータ） (Tue, 17 Jan 2023 16:51:58 GMT)
テキスト分類を対象に、コスト・分類性能の観点からどのようなアプローチをとるべきか比較した論文。ざっくりとはGPT-3を使ってアノテーションコストをかけないのが良いのか、T5を使ってアノテーションコストを抑えつつトレーニングコストをかけるのが良いのか、ロジスティク回帰を使ってアノテーションを多めにしながらもトレーニングコストを抑えるのが良いのかを比較するものとなっている。
アノテーションコスト、トレーニングコスト、インファレンスコスト、性能を比較しているのは面白い。
（結局は目的次第ではありつつ）現時点では総合的にBERTやT5が有用そうな結果ではあるが、インファレンスが少ないならGPT-3も優秀で今後に期待が持てそうな気はする。

HC3 (Human ChatGPT Comparison Corpus) dataset

How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection [8.1]
ChatGPTは、幅広い人間の質問に効果的に反応できる。人々はChatGPTのような大きな言語モデル(LLM)が社会に与える影響を心配し始めています。本研究では,人間の専門家とChatGPTの双方から,数万件の比較回答を収集した。
論文参考訳（メタデータ） (Wed, 18 Jan 2023 15:23:25 GMT)
ChatGPTの回答と人の回答を比べるためのデータセット。データ件数は約４万件、言語は英語と中国語。短期間でよく作ったなと思う内容。RoBERTaを使えばChatGPTで作ったコンテンツの検出はできそうに見えるが、今後もそうかは謎。
本論には関係ないところで「金融や心理学分野ではChatGPTの回答の方が人の回答より役に立つと判定されたが医療分野では全く逆」、その理由が「医療分野でのChatGPTの回答は長く直接的でない傾向にあるため（と思われる）」という点が面白かった…それと「ChatGPT may fabricate facts.」もですよねーという感想
リポジトリはGitHub – Hello-SimpleAI/chatgpt-comparison-detection: Human ChatGPT Comparison Corpus (HC3), Detectors, and more! 🔥

MAQA: A Multimodal QA Benchmark for Negation

MAQA: A Multimodal QA Benchmark for Negation [12.1]
マルチモーダル学習は、事前学習された大規模言語モデル(LLM)の表現力の恩恵を受けることができる本稿では,AudioSetのラベル付き音楽ビデオから適応したマルチモーダル質問応答(QA)ベンチマークを提案する。モデルサイズに関わらず,マルチモーダル変圧器の標準的な微調整手法では,否定を正しく解釈することができないことを示す。
論文参考訳（メタデータ） (Mon, 9 Jan 2023 10:11:23 GMT)
現状のモデルが苦手とする否定表現に対応するためのタスク拡張手法の提案。テンプレートベースのタスク拡張に比べてPaLMを利用した場合のほうが性能が良く、大規模言語モデルを併用した戦略は良く機能するよう。
構築したデータセットは公開予定とのこと

SlideVQA

SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images [10.2]
52k以上のスライド画像と14.5kのスライドデッキに関する質問からなる2.6k以上のスライドデッキを含む,新しいマルチイメージ文書VQAデータセットであるSlideVQAを提案する。我々は、証拠選択と質問応答を統一的なシーケンス・ツー・シーケンス形式で扱う、新しいエンドツーエンド文書VQAモデルを開発した。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 09:00:42 GMT)
スライド画像をベースとしたVQAデータセット。NTTからの発表。
リポジトリはGitHub – nttmdlab-nlp/SlideVQA: SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images (AAAI2023)
評価を目的した公開のようで、利用にあたってはSlideVQA/LICENSE at main · nttmdlab-nlp/SlideVQA · GitHubを十分に確認・理解する必要がある。
- 3.の「and provide written verification of such destruction to NTT.」は求められたらでよいのだろうか…？（なかなかダウンロードしづらい記載だと思うので、READMEにLICENSEの概要を明記してほしいところ）

Scaling Laws for Generative Mixed-Modal Language Models

Scaling Laws for Generative Mixed-Modal Language Models [103.3]
個別のモダリティの貢献とそれら間の相互作用を統一する混合モードスケーリング法則について報告する。具体的には、過去のユニモーダルスケーリング法則に対する加算項として、データとモデルサイズによる最適シナジーと競合を明示的にモデル化する。また,訓練中に観察される4つの経験的現象,例えば,自然にモダリティを交互に交互に行う創発的コーディネート・アセット・スタイル・トレーニングを見出した。
論文参考訳（メタデータ） (Tue, 10 Jan 2023 00:20:06 GMT)

On the Structural Generalization in Text-to-SQL

On the Structural Generalization in Text-to-SQL [36.6]
データベーススキーマ(DS)の構造的多様性について検討する。同じ入力問題に直面して、DSが別の構造となると、ターゲットSQLはおそらく異なる方法で表現される。本稿では,テキストからsqlへのタスクの構造的一般化に関する深い議論を行う。実験では, 十分に訓練されたテキスト-SQLモデルの評価において, 構造一般化に関する現在の研究の限界が示される。包括的分析によると、実際的な理由は(NL, SQL)パターンの過剰適合である。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 02:52:51 GMT)
現在のText-to-SQLのデータセットがテンプレート化されすぎていて汎化性能を測るには適切ではなく、overfittingが生じているとの指摘。

Myths and Legends in High-Performance Computing

Myths and Legends in High-Performance Computing [66.0]
このユーモラスで思想的な挑発的な記事では、高性能コンピューティングコミュニティのメンバーの間で伝承される神話や伝説について論じる。それらは、デナードのスケーリングやムーアの法則など、多くのスケーリング法則の終焉によって引き起こされた、現在の大規模な変革の時代における退化論者を表していると我々は信じている。いくつかの法則が終わる一方で、アルゴリズムスケーリングや新しいアーキテクチャ研究など、新しい方向性が開かれる。
論文参考訳（メタデータ） (Fri, 6 Jan 2023 09:32:19 GMT)
ハイパフォーマンスコンピューティングの12の神話、面白い記事。

Data-centric AI: Perspectives and Challenges

Data-centric AI: Perspectives and Challenges [51.7]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。データ開発、評価データ開発、データメンテナンスの3つの一般的なミッションをまとめる。今後の探索を動機付けるためのオープンな課題をリストアップする。
論文参考訳（メタデータ） (Thu, 12 Jan 2023 05:28:59 GMT)
Data-centric AIに関する解説。5ページと短いが、Training Data Development, Evaluation Data Development, Data Maintenaceに分けて概要と動向を解説している。

GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities

GPT as Knowledge Worker: A Zero-Shot Evaluation of (AI)CPA Capabilities [0.0]
サンプルレギュレーション(REG)試験において,OpenAI のtext-davinci-003 と GPT の前バージョンを実験的に評価した。サンプル試験では,text-davinci-003が14.4%の正解率を達成し,ゼロショットプロンプトの定量的推論において,人間の能力より著しく低いことが判明した。最良のプロンプトとパラメータについて、モデルでは57.6%の質問が正しく答えられ、25%の推測率よりもかなり良い。
論文参考訳（メタデータ） (Wed, 11 Jan 2023 11:30:42 GMT)
CPA試験を対象としたGPT-3(3.5)の検証。量的推論や算術のようにGPT-3が苦手としている部分はまだまだという結果だが、そうでない部分は性能が大幅に向上しているように見える。量的な部分は別モデルで改善が続いているわけで、色々と可能性を感じる結果
リポジトリはGitHub – mjbommar/gpt-as-knowledge-worker: GPT as Knowledger Worker (or if you really want, GPT Sorta’ Takes the CPA Exam)

2025年7月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31