arXiv – ページ 108 – arXiv最新論文の紹介

Federated Analytics: A survey

Federated Analytics: A survey [21.8]
Federated Analytics(FA)は、複数のリモートパーティでデータ分析を計算するための、プライバシ保護フレームワークである。本稿では,フェデレーション分析の特徴と,フェデレーション学習との違いについて論じる。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 18:56:24 GMT)
プライバシー保護や資源の節約などの理由で限られたデータのみを集約して分析するFederated Analyticsのサーベイ。基本的な話から始まり、Taxonomy、Algorithm、Challenge & Open Oppotunityと整理されている。
federated analyticsは federated learningよりより一般化されたもので、基本的な分析を含むとのこと。

ChatGPTの評価（NLPベンチマーク、失敗事例、エッセイ）

今週もChatGPTの評価報告が複数出ていた。

1つ目はNLPのベンチマークをChatGPTで実施したものでQuestionAnsweringの一部のタスクでは非常に優れた結果となっている。要約は正直イマイチな結果ではあるが、こちらはデータセットの問題（Benchmarking Large Language Models for News Summarization – arXiv最新論文の紹介 (devneko.jp)）かもしれない。にしても低すぎという感覚はある…

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity [53.9]
我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
論文参考訳（メタデータ） (Wed, 8 Feb 2023 12:35:34 GMT)

2つ目は代表的な失敗事例を整理した論文。苦手なタスクも多そうな結果ではあるが、他手法では改善できているものもあり、時間がたてば対応可能そうなものも多い。参照したリポジトリ「GitHub – giuven95/chatgpt-failures: ChatGPT failure archive」も参考になる。

A Categorical Archive of ChatGPT Failures [47.6]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文参考訳（メタデータ） (Mon, 6 Feb 2023 04:21:59 GMT)

3つめはエッセイを書くにあたってChatGPTが品質に貢献するかを調査したもの。否定的結論が出ている。

Better by you, better than me, chatgpt3 as writing assistance in students essays [0.0]
本研究は,ChatGPT-3を筆記補助具として使用するか否かを,学生のエッセイの筆記成績と比較した。影響を受けるエッセイの予測者はいずれも、グループ、執筆期間、モジュール、GPAである。結論: 本研究は, gptを筆記ツールとして用いると, 操作群がほとんどのパラメータで実験群を上回っていたため, エッセイ品質が向上する証拠は見いだされなかった。
論文参考訳（メタデータ） (Thu, 9 Feb 2023 10:04:18 GMT)

What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models

What Language Reveals about Perception: Distilling Psychophysical Knowledge from Large Language Models [12.9]
類似性判定に基づいて,大規模言語モデルと古典的な心理物理学的手法を組み合わせる方法について述べる。提案手法を6つの知覚領域で検証し,提案した判断が人間のデータと強く相関していることを示す。我々の研究は、最先端のマシンモデルとよく知られた認知パラダイムを組み合わせることで、認識と言語研究の基本的な問題に新たな光を当てることができることを示す。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 18:32:46 GMT)
LLMを用いてPsychophysicalな情報を得ようとする試み。「We found that not only does the extracted data correlate highly with human judgments, but it also recovers well-known psychophysical structures from the literature such as the cyclical and helical organizations of color and pitch.」とあるのはすごく面白い結果ではありつつ、Discussionにも指摘があるように単にそういうことが書かれた記事を復元しているだけじゃないのか？という疑問もある。
何はともあれLLMを色々な分野に応用するというのはとても興味深い。

Theory of Mind May Have Spontaneously Emerged in Large Language Models

Theory of Mind May Have Spontaneously Emerged in Large Language Models [0.1]
心の理論 (ToM) は、人間の社会的相互作用、コミュニケーション、共感、自己意識、道徳の中心である。以上の結果から,2022年以前のモデルでは,ToM課題の解決が事実上不可能であることが示唆された。これらのことから,ToMライクな能力は言語モデルの言語能力向上の副産物として自然に現れる可能性が示唆された。
論文参考訳（メタデータ） (Sat, 4 Feb 2023 03:50:01 GMT)
人間用のTheory of mindテストを大規模言語モデルに適用、近年のモデルでは一定のれべるにあると指摘する論文。GPT-3.5 (text-davinci-003)では9歳の子供のレベルであると指摘していて、ほんまかいなと思わなくもない。
近年のモデルではこの手のタスクを解く能力が強化されているのは確かなのだろうが、leakの疑いもなくはなく正しい評価は非常に難しいと思う。

FLAME: A small language model for spreadsheet formulas

FLAME: A small language model for spreadsheet formulas [12.4]
本稿では,Excel の式に基づいて訓練された T5 ベースのモデル FLAME について述べる。スケッチの重複を利用してトレーニングデータセットをキュレートし、Excel固有の式トークンを導入し、マスク付きスパン予測のドメイン固有のバージョンとノイズの多い自動エンコーディングを事前学習目的として使用する。 FLAME (60M) は、Codex-Davinci (175B)、Codex-Cushman (12B)、CodeT5 (220M) など、より大型のモデルよりも10セット中6セットで優れている。
論文参考訳（メタデータ） (Tue, 31 Jan 2023 17:29:43 GMT)
Excelを対象にしたプログラム（？）用言語モデル。大規模言語モデルを用いた実装にくべて極めて小さなパラメータ数、データで構築を行っているにもかかわらずパフォーマンスは十分（6/10タスクで他を上回る）とのこと
巨大モデル全盛ではあるが、十分に使えるものを作るという点で興味深い。（FLAME自体小規模というにはやや抵抗が無いわけではないが。。。）

A Survey on Efficient Training of Transformers

A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 13:58:18 GMT)
非常に広く用いられているTransformerについて効率的に学習を行うためのサーベイ。11ページ、引用数87と短め。
GPT-3の学習コストが335 GPU-year、$4.6Mと推測されているとのことで、巨大なモデルを作ろうと思う場合はこの手の手法をよく調査する必要がある。

Crawling the Internal Knowledge-Base of Language Models

Crawling the Internal Knowledge-Base of Language Models [54.0]
本稿では,言語モデルの内部知識ベースである「クローリング」の手順について述べる。我々は、数十のシードエンティティから始まるグラフのクローリングに対するアプローチを評価した。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 12:03:36 GMT)
巨大モデル内にある内部知識をクローリングする方法の提案。知識を活用する文脈でもつかえるが、巨大モデルの知識構造を明らかにしてその理解を進める（さらには修正する）方向での応用が議論されていた。
LMCRAWLという言葉にも面白さを感じる。

TransFool

TransFool: An Adversarial Attack against Neural Machine Translation Models [49.5]
敵攻撃に対するニューラルネットワーク翻訳(NMT)モデルの脆弱性を調査し,TransFoolと呼ばれる新たな攻撃アルゴリズムを提案する。クリーンなサンプルと高いレベルのセマンティックな類似性を保ったソースコード言語で、流動的な逆の例を生成する。自動的および人的評価に基づいて、TransFoolは、既存の攻撃と比較して成功率、意味的類似性、流布率の改善につながる。
論文参考訳（メタデータ） (Thu, 2 Feb 2023 08:35:34 GMT)
ニューラル機械翻訳に対する（ホワイトボックスな）敵対的攻撃手法の提案。高い攻撃成功率を達成とのこと。「Our attack is also transferable to black-box settings with different structures and even different target languages.」という転送可能性があるというのが非常に面白い。本質的に解釈が難しい文が作れるとかなんだろうか。
コードはhttps://github.com/sssadrizadeh/TransFoolで公開予定とのことだが、現時点では404

Extracting Training Data from Diffusion Models

Extracting Training Data from Diffusion Models [77.1]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文参考訳（メタデータ） (Mon, 30 Jan 2023 18:53:09 GMT)
Diffusionモデルは絵を生成している？複製している？ – arXiv最新論文の紹介 (devneko.jp)と近しい話題で画像を記憶し元データと非常に近い画像を出力することがあるとの報告。「We see that state-of-the-art diffusion models memorize 2× more than comparable GANs」と記載があり、GANより深刻とのこと。
人間でも似たようなことはある…という話はあるものの社会実装では対策が必要だと思う。（元画像に近いかどうかというものだが、著作権や商標を侵害しなけない出力への対応も必要）

PrimeQA

PrimeQA: The Prime Repository for State-of-the-Art Multilingual Question Answering Research and Development [24.0]
PRIMEQAは、QAの再調査を民主化し、最先端(SOTA)QAメソッドの複製を容易にすることを目的とした、ワンストップのQAレポジトリである。検索や読解といったコアQA機能と,質問生成などの補助機能をサポートする。フロントエンドアプリケーションの構築、pub-licベンチマーク上のSOTAメソッドの複製、既存のメソッドの拡張など、さまざまなユースケースのためのエンドツーエンドツールキットとして設計されている。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 15:48:03 GMT)
Question Answeringに関するオープンなリポジトリ＆フレームワーク
QAを対象にしたもの（かつここまで整理されたもの）はあまりなさそうな気がする
リポジトリはPrimeQA · GitHub、HuggingFaceにフレームワークで使えるモデルも公開されているPrimeQA (PrimeQA) (huggingface.co)

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31