arXiv – ページ 94 – arXiv最新論文の紹介

MolXPT

MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.1]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。 MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文参考訳（メタデータ） (Thu, 18 May 2023 03:58:19 GMT)
論文と対応するSMILES表記を学習、prompt-based finetuningすることで優れた性能を発揮。論文をうまく使っている点が面白い。

Language Models Meet World Models

Language Models Meet World Models: Embodied Experiences Enhance Language Models [33.2]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 00:35:38 GMT)
世界モデルを用いてLLMを強化しようという取り組み、 Embodied Experiences from World Models (E2WM)というフレームワークを提案している。シミュレータ（VirtualHome）を用いてより広い情報を集めるアプローチで大変興味深い。
重要なパラメータの保護などシミュレータから得た経験を反映する部分でもlow-rank adaptors ＆ elastic weight consolidationのEWC-LoRAという手法を用いているそう。

DLUE: Document Language Understanding Evaluation

DLUE: Benchmarking Document Language Understanding [32.6]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。新しい評価フレームワークでは、新しいタスクスイートである DLUE の Document Language Understanding Evaluation を提案する。
論文参考訳（メタデータ） (Tue, 16 May 2023 15:16:24 GMT)
文書読解タスクのベンチマーク。document classiﬁcation、document structure analysis、document information extraction、document transcriptionが対象。
プロジェクトサイトはDLUE – Coming Soon (dluebenchmark.com)

SOCRATIC COT

Distilling Reasoning Capabilities into Smaller Language Models [83.7]
思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。本研究では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。
論文参考訳（メタデータ） (Thu, 18 May 2023 04:44:51 GMT)
大規模なモデルから得たCoTの出力を小さなモデルに適用する取り組み。CoTをより細かいQAに分解し、Question GeneratorモデルとQAモデルを学習する仕組みのよう。小さなモデル (GPT-2 large) で10倍のモデル (GPT-3 6B)をout performしたとのこと。
リポジトリはGitHub – kumar-shridhar/Distiiling-LM: The code for the paper : Distilling Reasoning Capabilities into Smaller Language Models

What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning

What In-Context Learning “Learns” In-Context: Disentangling Task Recognition and Task Learning [24.4]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。 ICLがデモを利用する2つの方法の特徴付けを行う。 TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことTLの性能はコンテキストにおけるより多くのデモで一貫して改善されることを示す。
論文参考訳（メタデータ） (Tue, 16 May 2023 18:05:19 GMT)
in context learningをtask recognition (TR)、 task learning (TL)に分けて検証した論文。タスクを知る動きとコンテキスト内デモでの学習は別物として扱えそうという結果で大変興味深い。
リポジトリはGitHub – princeton-nlp/WhatICLLearns: https://arxiv.org/abs/2305.09731

What’s the Meaning of Superhuman Performance in Today’s NLU?

What’s the Meaning of Superhuman Performance in Today’s NLU? [145.8]
我々は,SuperGLUE や SQuAD などのベンチマークが人間と PLM の比較に重大な制限を課していることを示す。より公平で透過的なベンチマークのためのレコメンデーションを提供します。
論文参考訳（メタデータ） (Mon, 15 May 2023 07:48:31 GMT)
ベンチマークの限界を指摘した論文。6 Recommendationsの章はAIの限界や正しい評価とは？について確認するためにも良い整理。アノテートについて「What is their hourly pay rate?」という指摘は結構くるものがある。何かを評価しようとするなら、データ品質はとても重要。

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.1]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文参考訳（メタデータ） (Thu, 11 May 2023 03:21:56 GMT)
地理的情報を含めた自然言語処理ベンチマーク、Geo-POI Searching、 GeoSequence Tagging、Geo-Text Classiﬁcationがタスク。実用性が高そうなタスクという印象。
リポジトリは地理语义理解能力评测基准 · 数据集 (modelscope.cn)

DoReMi: Domain Reweighting with Minimax Optimization

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3]
ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
論文参考訳（メタデータ） (Wed, 17 May 2023 17:58:13 GMT)
データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・？

SearChain: Search-in-the-Chain

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
本稿では,マルチホップ質問応答のためのLLM生成コンテンツの正確性,信頼性,トレーサビリティを向上させるために,検索・イン・ザ・チェイン(SearChain)と呼ばれる新しいフレームワークを提案する。 SearChainは大規模言語モデル(LLM)と情報検索(IR)を深く統合したフレームワークである
論文参考訳（メタデータ） (Fri, 5 May 2023 02:35:48 GMT)
LLM ＋ information retrievalでマルチホップな問題を解くフレームワークの提案、複数のベンチマークで優れた性能
プロンプト自体・使い方・複数回の問い合わせを工夫していくのはまだまだ続きそうで、LLMの鉱脈は深そう

A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications

A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications [62.6]
本研究の目的は,mHealthアプリのユーザ受け入れに影響を与える要因を検討することである。利用者のデジタルリテラシーは、個人情報を共有するオンライン習慣に続き、使用意欲に最も強い影響を与える。居住国、年齢、民族、教育などの利用者の人口統計学的背景は、顕著な緩和効果がある。
論文参考訳（メタデータ） (Wed, 10 May 2023 08:11:21 GMT)
モバイルヘルスアプリケーションを受け入れるか否かについて、どのような因子が重要か調べた論文。複数の国が対象だが、残念ながら日本は入っていない。
「our study reveals that users’ privacy concern had only a moderate impact, which was outweighed by users’ digital literacy.」というのはやや意外な結果。日本だと話は別だったりするのだろうか。

2024年10月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31