arXiv最新論文の紹介

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark

GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.1]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文参考訳（メタデータ） (Thu, 11 May 2023 03:21:56 GMT)
地理的情報を含めた自然言語処理ベンチマーク、Geo-POI Searching、 GeoSequence Tagging、Geo-Text Classiﬁcationがタスク。実用性が高そうなタスクという印象。
リポジトリは地理语义理解能力评测基准 · 数据集 (modelscope.cn)

DoReMi: Domain Reweighting with Minimax Optimization

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining [172.3]
ミニマックス最適化(DoReMi)を用いたドメイン再重み付けを提案する。 DoReMiはまず、ドメイン上のグループ分散ロバスト最適化(Group DRO)を使用して小さなプロキシモデルをトレーニングし、ドメイン重みを生成する。次に、これらのドメインウェイトでデータセットを再サンプリングし、より大きなフルサイズのモデルをトレーニングします。
論文参考訳（メタデータ） (Wed, 17 May 2023 17:58:13 GMT)
データセットのドメインに対するウェイトを調整する手法の提案。小さなモデルで試行後に大きなモデルでのドメインウェイトを決めるアプトローチで「DoReMi improves average one-shot downstream accuracy by 6.5% and reaches the baseline accuracy 2.6x faster when pretraining on The Pile.」ととても効果的そう
The Pileを用いた実験でWikipediaのウェイトがベースラインよりも低くなっているにもかかわらず、Wikipedia由来のデータセットでのdown stream性能が上がっているのが面白い。なぜなんだろう・・・？

SearChain: Search-in-the-Chain

Search-in-the-Chain: Towards Accurate, Credible and Traceable Large Language Models for Knowledge-intensive Tasks [108.2]
本稿では,マルチホップ質問応答のためのLLM生成コンテンツの正確性,信頼性,トレーサビリティを向上させるために,検索・イン・ザ・チェイン(SearChain)と呼ばれる新しいフレームワークを提案する。 SearChainは大規模言語モデル(LLM)と情報検索(IR)を深く統合したフレームワークである
論文参考訳（メタデータ） (Fri, 5 May 2023 02:35:48 GMT)
LLM ＋ information retrievalでマルチホップな問題を解くフレームワークの提案、複数のベンチマークで優れた性能
プロンプト自体・使い方・複数回の問い合わせを工夫していくのはまだまだ続きそうで、LLMの鉱脈は深そう

A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications

A Comprehensive Picture of Factors Affecting User Willingness to Use Mobile Health Applications [62.6]
本研究の目的は,mHealthアプリのユーザ受け入れに影響を与える要因を検討することである。利用者のデジタルリテラシーは、個人情報を共有するオンライン習慣に続き、使用意欲に最も強い影響を与える。居住国、年齢、民族、教育などの利用者の人口統計学的背景は、顕著な緩和効果がある。
論文参考訳（メタデータ） (Wed, 10 May 2023 08:11:21 GMT)
モバイルヘルスアプリケーションを受け入れるか否かについて、どのような因子が重要か調べた論文。複数の国が対象だが、残念ながら日本は入っていない。
「our study reveals that users’ privacy concern had only a moderate impact, which was outweighed by users’ digital literacy.」というのはやや意外な結果。日本だと話は別だったりするのだろうか。

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models

Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [91.6]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文参考訳（メタデータ） (Thu, 11 May 2023 05:19:47 GMT)
LLMが機械翻訳出も優れた性能を出すことは知られており（というか初期のモチベーションの1つでもあり）、その性能を引き出すため辞書的な情報をプロンプトに入れる手法の提案
多くの言語でテストしており非常に有望な結果。日本語では効果がなさそうな理由を知りたいところ。

Vera: A General-Purpose Plausibility Estimation Model for Commonsense Statements

Vera: A General-Purpose Plausibility Estimation Model for Commonsense Statements [109.9]
本稿では,コモンセンス知識に基づく宣言文の妥当性を推定する汎用モデルであるVeraを紹介する。 19のQAデータセットと2つの大規模ナレッジベースから生成された7Mのコモンセンスステートメントに基づいてトレーニングされた。 Vera は LM 生成したコモンセンス知識のフィルタリングに優れており,ChatGPT などのモデルが生成する誤ったコモンセンス文を実環境で検出するのに有用である。
論文参考訳（メタデータ） (Fri, 5 May 2023 17:15:32 GMT)
LLMが生成する文書をフィルタリングするような用途で使える常識の推測モデルの提案。既存データセットをうまく使い、LLM＋プロンプトよりもかなり性能が高い。生成分を何らかの方法で検証するような動きは有用だと思う
デモがVera – a Hugging Face Space by liujch1998にある

Reasoning with Language Model Prompting: A Survey

Reasoning with Language Model Prompting: A Survey [63.2]
推論は複雑な問題解決に不可欠な能力であり、様々な現実世界のアプリケーションに対するバックエンドサポートを提供することができる。本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。
論文参考訳（メタデータ） (Mon, 8 May 2023 16:46:58 GMT)
推論関連のプロンプトのサーベイ。進化が速く追うのが困難な分野なのでとってもありがたい。引用されている論文は最近のものが多く勢いが分かる
リポジトリはGitHub – zjunlp/Prompt4ReasoningPapers: Repository for the ACL2023 paper “Reasoning with Language Model Prompting: A Survey”.

A Survey on Efficient Training of Transformers

A Survey on Efficient Training of Transformers [72.3]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文参考訳（メタデータ） (Thu, 4 May 2023 01:23:12 GMT)
Transformerの効率的な学習に関するサーベイ、ver3

A Survey on Out-of-Distribution Detection in NLP

A Survey on Out-of-Distribution Detection in NLP [115.5]
現実世界における機械学習システムの信頼性と安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。本稿では,OOD検出の最近の進歩について,特に自然言語処理に焦点をあてて概説する。
論文参考訳（メタデータ） (Fri, 5 May 2023 01:38:49 GMT)
NLPにおけるOOD検出のサーベイ。ざっくりと知るには良い内容。
自然言語処理なAIをデプロイするときには欲しくなり、LLM時代に重要性がさらに増す分野な予感。

Visual Tuning

Visual Tuning [141.9]
微調整ビジュアルモデルは、多くの下流視覚タスクにおいて有望なパフォーマンスを示すことが広く示されている。最近の進歩は、事前訓練されたパラメータ全体をフルチューニングするよりも優れたパフォーマンスを達成することができる。この調査は、最近の作品の大規模かつ思慮深い選択を特徴付け、作業とモデルの体系的かつ包括的な概要を提供する。
論文参考訳（メタデータ） (Wed, 10 May 2023 11:26:36 GMT)
下流タスクへの適合方法を扱ったサーベイ。研究が盛んな分野であり、非常に参考になる。
Table 2 A comprehensive review and classiﬁcation of visual tuning methods.が良く、ﬁne-tuning、prompt tuning、adapter tuning、parameter tuning、remapping tuningと多様な手法が紹介されている。

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30