NLP – arXiv最新論文の紹介

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art [70.1]
文化的に認識され、適応された自然言語処理への関心の高まりは、近年の研究にインスピレーションを与えている。文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。本稿では,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。
論文参考訳（メタデータ） (Thu, 06 Jun 2024 10:16:43 GMT)
NLP、特にLLMが知識と処理の両方を兼ねている現状において重要と思われる文化に関する分類、サーベイ。
（長く研究されてきた分野ではあるが）最近特に注目が集まっている分野だと思う。

Large Language Models Meet NLP: A Survey

Large Language Models Meet NLP: A Survey [79.7]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて印象的な機能を示している。本研究は,以下の課題を探求することによって,このギャップに対処することを目的とする。
論文参考訳（メタデータ） (Tue, 21 May 2024 14:24:01 GMT)
典型的なNLPタスクについてLLMを用いるアプローチを整理したサーベイ。結果がまとめられていないのがやや残念ではあるが、論文がリポジトリ（GitHub – LightChen233/Awesome-LLM-for-NLP）にまとまっているのが非常にありがたい。

The Call for Socially Aware Language Technologies

The Call for Socially Aware Language Technologies [94.7]
NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。社会的意識をNLPモデルに統合することで、アプリケーションはより自然で、有用で、安全になり、新しい可能性を開く。
論文参考訳（メタデータ） (Fri, 03 May 2024 18:12:39 GMT)
LLM全盛のNLPを社会実装する際に考えるべきものがまとまっている。ガイドラインなどもあるが、NLPのような分野に特化した論文も重要。
この著者陣をして「As LLMs take a more central role in AI research more broadly, many traditional NLP tasks have become obsolete.」というのも時代を感じるが、「We are more than just language factories, and language plays just one part in our complex social interactions.」は忘れてはいけない視点。

A Survey on Out-of-Distribution Detection in NLP

A Survey on Out-of-Distribution Detection in NLP [115.5]
現実世界における機械学習システムの信頼性と安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。本稿では,OOD検出の最近の進歩について,特に自然言語処理に焦点をあてて概説する。
論文参考訳（メタデータ） (Fri, 5 May 2023 01:38:49 GMT)
NLPにおけるOOD検出のサーベイ。ざっくりと知るには良い内容。
自然言語処理なAIをデプロイするときには欲しくなり、LLM時代に重要性がさらに増す分野な予感。

A Survey of Adversarial Defences and Robustness in NLP

A Survey of Adversarial Defences and Robustness in NLP [26.3]
深層ニューラルネットワークは、入力データにおける敵の摂動に耐えるほど弾力性がないことが、ますます明らかになっている。 NLPにおける敵防御のためのいくつかの手法が提案され、異なるNLPタスクに対応している。本調査は,過去数年間にNLPにおける敵防衛のために提案された様々な手法を,新しい分類法を導入して検討することを目的とする。
論文参考訳（メタデータ） (Tue, 18 Apr 2023 05:00:29 GMT)
NLPにおける敵対的攻撃への防御に関するサーベイ
conclusionがサーベイ自体のサマリになっておりざっくりと説明するには良い資料な気がする

Active Learning for Multilingual Semantic Parser

Active Learning for Multilingual Semantic Parser [56.1]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (Thu, 13 Apr 2023 13:30:06 GMT)
マルチリンガルなSemantic Parserを対象としたアクティブラーニング、翻訳コストを減らすことがモチベーションのようだがNLPに対するアクティブラーニングでうまくいく事例として興味深い
当然ながら「Clearly, human translation delivers a greater output quality compared to machine translation.」なのでアクティブラーニングがうまく動作すると人間で…という方向が期待される

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
本稿では,深層モデル変異検査に基づく防御手法を提案する。バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
論文参考訳（メタデータ） (Wed, 25 Jan 2023 05:24:46 GMT)
「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃（現時点でメジャーなすべての攻撃）に対応可能とのこと。
この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。

Semantic Scholar

The Semantic Scholar Open Data Platform [79.4]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (Tue, 24 Jan 2023 17:13:08 GMT)
Semantic Scholar | AI-Powered Research Tool の論文
ソフトウェア構成が非常に参考になる。一部はfugumt.comでも取り入れたい。

PropSegmEnt

PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition [63.5]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。提案するPropSegmEntは35K以上の提案のコーパスであり, 専門家によるアノテートを行う。我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文参考訳（メタデータ） (Wed, 21 Dec 2022 04:03:33 GMT)
entailment taskのデータセット、文内にもアノテーションがされていることが特徴できめ細かい、かつ、大規模
リポジトリはGitHub – google-research-datasets/PropSegmEnt: PropSegmEnt is an annotated dataset for segmenting English text into propositions, and recognizing proposition-level entailment relations – whether a different, related document entails each proposition, contradicts it, or neither. It consists of clusters of closely related documents from the news and Wikipedia domains.

Privacy Adhering Machine Un-learning in NLP

Privacy Adhering Machine Un-learning in NLP [66.2]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。データの継続的な削除とモデル再訓練のステップはスケールしませんこの課題に対処するために、Machine Unlearningを提案する。
論文参考訳（メタデータ） (Mon, 19 Dec 2022 16:06:45 GMT)
規制対応等で重要な自然言語処理におけるMachine Unlearning手法（というかUnlearningを可能とする学習フレームワーク）の提案
学習データをシャードに分けて取り扱い、Unlearningの必要が生じた場合は影響を受ける部分のみに対処するというシンプルな方針

2025年11月
月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30