The Call for Socially Aware Language Technologies 

  • The Call for Socially Aware Language Technologies [94.7]
    NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。 我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。社会的意識をNLPモデルに統合することで、アプリケーションはより自然で、有用で、安全になり、新しい可能性を開く。
    論文  参考訳(メタデータ)   (Fri, 03 May 2024 18:12:39 GMT)
  • LLM全盛のNLPを社会実装する際に考えるべきものがまとまっている。ガイドラインなどもあるが、NLPのような分野に特化した論文も重要。
  • この著者陣をして「As LLMs take a more central role in AI research more broadly, many traditional NLP tasks have become obsolete.」というのも時代を感じるが、「We are more than just language factories, and language plays just one part in our complex social interactions.」は忘れてはいけない視点。

A Survey on Out-of-Distribution Detection in NLP

  • A Survey on Out-of-Distribution Detection in NLP [115.5]
    現実世界における機械学習システムの信頼性と安全なデプロイには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。 本稿では,OOD検出の最近の進歩について,特に自然言語処理に焦点をあてて概説する。
    論文  参考訳(メタデータ)   (Fri, 5 May 2023 01:38:49 GMT)
  • NLPにおけるOOD検出のサーベイ。ざっくりと知るには良い内容。
  • 自然言語処理なAIをデプロイするときには欲しくなり、LLM時代に重要性がさらに増す分野な予感。

A Survey of Adversarial Defences and Robustness in NLP

  • A Survey of Adversarial Defences and Robustness in NLP [26.3]
    深層ニューラルネットワークは、入力データにおける敵の摂動に耐えるほど弾力性がないことが、ますます明らかになっている。 NLPにおける敵防御のためのいくつかの手法が提案され、異なるNLPタスクに対応している。 本調査は,過去数年間にNLPにおける敵防衛のために提案された様々な手法を,新しい分類法を導入して検討することを目的とする。
    論文  参考訳(メタデータ)   (Tue, 18 Apr 2023 05:00:29 GMT)
  • NLPにおける敵対的攻撃への防御に関するサーベイ
  • conclusionがサーベイ自体のサマリになっておりざっくりと説明するには良い資料な気がする

Active Learning for Multilingual Semantic Parser

  • Active Learning for Multilingual Semantic Parser [56.1]
    多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。 実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
    論文  参考訳(メタデータ)   (Thu, 13 Apr 2023 13:30:06 GMT)
  • マルチリンガルなSemantic Parserを対象としたアクティブラーニング、翻訳コストを減らすことがモチベーションのようだがNLPに対するアクティブラーニングでうまくいく事例として興味深い
  • 当然ながら「Clearly, human translation delivers a greater output quality compared to machine translation.」なのでアクティブラーニングがうまく動作すると人間で…という方向が期待される

BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing 

  • BDMMT: Backdoor Sample Detection for Language Models through Model Mutation Testing [14.9]
    本稿では,深層モデル変異検査に基づく防御手法を提案する。 バックドアサンプルの検出におけるモデル変異検査の有効性をまず確認した。 次に,広範に研究された3つのバックドアアタックレベルに対して,系統的に防御を行った。
    論文  参考訳(メタデータ)   (Wed, 25 Jan 2023 05:24:46 GMT)
  • 「backdoor samples are much more robust than clean samples」という仮定に基づくバックドア検出手法の提案。char-level, word-level, sentence-level, style-levelの4種類の攻撃(現時点でメジャーなすべての攻撃)に対応可能とのこと。
  • この分野は画像で盛んな印象があったが、最近は自然言語処理の領域でも広く研究されている気がする。

Semantic Scholar

  • The Semantic Scholar Open Data Platform [79.4]
    セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。 我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。 このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
    論文  参考訳(メタデータ)   (Tue, 24 Jan 2023 17:13:08 GMT)
  • Semantic Scholar | AI-Powered Research Tool の論文
  • ソフトウェア構成が非常に参考になる。一部はfugumt.comでも取り入れたい。

PropSegmEnt

Privacy Adhering Machine Un-learning in NLP

  • Privacy Adhering Machine Un-learning in NLP [66.2]
    現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。 このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。 データの継続的な削除と モデル再訓練のステップはスケールしません この課題に対処するために、Machine Unlearningを提案する。
    論文  参考訳(メタデータ)   (Mon, 19 Dec 2022 16:06:45 GMT)
  • 規制対応等で重要な自然言語処理におけるMachine Unlearning手法(というかUnlearningを可能とする学習フレームワーク)の提案
  • 学習データをシャードに分けて取り扱い、Unlearningの必要が生じた場合は影響を受ける部分のみに対処するというシンプルな方針

A Survey on Natural Language Processing for Programming 

  • A Survey on Natural Language Processing for Programming [42.9]
    全スペクトルから関連する著作を体系的にレビューする文献は存在しない。 本論文は, 初期の演能モデルから最新の競争レベルモデルまで, 既存の研究を包括的に調査する。 この論文のもう1つの利点はテクニックカテゴリの完全性であり、将来の作品の配置と比較を簡単に行うことができる。
    論文  参考訳(メタデータ)   (Mon, 12 Dec 2022 08:51:30 GMT)
  • 自然言語処理をプログラミングに応用する取り組みのサーベイ
  • 最近は生成がよくニュースになるが、それ以外にも様々なタスクがあることが分かる

Text Embeddings by Weakly-Supervised Contrastive Pre-training