Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art 

  • Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art [70.1]
    文化的に認識され、適応された自然言語処理への関心の高まりは、近年の研究にインスピレーションを与えている。 文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。 本稿では,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 10:16:43 GMT)
  • NLP、特にLLMが知識と処理の両方を兼ねている現状において重要と思われる文化に関する分類、サーベイ。
  • (長く研究されてきた分野ではあるが)最近特に注目が集まっている分野だと思う。

Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey 

  • Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey [9.1]
    予測保守(PdM)は産業4.0の柱の一つとして登場した。 この調査は、鉄鋼業界におけるAIベースのPdM分野における知識の現状を総合するものである。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 13:32:46 GMT)
  • 鉄鋼業界&予測保守におけるAI活用のサーベイ。
  • 業界・タスク特化であるが35ページと長く伝統的な手法を含めていろいろなアプローチがされているのだなと興味深かった。 PdMだとProduct Managerを思い浮かべるかもしれないが、ここではPredictive Maintenance。

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

  • Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.2]
    本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。 我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。 大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
    論文  参考訳(メタデータ)   (Mon, 20 May 2024 07:34:48 GMT)
  • 社会的知性を測るためのベンチマーク、対象はInverse Reasoning (IR) とInverse Inverse Planning (IIP)。GPT-4でもタスクによっては人間とギャップがある。結論の「We hope that our study contributes valuable information towards the advancement of ASI.」にASIが出ているのに少しびっくり。
  • リポジトリはGitHub – bigai-ai/Evaluate-n-Model-Social-Intelligence

What Can Natural Language Processing Do for Peer Review? 

  • What Can Natural Language Processing Do for Peer Review? [173.9]
    現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。 ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。 筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
    論文  参考訳(メタデータ)   (Fri, 10 May 2024 16:06:43 GMT)
  • LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
  • リポジトリはGitHub – OAfzal/nlp-for-peer-review

SGA: Scientific Generative Agent

  • LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
    本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。 本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。 法発見と分子設計における枠組みの有効性を実証するための実験を行った。
    論文  参考訳(メタデータ)   (Thu, 16 May 2024 03:04:10 GMT)
  • 物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
  • SORAのような(物理・世界シミュレーターとしての)動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。

The Call for Socially Aware Language Technologies 

  • The Call for Socially Aware Language Technologies [94.7]
    NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。 我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。社会的意識をNLPモデルに統合することで、アプリケーションはより自然で、有用で、安全になり、新しい可能性を開く。
    論文  参考訳(メタデータ)   (Fri, 03 May 2024 18:12:39 GMT)
  • LLM全盛のNLPを社会実装する際に考えるべきものがまとまっている。ガイドラインなどもあるが、NLPのような分野に特化した論文も重要。
  • この著者陣をして「As LLMs take a more central role in AI research more broadly, many traditional NLP tasks have become obsolete.」というのも時代を感じるが、「We are more than just language factories, and language plays just one part in our complex social interactions.」は忘れてはいけない視点。

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense 

  • Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.1]
    大規模言語モデル(LLM)は、かなりの常識的理解を示している。 本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LLMの能力と限界について検討する。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 20:28:34 GMT)
  • 国(本件検証対象は中国、インド、イラン、ケニア、米国)によって違う常識がLLMでどう対応されているか調査した論文。「Our findings indicate that LLMs tend to associate general commonsense with cultures that are well-represented in the training data, and that LLMs have uneven performance on cultural commonsense, where they underperform for lessrepresented cultures.」に違和感はない。使用言語でほぼ決まるかとおもったら影響はあるが決定的ではないのが若干意外。
  • リポジトリはhttps://github.com/ MichiganNLP/LLM_cultural_commonsenseとのことだが、現時点では404

Introducing v0.5 of the AI Safety Benchmark from MLCommons

Mapping the Increasing Use of LLMs in Scientific Papers 

  • Mapping the Increasing Use of LLMs in Scientific Papers [99.7]
    2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。 LLMの使用率が着実に増加し,コンピュータサイエンス論文(最大17.5%)で最大かつ最速の成長が観察された。一方、数学論文とNatureのポートフォリオでは、LLMの修正は最も少ない(最大6.3%)。
    論文  参考訳(メタデータ)   (Mon, 01 Apr 2024 17:45:15 GMT)
  • LLMの学術分野での利用集計で数値で示されると納得感がある。検出能力がどうなのかというのはやや疑問ではありつつ「authors who post preprints more frequently show a higher fraction of LLM-modified content in their writing.」とか興味深い結果。

Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models 

  • Against The Achilles’ Heel: A Survey on Red Teaming for Generative Models [60.2]
    赤いチーム作りの分野は急速に成長しており、パイプライン全体をカバーする包括的な組織の必要性を強調している。 120以上の論文を調査し,言語モデル固有の能力に根ざした,きめ細かい攻撃戦略の分類を導入した。 我々は,様々な自動レッド・チーム・アプローチを統合するサーチ・フレームワークを開発した。
    論文  参考訳(メタデータ)   (Sun, 31 Mar 2024 09:50:39 GMT)
  • 社会実装において重要なRed Teamingに関するサーベイ。「Figure 2: An overview of GenAI red teaming flow.」から始まる構成がわかりやすい。CC-BYなのもうれしいところ。

Many-shot jailbreaking \ Anthropic
我々は、有用で無害で正直なAIアシスタントをターゲットにした多発ジェイルブレーキング(MSJ)を研究した。MSJは数発のジェイルブレークの概念を拡張し、攻撃者はモデルが通常答えることを拒否する一連のクエリを含む架空の対話でモデルをプロンプトする。
「We found that the effectiveness of attacks, and of in-context learning more generally, could be characterized by simple power laws.」というとてもシンプルな攻撃が有効であったりもして攻撃戦略も日々進化している状況で安全性を確保していくのはとても大変。