“You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations

  • “You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations [29.2]
    我々はGPT-3.5-TurboとLlama 3-70B-Instructを利用して、人種や性別を強く示す320のファーストネームを持つ候補者の雇用決定と給与勧告をシミュレートする。 以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。
    論文  参考訳(メタデータ)   (Tue, 18 Jun 2024 03:11:43 GMT)
  • LLMにおける偏見を調べるため名前と雇用の関係を調査、「Our empirical results indicate a preference among these models for hiring candidates with White female-sounding names over other demographic groups across 40 occupations.」というのは意外な結果。
  • 日本語で実行した場合どのようになるか興味がある。

Evaluating Copyright Takedown Methods for Language Models

  • Evaluating Copyright Takedown Methods for Language Models [100.4]
    言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。 本稿では,LMの著作権削除の可能性と副作用を初めて評価する。 システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 18:09:46 GMT)
  • 著作権に守られたコンテンツを生成してしまわないよう対策する手法についての研究。データセットを構築、様々な手法で検証を行っている。「Through COTAEVAL, we discover that none of the mainstream takedown methods excel across all metrics.」とのことで対策は簡単ではないよう。
  • リポジトリはCotaEval: Evaluating Copyright Takedown Methods for Language Models

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

  • The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.2]
    ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。 責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 02:19:01 GMT)
  • 責任ある基盤モデル開発のためのチートシート。チートシートとあるが広範な内容となっている。
  • プロジェクトサイトはResources for Foundation Models – Foundation Model Development Cheatsheet (fmcheatsheet.org)

Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art 

  • Culturally Aware and Adapted NLP: A Taxonomy and a Survey of the State of the Art [70.1]
    文化的に認識され、適応された自然言語処理への関心の高まりは、近年の研究にインスピレーションを与えている。 文化」概念の共通理解の欠如は、この新興地域の進歩を評価するのを困難にしている。 本稿では,研究の進展を分析し,理解するための体系的な枠組みを提供する,文化の要素の広範な分類法を提案する。
    論文  参考訳(メタデータ)   (Thu, 06 Jun 2024 10:16:43 GMT)
  • NLP、特にLLMが知識と処理の両方を兼ねている現状において重要と思われる文化に関する分類、サーベイ。
  • (長く研究されてきた分野ではあるが)最近特に注目が集まっている分野だと思う。

Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey 

  • Artificial Intelligence Approaches for Predictive Maintenance in the Steel Industry: A Survey [9.1]
    予測保守(PdM)は産業4.0の柱の一つとして登場した。 この調査は、鉄鋼業界におけるAIベースのPdM分野における知識の現状を総合するものである。
    論文  参考訳(メタデータ)   (Tue, 21 May 2024 13:32:46 GMT)
  • 鉄鋼業界&予測保守におけるAI活用のサーベイ。
  • 業界・タスク特化であるが35ページと長く伝統的な手法を含めていろいろなアプローチがされているのだなと興味深かった。 PdMだとProduct Managerを思い浮かべるかもしれないが、ここではPredictive Maintenance。

Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities

  • Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.2]
    本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。 我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。 大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
    論文  参考訳(メタデータ)   (Mon, 20 May 2024 07:34:48 GMT)
  • 社会的知性を測るためのベンチマーク、対象はInverse Reasoning (IR) とInverse Inverse Planning (IIP)。GPT-4でもタスクによっては人間とギャップがある。結論の「We hope that our study contributes valuable information towards the advancement of ASI.」にASIが出ているのに少しびっくり。
  • リポジトリはGitHub – bigai-ai/Evaluate-n-Model-Social-Intelligence

What Can Natural Language Processing Do for Peer Review? 

  • What Can Natural Language Processing Do for Peer Review? [173.9]
    現代の科学ではピアレビューが広く使われているが、それは難しく、時間がかかり、エラーを起こしやすい。 ピアレビューに関わるアーティファクトは大部分がテキストベースであるため、自然言語処理はレビューを改善する大きな可能性を秘めている。 筆者らは、原稿提出からカメラ対応リビジョンまでの各工程について詳述し、NLP支援の課題と機会について論じる。
    論文  参考訳(メタデータ)   (Fri, 10 May 2024 16:06:43 GMT)
  • LLMを使ってピアレビューが可能か、支援可能かを検証したサーベイ。スコアリングのようなレビューだけではなく関連するタスクに関しても評価されており広範な内容。
  • リポジトリはGitHub – OAfzal/nlp-for-peer-review

SGA: Scientific Generative Agent

  • LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.4]
    本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。 本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。 法発見と分子設計における枠組みの有効性を実証するための実験を行った。
    論文  参考訳(メタデータ)   (Thu, 16 May 2024 03:04:10 GMT)
  • 物理的シミュレーションとLLMを組みあわせ科学的発見をおこなうためのフレームワークの提案。「In conclution, we present Scientific Generative Agent, a bilevel optimization framework: LLMs serve as knowledgeable and adaptable thinkers, formulating scientific solutions like physics equations or molecule structures; concurrently, simulations operate as platforms for experimentation, offering observational feedback and optimizing continuous components like physical parameters.」と、LLMが人間的役割を担っている。
  • SORAのような(物理・世界シミュレーターとしての)動画生成モデルと組み合わさると自己完結的に深い思考ができるようになるのだろうか。そこまで行くとAGIの世界になりそうな気がする。。

The Call for Socially Aware Language Technologies 

  • The Call for Socially Aware Language Technologies [94.7]
    NLPが機能する社会環境の要因、文脈、意味の認識の欠如である。 我々は、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりであると主張している。社会的意識をNLPモデルに統合することで、アプリケーションはより自然で、有用で、安全になり、新しい可能性を開く。
    論文  参考訳(メタデータ)   (Fri, 03 May 2024 18:12:39 GMT)
  • LLM全盛のNLPを社会実装する際に考えるべきものがまとまっている。ガイドラインなどもあるが、NLPのような分野に特化した論文も重要。
  • この著者陣をして「As LLMs take a more central role in AI research more broadly, many traditional NLP tasks have become obsolete.」というのも時代を感じるが、「We are more than just language factories, and language plays just one part in our complex social interactions.」は忘れてはいけない視点。

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense 

  • Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.1]
    大規模言語モデル(LLM)は、かなりの常識的理解を示している。 本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LLMの能力と限界について検討する。
    論文  参考訳(メタデータ)   (Tue, 07 May 2024 20:28:34 GMT)
  • 国(本件検証対象は中国、インド、イラン、ケニア、米国)によって違う常識がLLMでどう対応されているか調査した論文。「Our findings indicate that LLMs tend to associate general commonsense with cultures that are well-represented in the training data, and that LLMs have uneven performance on cultural commonsense, where they underperform for lessrepresented cultures.」に違和感はない。使用言語でほぼ決まるかとおもったら影響はあるが決定的ではないのが若干意外。
  • リポジトリはhttps://github.com/ MichiganNLP/LLM_cultural_commonsenseとのことだが、現時点では404