“You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations

  • “You Gotta be a Doctor, Lin”: An Investigation of Name-Based Bias of Large Language Models in Employment Recommendations [29.2]
    我々はGPT-3.5-TurboとLlama 3-70B-Instructを利用して、人種や性別を強く示す320のファーストネームを持つ候補者の雇用決定と給与勧告をシミュレートする。 以上の結果から,40の職種にまたがる他の人口集団よりも,白人女性の名前を持つ候補者を雇用する傾向が示唆された。
    論文  参考訳(メタデータ)   (Tue, 18 Jun 2024 03:11:43 GMT)
  • LLMにおける偏見を調べるため名前と雇用の関係を調査、「Our empirical results indicate a preference among these models for hiring candidates with White female-sounding names over other demographic groups across 40 occupations.」というのは意外な結果。
  • 日本語で実行した場合どのようになるか興味がある。

UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs

  • UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.1]
    UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。 本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 08:44:36 GMT)
  • ベースとなるLLMでコンテンツを圧縮、圧縮したコンテンツを使ってデコードすることで長文を取り扱うアプローチの提案。(前半と後半のつなぎに通常のテキストを使う例はよく見るのでモデル内で完結させられても不思議はないが、ちゃんと動作することに驚きがある)
  • リポジトリはGitHub – wenhaoli-xmu/UIO-LLMs: Official implementation of UIO-LLMs

Evaluating Copyright Takedown Methods for Language Models

  • Evaluating Copyright Takedown Methods for Language Models [100.4]
    言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。 本稿では,LMの著作権削除の可能性と副作用を初めて評価する。 システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 18:09:46 GMT)
  • 著作権に守られたコンテンツを生成してしまわないよう対策する手法についての研究。データセットを構築、様々な手法で検証を行っている。「Through COTAEVAL, we discover that none of the mainstream takedown methods excel across all metrics.」とのことで対策は簡単ではないよう。
  • リポジトリはCotaEval: Evaluating Copyright Takedown Methods for Language Models

OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? 

  • OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far? [24.7]
    我々は、最近リリースされたClaude-3.5-Sonnet、Gemini-1.5-Pro、GPT-4oに焦点を当てている。 本稿では,各種分野にわたる総合的なパフォーマンスに基づいて,初めてオリンピック・メダリスト・テーブルを用いてAIモデルをランク付けする手法を提案する。
    論文  参考訳(メタデータ)   (Mon, 24 Jun 2024 16:31:12 GMT)
  • 最新LLMを含むベンチマーク結果、「Claude-3.5-Sonnet shows highly competitive overall performance over GPT-4o, even surpassing GPT-4o on a few subjects (i.e., Physics, Chemistry and Biology)」、「Gemini-1.5-Pro and GPT-4V are ranked consecutively just behind GPT-4o and Claude-3.5-Sonnet, but with a clear performance gap between them.」と現時点ではGPT-4oとClaude 3.5 Sonnetが双璧のよう。
  • リポジトリはGitHub – GAIR-NLP/OlympicArena: This is the official repository of the paper “OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI”

Gemma2, CriticGPT

Googleから公開モデルとしては規模の大きいLLM Gemma2がリリースされた。9Bと27Bの公開。Llama3など競合する公開モデルを超える性能とのこと。テクニカルレポート(gemma-2-report.pdf (storage.googleapis.com))には「The 9 billion and 27 billion parameter models are available today, with a 2 billion parameter model to be released shortly.」とある。「We also train the 2B and 9B models with knowledge distillation (Hinton et al , 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3× bigger.」と蒸留を効果的に使っているもの面白い。5. Ablationsをみるに効果は大きそう

いつもの翻訳ベンチマークでは非常に高い性能を示した。期待大である。Gemma 2 9Bの機械翻訳性能 | ぷるーふおぶこんせぷと (staka.jp)

OpenAIからはGPT-4の間違いを見つけ修正提案するCriticGPTが出ている。今はコードの修正が対象。限界もあるようだがこのような研究は重要。Finding GPT-4’s mistakes with GPT-4 | OpenAI

The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources

  • The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.2]
    ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。 責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
    論文  参考訳(メタデータ)   (Wed, 26 Jun 2024 02:19:01 GMT)
  • 責任ある基盤モデル開発のためのチートシート。チートシートとあるが広範な内容となっている。
  • プロジェクトサイトはResources for Foundation Models – Foundation Model Development Cheatsheet (fmcheatsheet.org)

Themis: Towards Flexible and Interpretable NLG Evaluation

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading

  • SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic Grading [100.3]
    LLM(Large Language Models)の一般的な用途は、科学的トピックに関するタスクを実行することである。 そこで本稿では,大学生のこのような課題に対する評価方法に着想を得たSciExを提案する。 我々は,新しいベンチマークを用いて,最先端のLLMの性能評価を行った。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 21:52:21 GMT)
  • 大学生のを対象とした試験のベンチマーク「SciEx is (1) multilingual, containing both English and German exams, and (2) multi-modal, containing questions that involve images, and (3) contains various types of freeform questions with different difficulty levels, due to the nature of university exams.」とのこと。意外なことに(?)GPT-4VよりもClaude Opusのほうが高いスコア。
  • リポジトリはtuanh23/SciEx · Datasets at Hugging Face

AgileCoder

  • AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology [5.2]
    アジャイル方法論をフレームワークに統合するマルチエージェントシステムであるAgileCoderを提案する。 このシステムは、Product Manager、Developer、Testerといった特定のAMロールを異なるエージェントに割り当て、ユーザ入力に基づいて協調してソフトウェアを開発する。 また、動的コードグラフ生成(Dynamic Code Graph Generator)も導入しています。
    論文  参考訳(メタデータ)   (Sun, 16 Jun 2024 17:57:48 GMT)
  • コード生成においてAgentをAgile的に動かすことが効果的だったという報告。ほんまかいなと思う一方でソフトウエア開発プロセスの評価を定量的にできる可能性があり興味深い。
  • プロジェクトサイトはGitHub – FSoft-AI4Code/AgileCoder: Dynamic Collaborative Agents for Software Development

EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems 

  • EWEK-QA: Enhanced Web and Efficient Knowledge Graph Retrieval for Citation-based Question Answering Systems [103.9]
    引用ベースのQAシステムは2つの欠点に悩まされている。 彼らは通常、抽出された知識の源としてWebにのみ依存し、外部の知識ソースを追加することで、システムの効率を損なう。 システムに供給された知識の内容を充実させるため,Web と 効率的な知識グラフ (KG) 検索ソリューション (EWEK-QA) を提案する。
    論文  参考訳(メタデータ)   (Fri, 14 Jun 2024 19:40:38 GMT)
  • WEB検索+ナレッジグラフを用いたQA
  • Webretriverの結果とナレッジグラフからのトリプルをLLMに入れて回答を求める形態だが、ナレッジグラフからの情報探索・取得でSentence BERTを活用、LLMを使っていないのも興味深い。そして性能はとても高い。