AI for social science and social science of AI: A Survey

  • AI for social science and social science of AI: A Survey [47.5]
    人工知能の最近の進歩は、人工知能の可能性を再考するきっかけとなった。 AIの人間的能力の増大は、社会科学研究にも注目されている。
    論文  参考訳(メタデータ)   (Mon, 22 Jan 2024 10:57:09 GMT)
  • AIと社会科学に関するサーベイ。
  • AI for social science、social science of AI、public tools and resourcesの構成。LLMをうまく使って研究するものもあればLLM自体を研究するものもあり、興味深い。

Navigating the OverKill in Large Language Models

  • Navigating the OverKill in Large Language Models [84.6]
    モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。 以上の結果から,モデル内にショートカットが存在することが明らかとなり,”キル”のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。 我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 07:26:47 GMT)
  • LLMは「kill」のような単語に過剰反応し性能を落とすことがあり、その対策方法の提案。安全性を高める取り組みが過剰反応を引き起こすことはありそうで面白い。
  • リポジトリはInvokerStark/OverKill (github.com)

UltraTool

  • Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [96.0]
    UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。 現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 以前の作業とは異なり、計画中に事前に定義されたツールセットの制限を取り除く。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 16:52:56 GMT)
  • ツールの利用計画や実行などエージェント的動作のためのツール利用ベンチマーク。Tool Creationが入っているのが特徴的に思える。
  • 現状のベンチマーク結果はさすがのGPT-4という感じではあるが、各モデルに得意不得意があるように見えるのが興味深い。
  • リポジトリはJoeYing1019/UltraTool: Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios (github.com)

Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora 

  • Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [104.8]
    大規模言語モデルに基づく効率的なデータ収集手法を提案する。 この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。 特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
    論文  参考訳(メタデータ)   (Fri, 26 Jan 2024 03:38:23 GMT)
  • 特定ドメインのデータを構築するための手法の提案。 Query Bootstrapping とData Retrievalからなり、前者でシードとなる検索を拡張、後者でBM25を用いて実際にデータを取得する。本件が想定するような大規模データだとBM25を使わざるを得ないのはそうだと思う。
  • コードは公開予定とのことだが、現時点ではリポジトリが見つからなかった。

Document Structure in Long Document Transformers

  • Document Structure in Long Document Transformers [64.8]
    長い文書は、しばしばセクションヘッダーや段落のような異なる機能で階層的に整理された要素を持つ構造を示す。 文書構造の不明瞭さにもかかわらず、自然言語処理(NLP)におけるその役割はいまだに不透明である。 長期文書変換モデルは事前学習中に文書構造の内部表現を取得するか? 事前トレーニング後に構造情報をモデルに伝達するにはどうすればよいのか、下流のパフォーマンスにどのように影響するのか?
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 08:28:06 GMT)
  • 文書構造がモデルで扱われるか及び構造をモデルに入れ込む手法提案。「Results on LED and LongT5 suggest that they acquire implicit understanding of document structure during pretraining, which can be further enhanced by structure infusion, leading to improved endtask performance.」と肯定的な見解
  • リポジトリはhttps://github.com/UKPLab/eacl2024-doc-structureとのこと(現在は404)

DolmaとOLMo

オープンなコーパスとそれを用いたLLMの提案。コーパスは3T tokensと極めて大きい(CommonCrawlがデータの多くを占めている)。それ用いてApache-2のLLMがリリースされている。

OLMo-7Bのベンチマーク結果はLlama-2 7Bを超えており非常に高い。OSSライセンスで公開されているのは凄く、トレーニングデータが公開されているのが特徴的。

データ・モデル・コードのリポジトリはallenai/dolma · Datasets at Hugging Faceallenai/OLMo-7B · Hugging Faceallenai/OLMo: Modeling, training, eval, and inference code for OLMo (github.com)

  • Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [140.6]
    われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。 本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。 Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
    論文  参考訳(メタデータ)   (Wed, 31 Jan 2024 20:29:50 GMT)
  • OLMo: Accelerating the Science of Language Models [166.1]
    言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 我々は、研究コミュニティが強力で真にオープンなLMにアクセスできることが不可欠であると信じている。 このテクニカルレポートは、最先端の真にオープンな言語モデルであるOLMoの最初のリリースを詳述している。
    論文  参考訳(メタデータ)   (Thu, 1 Feb 2024 18:28:55 GMT)

H2O-Danube-1.8B Technical Report

Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate

  • Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.1]
    エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。 フレームワークのコードをGitHubで公開しています。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 07:03:32 GMT)
  • 評価のためにLLMエージェントを多数使い、かつ、人間の評価を取り入れるフレームワークの提案。GPT-4が一強という時代は終わりつつあり、このようなフレームワークでないと正しい性能評価が難しくなってきているのだろうと思う。
  • リポジトリはGAIR-NLP/scaleeval: Scalable Meta-Evaluation of LLMs as Evaluators (github.com)

Weak-to-Strong Jailbreaking on Large Language Models 

  • Weak-to-Strong Jailbreaking on Large Language Models [96.5]
    Red-teamingのレポートによると、大きな言語モデル(LLM)は、敵のプロンプト、チューニング、デコードによってジェイルブレイクされる可能性がある。 本稿では,より小型で安全でないLDMを用いてジェイルブレイクを誘導する,弱強のジェイルブレイク攻撃を提案する。
    論文  参考訳(メタデータ)   (Tue, 30 Jan 2024 18:48:37 GMT)
  • 弱く(小さい)モデルの挙動を分析することで強く(大きい)モデルをjailbreakできるとの報告。下記のように通常のfine tuningでも有効性が指摘されているので、jailbreakに応用できるというのも納得感がある。
  • リポジトリはXuandongZhao/weak-to-strong: Weak-to-Strong Jailbreaking on Large Language Models (github.com)
  • Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision [55.2]
    超人的モデルは、人間が確実に評価することが難しい複雑な方法で振る舞う。 弱いモデルの監督は、より強力なモデルの完全な能力を引き出すことができるか? 弱いモデルが生成したラベルに強い事前訓練されたモデルを微調整すると、弱いスーパーバイザーよりも一貫して性能が向上することがわかった。
    論文  参考訳(メタデータ)   (Thu, 14 Dec 2023 23:07:33 GMT)

Adapting Large Language Models for Document-Level Machine Translation

  • Adapting Large Language Models for Document-Level Machine Translation [49.7]
    大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて大きな進歩を遂げている。 近年の研究では、中程度のLLMはタスク固有の微調整の後、より大きなLLMよりも優れていることが示されている。
    論文  参考訳(メタデータ)   (Fri, 12 Jan 2024 09:29:13 GMT)
  • LLMの機械翻訳への応用。fine tuningの効果など実験結果が多く参考になる。
  • 「We find that the PEFT approach yields superior overall performance compared to the FFT approach」(ただしFFTのほうがデータ効率は高いとのこと)がとても興味深い