WIMBD: WHAT’S IN MY BIG DATA?

  • What’s In My Big Data? [67.0]
    大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。 これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 17:59:38 GMT)
  • 大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
  • リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

The Generative AI Paradox: “What It Can Create, It May Not Understand”

  • The Generative AI Paradox: “What It Can Create, It May Not Understand” [81.9]
    生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。 同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。 一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 18:07:07 GMT)
  • 様々な軸での生成AIのテストと評価、「In particular, they imply that existing conceptualizations of intelligence, as derived from experience with humans, may not be applicable to artificial intelligence—although AI capabilities may resemble human intelligence, the capability landscape may diverge in fundamental ways from expected patterns based on humans.」という指摘が面白い。English benchmark for stress-testing machine ToM – arXiv最新論文の紹介 (devneko.jp)の時も思ったが知性って何だろう?と改めて不思議になる。

Multilingual Mathematical Reasoning

  • Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
    本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。 翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。 我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 06:56:14 GMT)
  • 多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。  rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
  • リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

LEMA: LEarning from MistAkes

  • Learning From Mistakes Makes LLM Better Reasoner [112.8]
    大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。 この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 17:52:22 GMT)
  •  GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い(新たな情報が多い)のはそうなんだろうと思う。
  • リポジトリはGitHub – microsoft/CodeT ?

Data-Centric Financial Large Language Models 

  • Data-Centric Financial Large Language Models [27.5]
    大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
    論文  参考訳(メタデータ)   (Sat, 7 Oct 2023 04:53:31 GMT)
  • 金融分野向けにLLMを活用するため、データの前処理を工夫・拡張(AAR: abductive augmentation reasoning )など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain+LLMより有効とのこと。
  • 「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey

  • Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.3]
    大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。 これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。 これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
    論文  参考訳(メタデータ)   (Mon, 23 Oct 2023 18:11:32 GMT)
  • AIが作ったテキストを検出できるか否かに関するサーベイ。DetectionとAttackの2方向から網羅的に調査しているので研究のアプローチが分かりやすい一方で著者が主張するスコアを並べるような調査にはなっていない。
  • 「Specifically, Liang et al (2023) observe perplexitybased detectors having a high misclassification rate for non-native authored TOEFL essays despite being nearly perfectly accurate for college essays authored by native speakers.」のような話はとても重要。fugumt.comで全文訳提供をやめた理由の一つが某剽窃チェッカーの誤判定に関する問い合わせが多く来たことであり、この手のツールを社会実装する場合はその責任を自覚してほしいと思う。最終判断はユーザに任せているという内容の(たいして読まれない)EULAで逃げないでほしい。

BitNet

  • BitNet: Scaling 1-bit Transformers for Large Language Models [119.2]
    大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。 言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
    論文  参考訳(メタデータ)   (Tue, 17 Oct 2023 17:59:15 GMT)
  • LLMのための 1-bit Transformer architectureの提案。30Bとかなり大規模な設定で比較検証が行われており有効そうに見える。quantizationと比べて優勢があるとのこと。
  • プロジェクトサイトはAdvancing AI for humanity | Foundation of AI (thegenerality.com)

Prompt Injection Attacks and Defenses in LLM-Integrated Applications 

English benchmark for stress-testing machine ToM

  • FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.6]
    現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。 本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
    論文  参考訳(メタデータ)   (Wed, 25 Oct 2023 06:46:42 GMT)
  • Theory of MindのベンチマークFANToMに関する論文。どうでもよいが、English benchmark for stress-testing machine ToM という略称の作り方は無理筋なのでは・・・
  • 「We show that FANTOM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chainof-thought reasoning or fine-tuning.」とのことで難しいベンチマークとのこと。「We do not believe that current LLMs possess an actual ToM.」という注釈も興味深い。LLMのスコアは人間のスコアよりも著しく悪く、プロジェクトサイトでは「LLMs do not have a coherent theory of mind」と書かれている。
  • 社会的・倫理的考察では「While the concept of ToM attempts to capture the ability to attribute mental states to oneself and others (Premack and Woodruff, 1978), it is important to clarify that AI models do not possess subjective consciousness or true understanding of intentions, beliefs, or desires. Our experiment results also demonstrate that current large language models do not exhibit any coherent ToM reasoning; instead, they primarily rely on word correlations.」とのことで、単語の相関関係のみで何かがあるように見えているだけなのでは?というのが一番ありそう。(人間はどうなんだ?という話もあり、議論が発散していきそうな領域でもある)
  • プロジェクトサイトはFANToM: A New Benchmark for Machine ToM in Interactions (hyunw.kim)

Personalized Large Language Model Alignment

  • Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging [148.8]
    パーソナライズされたヒューマンフィードバック(RLPHF)問題からの強化学習について検討する。 LLMは、多目的強化学習(MORL)問題としてアライメントをモデル化することで、複数の好みに整列する。 我々は、好みを複数の次元に分解することで、パーソナライズされたアライメントを実現することができることを示す。
    論文  参考訳(メタデータ)   (Tue, 17 Oct 2023 20:22:13 GMT)
  • RLHFにおいてパーソナライズされた方向にアライメントするP-MORL: PROMPTED-MORL、P-SOUP: PERSONALIZED SOUPSを提案。人による評価とGPT-4による評価が割れているのも興味深いところ。。
  • リポジトリはGitHub – joeljang/RLPHF: Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging