SciGLM

  • SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning [60.1]
    LLM(Large Language Models)は、科学的な発見を支援することを約束している。 我々はSciGLMを紹介した。SciGLMは大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。 より広い研究コミュニティの利益のために、私たちはSciInstruct、SciGLM、そして自己表現フレームワークと微調整コードをリリースします。
    論文  参考訳(メタデータ)   (Mon, 15 Jan 2024 20:22:21 GMT)
  • LLMの科学分野の能力を向上するデータ作成フレームワークを提案、モデルを構築し高い性能を達成。C-Eval Hardなど中国語のタスクにおいてはGPT-4をこえているように見える。CoT、self-reflective frameworkなど様々なテクニックを使ってデータを作るアプローチ。
  • リポジトリはTHUDM/SciGLM: SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning (github.com)

Question Translation Training for Better Multilingual Reasoning

  • Question Translation Training for Better Multilingual Reasoning [113.5]
    大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。 典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。 質問のアライメントは、翻訳学習アプローチよりも一貫した改善をもたらすことを示す。
    論文  参考訳(メタデータ)   (Mon, 15 Jan 2024 16:39:10 GMT)
  • 多言語環境でLLMのパフォーマンスを上げるため単純に翻訳データを使うのではなく、Stage I: Question Alignment(質問を英語に翻訳するタスク)、Stage II: Response Alignment(英語または混合の質問回答ペアでのチューニング)の2ステージ構成を提案。「Question alignment stage enables LLM’s proficiency in English to be transferred to nonEnglish tasks.」とあって面白い。
  • リポジトリはNJUNLP/QAlign (github.com)

ANIM-400K

RWKV-TS

  • RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks [42.3]
    伝統的なリカレントニューラルネットワーク(RNN)アーキテクチャは、伝統的に時系列タスクにおいて顕著な地位を占めてきた。 近年の時系列予測の進歩は、RNNからTransformersやCNNといったタスクに移行している。 我々は,RWKV-TSという,時系列タスクのための効率的なRNNモデルの設計を行った。
    論文  参考訳(メタデータ)   (Wed, 17 Jan 2024 09:56:10 GMT)
  • 時系列予測へのRNN系モデルの改善、高速高性能とのこと
  • リポジトリはhoward-hou/RWKV-TS: RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks (github.com)

Tuning Language Models by Proxy 

  • Tuning Language Models by Proxy [117.1]
    プロキシチューニングは、ブラックボックスLM上で動作する軽量な復号時間アルゴリズムである。 我々の研究は、小さく調整されたLMを使用して、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。
    論文  参考訳(メタデータ)   (Tue, 16 Jan 2024 18:49:55 GMT)
  • (チューニングした)小規模LMを用いて大規模LMのチューニングを行えるという報告。untunedなモデルとtunedなモデルの差を見るアプローチ。「when we apply proxy-tuning to LLAMA2-70B using proxies of only 7B size, we can close 88% of the gap between LLAMA2-70B and its truly-tuned CHAT version」とのこと。
  • 「proxy-tuning addresses an important issue about how to efficiently adapt proprietary models to diverse use cases.」とある通りビジネスでのユースケースは多そう。

Self-Rewarding Language Models

Fine-grained Hallucination Detection and Editing for Language Models

  • Fine-grained Hallucination Detection and Editing for Language Models [114.3]
    大規模言語モデル(LM)は、多種多様な事実的不正確な文を生成する傾向にあり、幻覚と呼ばれる。 現在のアプローチは主に、粗い粒度の自動幻覚検出や編集に重点を置いており、微妙なエラーレベルを見下ろしている。 そこで本研究では、6つの階層的に定義された幻覚を包含する分類法を提案する。
    論文  参考訳(メタデータ)   (Fri, 12 Jan 2024 19:02:48 GMT)
  • Hallucinationを6カテゴリに分け、ベンチマークを構築、検出方法としてFAVA (FAct Vericaton with Augmentation)を提案。「ChatGPT (gpt-3.5-turbo-0301) with a carefully designed prompt describing all six categories with two demonstrations.」や左記+Contriever のベースラインに比べて高い性能とのこと。
  • プロジェクトサイトはFine-grained Hallucination Detection and Editing For Language Models (fine-grained-hallucination.github.io)

AlphaGeometry

AlphaGeometry: An Olympiad-level AI system
我々のAIシステムは幾何学問題に対する最先端のアプローチを超越し、数学におけるAI推論を進歩させる。今日Natureに掲載された論文では、人間に近づくレベルで複雑な幾何問題を解くAIシステムであるAlphaGeometryを紹介します。

AlphaGeometry: An Olympiad-level AI system for geometry – Google DeepMind

ユークリッド平面幾何学の問題において「International Mathematical Olympiad (IMO) gold medallist」に近い性能を出すモデルの提案。Silver medallistは超えている…

合成データの活用など構築過程も興味深いが、この手の問題でもトップレベルというのは凄い。

Mixtral of Experts 

  • Mixtral of Experts [57.4]
    Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。 また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
    論文  参考訳(メタデータ)   (Mon, 8 Jan 2024 18:47:34 GMT)
  • 高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
  • Mixtral of experts | Mistral AI | Open-weight models

SeeAct

  • GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.9]
    GPT-4Vは,テキストプランを手作業でWebサイト上で動作させると,ライブWebサイトのタスクの50%を完了できることを示す。 これは GPT-4 のようなテキストのみの LLM や、Web エージェント用に微調整されたより小さなモデルよりも大幅に優れている。 本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。
    論文  参考訳(メタデータ)   (Wed, 3 Jan 2024 08:33:09 GMT)
  • 複数の研究機関から出ている通り、GPT-4VのようなマルチモーダルなLLMでWebエージェントができそうな雰囲気。
  • プロジェクトサイトはSeeAct (osu-nlp-group.github.io)