ETHICIST:  Extraction THrough loss smoothed soft prompting and calIbrated ConfIdence eSTimationETHICIST:

TIM: Teaching Large Language Models to Translate with Comparison

  • TIM: Teaching Large Language Models to Translate with Comparison [52.8]
    本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。 我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。 本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
    論文  参考訳(メタデータ)   (Mon, 10 Jul 2023 08:15:40 GMT)
  • 正しい翻訳と間違った翻訳間のpreference loss を導入してLLMの翻訳性能を上げる手法の提案。通常のfine tuningにくらべ優れた性能を発揮。新たな言語へのZero-shot Translation能力も向上している点も興味深い。他のタスクのマルチリンガル性能への影響も気になるところ。
  • リポジトリはGitHub – lemon0830/TIM: code for Teaching LM to Translate with Comparison

DecompEval

  • DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
    自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。 本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。 本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
    論文  参考訳(メタデータ)   (Thu, 13 Jul 2023 16:16:51 GMT)
  • NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
  • 近しいアプローチ&LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
  • リポジトリはGitHub – kepei1106/DecompEval

PolyLM

  • PolyLM: An Open Source Polyglot Large Language Model [57.6]
    我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。 その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。 さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
    論文  参考訳(メタデータ)   (Wed, 12 Jul 2023 09:00:37 GMT)
  • オープンソースの大規模LLM、日本語にも対応しているようで期待大
  • 「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」 など学習に関する情報もとても有益。
  • リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face

商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET

A Task-Solving Agent through Multi-Persona Self-Collaboration 

  • Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [107.5]
    Solo Performance Prompting (SPP)は、複数のペルソナと多ターンの自己コラボレーションをすることで、単一の大言語モデル(LLM)を認知的シナジストに変換する。 LLMに複数のきめ細かいペルソナを割り当てることによって、単一または固定数のペルソナよりも優れた問題解決能力が得られることが判明した。
    論文  参考訳(メタデータ)   (Tue, 11 Jul 2023 14:45:19 GMT)
  • LLMを用いる際、ペルソナを動的に与えつつコラボレーションさせることで性能が上がるという報告。「Based on only a single large language model, SPP enables multi-persona self-collaboration which effectively elicits domain knowledge and reduces hallucination.」プロンプトのテクニックとして有名ではあるがきちんと評価していて興味深い。
  • リポジトリはGitHub – MikeWangWZHL/Solo-Performance-Prompting: Repo for paper “Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration”

Recommender Systems in the Era of Large Language Models (LLMs)

  • Recommender Systems in the Era of Large Language Models (LLMs) [31.5]
    大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 06:03:40 GMT)
  • LLM時代の推薦システムに関すルサーベイ。この分野にもLLMの影響は大きく、ChatGPTをバックボーンにしている研究も多い。

LongNet

  • LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
    LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:59:38 GMT)
  • 1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
  • プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)

A Survey on Evaluation of Large Language Models 

  • A Survey on Evaluation of Large Language Models [69.7]
    大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。 本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
    論文  参考訳(メタデータ)   (Thu, 6 Jul 2023 16:28:35 GMT)
  • LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい(そして素早いなと思う)
  • 2ページ目の図が分かりやすく、様々な側面(NLPの性能、頑健性、倫理、社会科学、・・・)からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
  • リポジトリがあり、こちらも参考になる GitHub – MLGroupJLU/LLM-eval-survey

Large Language Models Enable Few-Shot Clustering

  • Large Language Models Enable Few-Shot Clustering [88.1]
    大規模言語モデルは、クエリ効率が良く、数発の半教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。 最初の2つのステージにLLMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
    論文  参考訳(メタデータ)   (Sun, 2 Jul 2023 09:17:11 GMT)
  • 大規模言語モデルを用いたクラスタリング手法提案。「GPT-3.5 is remarkably more effective than a true oracle pairwise constraint oracle at this price point; unless at least 2500 pairs labeled by a true oracle are provided, pairwise constraint KMeans fails to deliver any value for entity canonicalization.」とのことでLLMに支援されたクラスタリングは非常に有効としている。
  • リポジトリはGitHub – viswavi/few-shot-clustering

Jailbroken: How Does LLM Safety Training Fail?

  • Jailbroken: How Does LLM Safety Training Fail? [92.9]
    ChatGPTの初期リリースに対する”jailbreak”攻撃は、望ましくない振る舞いを引き起こす。 このような攻撃がなぜ成功し、どのように発生できるかを考察する。 障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
    論文  参考訳(メタデータ)   (Wed, 5 Jul 2023 17:58:10 GMT)
  • LLM(のAPIなどのサービス)に対するJailbreak攻撃に関して整理とGPT-4, Claude v1.3, GPT-3.5 Turboに対する評価結果。単純な攻撃は成功しにくいが複合的な攻撃は有効など、対策はしているが完全とは言い難いよう。Appendixも参考になる。