コンテンツへスキップ
- An Empirical Study on Challenging Math Problem Solving with GPT-4 [35.5]
この研究は、より複雑で挑戦的な数学問題の解決にGPT-4を使うことのフロンティアを探求する。 本研究で新たに提案された会話型問題解決フレームワークであるMathChatを提案する。 我々は,MATHデータセットを用いて,難易度の高い高校競争問題の評価を行う。
論文 参考訳(メタデータ) (Thu, 8 Jun 2023 02:34:35 GMT)
- ユーザプロキシーエージェントと会話しながら数学的な問題を解くフレームワークの提案。Program of ThoughtsやProgram Synthesis promptingを超える性能とのこと。
- リポジトリはFLAML/flaml/autogen/math at gpt_math_solver · kevin666aa/FLAML · GitHub
- Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.7]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。 ツールインターフェース,すなわち DELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (Sun, 4 Jun 2023 17:02:59 GMT)
- こちらも数学的な問題を解くためのフレームワーク提案(データセットの提案も)
- リポジトリはGitHub – RUCAIBox/CARP
- DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.7]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。 実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (Fri, 26 May 2023 17:29:01 GMT)
- 対話要約モデルをヘルパーとして用い任意のドメインを要約できる手法の提案。事前学習に疑似要約を使うかGap Sentence Generation Plusで得られた文を使うかを選択している点が特徴的。DIONYSUS can be fine-tuned with only 10 examples to outperform vanilla T5 fine-tuning with 1,000 examples.とのこと。ヘルパー自体がかなり強力である必要があるような気もする。
- Leveraging Large Language Models for Topic Classification in the Domain of Public Affairs [65.9]
大規模言語モデル (LLM) は公務員文書の分析を大幅に強化する可能性を秘めている。 LLMは、公共の分野など、ドメイン固有のドキュメントを処理するのに非常に役立ちます。
論文 参考訳(メタデータ) (Mon, 5 Jun 2023 13:35:01 GMT)
- 公共の文書を分類するためにLLMを使うという報告。なのだが使われているのがRoBERTa系なので、これをLLMといってよいのかは謎。PromptやICLを使う戦略でもなくPLMを使ったという表現の方がしっくりくる。
- 結論としてSVMの併用が有効としているのは実用的にはそうだよねーと思う
- What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.3]
本稿では,インテクスト学習(ICL)の総合的研究を行う。 (a)言語モデルで学習されるICL推定器の種類は? b) ICLを正確に評価するのに適切なパフォーマンス指標と、エラー率について。 (c) トランスフォーマーアーキテクチャはどのようにICLを実現するのか? 答えは a) iclはベイズモデル平均化アルゴリズムを暗黙的に実装していることを示す。 このベイズモデル平均化アルゴリズムは注意機構によっておよそパラメータ化される。 b) ICLのパフォーマンスをオンライン学習の観点から分析し, ICLの入力シーケンス長が$T$である場合に, regret O(1/T)を確立する。 (c) 注意される符号化ベイズモデル平均化アルゴリズムに加えて, 学習モデルと名目モデルとの間の総変動距離は, 近似誤差(1/\sqrt{n_{\mathrm{p}}t_{\mathrm{p}}})$, ここで $n_{\mathrm{p}}$ と $t_{\mathrm{p}}$ はそれぞれトークン列の数とプリトレーニング中の各シーケンスの長さで区切られている。
論文 参考訳(メタデータ) (Tue, 30 May 2023 21:23:47 GMT)
- ICLの分析、本当なのかはちょっと疑問ではあるので証明を追ってみたいところ。
- On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss [120.2]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。 コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。 本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (Fri, 26 May 2023 18:14:23 GMT)
- unsupervised neural machine translationをトライしているとあるあるな問題、コピーが出力されることに対する考察と対策の提案。
- リポジトリはGitHub – yihongL1U/xlm_lang_dis
- Do Large Language Models Know What They Don’t Know? [74.7]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。 膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。 本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (Mon, 29 May 2023 15:30:13 GMT)
- “knowing what you don’t know,”をmodel self-knowledgeと呼び、それを評価した論文。ざっくりとは知らないことを知らないと言えるかどうかを評価している。
- GPT-4など強力なモデルはある程度この能力を持っていそうだが、人間には遠く及んでいないよう。
- リポジトリはGitHub – yinzhangyue/SelfAware: Large Language Models are more Self-Aware