- DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering [95.9]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。 本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。 本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。 PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (Thu, 13 Jul 2023 16:16:51 GMT) - NLGの評価をQAタスクで行うもの。Instruction-Tuned Pre-Trained Modelsを使うアプローチで特別な学習が不要で効果的とのこと。論文中検証ではFLAN-T5が使用されている。
- 近しいアプローチ&LLMで有効という報告もある通り有望なものだと思う。詳細な報告があるのはありがたい。
- リポジトリはGitHub – kepei1106/DecompEval
PolyLM
- PolyLM: An Open Source Polyglot Large Language Model [57.6]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。 その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。 さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (Wed, 12 Jul 2023 09:00:37 GMT) - オープンソースの大規模LLM、日本語にも対応しているようで期待大
- 「POLYLM was trained using Megatron-LM 3 on a cluster of 32 A100 GPU (8×80G) servers. We apply tensor model parallelism within a single node, setting tensor-model-parallel-size as 8. When training a 13B-parameter model, our code processes around 1170 tokens/sec/GPU, thus training over our dataset containing 640B tokens takes approximately 29 days.」 など学習に関する情報もとても有益。
- リポジトリはPolyLM-文本生成模型-多语言-13B · 模型库 (modelscope.cn), HuggingFace DAMO-NLP-MT/polylm-13b · Hugging Face
商用利用可能なLLaMA v2が出るという話もあり、オープンソースなLLMも盛り上がっている。Meta to release open-source commercial AI model to compete with OpenAI and Google | ZDNET
A Task-Solving Agent through Multi-Persona Self-Collaboration
- Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration [107.5]
Solo Performance Prompting (SPP)は、複数のペルソナと多ターンの自己コラボレーションをすることで、単一の大言語モデル(LLM)を認知的シナジストに変換する。 LLMに複数のきめ細かいペルソナを割り当てることによって、単一または固定数のペルソナよりも優れた問題解決能力が得られることが判明した。
論文 参考訳(メタデータ) (Tue, 11 Jul 2023 14:45:19 GMT) - LLMを用いる際、ペルソナを動的に与えつつコラボレーションさせることで性能が上がるという報告。「Based on only a single large language model, SPP enables multi-persona self-collaboration which effectively elicits domain knowledge and reduces hallucination.」プロンプトのテクニックとして有名ではあるがきちんと評価していて興味深い。
- リポジトリはGitHub – MikeWangWZHL/Solo-Performance-Prompting: Repo for paper “Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration”
FunQA, Movie101
- FunQA: Towards Surprising Video Comprehension [34.3]
本稿では,楽しみビデオに基づく動画推論の深度評価と深度向上を目的としたデータセットFunQAを紹介する。 FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。 各サブセットに対して、直感的正当性、詳細な映像記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。
論文 参考訳(メタデータ) (Mon, 26 Jun 2023 17:59:55 GMT) - ビデオへのQAデータセット。QAテキスト自体は問題ないと思うが、ビデオ部分は著作権的に大丈夫なんだろうか?(不明点が多いのでリポジトリへのリンクは貼っていない)
- Movie101: A New Movie Understanding Benchmark [47.2]
大規模な中国の映画ベンチマーク「Movie101」を構築した。 映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。 両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (Tue, 27 Jun 2023 11:42:44 GMT) - こちらはナレーション作成のタスクを対象とした映画のデータセット
- 同じく著作権的な疑問点があるためリンクは貼っていない
この手のタスクは重要であり今後有望な分野なのだろうと思うが、既存の映像を使うのはリスクが高い気がする。研究用に頑張って映像から作るしかないのではないかと思わなくはない。
Recommender Systems in the Era of Large Language Models (LLMs)
- Recommender Systems in the Era of Large Language Models (LLMs) [31.5]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。 我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
論文 参考訳(メタデータ) (Wed, 5 Jul 2023 06:03:40 GMT) - LLM時代の推薦システムに関すルサーベイ。この分野にもLLMの影響は大きく、ChatGPTをバックボーンにしている研究も多い。
T-MARS: Text-Masking and Re-Scoring
- T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [96.9]
LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。 我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
論文 参考訳(メタデータ) (Thu, 6 Jul 2023 16:59:52 GMT) - 効果的なデータフィルタリング手法の提案、画像からテキスト部分をマスキング、キャプションとの類似度を取るシンプルな手法。「Our proposed approach is based on the interesting observation that a large fraction of image-caption pairs in web-scale datasets contain images dominated by text features.」とのこと。
- リポジトリはGitHub – locuslab/T-MARS: Code for T-MARS data filtering
LongNet
- LongNet: Scaling Transformers to 1,000,000,000 Tokens [114.8]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。 我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (Wed, 5 Jul 2023 17:59:38 GMT) - 1Bトークンが扱える構造の提案。Dilated Attention によって計算量を削減している。が、下流タスクでの性能が書かれていないのが残念。。。
- プロジェクトサイトはAdvancing AGI for humanity | Foundation of AGI (thegenerality.com)
A Survey on Evaluation of Large Language Models
- A Survey on Evaluation of Large Language Models [69.7]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。 本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (Thu, 6 Jul 2023 16:28:35 GMT) - LLMの評価に関するサーベイ。研究が盛んな分野ではあるがサーベイが出るのはうれしい(そして素早いなと思う)
- 2ページ目の図が分かりやすく、様々な側面(NLPの性能、頑健性、倫理、社会科学、・・・)からLLMの検証が行われていることが分かる。それだけ注目度が高いともいえそう。
- リポジトリがあり、こちらも参考になる GitHub – MLGroupJLU/LLM-eval-survey
CausalVLRとLLMを用いた因果グラフの同定
- CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning [120.6]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。 これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文 参考訳(メタデータ) (Fri, 30 Jun 2023 08:17:38 GMT) - 因果関係の発見と因果推論を言語/画像の面で処理できるツールの詰め合わせ。
- リポジトリはGitHub – HCPLab-SYSU/CausalVLR: CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning
- Causal Discovery with Language Models as Imperfect Experts [119.2]
専門知識を用いて因果グラフの同定を改善する方法について検討する。 整合性に基づく専門家の知識を改良するための戦略を提案する。 本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
論文 参考訳(メタデータ) (Wed, 5 Jul 2023 16:01:38 GMT) - 別の研究でLLMを用いた因果グラフの道程に関する論文も出ていた。LLMを完全ではない専門家として用いる場合のケーススタディがあり、専門家ほどではないが一定の効果はありそうとのこと。
Towards Open Vocabulary Learning: A Survey
- Towards Open Vocabulary Learning: A Survey [122.4]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。 近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。 本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (Wed, 28 Jun 2023 02:33:06 GMT) - open vocabulary object detection やsegmentaitonといったOpen Vocabulary Learningのサーベイ。リポジトリがGitHub – jianzongwu/Awesome-Open-Vocabularyにあり、論文一覧やカテゴリなど非常に参考になる。