- SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models [35.6]
SelfCheckGPTは、ゼロリソース方式でファクトチェックブラックボックスモデルに対する単純なサンプリングベースアプローチである。 我々は、GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する。 我々は,SelfCheckGPTが,非事実文と事実文とを検出できることを示す。
論文 参考訳(メタデータ) (Wed, 15 Mar 2023 19:31:21 GMT) - ゼロリソース、ブラックボックス(LLMの応答のみ利用)で実行可能なHullucination検出方法の提案。Hullucinationが起きない、LLMが良く知っているものであれば応答も近しくなるというアイデア
- リポジトリはGitHub – potsawee/selfcheckgpt: SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models
A Survey on Long Text Modeling with Transformers
- A Survey on Long Text Modeling with Transformers [33.9]
本稿では,Transformerモデルに基づく長文モデリングの最近の進歩について概説する。 長さ制限を満たすために長い入力を処理し、改良されたTransformerアーキテクチャを設計する方法について論じる。 本稿では,長文モデリングに関わる4つの典型的な応用について述べるとともに,今後の方向性を議論する。
論文 参考訳(メタデータ) (Tue, 28 Feb 2023 11:34:30 GMT) - 長文モデリングに関するサーベイ。近年の研究成果で緩和されている部分も大きいが以前重要なテーマ。
- 対象としている典型的な応用はテキスト要約、質問応答、テキスト分類、テキストマッチングの4つ。
SMC-Bench
- Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! [100.2]
Sparsity May Cry”ベンチマーク(SMC-Bench)は、慎重に計算された4つのタスクと10のデータセットのコレクションである。 SMC-Benchは、よりスケーラブルで一般化可能なスパースアルゴリズムの開発を奨励するように設計されている。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 18:47:21 GMT) - sparse neural network評価用のベンチマーク。難しいタスクを選ぶことで性能がより正確に測れそう。(というか簡単なタスクだとよくわからない)
- リポジトリはGitHub – VITA-Group/SMC-Bench: [ICLR 2023] “Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together!” Shiwei Liu, Tianlong Chen, Zhenyu Zhang, Xuxi Chen, Tianjin Huang, AJAY KUMAR JAISWAL, Zhangyang Wang
Word-As-Image for Semantic Typography
- Word-As-Image for Semantic Typography [41.4]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。 本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 09:59:25 GMT) - 看板などで使われる単語の一部が絵になっているような画像を作成する手法の提案。プロジェクトサイトの動画が分かりやすい。
- プロジェクトサイトはWord-As-Image for Semantic Typography (wordasimage.github.io)
CroCoSum
- CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [13.9]
近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。 我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (Tue, 7 Mar 2023 17:52:51 GMT) - クロスリンガルな要約データセット。英語→中国語。
- 「テクノロジ関連のニュースを共有するオンラインプラットフォーム」が情報源とのこと。(日本語でも近しいサイトを使って作れなくはなさそうに思うが、ライセンス関連で難しいかもとも思う)
- 異なるモデルの比較結果ではEnd-to-Endの手法が翻訳を介す手法を上回り、mBART > mT5、 GPT-3はE2EのmT5に及ばない結果になっている。
- リポジトリはhttps://github.com/RosenZhang/CroCoSumとのことだが、現時点では404
OpenICL
- OpenICL: An Open-Source Framework for In-context Learning [48.8]
In-context Learning (ICL) と大規模言語モデル評価のためのオープンソースツールキット OpenICL を紹介する。 OpenICLは、ユーザが自分のニーズに合ったさまざまなコンポーネントを簡単に組み合わせられるように、非常に柔軟なアーキテクチャで研究に親しみやすい。 OpenICLの有効性は、分類、QA、機械翻訳、意味解析を含む幅広いNLPタスクで検証されている。
論文 参考訳(メタデータ) (Mon, 6 Mar 2023 06:20:25 GMT) - OSS(Apache-2)のIn-context Learningフレームワーク
- 様々なRetriever(コンテキスト内のサンプル取得)とInferencer(LMとのやり取りや最終的な回答、chain-of-thoughtやselection-inferenceにも対応)を選ぶことができる
- リポジトリはGitHub – Shark-NLP/OpenICL: OpenICL is an open-source framework to facilitate research, development, and prototyping of in-context learning.
Zero-shot Object Counting
- Zero-shot Object Counting [31.2]
クラスに依存しないオブジェクトカウントは、テスト時に任意のクラスのオブジェクトインスタンスをカウントすることを目的としている。 現在の手法では、新しいカテゴリではしばしば利用できない入力として、人間に注釈をつけた模範を必要とする。 テスト期間中にクラス名のみを利用できる新しい設定であるゼロショットオブジェクトカウント(ZSC)を提案する。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 15:14:36 GMT) - ゼロショットでのオブジェクトカウンティング。カウンタがクラス名のみを使うことをもってゼロショットとしている。Generaterを用いるアプローチ。
- プロジェクトサイトはGitHub – cvlab-stonybrook/zero-shot-counting: CVPR2023 Zero-shot Counting (現在はComing soon)
BLOOM関連情報
BLOOM関連の情報が多く出ていた。
- Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM [8.9]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。 本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (Fri, 3 Mar 2023 13:23:42 GMT) - BLOOMの機械翻訳性能の評価。zero shotでは微妙だがfew shotでの翻訳能力はかなり優れているよう。M2Mを超えている言語ペアがあるのはすごい。
- 一方でリソースが少ない言語では十分な性能となっていなさそう
- The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset [37.0]
BigScienceワークショップは、大きな言語モデルを価値駆動の業務として研究し、訓練することを目的として設立された。 本稿では,BigScienceがROOTSコーパス(Responsible Open-science Open-Collaboration Text Sources)を組み立てるために行ったデータ作成とキュレーションの取り組みについて述べる。
論文 参考訳(メタデータ) (Tue, 7 Mar 2023 14:25:44 GMT) - ROOTSコーパスを作成する際のデータキュレーションの方針などを解説した論文。
- Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results [12.0]
BLOOM-zhは、2022年にBigScienceによって発表されたオープンソースのBLOOMモデルに由来する。 BLOOMの事前トレーニングを、さまざまなドメインをカバーする中国語と英語で740億のトークンを追加することで拡張した。 BLOOM-zhは、従来の中国のベンチマークにおいて、英語の能力を維持しながら、前者よりも優れています。
論文 参考訳(メタデータ) (Wed, 8 Mar 2023 16:53:19 GMT) - 中国語の能力を強化したBLOOMの構築方法、日本語版が欲しい…
Larger language models do in-context learning differently
- Larger language models do in-context learning differently [93.9]
言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。 ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
論文 参考訳(メタデータ) (Tue, 7 Mar 2023 12:24:17 GMT) - モデルの大きさによってICLの効き方が異なるという論文 大きなモデルでは先行的に学んだ知識を上書きできるという事、小さなモデルではそれができないというのは非常に面白い。ICLが「ドメインを限定する」のか「内容を加味して判断している」のかがモデルの大きさによって違う?
- 十分に大きなモデルでは任意のラベルマッピングを行う能力がある?というのは、本当に新たなことを学んでいけると解釈して良いのだろうか。
- なんでこんなことができるんだろう・・・?
PaLM-E
- PaLM-E: An Embodied Multimodal Language Model [101.3]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。 我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (Mon, 6 Mar 2023 18:58:06 GMT) - 大規模言語モデル(PaLM)と画像(ViT)の融合、マルチモーダルな巨大言語モデルでOK-VQAでSOTA。だけでなく、マルチモーダルなCoTやOCR-freeな数学的推論、multiimage reasoningなど幅広いタスクに対応可能とのこと。2ページの図は衝撃的でRobot Visual Perception, Dialogue, and Planningをみると目を持ったChatGPTのような雰囲気を感じる。
- プロジェクトサイトはPaLM-E: An Embodied Multimodal Language Model