QualEval

  • QualEval: Qualitative Evaluation for Model Improvement [86.3]
    モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。 例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
    論文  参考訳(メタデータ)   (Mon, 6 Nov 2023 00:21:44 GMT)
  • LLMに対する定性評価フレームワークの提案。様々なプロンプトを駆使して評価を行っているようであるが、この結果は本当に正しいんだろうか。。。
  • リポジトリはGitHub – vmurahari3/QualEval: Your personal LLM data scientist、プロジェクトサイトはQualEval (vishvakmurahari.com)

Don’t Make Your LLM an Evaluation Benchmark Cheater

  • Don’t Make Your LLM an Evaluation Benchmark Cheater [142.2]
    大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。 モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。 評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
    論文  参考訳(メタデータ)   (Fri, 3 Nov 2023 14:59:54 GMT)
  • LLMの評価についてよくある問題と影響を示した論文。data leakの影響が検証されている点が参考になる。当然ではあるがスコアに大きく影響する。
  • 「As suggestions for LLM developers, it is important to perform the data decontamination checking between pre-training data and any related data (e g , training and test sets) when using evaluation benchmarks.」は当たり前だが簡単ではない。第三者検証ではモデル構築やファインチューニングなどに使用したデータが公開されていない場合対応はかなり難しい。正しい評価は簡単ではない。

Causal Inference Using LLM-Guided Discovery

LLaVA-Interactive

  • LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing [99.8]
    本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。 LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 15:13:43 GMT)
  • オープンソースな画像対応対話デモ環境、 LLaVA(visual chat), SEEM(interactive image segmentation),GLIGEN (grounded image generation and editing)の組み合わせ
  • リポジトリはLLaVA-Interactive (llava-vl.github.io)、GitHub – LLaVA-VL/LLaVA-Interactive-Demo: LLaVA-Interactive-Demo

Myriad: multi-modal model by applying vision experts for industrial anomaly detection

  • Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection [82.2]
    産業異常検出に視覚専門家を適用した新しい大規模マルチモーダルモデル(Myriad)を提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLM) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。
    論文  参考訳(メタデータ)   (Sun, 29 Oct 2023 16:49:45 GMT)
  • たまに思う略称が厳しい感じの報告、multi-modal model by applying vision experts for industrial anomaly detectionとのこと…
  • 成果は「Experiments show that our proposed Myriad not only achieves superior performance than both vision experts and state-of-the-art methods, but also provide detailed description for industrial anomaly detection.」で異常検知時に説明が出るのは重要。
  • リポジトリはGitHub – tzjtatata/Myriad: Open-sourced codes, IAD vision-language datasets and pre-trained checkpoints for Myriad.

WIMBD: WHAT’S IN MY BIG DATA?

  • What’s In My Big Data? [67.0]
    大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What’s In My Big Data?)を提案する。 WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。 これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 17:59:38 GMT)
  • 大規模言語データセットの探索と解析を容易にするツールセット、採用例が多いデータセットが入っている。「several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE」などFindingsが面白い。
  • リポジトリはhttps://github.com/allenai/wimbdとのこと、プロジェクトサイトはWIMBD (allenai.org)

Multilingual Mathematical Reasoning

  • Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [98.2]
    本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。 翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。 我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
    論文  参考訳(メタデータ)   (Wed, 1 Nov 2023 06:56:14 GMT)
  • 多言語版GSM8KのMGSM8KInstruct、同多言語版SVAMP なMSVAMPの作成と多言語で数学的問題が扱えるMathOctopusの提案。日本語が入っているのがうれしい。  rejection samplingを行うRFTの多言語版、Multilingual Rejection Sampling Fine-tuning (xRFT)が有効とのこと。
  • リポジトリはMathOctopus | Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations

LEMA: LEarning from MistAkes

  • Learning From Mistakes Makes LLM Better Reasoner [112.8]
    大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。 この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
    論文  参考訳(メタデータ)   (Tue, 31 Oct 2023 17:52:22 GMT)
  •  GPT-4を用いて「 (1) identify the mistake step, (2) explain the reason for the mistake, (3) correct the mistake and generate the final answer」という手順でデータセットを作成、fine tuningによりCoTデータに比べて性能が大幅に向上したとの報告。誤りの方が学習効率が良い(新たな情報が多い)のはそうなんだろうと思う。
  • リポジトリはGitHub – microsoft/CodeT ?

Data-Centric Financial Large Language Models 

  • Data-Centric Financial Large Language Models [27.5]
    大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 我々は、LLMが金融業務をよりうまく扱えるようにするために、データ中心のアプローチを提案する。
    論文  参考訳(メタデータ)   (Sat, 7 Oct 2023 04:53:31 GMT)
  • 金融分野向けにLLMを活用するため、データの前処理を工夫・拡張(AAR: abductive augmentation reasoning )など行ったうえで既成のLLMを使う方針及びfine tuningに使う方針などを試している。単純なLangChain+LLMより有効とのこと。
  • 「データ中心な金融分野向けLLM」という題名であるが分野に関わらずこの手のオフラインでの準備は非常に重要という印象。とりあえずDBとつなげばよいという方針はあまりうまくいかない。

Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey

  • Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.3]
    大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。 これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。 これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
    論文  参考訳(メタデータ)   (Mon, 23 Oct 2023 18:11:32 GMT)
  • AIが作ったテキストを検出できるか否かに関するサーベイ。DetectionとAttackの2方向から網羅的に調査しているので研究のアプローチが分かりやすい一方で著者が主張するスコアを並べるような調査にはなっていない。
  • 「Specifically, Liang et al (2023) observe perplexitybased detectors having a high misclassification rate for non-native authored TOEFL essays despite being nearly perfectly accurate for college essays authored by native speakers.」のような話はとても重要。fugumt.comで全文訳提供をやめた理由の一つが某剽窃チェッカーの誤判定に関する問い合わせが多く来たことであり、この手のツールを社会実装する場合はその責任を自覚してほしいと思う。最終判断はユーザに任せているという内容の(たいして読まれない)EULAで逃げないでほしい。