A Survey of Large Language Models in Medicine: Progress, Application, and Challenge 

INSTRUSUM 

  • Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [136.2]
    命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。 本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 18:25:26 GMT)
  • 制御されたテキスト要約のベンチマーク。GPT-4であれば可能なのかと思うところだが「We found that several LLMs have already shown promising performance in generating ins-controllable summaries.」であるものの「However, they lack robust holistic capabilities for this task since they still make a considerable amount of errors in their summaries and they can not reliability evaluate the different candidate summaries for the same data example」と難しいよう。(もとから簡単なタスクではないではないものの)LLMであれば対応可能と言い切れないのは興味深い結果。
  • リポジトリはGitHub – yale-nlp/InstruSum

SEMQA: Semi-Extractive Multi-Source Question Answering

GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation [167.6]
    MM-Navigator(MM-Navigator)は、スマートフォンのGUIナビゲーションタスク用のGPT-4Vベースのエージェントである。 MM-Navigatorは、スマートフォンの画面と人間として対話し、指示を満たすためのその後の行動を決定することができる。
    論文  参考訳(メタデータ)   (Mon, 13 Nov 2023 18:53:37 GMT)
  • スマホのナビゲーションを行うエージェント。GPT-4Vを使ってマルチモーダルに対応。FinetunedなLlama2、PaLM 2と比べても高い性能。
  • リポジトリはGitHub – zzxslp/MM-Navigator 

Factcheck-GPT

  • Factcheck-GPT: End-to-End Fine-Grained Document-Level Fact-Checking and Correction of LLM Output [124.3]
    本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。 ラベル付け手順を高速化し、ラッカーの作業を簡単にするためのアノテーションツールを設計し、構築する。 オープンドメインの文書レベルの事実性ベンチマークを3段階のクレーム,文,文書で構築する。
    論文  参考訳(メタデータ)   (Wed, 15 Nov 2023 14:41:57 GMT)
  • LLMのためのファクトチェックベンチマーク&アノテーションツールの提案。「This reveals that current mainstreaming SOTA fact-checkers still have large room to improve on verification, particularly on false claims (F1<0.53).」とのこと。
  • リポジトリはGitHub – yuxiaw/Factcheck-GPT: Fact-Checking the Output of Generative Large Language Models in both Annotation and Evaluation.

TencentLLMEval

TopicGPT

  • TopicGPT: A Prompt-based Topic Modeling Framework [83.4]
    TopicGPTは,大規模言語モデルを用いて潜在トピックを明らかにするプロンプトベースのフレームワークである。 競合する手法と比較して、人間の分類とよく一致したトピックを生成する。 そのトピックはより解釈可能で、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
    論文  参考訳(メタデータ)   (Thu, 2 Nov 2023 17:57:10 GMT)
  • Topic GenerationとTopic Assignmentから成るLLM版トピックモデル。解釈可能性、適応可能性に優れるとのこと。クラスタリングへの応用事例でも近しい結論になっていたはずで結果は妥当そう。
  • リポジトリはGitHub – chtmp223/topicGPT: Code & Prompts for TopicGPT paper (Pham et al. 2023)

When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations

  • When Do Prompting and Prefix-Tuning Work? A Theory of Capabilities and Limitations [105.6]
    コンテキストベースのファインチューニングメソッドは、パラメータのごく一部でフルファインチューニングのパフォーマンスにマッチすることが多いため、人気を集めている。 連続埋め込み空間は離散トークン空間よりも表現力が高いにもかかわらず、ソフトプロンプティングとプレフィックスチューニングは完全な微調整よりも厳密に表現力に乏しいことを示す。
    論文  参考訳(メタデータ)   (Mon, 30 Oct 2023 16:19:34 GMT)
  • in-context learning, soft prompting, prefix tuningといったテクニックの限界(LLM内のスキルは引き出せるが新たなアテンションパターンが必要なタスクには対応できない)を示した論文、「it appears to be still strictly less expressive than full fine-tuning.」というのはそうなんだろうけど、実用的には本当かと思わなくもない挙動を観測したりもする。LLM内のデータが想像以上に多様なんだろうと思う。
  • 「This paper formally showed that fine-tuning techniques working in embedding space, such as soft prompting and prefix-tuning, are strictly more expressive than prompting which operates in the discrete token space.」も面白い。

Everything of Thoughts

  • Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation [42.5]
    効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮すべきである。 我々は,既存の思考パラダイムのペンローズ三角形の法則に反する,思考のすべて (XoT) と呼ばれる新しい思考促進手法を導入する。
    論文  参考訳(メタデータ)   (Tue, 7 Nov 2023 12:30:36 GMT)
  • of thoughtシリーズワイルカードの2番目(?)
  • 「XOT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs’ capabilities and enabling them to generalize to unseen problems efficiently.」ということでX-of-Thoughts  – arXiv最新論文の紹介 (devneko.jp)とも異なるアプローチ

自動運転とLLM