From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought

  • From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought [124.4]
    言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。 我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。 LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。 認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
    論文  参考訳(メタデータ)   (Fri, 23 Jun 2023 06:05:31 GMT)
  • 「rational meaning construction」を目指す計算フレームワークに関する論文。 probabilistic language of thought (PLoT) などとても面白い考え方だと思う。昔から難問として知られているもので今であれば扱えるのかどうなのかというのが気になる。
  • (実はAIというタグが無いのに気付いて初めて付与した)
  • リポジトリはGitHub – gabegrand/world-models

Kosmos-2

  • Kosmos-2: Grounding Multimodal Large Language Models to the World [107.3]
    マルチモーダル大言語モデル(MLLM)であるKosmos-2を紹介する。 オブジェクト記述(例えば、バウンディングボックス)の認識と、視覚の世界へのテキストの接地を可能にする。 この研究は、Embodiment AIの開発の基礎を定めている。
    論文  参考訳(メタデータ)   (Tue, 27 Jun 2023 09:11:34 GMT)
  • マルチモーダルなLLM Kosmos-2の論文、Markdownのリンクとして画像などを参照する点が面白い。Kosmos-1より優れている?(KOSMOS-2 achieves impressive results )との結果。GRIT(Grounded Image-Text pairs)というデータセットも公開予定とのこと。
  • リポジトリはunilm/kosmos-2 at master · microsoft/unilm · GitHub

SCoTD: Symbolic Chain-of-Thought Distillation

  • Symbolic Chain-of-Thought Distillation: Small Models Can Also “Think” Step-by-Step [122.6]
    思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。 オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。 そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるSymbolic Chain-of-Thought Distillation (SCoTD)を紹介した。
    論文  参考訳(メタデータ)   (Sat, 24 Jun 2023 20:15:07 GMT)
  • 小規模なモデルでもChain of Thougthが有効であること、また、それを生かすために有効な蒸留方法Symbolic Chain-of-thought Distillation (SCoTD)の提案。タスクにもよるがベンチマーク結果からはかなり有効な手法に見える。
  • リポジトリはhttps://github.com/allenai/cot_distillationとのことだが、現時点では404

A Comparative Audit of Privacy Policies from Healthcare Organizations in USA, UK and India

  • A Comparative Audit of Privacy Policies from Healthcare Organizations in USA, UK and India [19.5]
    本稿では,米国,英国,インドにおける医療機関のプライバシポリシを監査するための大規模データ駆動型研究を提案する。 まず、これらの国の何千もの医療機関のプライバシポリシを収集し、クラスタリングベースの混合メソッド技術を使用して、このプライバシポリシデータをクリーン化した。 第2に、各国の正確なデータプラクティスを明らかにし、重要な違いに気づくために、要約ベースの手法を採用しました。
    論文  参考訳(メタデータ)   (Tue, 20 Jun 2023 14:21:37 GMT)
  • 医療機関のプライバシーポリシーの分析に自然言語処理を使った研究
  • この手の分析にはfew-shotで高速な試行が可能なLLMが向いていそうな気がする(本研究では用いられていない)

One-2-3-45 & DreamEditor

  • One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization [31.0]
    単一画像の3D再構成は、我々の自然界に関する広範な知識を必要とする重要な課題であるが、難しい課題である。 本研究では,任意の物体の1つの画像を入力として取り込み,360度3次元テクスチャメッシュを1回のフィードフォワードパスで生成する手法を提案する。
    論文  参考訳(メタデータ)   (Thu, 29 Jun 2023 13:28:16 GMT)
  • 1枚の画像からの3D再構成、 Text to 3D Meshにもほんの少し言及がある
  • プロジェクトサイトはOne-2-3-45

  • DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [118.1]
    テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。 DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
    論文  参考訳(メタデータ)   (Thu, 29 Jun 2023 10:38:04 GMT)
  • こちらはテキストを用いた3Dモデルの編集

You Don’t Need Robust Machine Learning to Manage Adversarial Attack Risks

  • You Don’t Need Robust Machine Learning to Manage Adversarial Attack Risks [31.1]
    機械学習モデルを不規則な予測に変換する能力は驚くべきものだ。 現行の緩和には高いコストが伴い、同時にモデルの精度が低下する。 これは、実際にこれらの攻撃を緩和する方法、運用デプロイメントのリスク、そしてそれらのリスクをどのように管理するか、という視点で行われます。
    論文  参考訳(メタデータ)   (Fri, 16 Jun 2023 16:32:27 GMT)
  • 衝撃的なタイトルだが、「Our work elucidates that not all situations require robust machine learning to defend against adversarial attacks, and that a larger risk assessment should be performed.」「In real-life deployments, the cost of adding robustness may exceed its benefits.」とのことで結論は納得のいくものとなっている。不必要に頑張る必要はない。

Infinigen 

  • Infinite Photorealistic Worlds using Procedural Generation [135.1]
    インフィニゲン(Infinigen)は、自然界のフォトリアリスティックな3Dシーンのプロシージャジェネレータである。 形状からテクスチャに至るまで、すべての資産はランダム化された数学的ルールによってゼロから生成される。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:20:37 GMT)
  • 美しい3Dシーンのジェネレータ。Deepでぽん的なアプローチではない。Real geometry、OSSと凄いソフトウェア。
  • プロジェクトサイトはHome | Infinigen、リポジトリはGitHub – princeton-vl/infinigen: Infinite Photorealistic Worlds using Procedural Generation

マルチモーダルな大規模言語モデルのサーベイ&チュートリアル

  • A Survey on Multimodal Large Language Models [56.8]
    マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。 MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
    論文  参考訳(メタデータ)   (Fri, 23 Jun 2023 15:21:52 GMT)
  • マルチモーダルな大規模言語モデルのサーベイ。Multimodal Instruction Tuning (MIT)、Multimodal In-Context Learning (M-ICL)、 Multimodal Chain-of-Thought (M-CoT)、LLM-Aided Visual Reasoning (LAVR)のカテゴリで整理。LLMを中心に様々なトライがされていることが分かる。
  • リポジトリはGitHub – BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.で、この論文リストも相当価値が高い。
  • Large Multimodal Models: Notes on CVPR 2023 Tutorial [29.8]
    このチュートリアルノートは、CVPR 2023 tutorial on recent Advances in Vision Foundation Models’ の一部である。 視覚・言語モデリングのための最近のGPTのような大規模モデルについて,まずその背景を紹介する。 前提条件として,大規模言語モデルにおけるインストラクションチューニングの基礎について述べる。 最後に、オープンソースリソースを用いたマルチモーダルGPT-4のようなモデルの最小限のプロトタイプを構築する方法について説明する。
    論文  参考訳(メタデータ)   (Mon, 26 Jun 2023 17:59:31 GMT)
  • CVPRのマルチモーダルモデルのチュートリアル
  • スライド:https://tinyurl.com/5c2c2mtm、動画[CVPR2023 Tutorial Talk] Large Multimodal Models: Towards Building and Surpassing Multimodal GPT-4 – YouTubeなどとても有用

ERNIE 3.5と XGen

Baiduから中国語の能力ではGPT-4を超えるというERNIE 3.5が発表された(Baidu Research)、ベンチマーク結果は独家:百度文心大模型3.5已内测应用,实测得分超ChatGPT (qq.com)で英語でもChatGPT(GPT-3.5)と競合する性能、中国語ではGPT-4を超える性能とのこと。

SaleseforceはXGenというオープンなLLMを発表(Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length (salesforceairesearch.com))コンテキストが長く、オープンなLLMの中では優れた性能のよう。日本語に対応していそうな点も魅力的。リポジトリはGitHub – salesforce/xgen: Salesforce open-source LLMs with 8k sequence length.、モデルはSalesforce/xgen-7b-8k-base · Hugging Face

LLMの開発競争は続いている。モデルをオープンにする企業が多いのは非常にありがたい。

SearChain: Search-in-the-Chainのリポジトリ