2024年1月 – ページ 3 – arXiv最新論文の紹介

Fine-grained Hallucination Detection and Editing for Language Models

Fine-grained Hallucination Detection and Editing for Language Models [114.3]
大規模言語モデル(LM)は、多種多様な事実的不正確な文を生成する傾向にあり、幻覚と呼ばれる。現在のアプローチは主に、粗い粒度の自動幻覚検出や編集に重点を置いており、微妙なエラーレベルを見下ろしている。そこで本研究では、6つの階層的に定義された幻覚を包含する分類法を提案する。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 19:02:48 GMT)
Hallucinationを6カテゴリに分け、ベンチマークを構築、検出方法としてFAVA (FAct Vericaton with Augmentation)を提案。「ChatGPT (gpt-3.5-turbo-0301) with a carefully designed prompt describing all six categories with two demonstrations.」や左記＋Contriever のベースラインに比べて高い性能とのこと。
プロジェクトサイトはFine-grained Hallucination Detection and Editing For Language Models (fine-grained-hallucination.github.io)

AlphaGeometry

AlphaGeometry: An Olympiad-level AI system
我々のAIシステムは幾何学問題に対する最先端のアプローチを超越し、数学におけるAI推論を進歩させる。今日Natureに掲載された論文では、人間に近づくレベルで複雑な幾何問題を解くAIシステムであるAlphaGeometryを紹介します。

AlphaGeometry: An Olympiad-level AI system for geometry – Google DeepMind

ユークリッド平面幾何学の問題において「International Mathematical Olympiad (IMO) gold medallist」に近い性能を出すモデルの提案。Silver medallistは超えている…

合成データの活用など構築過程も興味深いが、この手の問題でもトップレベルというのは凄い。

Mixtral of Experts

Mixtral of Experts [57.4]
Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
論文参考訳（メタデータ） (Mon, 8 Jan 2024 18:47:34 GMT)
高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
Mixtral of experts | Mistral AI | Open-weight models

SeeAct

GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.9]
GPT-4Vは,テキストプランを手作業でWebサイト上で動作させると,ライブWebサイトのタスクの50%を完了できることを示す。これは GPT-4 のようなテキストのみの LLM や、Web エージェント用に微調整されたより小さなモデルよりも大幅に優れている。本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 08:33:09 GMT)
複数の研究機関から出ている通り、GPT-4VのようなマルチモーダルなLLMでWebエージェントができそうな雰囲気。
プロジェクトサイトはSeeAct (osu-nlp-group.github.io)

Video Understanding with Large Language Models: A Survey

Video Understanding with Large Language Models: A Survey [101.9]
本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
論文参考訳（メタデータ） (Fri, 29 Dec 2023 01:56:17 GMT)
LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)

DIALIGHT

DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.8]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 11:27:48 GMT)
多言語に対応したタスク志向対話システムを開発するためのツールキットの提案。PLMのfine tuning、ICLに対応。mT5 + fine tuningがGPT-3.5 + In-context learningより優れていることも多いのが興味深い。
リポジトリはhttps://github.com/cambridgeltl/e2e_tod_toolkitだが現時点ではNotFound

Sports-QA

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 02:22:34 GMT)
スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい（実践的な）QAとなっているとのこと。
The data and codes will be released.とのこと。

Understanding LLMs: A Comprehensive Overview from Training to Inference

Understanding LLMs: A Comprehensive Overview from Training to Inference [52.7]
大規模言語モデルの低コストなトレーニングと展開は、将来の開発トレンドを表している。トレーニングに関する議論には、データ前処理、トレーニングアーキテクチャ、事前トレーニングタスク、並列トレーニング、モデル微調整に関連する関連コンテンツなど、さまざまな側面が含まれている。推論の面では、モデル圧縮、並列計算、メモリスケジューリング、構造最適化などのトピックを取り上げている。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 02:43:57 GMT)
LLMの作り方を一歩踏み込んで知りたいときによい資料。

Chain-of-Table

Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding [79.9]
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。 Chain-of-TableはWikiTQ、FeTaQA、TabFactベンチマークで最新のパフォーマンスを実現している。
論文参考訳（メタデータ） (Tue, 9 Jan 2024 07:46:26 GMT)
表形式データが含まれる状況下でのプロンプトの工夫、Chainの名前がついている通りテーブル操作を続けていくアプローチ
一般的に効果のある今までのProgram-aidedなアプローチより優れた性能とのこと

Effective pruning of web-scale datasets based on complexity of concept clusters

Effective pruning of web-scale datasets based on complexity of concept clusters [48.1]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減し、より高いパフォーマンスをもたらす可能性があることに気付きました。 DataComp Mediumのベンチマークでは,38のタスクに対して,最先端のImageNetゼロショット精度と競合平均ゼロショット精度を実現している。
論文参考訳（メタデータ） (Tue, 9 Jan 2024 14:32:24 GMT)
データセットの効果的なフィルタリング方法の提案。LAION datasetで検証。
deduplication, CLIP-score filtering, Density-Based-Pruningのパイプラインでembeddingを効果的に使うアプローチ

2024年1月
月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31