staka – ページ 167 – arXiv最新論文の紹介

RWKV-TS

RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks [42.3]
伝統的なリカレントニューラルネットワーク(RNN)アーキテクチャは、伝統的に時系列タスクにおいて顕著な地位を占めてきた。近年の時系列予測の進歩は、RNNからTransformersやCNNといったタスクに移行している。我々は,RWKV-TSという,時系列タスクのための効率的なRNNモデルの設計を行った。
論文参考訳（メタデータ） (Wed, 17 Jan 2024 09:56:10 GMT)
時系列予測へのRNN系モデルの改善、高速高性能とのこと
リポジトリはhoward-hou/RWKV-TS: RWKV-TS: Beyond Traditional Recurrent Neural Network for Time Series Tasks (github.com)

Tuning Language Models by Proxy

Tuning Language Models by Proxy [117.1]
プロキシチューニングは、ブラックボックスLM上で動作する軽量な復号時間アルゴリズムである。我々の研究は、小さく調整されたLMを使用して、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。
論文参考訳（メタデータ） (Tue, 16 Jan 2024 18:49:55 GMT)
（チューニングした）小規模LMを用いて大規模LMのチューニングを行えるという報告。untunedなモデルとtunedなモデルの差を見るアプローチ。「when we apply proxy-tuning to LLAMA2-70B using proxies of only 7B size, we can close 88% of the gap between LLAMA2-70B and its truly-tuned CHAT version」とのこと。
「proxy-tuning addresses an important issue about how to efficiently adapt proprietary models to diverse use cases.」とある通りビジネスでのユースケースは多そう。

Self-Rewarding Language Models

Self-Rewarding Language Models [84.7]
言語モデル自体がLLM-as-a-Judgeを介して使用される自己回帰言語モデルについて検討し、学習中に独自の報酬を提供する。反復型DPOトレーニングでは,指導の追従能力が向上するだけでなく,高品質な報酬をそれ自体に提供する能力も向上することを示す。
論文参考訳（メタデータ） (Thu, 18 Jan 2024 14:43:47 GMT)
自分でInstructionを生成、評価しDPO（Fugu-MT 論文翻訳(概要): Direct Preference Optimization: Your Language Model is Secretly a Reward Model (fugumt.com)）するプロセスの提案。3イテレーションでClaude 2, Gemini Pro, GPT-4 0613をアウトパフォーム。
ReST meets ReAct – arXiv最新論文の紹介 (devneko.jp)の時も思ったが自己改善の動きで面白い。与えた情報を使いつくしていないが故の動きなのか、（さすがにまだなさそうだけど）新たな情報を生み出せているのかなど興味深い。

Fine-grained Hallucination Detection and Editing for Language Models

Fine-grained Hallucination Detection and Editing for Language Models [114.3]
大規模言語モデル(LM)は、多種多様な事実的不正確な文を生成する傾向にあり、幻覚と呼ばれる。現在のアプローチは主に、粗い粒度の自動幻覚検出や編集に重点を置いており、微妙なエラーレベルを見下ろしている。そこで本研究では、6つの階層的に定義された幻覚を包含する分類法を提案する。
論文参考訳（メタデータ） (Fri, 12 Jan 2024 19:02:48 GMT)
Hallucinationを6カテゴリに分け、ベンチマークを構築、検出方法としてFAVA (FAct Vericaton with Augmentation)を提案。「ChatGPT (gpt-3.5-turbo-0301) with a carefully designed prompt describing all six categories with two demonstrations.」や左記＋Contriever のベースラインに比べて高い性能とのこと。
プロジェクトサイトはFine-grained Hallucination Detection and Editing For Language Models (fine-grained-hallucination.github.io)

AlphaGeometry

AlphaGeometry: An Olympiad-level AI system
我々のAIシステムは幾何学問題に対する最先端のアプローチを超越し、数学におけるAI推論を進歩させる。今日Natureに掲載された論文では、人間に近づくレベルで複雑な幾何問題を解くAIシステムであるAlphaGeometryを紹介します。

AlphaGeometry: An Olympiad-level AI system for geometry – Google DeepMind

ユークリッド平面幾何学の問題において「International Mathematical Olympiad (IMO) gold medallist」に近い性能を出すモデルの提案。Silver medallistは超えている…

合成データの活用など構築過程も興味深いが、この手の問題でもトップレベルというのは凄い。

Mixtral of Experts

Mixtral of Experts [57.4]
Mixtral 8x7Bはスパース・ミックス・オブ・エキスパートズ(SMOE)言語モデルである。 Mixtralは数学、コード生成、多言語ベンチマークでLlama 270Bをはるかに上回っている。また、GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70Bを超越したMixtral 8x7B – Instructという命令に従うように微調整されたモデルも提供する。
論文参考訳（メタデータ） (Mon, 8 Jan 2024 18:47:34 GMT)
高性能で話題になったMixtralの論文。「Surprisingly, we do not observe obvious patterns in the assignment of experts based on the topic.」は驚き
Mixtral of experts | Mistral AI | Open-weight models

SeeAct

GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.9]
GPT-4Vは,テキストプランを手作業でWebサイト上で動作させると,ライブWebサイトのタスクの50%を完了できることを示す。これは GPT-4 のようなテキストのみの LLM や、Web エージェント用に微調整されたより小さなモデルよりも大幅に優れている。本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用する汎用WebエージェントであるSEEACTを提案する。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 08:33:09 GMT)
複数の研究機関から出ている通り、GPT-4VのようなマルチモーダルなLLMでWebエージェントができそうな雰囲気。
プロジェクトサイトはSeeAct (osu-nlp-group.github.io)

Video Understanding with Large Language Models: A Survey

Video Understanding with Large Language Models: A Survey [101.9]
本調査は,Large Language Models (LLMs) のパワーを活用した映像理解の最近の進歩を概観する。 LLMベースのビデオエージェント, Vid-LLMs Pretraining, Vid-LLMs Instruction Tuning, Hybrid Methods である。この調査では、Vid-LLMの様々な領域にわたる拡張的な応用を探求し、その顕著なスケーラビリティと汎用性を示している。
論文参考訳（メタデータ） (Fri, 29 Dec 2023 01:56:17 GMT)
LLMとの組み合わせで成果が多く出ているVideo Understandingのサーベイ。初期の手法についても少し記載があるが、最近の発展がすごいこともわかる。
リポジトリはyunlong10/Awesome-LLMs-for-Video-Understanding: 🔥🔥🔥Latest Papers, Codes and Datasets on Vid-LLMs. (github.com)

DIALIGHT

DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.8]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (Thu, 4 Jan 2024 11:27:48 GMT)
多言語に対応したタスク志向対話システムを開発するためのツールキットの提案。PLMのfine tuning、ICLに対応。mT5 + fine tuningがGPT-3.5 + In-context learningより優れていることも多いのが興味深い。
リポジトリはhttps://github.com/cambridgeltl/e2e_tod_toolkitだが現時点ではNotFound

Sports-QA

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports [90.8]
スポーツビデオQAタスク用に特別に設計された最初のデータセットであるSports-QAを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。質問応答のための時間的情報の特定の尺度に自動的にフォーカスできる新しいオートフォーカス変換器(AFT)を提案する。
論文参考訳（メタデータ） (Wed, 3 Jan 2024 02:22:34 GMT)
スポーツのビデオに対するQAデータセットの提案。スポーツを対象に細部を聞く質問やプロフェッショナルな選手の行動の因果関係を問うような難しい（実践的な）QAとなっているとのこと。
The data and codes will be released.とのこと。

2026年7月
月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31