コンテンツへスキップ
- TALENT: A Tabular Analytics and Learning Toolbox [24.9]
本稿では,表型手法の活用,分析,比較を行うためにTALENT (Tabular Analytics and LEarNing Toolbox) という汎用的なディープラーニングツールボックスを提案する。 TALENTは、様々なエンコーディングおよび正規化モジュールに関連する、20以上の深い表層予測手法の広範なコレクションを含んでいる。 本稿では,ツールボックスの設計と機能について述べるとともに,その実践的応用をいくつかのケーススタディを通じて説明し,ツールボックスをベースとした各種手法の性能について検討する。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 16:57:14 GMT)
- テーブルデータ分析のためのツールボックスでDeep系の手法が豊富に含まれている。
- リポジトリはGitHub – qile2000/LAMDA-TALENT: A comprehensive toolkit and benchmark for tabular data learning, featuring over 20 deep methods, more than 10 classical methods, and 300 diverse tabular datasets.
- やはりCatBoostやXGBはかなり優秀なのでは・・・
- AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.7]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。 ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。 AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (Thu, 11 Jul 2024 10:03:47 GMT)
- ベンチマークを自動的に構築する取り組み。
- しばらくするとベンチマークを自動構築、後述のような方法でデータも自動合成、自己改善、みたいなモデル構築が流行ったりするのだろうか。まさにAutoML。
- リポジトリはGitHub – XiangLi1999/AutoBencher
- A Survey of Data Synthesis Approaches [20.2]
1)多様性の向上,2)データバランシング,3)ドメインシフトへの対応,4)エッジケースの解決。 本稿では, 合成データの今後の方向性と, 重要な3つの方向性についても論じる: 1) 品質, 2) 合成データの評価, 3) マルチモデルデータ拡張。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 06:37:09 GMT)
- 合成データ関連のサーベイ。
- リポジトリはGitHub – MiuLab/SynData-Survey
- CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.0]
言語モデル(LM)による著作権保護されたコンテンツの再生の度合いを評価することは、AIと法的なコミュニティにとって重要な関心事である。 LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。 リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文 参考訳(メタデータ) (Tue, 09 Jul 2024 17:58:18 GMT)
- (シンプルな)Literal copyingだけでなくパラフェージングなどを通して行われるNon-literal copyingも対象にしたベンチマークの提案と検証。リテラルコピーが大規模モデルで問題になるのは直観的に明らかとして「In proprietary models, the transition from GPT-3.5 to GPT-4 interestingly reduces literal copying but increases non-literal copying.」や「we find that current inference-time mitigation methods, although effective at reducing literal copying, are insufficient for addressing nonliteral copying.」という記載は興味深い。
- リポジトリはGitHub – chentong0/copy-bench: CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation
- MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [26.3]
本報告では,医療分野向けに設計された最初のエージェントである Multi-modal Medical Agent (MMedAgent) を紹介する。 本研究では,7つのタスクを解く6つの医療ツールからなる指導訓練データセットをキュレートし,与えられたタスクに最適なツールをエージェントが選択できるようにする。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (Tue, 2 Jul 2024 17:58:23 GMT)
- マルチモーダルな医療用エージェントの提案、様々なツール(各タスクのSOTAな手法)を使いながら問題を解き優れた性能とのこと
- ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.6]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。 基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。 我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (Thu, 04 Jul 2024 22:16:40 GMT)
- PaliGemmaのチャート対応バージョン
- リポジトリはhttps://github.com/visnlp/ChartGemmaとのことだが、現時点では404
- Large Language Models Understand Layouts [6.7]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。 テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。 レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (Mon, 08 Jul 2024 09:03:12 GMT)
- LLM のテキストレイアウト理解能力を解析、かなりの能力があることを示した論文。本来、Document Understandingが必要な問題をシンプルにテキスト表現に落とし込んで解けると面白い。
- リポジトリはGitHub – liweim/TextLayoutLLM
- MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.1]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。 130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。 14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (Mon, 01 Jul 2024 17:59:26 GMT)
- マルチモーダルかつ長文のベンチマーク。GPT-4oの優秀さが目立ち、OCR+LLMを超えている。
- リポジトリはMMLongBench-Doc (mayubo2333.github.io)
- How Does Quantization Affect Multilingual LLMs? [50.9]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。 量子化多言語 LLM の徹底的な解析を行い、言語間および様々なスケールでその性能に焦点をあてる。自動ベンチマーク, LLM-as-a-Judge 法, 人的評価を用いて, 1) 量子化の有害な影響は人的評価において明らかであり, 1) 自動タスクにおける日本語の1.7%の平均低下は, 現実的なプロンプト上での人間の評価者による16.0%の減少に対応し, 2) 言語は量子化の影響を受け, 非ラテン語のスクリプト言語が最悪の影響を受け, (3) 数学的推論などの課題が急速に悪化する。
論文 参考訳(メタデータ) (Wed, 03 Jul 2024 15:39:40 GMT)
- LLMに対する量子化の影響を多言語の観点で調査した論文。「(1) Damage from quantization is much worse than appears from automatic metrics: even when not observed automatically, human evaluators notice it.」、「(2) Quantization affects languages to varying degrees, with nonLatin script languages more severely affected on automatic benchmarks.」、「(3) Challenging tasks degrade fast and severely: math performance is strikingly reduced, as are responses on realistic challenging」という結論。
- 多言語(というか日本語)への影響は経験的にもそうだと思う。英語以外の対応にも力を入れているCohereらしい調査な気がする。
- CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。 実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (Tue, 25 Jun 2024 06:08:16 GMT)
- 「we propose a novel metric CausalScore to quantify the relevance of responses by estimating the causal strength (Janzing et al , 2013a) between utterances and responses, where causal strength measures the strength of causal relations.」という指標の提案、および評価データセットの構築
- リポジトリはGitHub – WilliamsToTo/causalscore_dialogue