arXiv最新論文の紹介

法的議論と自然言語処理

Mining Legal Arguments in Court Decisions [43.1]
我々は,欧州人権裁判所の手続において,法的議論のための新たな注釈体系を開発する。まず,欧州人権裁判所(ECHR)の手続における法的議論のための新たな注釈体系を設計し,法的議論研究の理論と実践に深く根ざしている。第二に、373の判決(トークン2.3Mと15kの注釈付き引数)の大きなコーパスをコンパイルし、注釈付けします。最後に、法的なnlpドメインにおける最先端モデルを上回る議論マイニングモデルを訓練し、専門家による徹底的な評価を提供する。
論文参考訳（メタデータ） (Fri, 12 Aug 2022 08:59:55 GMT)
- 法的な議論のための大規模コーパス作成と分類モデルの構築。
  - ドメイン特化な研究は面白いが法律系での実際の使われ方がよくわかっていないので、評価関連がこれでよいのかが謎。Leak系の問題への対応はどうやっているのだろう。
- trusthlt/mining-legal-arguments: Mining Legal Arguments in Court Decisions – Data and software (github.com)

A Survey on Incomplete Multi-view Clustering

A Survey on Incomplete Multi-view Clustering [66.5]
病気の診断、マルチメディア分析、レコメンデーションシステムなどの実践的な応用では、サンプルのすべてのビューが利用できるわけではない。。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 03:00:59 GMT)
- 複数のビュー（例えば医療分野においてMRIとPETを組み合わせたデータ）を用いたクラスタリング、かつ、そのビューの一部が失われた状況を仮定したクラスタリング手法のサーベイ。アプローチは様々あるようだが、何れも簡単ではない。
- リポジトリはDarrenZZhang/Survey_IMC: This is a comprehensive survey of incompate multi-view clustering algorithms. (github.com)

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency

TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.8]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (Sun, 14 Aug 2022 04:07:40 GMT)
- 調理手順のようなインストラクション用動画のテキスト要約に関する研究。ハンドラベリングが困難な状況を想定しており、疑似的なラベルを利用するなど面白いアプローチを取っている。
- リポジトリはTL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency (medhini.github.io)

テキストの分散表現

Neural Embeddings for Text [14.1]
本稿では,意味的意味を深く表現する自然言語テキストの埋め込みについて提案する。この方法では、言語モデルにテキストから学習させ、文字通りその脳を選択して、モデルのニューロンの実際の重みを取り、ベクトルを生成する。ニューラルネットワークの埋め込みとGPT文の埋め込みを比較した。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 16:26:13 GMT)
- 新たなテキストの埋め込み手法提案。複数のレイヤーの重みを処理することが特徴のよう。通常の手法にはない側面を捉えられていそうな雰囲気はあるが、差が大きいかは微妙なところ。
- リポジトリはprimer-research/neural_embeddings at main · PrimerAI/primer-research (github.com)

深層強化学習: 20分間で公園内の四足歩行を学習

A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free Reinforcement Learning [86.1]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界で20分で学習できる。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 17:37:36 GMT)
- （4足歩行とはいえ）既存研究を組み合わせることで現実環境の歩行を20分で学習可能という報告。
  - 昔の苦労から考えるとすごい進化
- プロジェクトサイトはHome (google.com)、リポジトリはikostrikov/walk_in_the_park (github.com)

BIC : グラフ構造を併用したボット検出

BIC: Twitter Bot Detection with Text-Graph Interaction and Semantic Consistency [22.5]
テキストとグラフのモダリティを深くインタラクティブにし、ツイートの意味的矛盾を検知するBICという新しいモデルを提案する。 BICには、ツイートからセマンティック一貫性情報を学ぶためのセマンティック一貫性検出モジュールが含まれている。われわれのフレームワークは、総合的なTwitterボットベンチマークの競争ベースラインを上回っている。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 14:34:40 GMT)
- テキスト情報だけでなくグラフ構造を併用、かつ共通のネットワークでTwitterのBot Detectionを行うという研究。

PromptIDE: プロンプト作成用のIDE

Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation with Large Language Models [116.3]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。 PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 17:17:53 GMT)
- ついに出た（？）自然言語処理で主流になりつつあるprompt用のIDE。著者にHugging Faceに所属している方がいるのも時代を感じる。
- プロジェクトサイトはInteractive PromptIDE (vizhub.ai)

LAM Dataset

The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text Recognition [40.2]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。歴史的写本を扱う際の主な課題は、紙の支持の保存、筆跡の多様性、また、同じ著者の幅広い期間にわたる変動、そして古代の表現が不十分な言語からのデータ不足などである。本稿では,本研究の推進を目的として,60年以上にわたって1人の著者によって編集されたイタリア古写本の行単位のhtrデータセットである ludovico antonio muratori (lam) データセットを提案する。
論文参考訳（メタデータ） (Tue, 16 Aug 2022 11:44:16 GMT)
- （人間でも読解困難と思われる）歴史的写本の文字認識データセット。
- プロジェクトサイトはAImageLab – – (unimore.it)

マルチモーダルなプレゼンテーションデータセット

Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides [57.9]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。このデータセットには,180時間以上のビデオと9000以上のスライドが,各科目から10人の講師が参加している。マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文参考訳（メタデータ） (Wed, 17 Aug 2022 05:30:18 GMT)
- 330本・180時間以上の動画、9000以上のスライドからなるデータセット。ライセンスはCC BY-SA-NC。text-to-ﬁgure（音声の説明から図を検索）、ﬁgure-to-text（図から音声の説明を検索）の検索タスクを前提として設計されているとのこと。既存手法、提案手法とも人間のパフォーマンスとのギャップが大きい。
- リポジトリはdondongwon/MLPDataset (github.com)

Instance As Identity: 新たなVideo Instance Segmentation

Instance As Identity: A Generic Online Paradigm for Video Instance Segmentation [84.4]
我々はインスタンス・アズ・アイデンティティ(IAI)という新しいオンラインVISパラダイムを提案する。 IAIは、検出と追跡の両方の時間情報を効率的な方法でモデル化する。 3つのVISベンチマークで広範な実験を行う。
論文参考訳（メタデータ） (Fri, 5 Aug 2022 10:29:30 GMT)
時間情報（前フレームの情報、検出結果）を効率的に使うVIS手法の提案
リポジトリはGitHub – zfonemore/IAI: The official implementation of Instance As Identity: A Generic Online Paradigm for Video Instance Segmentation.

2025年6月
月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30