コンテンツへスキップ
- Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.2]
本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。 我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。 大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
論文 参考訳(メタデータ) (Mon, 20 May 2024 07:34:48 GMT)
- 社会的知性を測るためのベンチマーク、対象はInverse Reasoning (IR) とInverse Inverse Planning (IIP)。GPT-4でもタスクによっては人間とギャップがある。結論の「We hope that our study contributes valuable information towards the advancement of ASI.」にASIが出ているのに少しびっくり。
- リポジトリはGitHub – bigai-ai/Evaluate-n-Model-Social-Intelligence
- The SkatingVerse Workshop & Challenge: Methods and Results [137.8]
SkatingVerse Workshop & Challengeは、人間の行動理解のための新規で正確な方法の研究を促進することを目的としている。 SkatingVerse Challengeで使用されるデータセットが公開された。 世界中から参加する約10チームがSkatingVerse Challengeに出場した。
論文 参考訳(メタデータ) (Mon, 27 May 2024 14:12:07 GMT)
- HAU:Human action understanding のためのデータセット及びコンペティションに関する論文。参加チーム上位の手法や工夫も簡単にではあるが紹介されている。
- プロジェクトサイトは1st SkatingVerse Challenge
- Causal Evaluation of Language Models [33.3]
言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。 CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
論文 参考訳(メタデータ) (Wed, 01 May 2024 16:43:21 GMT)
- LLMの因果的な推論を評価するためのベンチマーク、Causal Evaluation of Language Models (CaLM)の提案、GPT-4がLeaderboardトップだが、最新のモデルでの検証結果を知りたいところ
- プロジェクトサイトはCausal Evaluation of Language Models (opencausalab.github.io)
- AI Competitions and Benchmarks: Dataset Development [42.2]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。 データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。 次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (Mon, 15 Apr 2024 12:01:42 GMT)
- データセット作成のための実践的な解説
- このような視点の論文はあまりなく、とても参考になる。
- AUG: A New Dataset and An Efficient Model for Aerial Image Urban Scene Graph Generation [40.1]
本稿では,航空画像都市景観グラフ生成(AUG)データセットを構築し,公開する。 AUGデータセットの画像は、低高度のオーバーヘッドビューでキャプチャされる。 複雑な都市景観において局地的な状況が過大評価されるのを避けるため,本稿では,新たな局地性保存グラフ畳み込みネットワーク(LPG)を提案する。
論文 参考訳(メタデータ) (Thu, 11 Apr 2024 14:29:30 GMT)
- aerial image urban scene graph generation (AUG) datasetとモデルの提案。空撮画像から画像からの物体及び複雑な関係の理解を行う必要があり、とても難しそうなタスク。
- リポジトリはLPG-SGG: locality-preserving graph convolutional network (LPG) (gitee.com)
- A diverse Multilingual News Headlines Dataset from around the World [57.4]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。 言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (Thu, 28 Mar 2024 12:08:39 GMT)
- 「BABEL BRIEFINGS is a novel dataset featuring 4.7 million news headlines from August 2020 to November 2021, across 30 languages and 54 locations worldwide with English translations of all articles included.」という貴重なデータセット、日本語も12万件程度入っているよう。
- リポジトリはfelixludos/babel-briefings · Datasets at Hugging Face ライセンスはCC BY-NC-SA 4.0と商用利用は禁止されている。
- m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.3]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。 本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。 実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (Tue, 26 Mar 2024 10:04:24 GMT)
- 「we introduce visual context as the universal language-independent representation to facilitate multilingual translation.」が実現できそうであることが感慨深い。結果からも一定程度の効果が出ていそう。
- データセットが公開されているのも凄い CSJianYang/InstrMulti102 · Datasets at Hugging Face