コンテンツへスキップ
- Crowd-sensing Enhanced Parking Patrol using Sharing Bikes’ Trajectories [20.7]
違法な自動車駐車は、大気汚染や交通事故につながる交通渋滞を引き起こすため、世界中の主要都市が直面する一般的な都市問題である。 Mobikeの巨大で高品質なシェアリングバイクは、ユビキタスで違法な駐車検知アプローチを設計するユニークな機会を提供する。 検出結果は、パトロールスケジュール、すなわち、違法な駐車リスクの高い地域へパトロール警官を派遣し、パトロール効率をさらに向上させることができる。
論文 参考訳(メタデータ) (Fri, 29 Oct 2021 05:48:51 GMT)- シェアバイクの軌道情報から違法駐車を検出する取り組み、これに加えて効果的なパトロール戦略を提案している。
- 言われてみるとシェアバイクの軌道と違法駐車は関係していそうではあるけど面白いアプローチ
- Audio-visual Representation Learning for Anomaly Events Detection in Crowds [119.7]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。 監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。 音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) 参考訳(全文) (Thu, 28 Oct 2021 02:42:48 GMT)- 音声+画像による異常検知。直感的にも効果がありそう。複数の情報ソースを束ね高性能を目指すアプローチは今後も有望だと思う。
- Training Verifiers to Solve Math Word Problems [12.3]
GSM8Kは8.5Kの高品質な言語学的多様性を持つ小学校数学の単語問題である。 最大のモデルでさえ高いテスト性能を達成できないことがわかった。 性能を向上させるため,モデル完了の正しさを判定するトレーニング検証器を提案する。
論文 参考訳(メタデータ) (Wed, 27 Oct 2021 04:49:45 GMT)- 自然言語処理ではまだ解くことが難しい、マルチホップな数学的推論が必要なデータセットの提案。巨大モデルでも解くのが難しいが、検証(Verification)を行うモデルを用いることで性能が向上(30倍のサイズのモデルに匹敵)したとのこと。
- 分野の得意不得意と解釈してよいのか、言語理解の有無と解釈してよいのか、いろいろと考えさせられる結果。
- リポジトリはhttps://github.com/openai/grade-school-math
- Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey [45.8]
マルチエージェント強化学習(MARL)により、各ネットワークエンティティは環境だけでなく、他のエンティティのポリシーも観察することで、最適なポリシーを学ぶことができる。 MARLはネットワークエンティティの学習効率を大幅に向上させることができ、近年、新興ネットワークにおける様々な問題を解決するために使用されている。
論文 参考訳(メタデータ) (Tue, 26 Oct 2021 08:26:55 GMT)- 5Gやその先にあるようなネットワークでマルチエージェントな強化学習で何が必要か、どのような研究課題があるかをまとめたサーベイ。研究課題については既存アプローチが整理されており非常に勉強になる。
- The Efficiency Misnomer [50.7]
我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。 コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
論文 参考訳(メタデータ) (Mon, 25 Oct 2021 12:48:07 GMT)- モデルの効率を表す指標としてパラメータ数やFLOPs、スループット等が用いられるが不完全なものであることを指摘。例えばモデル①、②、③に対してパラメータ数/性能のグラフは①<②<③、FLOPS/性能のグラフは③<②<①のように順位が一定しない事がある。特にコストを表す指標としてパラメータ数は適切でないことが多いと指摘。
- 実装やっているとよく思うが、これに関わらずモデル構造間の比較は簡単ではない・・・。
- IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.5]
IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。 さらに、377クラスに645,687個のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) 参考訳(全文) (Mon, 25 Oct 2021 18:52:26 GMT)
- How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI [32.5]
我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。 FPは、その正確な計算が非現実的であるか不可能なものに対して答えをおよそ見積もる質問である。 1)クイズ及びオリンピアードから得られた1k個の現実世界FPの収集、 2) より複雑な10kの合成FPはより難しい現実的課題のサンドボックスとして機能する。 質問応答ペアに加えて、データセットには実行可能プログラムの形式で詳細なソリューションが含まれている
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 27 Oct 2021 06:39:33 GMT)- フェルミ推定用データセットとそのタスクの提案。「問題を創造的に解決可能なチャンクに分解し、常識推論の能力をテスト」を目標にしているのこと。答えに至るまでの過程として、答えをサポートするファクトやその説明がデータに含まれているのが特徴的。T5を使用しかなりFine-tuningしても性能は低く、難しいタスクとのこと。
- WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.5]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。 そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) 参考訳(全文) (Wed, 27 Oct 2021 12:25:21 GMT)- 極めて大規模な画像/テキストの事前学習モデル。CLIPとの比較が興味深く、性能はCLIPを超えるとのこと。
- 「Overall, we believe that pre-training a large-scale multimodal foundation model is indeed a potential approach to achieving AGI.」や「Overall, these findings indicate that pre-training a multimodal (visual and textual) foundation model can make a giant stride towards AGI.」などAGIを意識した記載が多くこれも面白い。この研究の先にAGIが見えているんだろうか?
- s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning [47.3]
条件付き生成タスクに予めトレーニングされたトランスフォーマーを採用するシーケンス・ツー・シーケンスの微調整ツールキット s2s-ft を提案する。 S2s-ftは抽象的な要約と質問生成のベンチマークで高い性能を達成する。
論文 参考訳(メタデータ) (Tue, 26 Oct 2021 12:45:34 GMT) - 生成系タスクに適したモデルの提案。同パラメータ数の比較でAbstract Summarization / CNNDMでPEGASUSを超える性能。
- リポジトリはhttps://github.com/microsoft/unilm/tree/master/s2s-ft
- DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [99.1]
文書画像の幾何学的および照明歪みに対処する文書画像変換器(DocTr)を提案する。 DocTrは20.02%のキャラクタエラー率(CER)を実現しています。
論文 参考訳(メタデータ) (Mon, 25 Oct 2021 13:27:10 GMT)