Tasks

2D Classification

2D Pose Estimation

Multi-label Image Recognition with Partial Labels

2D Human Pose Estimation

2D Object Detection

Edge Detection

Semi-Supervised Object Detection

2D Panoptic Segmentation

Unsupervised Panoptic Segmentation

2D Semantic Segmentation

Reflection Removal

Scene Parsing

Face Parsing

Scene Recognition

Scene Understanding

Video Semantic Segmentation

others

3D Anomaly Detection

3D Architecture

Denoising

Color Image Denoising

Grayscale Image Denoising

Image Denoising

Salt-And-Pepper Noise Removal

3D Face Reconstruction

Facial Recognition and Modelling

Face Alignment

Face Identification

Face Recognition

Lightweight Face Recognition

Synthetic Face Recognition

Face Verification

Facial Action Unit Detection

Facial Attribute Classification

Facial Expression Recognition (FER)

Facial Landmark Detection

3D Human Pose Tracking

Motion Synthesis

3D Instance Segmentation

3D Multi-Object Tracking

3D Object Reconstruction

CAD Reconstruction

3D Object Super-Resolution

Super-Resolution

Image Rescaling

3D Open-Vocabulary Instance Segmentation

3D Point Cloud Interpolation

Point Cloud Registration

3D Point Cloud Reconstruction

3D Point Cloud Classification

Few-Shot 3D Point Cloud Classification

Zero-Shot Transfer 3D Point Cloud Classification

3D Reconstruction

3D Semantic Scene Completion

3D Shape Generation

Gesture Generation

3D Shape Reconstruction from Videos

DeepFake Detection

Abstractive Text Summarization

Action Detection

Action Localization

Temporal Action Localization

Action Quality Assessment

Action Recognition

3D Action Recognition

Image Manipulation Detection

Skeleton Based Action Recognition

Zero Shot Skeletal Action Recognition

Action Recognition In Videos

Action Triplet Recognition

Few Shot Action Recognition

Self-Supervised Action Recognition

Zero-Shot Action Recognition

Action Recognition In Videos

Action Anticipation

Action Segmentation

Unsupervised Action Segmentation

Active Speaker Detection

Fraud Detection

Activity Recognition

Ad-hoc video search

Adversarial Defense

Adversarial Robustness

Age Estimation

AMR Parsing

Anomaly Detection

Anomaly Detection In Surveillance Videos

Aspect-Based Sentiment Analysis (ABSA)

Atomistic Description

Formation Energy

Molecular Property Prediction

Audio captioning

Audio-Visual Speech Recognition

AutoML

Neural Architecture Search

Autonomous Driving

Motion Forecasting

Autonomous Vehicles

others

Binary Classification

Binding Site Prediction

Antibody-antigen binding prediction

Biomedical Information Retrieval

Bird's-Eye View Semantic Segmentation

Birds Eye View Object Detection

Blind Face Restoration

Blind Image Deblurring

Deblurring

Boundary Detection

Camera Localization

Change Detection

Semi-supervised Change Detection

Change Point Detection

Chart Question Answering

Chinese

Chinese Word Segmentation

Class Incremental Learning

Few-Shot Class-Incremental Learning

class-incremental-learning-on-cifar100

Classification

Audio Classification

Graph Classification

Text Classification

Multi-Label Text Classification

Click-Through Rate Prediction

Clustering Algorithms Evaluation

Code Completion

Code Documentation Generation

Code Generation

Collaborative Filtering

Colorization

Point-interactive Image Colorization

colorization-on-imagenet-val

Common Sense Reasoning

Composed Image Retrieval (CoIR)

Zero-Shot Composed Image Retrieval (ZS-CIR)

Conditional Image Generation

Constituency Parsing

Constrained Clustering

others

Continual Learning

Continuous Control

Conversational Response Selection

Coreference Resolution

Cover song identification

Crop Classification

Cross-Domain Few-Shot

Cross-Lingual Document Classification

News Classification

Cross-Lingual Transfer

Cross-Lingual NER

Cross-Modal Retrieval

Cross-modal retrieval with noisy correspondence

Crowds

Crowd Counting

Data-to-Text Generation

Dense Video Captioning

Density Estimation

Dependency Parsing

Depth And Camera Motion

Face Anti-Spoofing

Depth Completion

Depth Estimation

Monocular Depth Estimation

Dialogue

Dialogue State Tracking

others

Dialogue Understanding

Spoken Language Understanding

Spoken language identification

Discourse Parsing

Document Layout Analysis

Document Summarization

Document Text Classification

Learning with noisy labels

Domain Adaptation

Partial Domain Adaptation

Domain Generalization

Drug Discovery

Emotion Recognition

Emotion Recognition in Context

Emotion Recognition in Conversation

Entity Alignment

Entity Disambiguation

Entity Linking

Entity Resolution

ERP

Within-Session ERP

Extreme Summarization

Face Detection

Facial Recognition and Modelling

Face Verification

others

Fact Checking

Factual Inconsistency Detection in Chart Captioning

Fake News Detection

Federated Learning

Few-Shot Image Classification

Unsupervised Few-Shot Image Classification

Fine-Grained Image Classification

Fine-Grained Urban Flow Inference

Generalized Few-Shot Learning

Long-tail Learning

Grammatical Error Correction

Grammatical Error Detection

Graph Clustering

Graph Matching

Graph Property Prediction

Graph Ranking

Graph Regression

Hand

Hand Gesture Recognition

Handwritten Mathmatical Expression Recognition

Handwritten Text Recognition

Highlight Detection

Human Activity Recognition

Human-Object Interaction Detection

Hyperspectral Image Segmentation

Hyperspectral

Hyperspectral Image Classification

Image Attribution

Image Captioning

Image Classification

Efficient ViTs

Few-Shot Image Classification

Generalized Few-Shot Classification

Long-tail Learning

Long-tail learning with class descriptors

Multi-Label Image Classification

Sequential Image Classification

Small Data Image Classification

Unsupervised Image Classification

Image Clustering

Image Colorization

Image Deblurring

Image Dehazing

Image Enhancement

Low-Light Image Enhancement

Image Generation

Layout-to-Image Generation

Image Inpainting

Image Manipulation Localization

Image Matting

Image Quality Assessment

Aesthetics Quality Assessment

Full reference image quality assessment

Image Registration

Image Restoration

Blind Super-Resolution

JPEG Artifact Correction

Spectral Reconstruction

Image Retrieval

Image Retrieval with Multi-Modal Query

Image Segmentation

Image Super-Resolution

Stereo Image Super-Resolution

Image-to-Image Translation

Cross-View Image-to-Image Translation

Synthetic-to-Real Translation

Incremental Learning

Inductive knowledge graph completion

Large Language Model

Knowledge Graphs

Complex Query Answering

Knowledge Graph Completion

Information Extraction

Joint Entity and Relation Extraction

others

Information Retrieval

Passage Retrieval

Instance Segmentation

Image-level Supervised Instance Segmentation

Intent Detection

Intent Recognition

Multimodal Intent Recognition

Interactive Segmentation

Key Information Extraction

Keyphrase Extraction

Keyword Extraction

KG-to-Text Generation

Knowledge Distillation

Lane Detection

3D Lane Detection

Language Modelling

LIDAR Semantic Segmentation

Linguistic Acceptability

Link Prediction

Link Property Prediction

Logical Reasoning

Long-Context Understanding

Machine Translation

Unsupervised Machine Translation

Malware Classification

Mathematical Proofs

Automated Theorem Proving

Mathematical Reasoning

Math Word Problem Solving

Medical Image Segmentation

Brain Tumor Segmentation

Lesion Segmentation

Semi-supervised Medical Image Segmentation

Video Polyp Segmentation

Medical waveform analysis

Electrocardiography (ECG)

ECG Classification

Photoplethysmography (PPG)

Photoplethysmography (PPG) heart rate estimation

others

ecg-classification-on-physionet-challenge-1

others

Meme Classification

Hateful Meme Classification

Meta-Learning

Few-Shot Learning

Few-Shot Audio Classification

Few-Shot Semantic Segmentation

Generalized Few-Shot Semantic Segmentation

Metric Learning

Multi-Label Classification

Hierarchical Multi-label Classification

Medical Code Prediction

Multi-modal Entity Alignment

Multi-target Domain Adaptation

Multi-Task Learning

Multi-task Language Understanding

Multimodal Text and Image Classification

image-sentence alignment

Multiple Object Tracking

Multivariate Time Series Forecasting

Music Transcription

Named Entity Recognition (NER)

Chinese Named Entity Recognition

Multi-modal Named Entity Recognition

Nested Named Entity Recognition

Natural Language Inference

Natural Language Transduction

Lipreading

Natural Language Understanding

Network Pruning

No-Reference Image Quality Assessment

Node Classification

Heterogeneous Node Classification

Node Classification on Non-Homophilic (Heterophilic) Graphs

Node Property Prediction

Novel View Synthesis

Object Counting

Object Detection

3D Object Detection

3D Object Detection From Stereo Images

Monocular 3D Object Detection

Multiview Detection

Camouflaged Object Segmentation

Few-Shot Object Detection

Cross-Domain Few-Shot Object Detection

Object Detection In Aerial Images

Open Vocabulary Object Detection

RGB Salient Object Detection

Co-Salient Object Detection

Dichotomous Image Segmentation

Video Salient Object Detection

RGB-D Salient Object Detection

Weakly Supervised Object Detection

Zero-Shot Object Detection

Object Localization

Image-Based Localization

Weakly-Supervised Object Localization

Object Tracking

Multi-Object Tracking

Sports Ball Detection and Tracking

Visual Object Tracking

Open Information Extraction

Open Vocabulary Semantic Segmentation

Open-Domain Question Answering

OpenAI Gym

Optical Flow Estimation

Out-of-Distribution Detection

Panoptic Segmentation

Video Panoptic Segmentation

parameter-efficient fine-tuning

Parking Space Occupancy

Pedestrian Attribute Recognition

Pedestrian Detection

Person Re-Identification

Generalizable Person Re-identification

Unsupervised Person Re-Identification

Photo geolocation estimation

Point Cloud Completion

Point Cloud Generation

Point Processes

Pose Estimation

3D Human Pose Estimation

3D Absolute Human Pose Estimation

3D Face Animation

Video Super-Resolution

3D Multi-Person Pose Estimation

Egocentric Pose Estimation

6D Pose Estimation

6D Pose Estimation using RGB

6D Pose Estimation using RGBD

Animal Pose Estimation

Hand Pose Estimation

3D Hand Pose Estimation

Head Pose Estimation

Human Pose Forecasting

Keypoint Detection

Multi-Person Pose Estimation

Prompt Engineering

Pronunciation Assessment

others

Protein Function Prediction

Protein Secondary Structure Prediction

Protein Structure Prediction

Question Answering

Knowledge Base Question Answering

Multiple Choice Question Answering (MCQA)

Question Generation

Rain Removal

Single Image Deraining

rain-removal-on-nighrain

Reading Comprehension

Recommendation Systems

Multi-modal Recommendation

Multibehavior Recommendation

Multimodal Recommendation

Sequential Recommendation

Session-Based Recommendations

Reconstruction

3D Human Reconstruction

Referring Expression Segmentation

Referring Image Matting

others

regression

Relation Extraction

Remote Sensing

others

Representation Learning

representation-learning-on-scidocs

Retinal Vessel Segmentation

Retrieval

Robot Manipulation

Saliency Detection

Unsupervised Saliency Detection

Salient Object Detection

Scene Flow Estimation

Scene Graph Generation

Scene Parsing

Scene Understanding

Visual Relationship Detection

Scene Text Detection

Scene Text Recognition

Semantic correspondence

Semantic Parsing

Semantic Role Labeling

Semantic Segmentation

3D Semantic Segmentation

Robust 3D Semantic Segmentation

Class-Incremental Semantic Segmentation

others

Hyperspectral Semantic Segmentation

Real-Time Semantic Segmentation

Scene Segmentation

Thermal Image Segmentation

scene-segmentation-on-streethazards

Semi-Supervised Semantic Segmentation

Unsupervised Semantic Segmentation

Unsupervised Semantic Segmentation with Language-image Pre-training

Weakly-Supervised Semantic Segmentation

Semantic Textual Similarity

Semi-supervised Anomaly Detection

Semi-Supervised Image Classification

Open-World Semi-Supervised Learning

Semi-Supervised Instance Segmentation

Semi-Supervised Video Object Segmentation

Sentiment Analysis

Aspect Sentiment Triplet Extraction

Multimodal Sentiment Analysis

Shadow Removal

Sign Language Recognition

Single-Source Domain Generalization

Single-View 3D Reconstruction

3D Semantic Scene Completion from a single RGB image

Sleep Quality

others

Sleep Stage Detection

Slot Filling

Zero-shot Slot Filling

SMAC

SMAC+

Sound Event Detection

Source-Free Domain Adaptation

Spatio-Temporal Video Grounding

Speaker Diarization

Speech Emotion Recognition

Speech Enhancement

Speech Recognition

Automatic Lyrics Transcription

Speech Separation

SSVEP

Within-Session SSVEP

Stereo Depth Estimation

Stochastic Optimization

Story Generation

Visual Storytelling

Summarization

Unsupervised Extractive Summarization

Super-Resolution

Image Super-Resolution

Surface Normals Estimation

Surgical phase recognition

Table annotation

Cell Entity Annotation

Column Type Annotation

Tabular Data Generation

Temporal Relation Extraction

Temporal Relation Classification

temporal-relation-extraction-on-vinoground

Text based Person Retrieval

Text Classification

Text Clustering

Short Text Clustering

text-clustering-on-mteb

Text Generation

Text Simplification

Text Spotting

Text Summarization

Text to Audio Retrieval

Text-based Person Retrieval with Noisy Correspondence

Text-to-Image Generation

Conditional Text-to-Image Synthesis

Text-To-SQL

Text-to-Video Generation

Time Series Analysis

Time Series Forecasting

Time Series Classification

Time Series Regression

Traffic Prediction

Trajectory Prediction

Universal Domain Adaptation

Unsupervised Anomaly Detection

Unsupervised Domain Adaptation

Unsupervised Object Segmentation

Vehicle Re-Identification

Video

Action Classification

Natural Language Moment Retrieval

Video Denoising

Video Object Segmentation

Video Salient Object Detection

Video Understanding

Video Quality Assessment

others

Video Anomaly Detection

Video Captioning

Video Classification

Video Frame Interpolation

Video Games

Atari Games

Video Generation

Video Inpainting

Video Instance Segmentation

Video Object Segmentation

Referring Video Object Segmentation

Unsupervised Video Object Segmentation

Video Prediction

Earth Surface Forecasting

Video Question Answering

Zero-Shot Video Question Answer

Video Reconstruction

Video Retrieval

Video Segmentation

others

Video Summarization

Video-Adverb Retrieval

Video-Adverb Retrieval (Unseen Compositions)

Video-based Generative Performance Benchmarking

Video-to-image Affordance Grounding

Vision and Language Navigation

Visual Grounding

Visual Localization

Visual Navigation

Visual Object Tracking

Visual Place Recognition

3D Place Recognition

Visual Prompt Tuning

Visual Question Answering

Visual Question Answering (VQA)

3D Question Answering (3D-QA)

Visual Reasoning

Visual Tracking

Rgb-T Tracking

visual-tracking-on-tnl2k

Weakly Supervised Action Localization

Weather Forecasting

Within-Session Motor Imagery

Within-Session Motor Imagery (all classes)

Within-Session Motor Imagery (left hand vs. right hand)

Within-Session Motor Imagery (right hand vs. feet)

Word Sense Disambiguation

Zero-Shot Learning

Generalized Zero-Shot Learning

GZSL Video Classification

Zero-Shot Transfer Image Classification

Zero-Shot Video Retrieval

others

OpenCodePapers

Tasks