Zhizhou Sha's picture

1 21 1

Zhizhou Sha

JamesSand

·

AI & ML interests

None yet

Organizations

JamesSand's activity

upvoted a paper 1 day ago

Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

Paper • 2409.09214 • Published 6 days ago • 38

upvoted a paper 4 days ago

TokenCompose: Grounding Diffusion with Token-level Supervision

Paper • 2312.03626 • Published Dec 6, 2023 • 5

upvoted a paper 25 days ago

Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

Paper • 2408.13233 • Published 27 days ago • 20

upvoted a paper about 2 months ago

SAM 2: Segment Anything in Images and Videos

Paper • 2408.00714 • Published Aug 1 • 103

upvoted 3 papers 3 months ago

Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

Paper • 2406.11831 • Published Jun 17 • 19

ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

Paper • 2406.12793 • Published Jun 18 • 31

DiTFastAttn: Attention Compression for Diffusion Transformer Models

Paper • 2406.08552 • Published Jun 12 • 22

upvoted 2 papers 4 months ago

Diffusion for World Modeling: Visual Details Matter in Atari

Paper • 2405.12399 • Published May 20 • 25

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

Paper • 2405.01434 • Published May 2 • 51

upvoted a paper 5 months ago

MoDE: CLIP Data Experts via Clustering

Paper • 2404.16030 • Published Apr 24 • 12

upvoted a collection 5 months ago

MOE papers to read

Copied from MoE using https://huggingface.co/spaces/librarian-bots/collection_cloner. • 82 items • Updated Jun 21 • 3

upvoted 3 papers 6 months ago

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Paper • 2401.15024 • Published Jan 26 • 67

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

Paper • 2403.16990 • Published Mar 25 • 24

TextCraftor: Your Text Encoder Can be Image Quality Controller

Paper • 2403.18978 • Published Mar 27 • 13

upvoted 5 papers 7 months ago

Sora Generates Videos with Stunning Geometrical Consistency

Paper • 2402.17403 • Published Feb 27 • 16

Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation

Paper • 2401.15688 • Published Jan 28 • 11

Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

Paper • 2401.17583 • Published Jan 31 • 25

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Paper • 2402.03161 • Published Feb 5 • 14

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

Paper • 2402.04236 • Published Feb 6 • 7

upvoted a paper 10 months ago

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

Paper • 2312.04410 • Published Dec 7, 2023 • 14

upvoted a paper about 1 year ago

TokenFlow: Consistent Diffusion Features for Consistent Video Editing

Paper • 2307.10373 • Published Jul 19, 2023 • 57