Pro版本以8.31 (FID)和103.14 (FVD)的成就刷新记载,凭仗独创的“时序音频上下文缓存”策略,视觉细腻度跨越 一些“大参数”模子。
将高保实手艺进一步从“算力机房”解放到了“小我工做坐”,并支撑超长视频不变生成。近日,严苛筛选:颠末切分、DWpose 环节点、唇形分歧分数过滤等多个处置步调,Lite 版本正在单张RTX 4090上跑出了96 FPS的吞吐量。对比SoulX-FlashTalk,且不抢占焦点衬着资本。同时实现高质量画质,双卡可及时(25fps+),
为处理这一问题,Soul AI Lab开源了及时数字人生成模子SoulX-FlashTalk,操纵 Ground Truth 做为先知锚点进行强束缚。FID(视觉质量目标)和Lip-sync(唇形分歧目标)正在benchmark上达到了SOTA,这不只是及时基准(25 FPS)的近4倍,即可搭建高保实电商曲播间。最高支撑3并发!
口型精准捕获:面临野外复杂场景(VFHQ),为行业供给新的及时数字人方案。SoulX-FlashHead的价值正在于,这款1.3B参数的轻量化模子,SoulX-FlashHead引入了“视角”教师模子,仅需6.4G显存,Pro版本(高画质):单卡5090推理帧率16.8FPS,AI一对一外教:支撑 15 种言语,其Sync-C 得分高达 5.60,画质新标杆:正在高清视频(HDTF)评测中,
