京东发布行业首款“自由态数字人” 五大场景引领交互新体验

2026-03-25 15:12

随着AIGC技术浪潮席卷全球,数字人作为人机交互的新形态,正从概念走向规模化应用。然而,行业长期面临文本控制弱、音视频不同步、长视频生成能力不足三大核心痛点,导致数字人产品同质化严重、交互生硬、应用场景受限,难以满足企业级商用需求。

京东数字人团队近日宣布,其自研的数字人JoyStreamer完成重大技术升级,视频生成框架性能全面超越国际SOTA模型,核心指标达到商用级标准,可落地20余个行业场景,一举解决了上述痛点,为数字人技术的规模化、产业化应用奠定了坚实基础。

技术突破:三大核心技术,全面超越SOTA模型

双教师DMD后训练技术,实现精准可控:以往数字人常因无法准确理解复杂指令而“答非所问”。京东数字人创新性采用双教师模型的DMD后训练方法,无需新增训练数据,通过音频、文本两个专属教师模型,让数字人能够精准响应复杂动作、镜头交互等指令,从根本上提升了文本驱动的可控性。

动态CFG调制策略,实现音画高度同步:声音与动作的割裂是数字人“假”感的主要来源。针对“音频主导节奏、文本主导动作,两种控制信号相互干扰导致数字人动作失真”的行业痛点,京东数字人运用动态CFG调制策略,从根源上解决文本、音频多模态控制冲突,实现了口型、表情、肢体语言与语音内容高度一致,让数字人的表演流畅自然,告别“声画不同步”的尴尬。

历史帧+伪最后一帧结构,实现长视频稳定生成:行业长期面临长视频生成质量下降、画面闪烁、动作重复的难题。京东数字人采用历史帧+伪最后一帧结构,稳定支持30秒以上的高质量长视频生成,全程保持形象统一、动作流畅,为品牌宣传片、课程讲解、直播切片等长内容创作提供了可靠工具。

根据内部测试与第三方基准评测,京东数字人在唇形同步、身份稳定与动作自然度上全方位超越国际SOTA模型,达到商用级水准。

产品创新:行业首款“自由态数字人”引领交互新体验

依托京东JoyAI大模型与三大技术突破,京东率先推出“自由态数字人”,针对家电家居、时尚服饰等五大行业推出精准适配的数字人,打破传统数字人动作僵硬、姿态固定的局限,支持自然走动、灵活摆姿,镜头跟随、出画入画流畅,脸部遮挡也能保持高保真质感,以更自然灵动的交互形态,打造引领行业的全新体验。

“自由态数字人”的推出,不仅是技术能力的集中体现,更是对数字人产品形态的一次革新。它让数字人从“静态播报员”进化为“动态参与者”,能够适应更复杂、更真实的交互场景,为品牌营销、直播带货、虚拟导购等应用带来质的飞跃。

产业赋能:降低创作门槛,构建繁荣产业生态

京东数字人的升级,不仅是一次技术迭代,更是对数字人产业规模化落地的关键推动。当前,京东数字人直播服务免费向所有商家开放,凭借其高可控性与高质量输出,已广泛应用于电商直播、品牌营销、在线教育、企业培训、虚拟客服、影视动画、文旅文创等各领域,累计服务超7万商家。该服务显著降低了内容创作的技术与时间成本,让更多企业、创作者能够轻松使用数字人技术。同时,京东向商家提供一定量的公域流量,以助力提升其曝光度和销售转化率。此外,京东还上线了“数字人直播间复刻”功能,商家仅需上传一段真人直播素材,即可精准复刻主播形象、声线神态与直播间布景,支持大姿态直播间复刻,数字人可实现90度以上转身、出镜、面部遮挡等自由姿态,动作流畅无违和,真人质感直接拉满,让每一场好的直播内容都能转化为可重复变现的数字资产。

京东成功将数字人技术从“能用”推向“好用”,从“工具”升级为“创作伙伴”。这不仅是京东在AI向实道路上的重要里程碑,也为整个数字人产业的高质量发展注入了强劲动力。

(责任编辑:康玲华)

运营商财经(官方微信公众号yyscjrd)—— 主流财经网站,一家全面覆盖科技、金融、证券、汽车、房产、食品、医药、日化、酒业及其他各种消费品网站。

分享至:
文章关键词: 京东