京东发布行业首款“自由态数字人” 五大场景引领交互新体验

2026-03-25 15:12

随着AIGC技术浪潮席卷全球，数字人作为人机交互的新形态，正从概念走向规模化应用。然而，行业长期面临文本控制弱、音视频不同步、长视频生成能力不足三大核心痛点，导致数字人产品同质化严重、交互生硬、应用场景受限，难以满足企业级商用需求。

京东数字人团队近日宣布，其自研的数字人JoyStreamer完成重大技术升级，视频生成框架性能全面超越国际SOTA模型，核心指标达到商用级标准，可落地20余个行业场景，一举解决了上述痛点，为数字人技术的规模化、产业化应用奠定了坚实基础。

技术突破：三大核心技术，全面超越SOTA模型

双教师DMD后训练技术，实现精准可控：以往数字人常因无法准确理解复杂指令而“答非所问”。京东数字人创新性采用双教师模型的DMD后训练方法，无需新增训练数据，通过音频、文本两个专属教师模型，让数字人能够精准响应复杂动作、镜头交互等指令，从根本上提升了文本驱动的可控性。

动态CFG调制策略，实现音画高度同步：声音与动作的割裂是数字人“假”感的主要来源。针对“音频主导节奏、文本主导动作，两种控制信号相互干扰导致数字人动作失真”的行业痛点，京东数字人运用动态CFG调制策略，从根源上解决文本、音频多模态控制冲突，实现了口型、表情、肢体语言与语音内容高度一致，让数字人的表演流畅自然，告别“声画不同步”的尴尬。

历史帧+伪最后一帧结构，实现长视频稳定生成：行业长期面临长视频生成质量下降、画面闪烁、动作重复的难题。京东数字人采用历史帧+伪最后一帧结构，稳定支持30秒以上的高质量长视频生成，全程保持形象统一、动作流畅，为品牌宣传片、课程讲解、直播切片等长内容创作提供了可靠工具。

根据内部测试与第三方基准评测，京东数字人在唇形同步、身份稳定与动作自然度上全方位超越国际SOTA模型，达到商用级水准。

产品创新：行业首款“自由态数字人”引领交互新体验

依托京东JoyAI大模型与三大技术突破，京东率先推出“自由态数字人”，针对家电家居、时尚服饰等五大行业推出精准适配的数字人，打破传统数字人动作僵硬、姿态固定的局限，支持自然走动、灵活摆姿，镜头跟随、出画入画流畅，脸部遮挡也能保持高保真质感，以更自然灵动的交互形态，打造引领行业的全新体验。

“自由态数字人”的推出，不仅是技术能力的集中体现，更是对数字人产品形态的一次革新。它让数字人从“静态播报员”进化为“动态参与者”，能够适应更复杂、更真实的交互场景，为品牌营销、直播带货、虚拟导购等应用带来质的飞跃。

产业赋能：降低创作门槛，构建繁荣产业生态

京东数字人的升级，不仅是一次技术迭代，更是对数字人产业规模化落地的关键推动。当前，京东数字人直播服务免费向所有商家开放，凭借其高可控性与高质量输出，已广泛应用于电商直播、品牌营销、在线教育、企业培训、虚拟客服、影视动画、文旅文创等各领域，累计服务超7万商家。该服务显著降低了内容创作的技术与时间成本，让更多企业、创作者能够轻松使用数字人技术。同时，京东向商家提供一定量的公域流量，以助力提升其曝光度和销售转化率。此外，京东还上线了“数字人直播间复刻”功能，商家仅需上传一段真人直播素材，即可精准复刻主播形象、声线神态与直播间布景，支持大姿态直播间复刻，数字人可实现90度以上转身、出镜、面部遮挡等自由姿态，动作流畅无违和，真人质感直接拉满，让每一场好的直播内容都能转化为可重复变现的数字资产。

京东成功将数字人技术从“能用”推向“好用”，从“工具”升级为“创作伙伴”。这不仅是京东在AI向实道路上的重要里程碑，也为整个数字人产业的高质量发展注入了强劲动力。

（责任编辑：康玲华）

运营商财经（官方微信公众号yyscjrd）—— 主流财经网站，一家全面覆盖科技、金融、证券、汽车、房产、食品、医药、日化、酒业及其他各种消费品网站。