
官网地址:
https://www.gzgj.cc
一、核心能力与场景定位
核心能力:
实时互动:响应观众评论(文字 / 语音)、回答问题、执行指令(如 “展示商品细节”)。
内容自主生成:结合脚本或实时 AI 生成直播话术(如产品介绍、促销讲解)。
动作与表情同步:数字人肢体动作、面部表情(微笑、点头)与语音 / 内容匹配,自然不僵硬。
多模态输出:支持语音、画面、字幕同步,部分场景可结合虚拟背景切换(如直播间、产品场景)。
典型场景:
电商带货:24 小时不间断讲解商品、回应咨询、引导下单(如服饰试穿、美妆演示)。
品牌直播:数字人作为品牌 IP,宣讲品牌故事、新品发布,适配多平台(抖音、淘宝、视频号)。
知识直播:教育机构用数字人实时讲解课程、解答学员问题,支持多轮互动。
活动主持:虚拟数字人主持线上会议、展会,串联流程并与嘉宾 / 观众互动。
二、技术架构与核心模块
数字人实时直播的技术链路较长,需实现 “输入解析→内容生成→数字人驱动→实时渲染→多平台推流” 的全流程闭环,核心模块包括:
1. 实时交互与内容生成层观众输入解析:
评论抓取:对接直播平台 API(如抖音开放平台、淘宝直播 API),实时获取观众文字评论。
意图识别:通过 NLP 模型解析评论意图(如 “多少钱”“有没有优惠”“适合油性皮肤吗”),提取关键信息(商品 ID、属性等)。
语音交互(可选):若支持语音评论,通过 ASR(语音识别)转文字,再进入意图解析流程。
直播内容生成:
脚本驱动:预设直播脚本(如产品卖点、流程节点),数字人按脚本顺序讲解,同时穿插对观众评论的实时回应。
AI 实时生成:结合大模型(如 GPT-4、文心一言、LLaMA),根据直播主题、商品信息、观众问题动态生成话术(需控制生成速度,避免卡顿)。
多轮对话管理:维护直播上下文(如 “刚才讲的口红是什么色号?” 需关联前文内容),确保回答连贯性。
