首页 > 新车上市 > 新车上市 > 你有想象过喜欢的UP主说英语的样子吗?B站上线AI原声翻译功能,基于自研模型

你有想象过喜欢的UP主说英语的样子吗?B站上线AI原声翻译功能,基于自研模型

发布时间:2025-08-08 15:30:32

8 月 6 日消息,Bilibili Index 团队于 8 月 4 日发布博文,宣布通过自研 IndexTTS2 模型,推出“原声风格”视频配音功能,可以支持将部分中文视频翻译为外语的原声风格配音。

而在最新博文介绍中,官方介绍了该功能背后的 AI 模型。

该团队表示通过该自研模型,让视频人物不再是千篇一律的“代言人声线”,而是像本人亲自讲外语一样自然,声音、语气、节奏,甚至个性表达都和原片几乎一致,观众可以听到“这个人用另一种语言在说话”。

BILIBILI IndexTTS2 模型架构

BILIBILI IndexTTS2 模型架构

该模型创新性地提出了一种通用于 AR 系统的“时间编码”机制,首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时,也具备了合成定长语音的能力。

团队还推出通过音色克隆、声场一致性、多声源融合等技术,解决了传统配音中声音人格缺失、字幕干扰及本地化成本高等痛点。

系统还针对多说话人场景优化说话人分割、情绪迁移与语速控制,并引入 RIVAL 对抗式强化学习框架提升翻译质量与风格适配度。

在视频层面,结合字幕擦除与基于 Diffusion 的高保真唇形同步,确保音画一致与沉浸感。B站表示,未来将支持更多语言,并计划开源模型,推动多语言、跨模态内容全球化传播。

新车上市更多>>

佳能无线麦克风WM-E1-R渲染图曝光:热靴直插+蓝牙传输 马年春节晚会AI 模型大战,谁是最大赢家? Counterpoint报告:TCL登顶2025年12月全球电视出货量榜首 纽约叫停自动驾驶出租车扩张计划,Waymo表示失望 免注册、免费用:DuckDuckGo上线AI修图功能 扎克伯格大砍成本资助AI 上万名Meta员工股权奖励又降了 谷歌Gemini 3.1 Pro发布:推理能力翻倍,专为复杂任务而生 亚马逊成全球营收最高企业,终结沃尔玛13年《财富》500强霸榜 扎克伯格:Meta的目标是让Instagram更具“实用价值” 马斯克亮相达沃斯:FSD最快2月在中国获批 Optimus明年开售 当短视频从流量工具跃升为产业连接器,2025年企业家视频IP正式迈入“生态价值”深水区 阿里拟拆分AI芯片制造部门平头哥上市 京东推出Au99.99黄金手机壳:最高售价超11万,现已无法购买 百川发布医疗大模型Baichuan-M3 Plus:采用“证据锚定”技术 幻觉率降至2.6% GEO火了,流量革命近了? AI硬件爆火这一年,是虚假繁荣还是时代拐点? 余承东:车辆120km/h时 风阻消耗能量可达70% 天籁史无前例大幅降价:B级车杀入A级价格带,最高降5.5万引市场震荡 不得了,这个新技术把视频压缩到了0.02% 乐道L60“马到成功”版车型1月16日上市交付:内饰加入“金马” 社交出海大年,成也AI败也AI 千问App全面接入阿里生态场景,向所有用户开放测试 一代股神巴菲特警告AI技术存在失控风险:堪比“核武器” 苹果全新MacBook Pro将在本月上架:首发M5 Max芯片 Anthropologie、OpenAI和SpaceX已开始筹备IPO 顺丰控股与极兔速递宣布83亿港元战略相互持股 共建全球一体化物流网络 智元成立灵巧手子公司“临界点”,前腾讯Robotics X熊坤带队 软件ETF(515230)涨超2.3%,技术突破与需求回暖驱动行业前景 农村取暖是关乎民生的必答题 勇担上游责任 守护碧水东流——重庆筑牢长江上游生态屏障观察