Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

长文本生成语音会出现错误,语音后半部分的语序会错乱,会突然跳过几句,然后在最后的时候读出来,短文本生成的时候就没事。 #133

Open
echotxl opened this issue Mar 20, 2025 · 5 comments

Comments

@echotxl
Copy link

echotxl commented Mar 20, 2025

文本生成:“今日是二零二五年三月十九日,国内外热点事件聚焦于国际局势、经济政策及社会民生领域:国际局势中,某国领导人围绕地区冲突停火问题展开对话,双方同意停止攻击对方能源设施并推动谈判,但对全面停火提议的落实仍存分歧。某地区持续军事行动导致数百人伤亡,引发民众抗议,质疑冲突背后的政治动机。另有一方宣称对连续袭击军事目标负责,称此为对前期打击的回应。欧洲某国通过争议性财政草案,计划放宽债务限制以支持国防与环保项目,引发经济政策讨论。国内动态方面,新修订的市场竞争管理条例将于四月二十日施行,重点规范市场秩序。多部门联合推出机动车排放治理新规,加强对高污染车辆的监管。社会层面,某地涉及非法集资的大案持续引发关注,受害人数以万计,涉案金额高达数百亿元,暴露出特定领域投资风险。经济与科技领域,某科技企业公布年度营收突破三千六百五十九亿元,并上调智能汽车交付目标至三十五万台。另一巨头宣布全面推动人工智能转型,要求各部门绩效与人工智能应用深度绑定,计划年内推出多项相关产品。充电基础设施建设加速,公共充电桩总量已接近四百万个,同比增长超六成。 民生政策方面,多地推出新举措:某地限制顺风车单日接单次数以规范运营,另一地启动职工数字技能培训计划,目标三年内覆盖十万女性从业者。整体来看,今日热点呈现国际博弈复杂化、国内经济科技加速转型、民生政策精准化调整的特点。”

生成的语音后半部分的语序会错乱,会突然跳过几句,然后在最后的时候读出来,并且后面的语速也会加快,好像为了赶时间一样。短文本生成的时候就没事。

@euzenlee
Copy link

单次生成音频的最长时间是1分钟,你提到的现象,都是围绕着这个而产生的。

@echotxl
Copy link
Author

echotxl commented Mar 24, 2025

单次生成音频的最长时间是1分钟,你提到的现象,都是围绕着这个而产生的。

这是认为限制还是模型本身的缺点

@euzenlee
Copy link

单次生成音频的最长时间是1分钟,你提到的现象,都是围绕着这个而产生的。

这是认为限制还是模型本身的缺点

长文本的话,自己使用脚本(或等别人的脚本)分割一下就好了。提供的demo程序只是让我们体验,本身并不是一个成熟可用的产品。每次生成1分钟的语音,也够用了。使用中的主要问题还是克隆声音时生成语音还不够稳定,也可能是使用的克隆音源有瑕疵。会生成空白或只有一半的语音。

@echotxl
Copy link
Author

echotxl commented Mar 24, 2025

单次生成音频的最长时间是1分钟,你提到的现象,都是围绕着这个而产生的。

这是认为限制还是模型本身的缺点

长文本的话,自己使用脚本(或等别人的脚本)分割一下就好了。提供的demo程序只是让我们体验,本身并不是一个成熟可用的产品。每次生成1分钟的语音,也够用了。使用中的主要问题还是克隆声音时生成语音还不够稳定,也可能是使用的克隆音源有瑕疵。会生成空白或只有一半的语音。

生成200字以内的文字,貌似没遇到空白和一半语音的情况,用的事例的语音克隆的

@lr389032
Copy link

对我也遇到了相同问题,最好办法只能控制输入文本字数来控制最佳的时间大概是35s左右,然后自己再写脚本去合并,为了效果更好只能用专业音频软件adobe去进行一些处理了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants