MOSS-TTSD: 文本到口语对话生成

OpenMOSS Team

MOSS-TTSD是一个口语对话语音生成模型,实现了中英双语的高表现力对话语音生成,支持零样本多说话人音色克隆,声音事件控制以及长语音生成。

SpeechGPT 2.0-preview

OpenMOSS Team

SpeechGPT 2.0-preview 是我们在迈向情景智能推出的第一个拟人化实时交互系统。基于在百万级高质量语音数据上训练的端到端语音大模型。

数据混合定律:通过预测语言模型表现优化数据配比

Jiasheng Ye

训练数据配比对语言模型的表现的影响可以被定量预测,我们可以利用这一预测指导数据配比选择,比如在预训练中优化模型性能,或在继续预训练中避免灾难性遗忘。

AnyGPT:基于自回归离散序列建模的多模态LLM

詹俊

基于原始的GPT结构和多模态离散化表示,AnyGPT统一了文本、语音、图像、音乐四种模态,并实现任意模态组合的相互转换。

动态环境下的智能体演化式对齐

Shimin Li

在社会准则不断演化的环境中,与社会对齐良好的智能体将得以保留并演化出更适配环境的后代,而对齐不好的智能体则逐渐消亡并被淘汰。

AI助手能否知道自己不知道?

Qinyuan Cheng

我们能否通过对齐的方式让基于语言模型的人工智能助手知道自己不知道什么,并使用语言表达出来,以此增强人工智能助手在实际应用中的真实性。

寻找符号间的连接:基于稀疏字典学习的回路发现理论与实践

Zhengfu He

若字典学习可以提取Transformer中有意义的特征,我们能否据此逆向出Transformer内部的(几乎)所有回路?