百融云创率先破局，探究行业生态-郑州说-百融榕树|钱小乐-郑州说与你分享

从语言模型到多模态，大模型正加速往纵深演化。近日，《时代周报》聚焦百融云创，探究多模态将如何颠覆行业生态。

　　以下为报道全文：

OpenAI于近期发布第三代文生图大模型DALL·E 3，可以在ChatGPT上加载使用；随后，Meta推出AnyMAL，同样能够理解图片并可生成文本回应。一系列文生图产品的推出，使得多模态热度大增。

　　AI大模型生态正向纵深演化。纯文本交互已经不能满足智能感知的全部需求，还需要结合音频、视觉、图片等形式。逐鹿大模型的互联网巨头及科技公司加紧开发多模态应用，进一步释放AIGC生产力。

　　创新算法底层逻辑

　　“所有行业都值得用AI重做一遍”，在大模型对各行各业进行颠覆性重构的路上，面对不同场景的交互需求，除了传统的文本之外，还需要云服务厂商将其模态应用向图片、语音、视频、代码等形式转化。

　　这个过程绝非易事。看似简单的交互，背后彰显的是多个AI技术的综合能力。

　　其中一大难题就是每种模态都具有特定的特征提取和分析方法，这需要创新算法和技术来处理不同模态间的数据。以视频形态来说，市面上一直缺少良好的方法充分理解视频场景，所以很多产品都只能按照某种固定逻辑生成，无法真正理解视频元素的含义。

　　日前，微软与OpenAI就ChatGPT5交流谈到，OpenAI将攻克的一大目标是通过对于算法底层逻辑的融合、创新，让大模型能够充分理解视频内容以及各角色主体之间的关联，从而能够按照特定语境生成深层次的视频内容。

　　再以音频形态而言，不同于视频重在对于多维信息的把握，音频交互更强调对情感、意图的充分掌握，由此语音识别的关键技术，是要充分捕获情感、音色甚至是方言，从中准确地抓取关键信息。

　　在音频-文本的交互领域，国内走在前沿的是百融云创。其自研的智能语音机器人ChatBOT基于Transformer架构搭建算法模型，对于语音识别的准确率达99%以上，能够实现“真人级”互动体验。同时，ChatBOT不仅仅是对话机器人，而是一个帮助实现端到端结果交付的智能体。ChatBOT直接关联商业机构KPI，可以助力商业机构实现资产运营和用户焕活流程的自动化。

　　而除了算法层面外，百融云创相关人士表示，多模态的智能交互对于模型的工程架构、响应速度、资源配置等均提出了更高要求，以文本-语音交互为例，需要依托深刻的行业理解沉淀出高质量配对的语料，才能实现流畅、准确的用户交互。

　　率先破局“AI辅助研发”

　　随着大模型进入拼落地、拼应用的下半场，为了让AI技术更加融入千行百业，多模态领域势必会以更快的速度发展革新。

　　目前来看，多模态的主流构建思路并不是重新训练一个大模型，而是在已经训练好的大语言模型中“嵌入”图像理解、语音识别等技术，也就是通过引入多模态的数据集来攻克跨领域的技术难点。例如，百融云创的产业大模型——BR-LLM便结合了NLP（自然语言处理）、智能语音等技术。

　　也有一些科技公司尝试基于特定需求直接训练多模态基础模型。但不论采取怎样的方式，毫无疑问大模型生态下半场已经打开。业内人士认为，随着模型能力的增强，AI应用范围将不再局限于单一功能或者单个产品，而是会扩围到更广阔的应用场景。在这样的背景下，能否快速、高效地将技术产品化，料成为决胜未来的关键因素。

　　此前，为了让AI技术更加深入赋能垂直场景，百融云创优化原有机器学习平台ORCA，将其与生成式AI理念紧密结合，形成的全新产品ORCA-GPT可以利用BR-LLM的代码生成能力，极大地降低模型产品开发部署的周期和成本。

　　同时，伴随着与多模态发展相关的全新研究方向——“AI for Science”（AI辅助研发）逐渐崭露头角，百融云创率先捕捉到这一趋势，依托BR-LLM基座，于近期推出了一款全新智能代码生成助手——BR-Coder。

　　“BR-Coder将极大地提升程序员的开发效率，助力商业机构研发提质增效。”百融云创专家称，BR-Coder不仅能生成研发代码，还可以用于自动生成测试用例和单元测试、解答技术问题，在保障企业数据资产安全的同时，提升模型生成代码的一次采用率。展望后续，BR-Coder会进一步增强与编译环境的交互，为开发者提供更为全面和便捷的编程体验。