工信部明确部署17项具体任务推动人工智能与信息通信深度融合,其中多模态能力建设是核心命题。2026年6月,科大讯飞星火X2-VL多模态大模型发布、高通加速AI上车、讯灵智能与腾讯云战略合作——多模态AI正从实验室走向产业战场,成为2026年最炙手可热的技术赛道。
国产多模态大模型密集发布竞争升级
2026年6月11日,科大讯飞在无锡具身智能机器人产业链伙伴大会上正式发布星火多模态大模型X2-VL,这是一款面向具身智能场景优化的国产多模态大模型,融合视觉理解、语言推理和运动规划能力。工信部同期发布的数据显示,"人工智能+信息通信"实施意见要求到2028年形成30个以上高价值典型场景,打造一批典型应用和特色智能体,多模态交互是其中的核心能力。腾讯云与讯灵智能的战略合作覆盖AI营销一体化方案和智能办公协同两大领域,多模态内容生成与理解是技术底座。
2026年多模态大模型的竞争已从"能看能说"升级为"能理解能行动"——跨模态理解的深度直接决定了产业落地的广度。
文生视频与跨模态内容生成走向实用化
文生视频技术在2026年进入实用化阶段。华为鸿蒙生态旗下鲸鸿动能在HDC 2026披露,2026年游戏媒体收益同比增长69%,元服务媒体收益实现19倍增长,多模态内容生成与智能投放是其增长引擎。智能终端方面,工信部实施意见提出大力发展人工智能手机和电脑、智慧家庭设备、智能穿戴设备等网智融合新终端,这些终端都需要多模态AI的视觉+语音+触控融合交互能力。跨模态内容生成正在重塑媒体、营销、教育等行业的内容生产流程。
人形机器人引爆具身智能多模态需求
工信部和国资委于2026年6月联合启动人形机器人与具身智能实景实训专项行动,将多模态AI推向了前所未有的应用高度。人形机器人需要同时处理视觉感知、语音指令理解、环境语义理解和运动规划等多模态输入,这对多模态大模型提出了实时性、准确性和鲁棒性三重挑战。新华网报道指出,中国气象局已开放7批12类100余种气象数据,累计提供334TB数据——这些数据正是多模态AI训练的重要资源。长安汽车"天枢领航"系统标配激光雷达、比人眼提前2秒识别障碍物,本质上是车载多模态AI感知系统在工程层面的成功实践。
算力基础设施为多模态AI提供坚实底座
多模态AI的爆发离不开算力基础设施的持续升级。工信部实施意见明确要求加快建设400Gbps/800Gbps骨干传输网络,构建"枢纽—区域—边缘"三级节点协同的算力设施体系,城域毫秒级低时延入算能力覆盖率不低于75%。国家数据局数据显示,2025年全国活跃数据总量达1.67ZB,同比增长28.46%,多模态训练数据供给充足。中科院正在加快国家级科研语料库建设,国家市场监管总局联合发改委构建高质量数据集、标准参考数据集和测试数据集,打破行业数据壁垒——多模态AI正在获得前所未有的"粮草"供给。
常见问题
传统AI通常只处理单一模态数据(如纯文本或纯图像),多模态AI能同时理解文本、图像、语音、视频等多种数据形式,并进行跨模态推理和生成,模拟人类"眼耳口"协同认知方式。
2026年主流文生视频模型已能生成60秒以上连贯视频,分辨率支持1080P,一致性显著提升。但复杂物理场景模拟和角色一致性仍是技术瓶颈,实际商用集中在短视频营销、产品展示等场景。
具身智能要求多模态AI在毫秒级延迟下完成"感知-理解-决策-执行"全链路推理,这对模型实时推理能力和边缘计算部署提出了极高要求,也是工信部推动网络边缘推理能力建设的原因。
工信部构建的三级算力体系(枢纽-区域-边缘)和多模态模型蒸馏、量化等技术正在大幅降低推理成本。400Gbps骨干网和75%城域毫秒级入算覆盖将为边缘部署提供网络基础。
来源:新华网-2025年全国活跃数据总量同比增长28.46% | 36氪-科大讯飞发布星火多模态大模型X2-VL | 新华网-工信部印发人工智能+信息通信实施意见 | 36氪-讯灵智能与腾讯云达成战略合作 | 新华网-高通与中国汽车产业共建智能网联生态 | 36氪-长安天枢领航亮相重庆车展










