|
|
4月21日,腾讯对外正式公布,腾讯“混元”AI大模子在MSR-VTT,MSVD,LSMDC,DiDeMo和ActivityNet 五大跨模态视频检索数据集榜单中前后获得第一位的成就,实现了该范畴的大满贯。
出格是在MSR-VTT榜单上,“混元”AI大模子将笔墨-视频检索精度进步到55%,领先第二名1.7%,位居行业第一。

图1:各模子方式在5个公然数据集上目标对照
据悉,这是腾讯初次对表面露“混元”AI大模子的研发停顿,该模子包括但不限于:计较机视觉、自然说话处置、多模态内容了解、文案天生、文生视频等多个偏向的超大范围AI智能模子。“混元”AI大模子基于腾讯太极机械进修平台停止研发,借助GPU算力,实现快速的算法迭代和模子练习。
近年来,图文及视频内容在互联网内容中所占比例不竭进步,若何更细粒度的了解视频内容,融合多个模态的特征信息,成为跨模态视频检索技术的“重中之重”,在AI范畴有深入研讨的科技公司纷纷起头在该范畴结构和投入。
MSR-VTT、MSVD、 LSMDC、DiDeMo、ActivityNet是行业内最具威望性的五大跨模态视频检索数据集榜单,主办单元包括微软、加州大学伯克利、阿卜杜拉国王科技大学等,检索库涵盖了平常生活的诸多场景,已经成为科技企业和研讨机构展现AI大模子技术气力的重要的竞技场之一。
经过量年研讨,腾讯广告多媒体AI团队以条理化、细粒度、高精度为方针,提出了“混元“跨模态视频检索AI大模子(简称HunYuan_tvr)。与业界其他大模子相比,团队初创了层级化跨模态技术,可将视频和文本等跨模态数据别离做拆解,经过类似度分析,综合考量并提取视频和文本之间条理化的语义关联。

图2:HunYuan_tvr模子架构表示图
这类“先分层、再关联、后检索”的交互方式,一方面可捕捉多模态(笔墨、视频)内部的细粒度语义信息,另一方面也能有用地检索跨模态数据间的关联性,从而大大提升了检索的切确度。
切确度的大幅提升代表国内在多模态内容了解方面的技术研讨获得了新冲破,这意味着计较机将进一步切近人类对视频内容的了解与认知才能。同时,“混元”AI大模子的优越性及泛化性获得了考证,将为AI学术研讨和产业级利用带来更多持久代价。
今朝,“混元“AI大模子已被普遍利用到广告创作、广告检索、广告保举等腾讯营业场景中。一方面,该模子可以帮助广告创作者和腾讯平台方猜测视频内容与消耗者群体之间的爱好关联,提升创作效力;另一方面,可以有用提升广告保举的精准度,让内容搜索和婚配加倍切确,有用优化用户体验。 |
|