开域集团董事长施侃:AIGC在视频赛道有极大商业潜能

频道:AIGC 日期: 浏览:
今年以来,ChatGPT的横空出世,让通用大模型产品备受关注,目前,国内多家企业已经推出相关产品。近日,开域集团董事长兼CEO施侃在接受南方日报、南方+记者专访时表示,通用大模型的研发不应该重复投入,要聚焦细分领域,才有利于未来的发展生态。
开域集团董事长兼CEO施侃
据悉,此前,开域集团正式发布Q.AI技术平台,作为集团在AI领域的最新成果,这是开域集团过去五年来累计投入数亿资金自主研发AI取得的突破性进展。 “Q.AI”展示了基于视频理解的检索技术,通过对海量视频数据的深度学习,让机器拥有对视频归纳和演绎的能力;同时也展示了AIGC视频生成能力,通过AI技术进行高难度的视频内容自动生成。
视频大模型是“多模态”的
“今年以来,AIGC其实是‘破圈’了。”施侃认为,“所谓‘破圈’,就是目前文本大模型如ChatGPT突破了用户对原有人工智能使用的固有印象。”
施侃介绍,开域集团从2018年开始布局进行自有AI算法和模型,目前的技术主要是多模态的短视频生成模型,用户输入文字,就可以搜索、产出视频内容。
据悉,为了达到这个效果,该集团在全网整理1亿规模的短视频数据集,并持续进行了3年左右的视频多模态和生成模型的研究工作。
那么,与文本大模型相比,视频大模型有什么难点呢?“文本大模型是比较单一的形态,视频大模型则包含了画面,声音,旁白等元素,所以叫‘多模态’。施侃认为,相对于文本大模型的一统性,视频大模型很难有一个大模型一统天下,可能会有很多细分,开域瞄准的就是短视频生成的细分。
通用大模型建设不应该重复投入
有专家认为进入AIGC领域,企业首先要确立自己的战略方向是专于技术还是专于应用。对于这样的建议,施侃认为,其实这两种方向其实是两种商业模式,但是专于技术的定位,可能会更为长久,门槛也会更高。
“定位应用,就离市场更近,商业化更快,可以专注一两个痛点来解决问题,定位技术,则是构建一个通用大模型,通过能力逐步开放,让其他人来做应用。”
施侃同时建议,当前,来自算力、电力等方面的投入,其实已经很高,在通用大模型上,不应该重复建设,而是应该细分领域建设,正是因为如此,开域将自己定位在短视频领域的通用大模型建设上,目前已自研了20亿参数的文本视频生成模型。
对于经济的赋能会体现在ToB领域
AI最早的应用是客流统计,在该项应用中,AI高效准确替代人的劳动。
从历史经验出发,施侃判断,AIGC对于经济、产业的赋能,还是会聚焦在ToB领域。“AI本质上把人从一些更加消耗时间的解放出来。比如想视频领域的通用大模型,可以让传媒机构的视频搜索和生产效率,这个就是它的价值,目前,开域集团已在这些方面进行了一些尝试。”
“AI是没有灵魂的,不能叫创作,因此,近期关于通用大模型会伤害人类的担忧,还是过虑了。”施侃坦言,人工智能的本质,是基于海量数据的数学模型计算,它的回答,看起来很有逻辑性,但还是基于此前的历史训练,并不是想象中的大脑思考那样。
【南方+记者】 姚翀
【作者】 姚翀
【来源】 南方报业传媒集团南方+客户端
关键词:

评论