科技行者
算力行者
作者| 金旺
2021年的某一天,在亚马逊科技组织的一个创业者圆桌论坛上,赵彬第一次遇到黄硕。
黄硕曾是蚂蚁金服人工智能部高级总监,在人工智能,尤其是计算机视觉算法领域有着多年的开发经验和项目管理经验,彼时,已经创业多年的黄硕,是以一家与亚马逊科技有着深度合作的人工智能公司创始人的身份受邀参加活动。
黄硕当时创立的公司叫大觥科技,这一年,大觥科技刚好处于一个特殊时期——前两年保持高速增长的图像修复与增强业务已经相当成熟,黄硕开始寻找符合公司未来发展方向的新项目。
同样作为人工智能、计算机视觉领域的技术专家,赵彬当时在另一家人工智能明星创业企业中负责着数字人项目的研发与业务搭建工作。对技术有着自己的执念的赵彬,彼时也在寻找一个有足够弹药和机会,寻找一个踏踏实实做事儿的公司,继续将自己对数字人的执念进行下去。
数字人,刚好也在大觥科技的射程之内,于是,两人就这样你来我往地攀谈起来。
同为科班出身,又有着相似的技术理念,再加上当时数字人的未知和潜力本就是一个足以令技术从业者兴奋的话题,两人相谈甚欢之余,黄硕向赵彬抛出了橄榄枝:
要不要一起做一个更酷的产品?
来自好莱坞的灵感
2022年4月1日,张国荣逝世19周年,这一天,张国荣2000年《热·情》演唱会在网上疯狂转发,整个朋友圈都在怀念张国荣,怀念那个被风吹过的夏天。
这次复刻版线上演唱会除了让人们再次怀念起一代歌神张国荣,也让腾讯和它的多媒体视频修复技术浮出水面,据当时媒体报道,腾讯云的相关团队花了21天,将这场20年前的演唱会视频分辨率提升了6倍,从480p提升到了将近4k画质。
成立于2018年的大觥科技,同样是以影像修复算法起家,只不过,他们最初更多是为商业客户提供专业影视级的视频修复9479威尼斯的解决方案,例如为新华社、中影基地、cctv提供影像修复9479威尼斯的解决方案,并应用到国家级影像修复项目中。
实际上,大觥科技当时不只服务于中国的影视机构,也在为国际知名机构提供影像修复9479威尼斯的解决方案,一次,黄硕出差美国在为好莱坞某个项目奔忙时,一位好莱坞专业电影制片人向黄硕提了一个问题:
你们有这么棒的技术,为什么不把它用在街头,让大家都用起来呢?
商机往往就这样来自于旁观者的奇思妙想。
于是,大觥科技开始尝试将专业影像处理技术应用到消费端,准确地来说,他们将这些“高阶”算法封装到了一款手机app中。
2019年,大觥科技制作的这款图像增强app在海外上线,当时他们只是抱着试一试的心态,没有想到的是,这款产品市场反响出奇地好,上线不到一年时间里,用户注册数就从0增长到了1.2亿。
后来大觥科技内部复盘这次产品成功的关键时,总结了以下三点:算法独一无二、效果直观明显、成本足够便宜。
说是三点,其实也可以归结为一点,也就是出色的ai算法研发与工程化能力。
2019年,语音识别、计算机视觉在商用领域已经有所突破,智能音箱出现在普通人的家庭,安防摄像头甚至在张学友的演唱会上还帮助警察抓到了逃犯,但这还远谈不上什么智能。据赵彬回忆,“当年的深度学习、神经网络算法还没有那么先进,开箱即用的ai算法依然稀缺,算力成本也比较高,不像现在,有很多成熟好用的算法可以直接调用。”
赵彬认为,ai算法大爆发,实际上是在2022年。
也是在这一年,大觥科技的老旧照片修复业务日渐成熟,他们也开始寻找新的业务方向。
用一个时髦的说法是,那时的他们需要寻找自己的“第二增长曲线”。
初识数字人
2020年,抗疫成了全球主色调,潜藏在疫情之下的,还有全球经济衰退,尤其是伴随着互联网流量增速放缓、广告营收下降,互联网经济也再次进入萎靡期。
面对这样的大环境,以及企业自身的增长压力,全球互联网企业都开始寻找新的“增长曲线”,在这个过程中,两大新兴产业开始甚嚣尘上,一个是元宇宙,另一个则是web3。
元宇宙在随着全球互联网巨头facebook更名为meta进入白热化状态后,2021年也被称为元宇宙元年,这时,随着一同跨入“元年”的,其实还有功能同样炫酷但更容易落地的数字人。
2021年6月,腾讯虚拟数字人星瞳开始尝试在b站直播;2021年9月,华为首个虚拟数字人“云笙”上线并入职华为云;2021年9月,阿里官宣超写实数字人ayayi入职阿里,成为天猫超级品牌日数字主理人;2021年11月,百度超写实数字人龚俊在百度app上线……,数字人这一年纷纷在互联网大厂入职上岗。
在互联网巨头集中发力下,在各地政策、扶持基金的共同推动下,数字人迅速井喷。
当年虚拟数字人被热捧到一个怎样的夸张程度?
据中国电子学会统计数据显示,2021年国内数字人相关企业融资共有2843起,融资金额达2540亿元。另有数据显示,2021年我国仅仅是新增虚拟数字人企业就超过了6万家。
在数字人井喷式增长的同时,这一年,数字人也在经历着需求不明和全民吐槽。
花上百万元做出一个数字人后,不知道如何用数字人开展业务的企业在这一年比比皆是,而抛开各种穿模、肢体僵硬、频频卡死数字人不谈,这一年在网络上红极一时的数字人博主柳夜熙,仅仅制作费就已经是百万元级,就连第一条短视频成本也要几十万元。
这样的数字人,显然无法做到“人均一个数字人”。
在数字人席卷中国的这一年里,赵彬正在一家人工智能明星创业企业里带队研发虚拟数字人,推动数字人在实际场景中应用落地。
赵彬告诉科技行者,“当年的数字人分为2d数字人和3d数字人,2d数字人圈内也叫纸片人,当时大家看了这类数字人除了做虚拟迎宾、虚拟主播,也干不了别的事儿。”
“直到星瞳、ayayi这类3d超写实数字人出现后,我们发现,它的表现力很强,既可以自由地在3d空间中移动,也可以做出非常流畅的动作,还可以与其他数字人、场景及商品进行互动,超写实的数字人无论是在美感上,还是质感上,都已经能够打造成独立的 ip 形象应用于文化传播、直播带货、虚拟社交等。”
3d数字人的出现,让像赵彬这样的技术从业者兴奋起来,也让他们更确定了数字人的价值和意义。
不过,赵彬真正着手研发3d数字人,还要再晚一年。2022年,赵彬接受了黄硕的邀请,加入大觥科技,并于这年3月在大觥科技正式启动了3d数字人项目。
3d世界的“学费”与“路费”
2022年,当大觥科技正式启动数字人项目时,最初选择的是一条最为艰辛的路。
通过maya或3dmax根据手绘图、立绘图、三视图进行建模,是动画、影视行业最常用的一种建模方式,也是最成熟的一种建模方式,这一方式,同样延续到了后来3d数字人的建模中。
作为行业中的“新人”, 大觥科技需要亲历整个过程,才能了解数字人制作各个环节中涉及到的技术和知识,也只有掌握了这些基础知识,才能更精准地进行技术选型与开发迭代。
然而,让赵彬没有想到的是,以此方法,仅仅研发第一个数字人,大觥科技花了整整三个月。
谈到这个数字人,赵彬用了一个很形象的词——“雕”来形容开发过程。
“我们首先需要雕出一个数字人,之后还需要为她雕衣服、雕头发、做绑定,中间涉及到大量的修改、优化与重做,一个细节修改通常要花几天到几周的时间,整个过程往往需要花费2-3个月的时间,成本则是在几十万到上百万不等。”
当时大觥科技用3d建模方式做出的数字人效果已经很不错,也有一些b端用户提出了这样的需求,但在评估了盈利模式后,他们最终还是放弃了这条技术线。
“一个数字人做3个月,我们自己的团队一年也就只能做出4-6个数字人,无论是从投入成本还是研发周期来看,我们都无法接受。”赵彬如是说。
不过,这次的研发经历让赵彬和他的团队亲身实践并学到了很多基础知识和技术能力,用赵彬的话说就是“弄明白了3d世界是怎么玩的”。
除去3d建模方式,业界还有三种主流数字人构建方式:相机阵列、扫描和手机自拍。
相机阵列多用于游戏制作场景,具体是在一个房间中,通过在房间各个方位布设的专业相机,对进入房间的人进行环拍,并基于此建模,制作数字人。
这一模式存在两个问题,首先是拍摄完生成的数据需要进行二次处理,建模时间依然需要很久,最重要的是,其中使用的专业相机动辄几万、十几万。据悉,腾讯游戏团队购置的空间扫描的整套设备一套就要2000多万。
此外,扫描方式同样存在类似的问题。
因而,要想造出大家都能用得起的3d数字人,通过「手机自拍」就成了最适合的模式。
在选定使用「手机自拍」这一模式后,大觥科技逐渐摸索出一条属于自己的技术路线,据赵彬介绍,大觥科技现在通过3-4秒的自拍视频或者几张不同角度的照片,就可以在几分钟内快速生成一个人3d数字人形象。
与此同时,在前期调研中,赵彬还发现,当时市面上很多开源9479威尼斯的解决方案并没有解决语音与数字人模型匹配的问题。
“一是中文口型不够自然,二是面部表情不够丰富,只有嘴动、面部没有动。”
赵彬认为,这些都将会成为大觥科技数字人后续商业化道路上的障碍。于是,在研发数字人的过程中,赵彬和他的团队基于主流的苹果arkit blendshape 52同步研发了一套语音与数字人进行模型匹配的算法。
由于这是大觥科技基于行业标准做的一套标准算法,而且当时在行业中也有稀缺性,这套算法后来也被一些做短视频内容生成的企业采购用于解决他们3d数字人的口型驱动问题。
至于数字人的商业应用场景,大觥科技最先找到的是电商直播。大觥科技第一代3d数字人在2023年2月正式落地到一家跨境电商的直播场景中,通过引入大觥科技的3d数字人,这家跨境电商的营收增加了数十万美金。
也是在这次合作中,赵彬意识到,他们的数字人,需要继续加速迭代。
数字人的3d时刻
2023年,chatgpt的出现震惊了全世界,chatgpt背后的agi(通用人工智能)也开始在各行业中形成蝴蝶效应。
这时,数字人这个本就归属于人工智能产业中的一个细分领域,也难免会受到“波及”,更准确地来说,应该是加速了数字人产业的进程。
据赵彬观察,今年数字人产业会发生两个大的变化:
一个是 stable diffusion controlnet mov2mov,再加上一些新的类d-id人工智能技术,将会引发新一轮2d数字人产业变革;
另一个是数字人与gpt结合已成必然趋势。
赵彬说,他现在已经在用chatgpt写代码了。
“之前把一个复杂的c#代码转成c 是一件费时费力的事儿,转成c 还需要查语法,重新写代码、调bug,现在我只需要把c#代码扔给chatgpt,它就可以帮我把代码翻译成c 版本,之后再稍微花些时间进行调试就好了,比传统方法省时省力很多。”
更重要的是,赵彬和他的团队已经在针对数字人与gpt的结合进行着紧锣密鼓的技术研发。
赵彬说,对于用户而言,数字人的使用实际上是通过一套saas软件来实现的——用户通过将商品信息录入数据库,数字人就可以按照商品排列顺序,进行24小时直播。
在大觥科技第一代数字人中,用户还需要将商品信息以文字形式录入数据库,赵彬和他的团队现在正在做的是通过引入chatgpt,直接由chatgpt生成商品介绍,此外,gpt 还可以提供内容的改写、翻译、缩扩容等功能,可以根据不同的使用场景调整语言语义表达,数字人直播过程中的背景图,也可以直接由aigc生成并接入到直播视频中。
针对数字人电商直播场景,赵彬和他的团队也在思考如何补齐数字人在交互能力上的短板。
赵彬告诉科技行者,大觥科技正在为第二代数字人加入问题回复能力。
具体而言,通过后台服务监听直播间的弹幕信息,针对诸如发货、物流、仓储周期等同类问题进行智能汇总,并通过chatgpt的pdf检索能力及私有化知识库训练,数字人就可以从大觥科技为商家构建的本地知识库中提取出相应内容,在介绍下一个商品前做统一回复。
2023年,随着chatgpt爆火,agi成了科技巨头的新宠,作为旧宠的数字人开始趋于理性,大家更多开始思考数字人能为业务带来怎样的提升,也对数字人提出了更接地气的需求。
赵彬经历了数字人最狂热的年代,也参与了大觥科技数字人从0到1的构建,他判断,2023年会是
3d数字人的元年,数字人在这一年将真正跨越2d时代。
而这一年数字人产业的巨变、3d数字人的“量产”,也将让我们离“人均一个数字人”的时代更近一步。
好文章,需要你的鼓励
操作系统有我们看不见的一面,是对计算系统底层资源的管理。但是对于大多数用户而言,操作系统看得见的另一面,则更为重要,它就是——人机交互方式。
大模型要想在人形机器人上发挥出魔力,至少要满足一个基础条件:数学模型与物理模型之间的统一。