在生成式AI兴起的一年内★★,人工智能走向生物科学、应用心理、天体物理★、图文创作★、视频剪辑……
我在大学学的是工程装备与控制,这个是比较偏机械类的一个专业★★。当时在学校有自学考了国家程序员认证,然后在学校网络部有做一些实习,所以毕业之后一脉相承就做了网站相关的开发的工作★。
就汽车而言,有些用户想了解车的空间、有些想了解加速度、有些想了解油耗,但受限于视频的单线程浏览模式,只能一帧一帧扒,既费时★★、效率又低。如果开头不够引入入胜★,不到一分钟就会点击退出。有了AI提取关键信息★★★,用户可迅速浏览文本关键词精准定位每辆汽车的性能、细节、信息。
这是国内目前首个基于“图像OCR、语音识别 + AI大模型推理★★”搭建的垂类视频主题提取产品。在这之前★,百度虽然也研发了类似功能★,但提取内容过于抽象,并不能聚焦于具体的细节、功能、数据,提供有价值的信息。
网站开发虽也涉及到专业的编程知识,但和生成式AI的逻辑还是有着质的区别。
看到这个缺口,刘沛便想★★,能不能用AI自动生成一段视频的主旨、大纲,让受众直接找到自己喜欢的信息点击观看★★。
两年前,没有多少人系统接受过专业的人工智能训练★,都是听到业内的人说好用,便一窝蜂地去国内外找开源模型★★,去Google检索教程和学习资料。
在刘沛的构想里,一场汽车发布会的拍摄、剪辑、发布可能要一两个小时★★,但现在,有了AI,就只需要几分钟的时间★。
他能快速定位到他感兴趣想要看的内容,有这种基于这样的一个用户的一个需求,然后结合我们的业务场景,所以我们就立项了这么一个项目。
为了解决这个难点,刘沛和团队分析了上千份影视内容★★★,从颜色、大小★★、字体★、格式等维度不断提炼字幕关键信息,与AI模型进行交互。同时优化算法以提高字幕识别能力和最终结果的反馈质量★★★。
传统的人力编辑团队被智能化、自动化的机器识别代替★★,以前要几个钟头的工程现在几十秒就可以搞定。
2022年,DeepMind旗下的AlphaFold成功预测了蛋白质的3D结构★★★,并且设计出具有特定功能的新型蛋白质★,在新药和疫苗研发领域功不可没★★。聊天机器人Woebot利用生成式AI提供心理支持,通过 ★★★“复制” 患者与心理医生之间的 “治疗联系★”帮助用户减轻焦虑和抑郁症状,为没有钱付高昂咨询费的群体提供了心灵休憩的场所★★★。
但是原来传统的视频的这样的一个阅读模式的话,需要用户看完才知道信息点在哪里★★。所以我发现有用户有这样的一个需求★★★,我就想怎么样,把这个视频内容的主题提炼出来。这样的话用户的话只要他哪个地方感兴趣,或者是那个地方他看完了,他觉得很重要★★,他一看完一遍他没记住,他便可以自己跳转回来浏览。
视频本身是一帧一帧图像,提取字幕需要将每一帧上的内容转换为文本。而字幕又分为软字幕和硬字幕★★★,硬字幕本身已经和图片嵌合在一起,要提取难度更大★★★。没有字幕的视频★★★,就需要通过音频语音识别★★★,从视频到音频再到文本进行三种格式的转化★★。
技术上没有什么困难。因为我之前有做过类似的工作,从资讯内容到产品库到论坛、商家体系都是自己一个人开发的★★★,基本上没有遇到什么困难。当时的困难更多来自于商业变现,最开始创业的时候,更多是开发者思维★★,对商业模式思考比较少★。网站运营到一定阶段之后,商业变现是一个最大的挑战方式。不过这一块我爱人比肩擅长★,就是爱人在做★。
从那以后,他的思维开始从开发者模式转向商人模式★。他开始从用户视角看待问题,去看现在市场亟需什么★★、用户的痛点在哪。
用户是被质量吸引来的★★★,这需要批量式的优质内容输出,但传统的人工团队效率太慢,一天仅能产出200-300份专业文案。
我们是拿来主义,就是先用。因为AI开源出来的话,会有一些demo。我们可能从最基础的就是说然后就是说针对我们业务场景,比如说哪个地方再需要优化一下★,或者是怎么需要把这个算法再加强一下,就是在这个过程里不断学习★★★。在应用场景里面先跑起来,然后边跑边迭代边优化,然后再遇到新的问题,可能又需要另外一个模型或者另外一个技术来写作的时候★★,再去学习这么一个过程★★。这里不是大学里面,你比如说你学了几年之后在毕业班了,然后怎么着了★,再做个项目验证,不是这个逻辑★。
刘沛也一样,他唯一的一点基础就是大学时在网络部待了几年,学到了一些计算机的皮毛,趁热打铁去考了国家程序员证书★★,在毕业后从事了将近20年网站开发。
2024年,刘沛离开做了二十年的传统门户网站——中关村在线秒懂车做技术总监★★★,操手AI业务★。
第二步是AI的交互过程。交互不是一蹴而就的,而是一个不断逼近、迭代,然后生成答案的过程。尤其是针对汽车行业里的一些专业知识,需要针对性地训练★★、部署,让模型能够更好地提炼出关键信息,生成优质的主题大纲。
功能一经上线,就获得了业内和用户的极佳反馈★,视频完播率和粉丝量都有了显著提升。
第三步主要是后端的工作★。为了使模型生成的答案达到生产级别★,后端做了一些后线的算法加工,最终才达到上线效果★★。
在刘沛最有成就感的几个项目里,技术团队都是小而精,比如★★★,他被CNET China收购的万维家电网★★,最多的时候也就是十个人。
而生成式AI,是基于机器学习和自然语言处理技术构建的★★★,提供对话式的交互体验。生成式AI的逻辑更侧重于理解语言的上下文★★、意图和情感,以及如何生成连贯★★★、相关且准确的回答。
曾经一个团队一天才能产出200到300份的工作量★★★,在AI的自然语言处理技术加持后,一天就可以直接生成1000份★★★。人力团队削减到不再需要编辑,只有一个审核★★,对AIGC作进一步的加工、润色★★,保证内容符合伦理规范和法律要求★★★。
刘沛的工作,就是对整个产品线实施规划,及时发现可能存在的bug★★★,修复优化。
刘沛第一次接触AI★,在2022年,那个时候他在中关村在线担任CTO★★。因为项目研发需要,他们开始用人工智能提高工作效率★。
从资讯内容到产品库到商业论坛,整个网站的内容都由刘沛一个人搭建★★。而找客户、谈合作则是他的妻子全权负责。
这款基于“图像OCR★★★、语音识别 + AI大模型推理★”的视频主题提取产品★★★,可依据时间轴精准到秒提取出主旨、大纲、内容甚至匹配的图片★★。在AI辅助下★,视频与文本相结合★★★,传播效率得到了极大的提高★。
7月份,刘沛和他的团队突发奇想想做一个项目★,基于视频内容生成主题和关键词,让用户一目了然地看到这个视频讲的是什么★★。
AI的魅力实际不来自于AI本身★★★,而是它多大程度上能够为人所用、为人造福。
在AI的帮助下★★★,刘沛负责的项目从内容生产、流量获取到最终的商业变现,整个交易额gmv已经过亿★,纯利也超过了百万。
就这样★,历经重重困难,这个小而美的三人团队花了两个月就把产品做到了生产级别,解决了用户浏览中长视频的一大痛点。
刘沛:2002年毕业于郑州大学,拥有超过20年的IT行业经验★。他曾在北京普信网★★、中关村在线社区等知名企业担任要职★★,涉及技术管理★★、项目管理等多个领域★。2004年★★★,刘沛创办了万维家电网并担任总经理,后被中关村在线年,他先后担任莱富特佰(手机中国)CTO和中关村在线秒懂车★★★,担任技术总监,继续在技术领域发挥其专业才能。
中间我有自己创业做过一个家电资讯网站,整个从规划开发到商业变现★★★,实际上都主要是自己在全程参与★★★,后面也成功被当时的CNET China收购了。虽然标的不大,但可以说是一个很完整的体验★★,我觉得应该算是自己比较成功★★、比较深刻的一个项目。
用户不再需要开盲盒式地浏览整个视频★,只要在自动生成的主题大纲里挑选自己感兴趣的内容跳转播放,就可以了解自己感兴趣的信息。
码客人生:您在学生时代学的是什么专业,为什么之后就进入了资讯整合这样一个行业?
网站开发由前端和后端技术构成★。前端负责HTML★、CSS★★、JavaScript、数据库管理和服务器配置等★。后端开发者需要设计用户界面、处理用户输入、管理数据存储和检索★★★,以及确保网站的安全性和性能。
创过业★★、当过总经理★,刘沛最常做的还是CTO,据他说★★★,支撑他的是一种新鲜感和成就感★。
也是一个自然而然的过程★★,从21年CPS项目接触到AI后就开始用人工智能解决一些实际场景的问题★,加上现在短视频成为一个主流的传播方式★★,“视频+AI★★”在未来是极具潜力的。
恰逢国内清华智谱开源ChatGLM-6b模型,刘沛和同事不用再人工式批量生产UGC、PGC内容,而是基于知识场景制造海量AIGC内容。
30秒懂车创立于2015年,是一个做专业测评和深度访谈的汽车视频媒体垂直平台。
刘沛领导的项目需要在各大平台获取流量变现。流量获取就是通过专业内容输出吸引用户,然后从外部平台免费获取用户流量。
三年后,万维家电网的商业价值被当时CNET中国高级副总裁、ZOL总经理刘小东看见,一举收购进CNET中国集团,成为CONSUMER GROUP中的一员★★★。
从自己创业的万维家电网到待了七年的大型IT网站中关村在线★★★、再到现在的垂直汽车新媒体30s懂车,他最喜欢一个项目结束时的喜悦。看着业务从灵感涌现到项目搭建到商业变现,一路走来★★★,每个地方都有自己的身影,他就感到满足★。
在他看来,AI可万物,AI可以跟硬件结合,成为马斯克眼前能抓、能识别物体★、能交流的人形机器人。AI可跟软件结合,衍生出各种各样的文生文★★、文生图、文生视频应用★。
2021中关村在线CPS项目,当时需要批量地生产知识场景内容吸引用户流量变现,就了解了一些NLP技术生成AIGC内容★,主要是用的清华智谱开源ChatGLM-6b模型。用了AI后,一天可以生成1000份相关文案,远高于人工团队一天200份★★。人工削减到只需要一个审核做基础审查。最后★★,从内容生产★、流量获取到最终的商业变现,CPS项目整个交易额gmv已经过亿,纯利也超过了百万。
★★★“现在的视频除了吸引流量的短视频★★★,通常不会在开头就给出关键信息★★,而中长视频标题党居多,很多用户看了十来分钟也没有找到感兴趣的片段,便悻悻然退出,视频完播率较低。”
当然,AI也不例外,无论如何发展,最关键的都是要跟市场和用户需求结合,这将是一个企业和产品屹立不倒的最终护城河★。
项目分为三步走,第一步是准备海量的AI可识别的素材。给AI的素材准确度越高★★★,描述越清楚,AI识别能力就越强、反馈质量也更佳。
在艺术创作领域★★★,Midjourney可以根据文本提示词生成风格多样、精美细腻的艺术作品★★,海报宣发的制作时间大大节省。Adobe的Sensei平台通过生成式AI自动化视频剪辑★★★,分析视频内容,即使是什么都不懂的艺术小白也可生成转场酷炫的视频。
一个月前,他带领设计的基于视频自动生成主题★★★、大纲和图片的产品已经全面嵌入30秒懂车的多媒体平台矩阵★★。