用机器学习分析完YouTube网红视频后我发现了播放量暴涨的秘密

在视频成为重要媒介,vlog、视频博主也成为一种职业的当下,如何提高自己视频的播放量,是广大内容生产者最头秃的问题之一。网络上当然有许多内容制作、热点跟踪、剪辑技巧的分享,但你可能不知道,机器学习也可以在其中发挥大作用。

Sydney 拥有美国国家运动医学会(NASM)的私人教练证,同时也是一位跳高运动员。她的账号注册于 2016 年 5 月 17 日,累计播放量 27,031,566,目前拥有 21 万粉丝,每天都稳定更新,很有研究意义。请注意,以下研究都将通过 Python 实现。

社交场景中,终端和数据的安全,顺滑的变焦以及AI拍照,简单易用的AI助理都能提升体验,也都需要进行针对性优化。

df_videos 有 8 个特征来描述每个视频细节,包括:标题、多久前发布的、视频长度、播放量、地址、卡路里、发布具体日期、发布至今的天数。

“我们从学校的宣传中了解了疫情信息学会了防控知识,回到缅甸就向家里的亲戚朋友宣传,让他们不要相信谣言,要科学防控。”喊良告诉记者,疫情刚开始时,他所在的缅甸弄派村谣言满天飞,搞得村民人心惶惶。

在娱乐场景,无论是在线观看或下载视频,玩游戏以及直播,处理和连接性能满足需求的同时,还需要有基于硬件的内容保护。

高通希望是用超越该层级的性能、功耗和连接表现加速5G普及。

约恩吞告诉记者,“我这么大年纪了,哪里会戴什么口罩,多亏这几个小留学生教我。”近段时间,约恩吞常看到缅籍小留学生们穿梭在中缅两国阡陌相通的农田里,给两国边民宣传疫情防控知识。

当然整个过程中也难免存在一些被错误分类的视频,作者也在转向时间特征前进行了手动修复,这里不再赘述。

新冠肺炎疫情发生后,在中国上小学的缅籍“小小留学生”利用假期,发挥自身语言优势,组成抗疫防疫宣传服务队,为中缅两国边境村寨里的边民提供疫情形势与防控知识。

由于前一步的工作,现在有 3 个关键词列表和精简的标题,可以匹配它们来对视频进行分类。

移动SoC市场的激烈竞争

步骤 2:用 NLP 对视频进行分类

为了回答这个问题,他们还创建了一些基于时间序列的特征:

此外,作者发现num_same_area和area_full,两个特征也是相关的,这个发现有点令人惊讶,接下来开始解密。

但请注意!播放量呈偏态分布。播放量中值是27,641次,而最高的视频达到130万。这种不平衡会给模型的解释性带来问题。

缅甸弄派村村民岩吞洼说,是几名小学生让他了解到中国新冠肺炎疫情的真实情况,“是他们把疫情防控知识带回来告诉我们,如果不是他们,我肯定已经陷入恐慌之中了。”

骁龙4系列是定位入门的产品,也是骁龙家族最后具备5G能力的产品。高通产品市场总监马晓民表示:“5G将惠及超过35亿智能手机用户,近乎全球人口总数的一半。高通的所有5G解决方案都面向全球市场,不仅支持毫米波和Sub-6GHz,支持全球频段和全球多SIM卡,支持SA和NSA组网模式,也支持TDD、FDD动态频谱共享(DSS)。”

最后,他们创建了三种不同类型的虚拟特征(dummy features):

在形成这些关键字列表后,作者还提取了词干。这是为了确保计算机能够识别近义词。例如,ABS 是 Abdominal Exercise(腹部锻炼)的简写,单词“abs”和“ab”有相同的词干“ab”。

什么是多重共线性检验,维基百科的解释是,多重共线性(也称共线性)是一种现象,其中多元回归模型中的一个预测变量可以以相当高的准确度从其他预测变量中线性预测。多重共线性不会降低模型整体的预测能力或可靠性,至少在样本数据集中是如此;它只影响单个预测因子的计算。

雷锋网原创文章,。详情见转载须知。

Sydney Cummings  的标题都有一定套路,比如最近一个标题是《30 分钟手臂和强壮臀肌锻炼!燃烧 310 卡路里!》,通常涵盖时间、身体部位、消耗的卡路里以及其他关于锻炼的描述性词汇。观众点击这段视频之前,就会知道几个信息:

捞恩希望,长大后成为一名白衣天使,拯救更多的生命,同时成为缅中友谊使者,让缅中“胞波”友谊世代传承。(完)

除此之外,三ISP,支持FHD+显示,120Hz显示刷新率,以及支持部分高通Elite Gaming的部分特性包括超现实画质增强、超流畅游戏体验优化、图形驱动更新都是骁龙480超越这一层级产品性能表现的关键。

性能翻倍的还有Wi-Fi,从此前的1×1升级为2×2,也就是支持Wi-Fi双天线。当然,集成的FastConnect 6200移动连接子系统也让骁龙480支持MU-MIMO的8×8探测等部分Wi-Fi 6关键特性,提升传输范围和性能。

骁龙480是首款集成5G调制解调器及射频系统的4系列平台。此外,还创造了骁龙4系列平台的8个第一,包括第一次使用8nm制程、集成高通FastConnect 6200、支持2×2 Wi-Fi以及部分Wi-Fi 6关键特性、支持120Hz FHD+显示、三ISP、支持6400万像素拍照、首次基于AI的回声消除和背景噪音抑制、首次支持Quick Charge 4+。

更强的性能自然是希望获得更多用户的喜爱。马晓民说:“许多人都对5G有所期待和需求,但他们对价格敏感,比如学生和职场新人,骁龙480对日常使用最频繁的场景进行优化,追求续航和性能的最佳平衡,让5G惠及更多人。”

num_same_area,过去 30 天内发布的针对同一区域的视频(包括当前视频)数量。例如,特征= 6,说明除了当前视频针对上半身时,过去 30 天中还有 5 个上身健身视频。 num_same_workout ,该特征类似 num_same_area,只是统计的是健身类型。例如,特征= 3,说明除了当前视频 HIIT 健身,在过去 30 天内还有 2 个 HIIT 健身视频。 last_same_area,距离上一个针对同一块身体部位视频过去的天数。例如,该特征= 10,说明针对腹肌的上一个视频,发布在 10 天前。 last_same_workout,同 last_same_area,只是针对健身类型。 num_unique_areas,过去 30 天内锻炼了几块不同的身体部位。 num _ unique _workouts,过去30天发布的不同健身类型视频的数量。

需要说明的是,博主偶尔会发布与健身无关的视频,播放数差距很大,所以作者未将这些列入分析。另外他们也过滤掉了前 30 天的视频,因为它们缺乏足够的历史数据。

在此过程中,他们转换分类特征(categorical features):area和workout_type。这种转换确保每个类别级别至少有K个值。

掌握以上关键信息是预先的准备,接下来还有六个步骤:观察数据、用自然语言处理技术对视频进行分类、选择特征、创建目标、构建决策树、阅读决策树。接下来就和雷锋网一起看看作者究竟是怎么一步一步展开研究的。

你可能还记得,这个研究的目标是增加YouTube的播放量。是不是说明,我们可以直接拿播放量作为目标呢?

同时,作者也识别出了相似的关键字,如“总共”和“完全”、“核心”和“腹肌”,将它们归在一组。

据悉,骁龙480针对网页浏览、电子邮件、语音和视频通话、社交媒体、短信、照片/视频的拍摄和分享、GPU/导航、手机银行、购物进行了优化。

“相比骁龙8系列支持完整的Wi-Fi 6特性以及支持Wi-Fi 6E,骁龙480只支持部分Wi-Fi 6特性会在速率和覆盖方面体现出与骁龙8系平台的差别。”马晓明告诉雷锋网。

作者选择了对于YouTube视频播放量至关重要的特征,同时还添加了三个由随机数组成的特征:rand0,rand1, rand2。当比较特征之间的关系时,它们充当anchor。如果一个特征与这些随机特征相比不太重要或不太相似时,那么它就不是目标特征的重要自变量。

接下来请看下面特征工程的具体过程。

需要看到,即便高通第三季的总体市场份额有所下滑,但其在5G SoC市场仍然位居第一,市占率达到39%。

具体到重要的应用场景,在办公场景的多人视频会议中,需要基于云端的ASR和NLP实现AI背景噪音消除,同时利用5G、Wi-Fi和120Hz UI提供高品质视频。如果是在没有稳定Wi-Fi的场所,搭载骁龙480的终端也需要提供稳定和可靠的5G移动热点。

其实有很多不同的方法来抓取 YouTube 数据。由于这只是个一次性项目,所以作者选择了一个只需要手工操作,不依赖额外工具的简单方法。

这些特征将帮助了解观众是喜欢相同的还是不同类型的视频。

“现在从事缅中公益事业的叔叔、阿姨会慢慢老去,我们正在逐渐长大。”向边民发放口罩和消毒水的“小小留学生”捞恩说,“我们要从他们手中接过接力棒,做缅中友谊的使者。”

length和 calories之间存在正相关,但这种强度还不足以将它们直接归到一块。因为40-45分钟的视频消耗的热量与30-35分钟、50-55分钟,甚至与60多分钟的视频,都有重叠部分。因此,两个特征都保留。

骁龙入门级5G平台具备中高端特性

先看5G功能,骁龙480集成的5G调制解调器骁龙X51与去年6月发布的首款6系列5G SoC骁龙690相同。骁龙690发布时马晓民介绍,骁龙X51与骁龙X55和X52存在一定的继承关系,会有一些技术上的继承,最主要的区别是在能力上。

body_keywords(正文—关键词)——这标识了视频针对的身体部位,如“完整”身体、“腹肌”、“腿”。 workout_type_keywords(健身—类型关键字)——区分锻炼类型,如“有氧”、“伸展”、“力量”。 其他关键字——这包括常用但难以归类的关键词,如“训练营”、“精疲力竭”、“纤体”(toning)。

对于骁龙480的发布,高通技术公司产品管理副总裁Kedar Kondap表示:“骁龙480 5G移动平台将超越OEM厂商和消费者对于该层级产品的预期,以实惠的价格提供中高端特性。”

这种关系不难理解。 

除了关键词,作者还需要标记和提取标题词干。这些过程可为进一步匹配关键字和标题列表做准备。

按照 body_keywords 和 workout_type_keywords 分类,一个视频中有许多关键词。所以在匹配之前,作者还创建了 2 个特征:area 区域和 workout_type 健身类型。这些特征将一个视频的所有身体部位和锻炼类型连接成一个字符串。

在这一步中,他们根据标题中的关键词对视频进行分类。

因此,作者创建了特征views_quartile,以它作为目标。

30 分钟——我将在 30 分钟内完成整个训练; 锻炼手臂和臀肌——我将致力于手臂和臀肌,专注于力量; 燃烧 310 卡路里——我会燃烧相当多的卡路里。

虽然都是骁龙X51,但骁龙690发布时并未强调支持毫米波,骁龙480发布时就明确了支持毫米波和Sub-6GHz。马晓民对此解释:“从硬件的角度骁龙690和骁龙480都支持毫米波和Sub-6GHz频段,只是骁龙690发布的时候大家更关心Sub-6GHz,现在大家已经有明确的毫米波需求,所以骁龙480发布时就同时支持毫米波和Sub-6GHz。”

接下来就是有趣的部分了,他们将从这个数据中集中提取特征,并研究是哪些因素影响着播放量。

is _ { } _区域,识别视频是否包含特定身体部位; is_ { } _健身,确定健身类型; title_contains_{},查看标题是否包含其他关键词。

“奶奶,近期不要串门,出门记得戴口罩……”缅甸籍“小小留学生”喊良近日在中国瑞丽姐相乡,用傣语劝告65岁的中国傣族大妈约恩吞,并示范如何正确佩戴口罩。

为k折交叉验证准备这些特征。

之前,互联网是缅甸边民了解新冠肺炎疫情的主要渠道,但互联网上信息鱼龙混杂。另一位缅甸弄派村村民吞亮告诉记者,疫情开始时,他在手机上看到一些血腥、恐怖的消息,后来才知道是些荒谬可笑的谣言。

YouTube 标题的标记和词干

num_same_area特征,统计的是在过去30天内发布的针对于同一部位视频(包括当前视频)的数量。area_ful代表全身锻炼,这是Sydney视频中最常见的类型。因此,当num_same_area很大时,那么这些视频就是针对全身的锻炼。

有了上述基于关键词的特征,作者已经发现受欢迎视频的类型。但这是否意味着博主应该一直发相同类型的视频?

将数据导入到 Python 中是在最后一节中完成的,以下是数据集 df_videos,一共有 837 个视频。

作者发现length(视频长度)和 calories特征是相关的。这个发现很直观,因为健身的时间越长,消耗的卡路里就越多。

基于高频词列表,作者创建了 3 个关键字列表,可用于接下来环节对视频进行分类。

具体看骁龙480的配置,可以发现高通确实将入门级产品的性能提升了一个层级。如果看CPU和GPU的性能,骁龙480的性能与两年前的骁龙6系列CPU和GPU性能相当,虽然这种对比不太恰当,但能很形象地理解新款4系列平台的性能水平。

中缅两国山水相连,民相亲、心相通,中国瑞丽姐相乡与缅甸弄派、芒修等村庄犬牙交错、阡陌相通、鸡犬相闻,不少生长在缅甸边境的少年儿童就近进入中国姐相中心小学与银井小学接受教育,喊良正是瑞丽姐相中心小学的一名缅籍“小小留学生”。

骁龙480的9个第一

最后同样重要的是,作者创建了一个特征:calories_per_min(每分钟卡路里数)看看卡路里的燃烧速度。毕竟,观众都想要一些明确的(可量化的)锻炼目标。

首先,标记化视频的标题。此过程使用分隔符(如空格(” “)将标题文本字符串拆分为不同的标记(单词)。这样,计算机程序就可以更好地理解文本。

GPU是集成了高通Adreno 619,实现了与前代平台相比性能100%的提升。AI性能提升70%得益于集成了高通Hexagon 686处理器,AI性能的提升同时集成传感器中枢让骁龙4系列能够支持语音助理。

接下来,作者遍历每个特征,并使用其他特征拟合一个模型来预测它,他们用了一个简单的梯度提升模型(Gradient Boosting Model ,GBM)和K折验证,并且根据目标特征是数字的还是分类的,应用不同的模型和分数(模型预测能力评估指标)。

他们将视频分为两类——高播放视频(“high”)和低播放视频(“low”)。“high”占总播放量的75%,也就是播放数35578及以上的视频,剩下的都归到“low”。

准备好了一切工作,我们根据目标views_quartile建立一个决策树模型啦!

5G手机需求进一步提升的2021年,高通需要全系列的5G移动平台保持和提升5G的领导力,入门级产品骁龙480自然是其中重要的一部分。在4G转向5G的关键节点,高通与MediaTek在中低端5G市场的竞争,也更加值得关注。雷锋网(公众号:雷锋网)

这个视频针对的是身体哪个部位? 这个视频的目的是增肌还是减肥? 或者还有什么其他关键词?

假设博主只在周一发布力量训练,而且她的视频在周一的播放量总是更高。那么分析播放量时,应该归因它们发布在周一,还是因为它们是力量训练呢?为了获得真实的答案,作者必须确保特征之间没有强共线性。

使用其中一个特征作为目标,其余特征作为自变量,来训练预测模型。

报告指出,由于第三季度智能手机销量回升,MediaTek在 100-250 美元价格区间的智能手机中表现强劲,再加上在中国和印度等关键地区的增长,使其成为最大的智能手机SoC提供商。

因此,作者使用了一种更复杂的方法——k折交叉验证( K-fold cross-validation)来达到目的。

这些标题中有 538 个不同的单词,以下列出了使用频率最高的标记/单词。可以发现,频繁使用的就是那几个词,这也再次证明博主确实喜欢起标准格式的视频标题。

这些特征有助于确定视频中应包含的身体部位或锻炼类型的最佳数量。

例如,一个健身视频可以同时做“腹肌”和“腿”,或者同时做“有氧”和“力量”。该视频的特征区域为“腹肌+腿”,健身类型为“有氧+力量”。

5G手机普及战正式“开打”!高通首款中低端5G SoC 8nm骁龙690发布

雷锋网消息,2021年1月4日,高通首次将5G拓展至4系列移动平台,推出骁龙480,这款8nm的全新移动平台相比上一代骁龙460 CPU、GPU性能翻倍的同时,创造了高通4系列平台的9个第一,搭载骁龙480的首款移动终端将在今年第一季度发布。

步骤 5:构建决策树

此外,他们注意到数据有重叠,因为博主曾经多次上传同一个视频,在接下来的分析中将会忽略这部分不大的样本。

成对相关( pairwise correlations)是常用的方法,但当出现多个特征(多于一对)时,可能会同时存在共线性。

研究得分和每个目标特征的重要自变量。

通过这种方式,作者使用预测模型来找到播放量最高的25%的视频的特征组合。

高通为入门级骁龙4系列平台配备中高端平台的特性,就是想要吸引更多用户,这背后也与5G市场越来越激烈的竞争有关。根据市场研究公司 Counterpoint近期发布的2020年第三季度手机SoC市场占有率数据,MediaTek首次超越高通登顶,市场份额达到31%,高通的市场份额为29%。

根据判断,选择一组关键特征来测试共线性。

经过头脑风暴,他们选择了两种特征——基于关键词和基于时间。

作者使用了自然语言工具包(NLTK),Python 中一个常用的开源 NLP 库,来处理标题。

对于每个目标,他们打印出K折验证分数(平均分)和最重要的5个自变量。

作者试图研究每个目标特征及其与自变量的关系。当然本文不会列举整个过程,将举两个例子。