历趣APP下载>手机APP>手机系统软件>FV悬浮球

梨视频:基于阿里云E-MapReduce搭建视频推荐系统实践

20170116090442_8656.png

梨视频由前澎湃新闻掌门人邱兵创立。

在上线之前,它就获得了黎瑞刚华人文化近1亿美元投资,旗下《微辣》栏目总播放量已经超过4亿,并在上线1个月后获得“年度视频新媒体”大奖。

这样一款脱胎于传统媒体的创业型短视频软件,在视频领域异军突起,不仅让内人士在感叹梨视频内容生产力之强大的同时,也诧异于是谁在为梨视频的庞大用户体量提供技术支撑、保证视频流畅?

今天就和大家分享梨视频如何基于阿里云快速搭建一个套推荐系统。

以下案例分享全部基于实战——梨视频第一代推荐系统。

梨视频在上线初期用户量增长很快,基于阿里云搭建的推荐系统扛住了流量的压力也很出色的完成了初期用户兴趣视频推荐功能。

推荐系统脱离不开数据收集处理系统,数据既是推荐数据来源,也是验证推荐系统重要依据。

选型

对梨视频这样的创业公司来说,技术选型需要考虑的是:快速构建系统,实现业务的快速落地。

我们核心策略是积极拥抱云平台,使用开源系统。

购置物理机,意味着有较大的一次性投入,使用云平台则可以逐渐投入基础IT资源。

对于基础的组件,首选的是开源系统,再次看国内大公司是否有使用。

最终,我们选择的是阿里云的E-MapReduce开源大数据平台(以下简称EMR)。

这个产品在提供开源组件(Hadoop、Spark、HBase)的同时,也提供了非常有价值的运维服务及作业流等基础服务,特别是无缝结合OSS及Logservice,能快速构建数据中心。

数据中心

梨视频的数据包含两大部分: 用户使用的习惯 和 在梨视频中发布的内容。

用户使用习惯主要分布在用户使用的客户端,需要应用一定方式进行收集。

后台拍客和编辑生成的内容等结构化数据也需要定时推送到数据处理中心和用户使用习惯一起被清洗,分析,形成各种模型和数据。

梨视频数据中心基于阿里云E-MapReduce 集群进行搭建。

用 了它,梨视频可以很方便地通过阿里云控制台新建EMR集群,集群提供了HDFS,Hadoop, Spark,Sqoop,HBase,Hive等等基本的大数据处理套件,而且和OSS存储也是无缝打通, 存储在OSS上数据可以使用EMR集群进行分析,使用起来非常方便。

日志收集

梨视频日志收集在APP端进行压缩然后定时上传,压缩为了减少用户的流量使用,定时是为了减少上传次数,避免过多的网络链接,加重App的负担。

服务器端基于ECS搭建Nginx服务器,并结合lua脚本对日志内容进行解压。

日志推送到LogStore。在阿里云服务中有日志服务,logstore是日志服务中的存储单元。下图展示了logstore的全貌

20170116090503_7233.png

创建logstore, 这里可以制定shard数量,在logstore存储的时长等参数。

同时logstore提供日志短时存储,查询索引等功能,可以选择使用,比较方便。

只要是阿里云ECS机器上产生的本地文件都可以发送到logstore中进行存储,转储。

20170116090517_1634.png

创建过程中,还可以指定原始日志的格式,可以指定每个字段在logstore中的名字。

收集的日志可以进行投递,这里梨视频的日志全部推送到oss上进行永久存储。

至此用户适用习惯数据已经从App客户端推送到LogStore和OSS中,可用于后续分析。

业务数据归集

业务数据都存储在云数据库RDS(MySQL)数据库中,利用Sqoop脚本并配合EMR的任务调度定时将数据推送到EMR集群HIVE库中。

Sqoop脚本

20170116090549_5950.png

任务的定时调度由EMR平台自动支持,只需配置就可以方便完成任务调度。

以上是业务数据的推送到数据中心方式。

数据处理

数据完成收集和归集后,都存储在EMR集群上,剩下的工作就是要对数据进行处理。

首先会对数据进行分层设计,底层部分是日志清洗后的数据和推送到EMR的业务数据,中间层是结合用户行为和业务数据的总和视图。最上层是各种报表和模型。

数据的处理过程全部基于EMR集群,由实时的分析,通过Spark streaming消费logstore的实时流,将分析结果写入Redis供查询,可以实时统计性能,用户量等。

离线的分析主要通过 Spark的离线任务进行,可以进行数据统计也可以进行模型训练。

总结

最后简单进行一下总结,梨视频整体架构主要由数据处理系统和推荐系统构成:

数据处理系统方面,首先需要进行日志收集,在客户端压缩传输,基于阿里云组件搭建日志搜集系统;同时以EMR为中心构建数据处理中心;此外,对数据进行逻辑分层,基础数据全面支撑业务需求。

推荐系统方面,召回模块按照兴趣召回候选集合;排序模块可根据需求和目标进行调整和融合;通过用户行为实时反馈提升用户体验;根据新闻趋势和个人长期兴趣建立用户画像。

此外,引进基于人类记忆遗忘模型建模内容基础质量打分体系;通过评估系统让整体推荐系统变得可控。


相关文章
精彩推荐

评论

    暂无评论

下载历趣市场即可发表评论
手机版专区
电脑版|APP客户端