你的浏览器不支持,请使用chrome或safari浏览本网页。此幻灯片在苹果的chrome里呈现效果最好。

统计 分析
陈大伟
优亿数据统计分析负责人
weibo.com/mvj3
2012-07-29

如何呈现大数据

实时 + 多维

填充图表数据的两种方式
又有人开始刷量了!!!

1. 收集原始数据

  • 最大限度保全信息,包括下载时间,IP,User-Agent和Referer等HTTP头信息,应用ID,客户端,渠道,唯一码等设备信息
  • 在日志写入后尽快入库,否则可能会被系统删除等
  • 数据量占用空间足够小

2. 数据分类

  • 使用Mongodb的MapReduce功能进行多维数据统计。简单的说就是把计算分散到多机器多进程, 原理介绍参见http://zh.wikipedia.org/wiki/MapReduce

3. 数据对比

  • 比较各个MapReduce结果,察看哪个更符合特定的刷量模式

4. 数据建模

  • 保存各个维度的分析数据到不同的统计表

5. 特征值组合

  • 比如 User-Agent相比其他正常应用分布均匀; 没有客户端, 渠道, 唯一码等信息

6. 确定结果

  • 把怀疑为刷量应用的列表展示在后台,方便运营人员对该应用做警告或下架等处理

感谢

使用空格键或方向键进行浏览