Facebook基础设施工程副总裁杰·帕里克(Jay Parikh)周三透露,Facebook每天处理的数据量多达500TB(1TB=1000GB)。
帕里克称,多数数据都存储在一个硬盘空间超过100PB的集群中。他认为,Facebook的这一集群规模在业内同行中首屈一指。
为了了解产品运行状况,Facebook的产品团队每30分钟都要扫描105TB数据。除此之外,该公司还要处理数百万张图片和数十亿次Like按钮的点击,以便针对用户的需求进行定制。
以下是Facebook每天处理的数据量:
每天处理27亿次Like按钮点击。
每天上传3亿张图片。
每天由人工或系统自动执行的请求达到7万次。
每天吸收逾500TB新数据。
由于Facebook使用这些数据来构建用户体验,因此他们希望整个公司都能够获取所有数据,以便销售广告或开发功能。帕里克表示,这使得Facebook得以尽快开发或提升功能。
例如,用户推荐这样的功能就需要持续更新数据,以便在用户添加新的好友时能够立刻看到相关信息。帕里克还表示,这些方案都要尽快部署于多数功能中,否则,用户便会因为个性化体验不佳而弃用该网站。
“如果你现在上传照片,我们绝不能下周再处理。”帕里克说。
与其他公司不同,Facebook并未将数据分割,而是全部存储于一个地方,方便获取。这样一来,如果工程师想判断某一功能的趋势,便可轻松获取数据,编写代码,并了解到实际效果。
帕克特还透露,Facebook对滥用数据的行为采取零容忍态度,所有的数据访问行为都会受到密切监控。(思远)