随着大数据这个概念的风靡,现在似乎什么技术都能和大数据扯上关系。大数据里其实有很多分支,现在热门的是Computer Vision (计算机视觉),简称CV。为什么CV这么热门呢?因为它提供了自动化手段辨认并追踪任何一个人。这是一个高效、强大的工具,也是一柄双刃剑。它可以用在各个方面:军事、政治、治安、经济……除了CV外,大数据的另一个应用,就是推荐系统了。推荐系统研究的是人的行为,然后对每个人的行为做出大概的预测。推荐系统常见的应用是电子商务或社交网络,比如淘宝或京东里,常常有一个“猜你喜欢”的栏目,那就是推荐系统根据每个用户的历史交互自动生成的推荐。又比如微博里,推荐你关注某知名大V的功能,那也是推荐系统。以前,推荐系统的准确度不高,常常推荐一些莫名其妙的东西,搞得人人都对它没什么好感。后来,算法变得更先进了,推荐得更精准了,它又让人欲罢不能。如果不信,那么就请你删掉手机里的抖音。抖音就是一个充分利用推荐系统的成功app。它的一条又一条视频,让人一看就是几个小时。其实,抖音的背后就是一个庞大的推荐系统,它根据你看过的视频,不断地推送你可能喜欢的新视频,把你牢牢圈在自己的小地盘里。

那么,推荐系统到底是怎么工作地呢?
很多人都说,推荐系统其实就是搜集了所有人的隐私,放到一起,然后就知道了你的方方面面。这个想法其实是被误导了。现在很多企业,为了自己的利益,肆无忌惮地搜集个人隐私,所以现在人人都以为大数据的这些技术都是依赖个人隐私的。诚然,有些东西,没有了个人的隐私数据就毫无意义(比如CV的人脸识别)。但推荐系统,虽然它越来越高效,但其实它越来越不依赖个人的隐私了。

“真的吗?这和常识不一样啊!”
回答这个问题前,我们需要对“侵犯个人隐私”这个概念确定一个范围,即哪些东西算个人隐私,哪些是不算个人隐私的。我觉得,对一个互联网平台来说,每个人在上面的活动都不算侵犯个人隐私。比如在淘宝上,你下单买了一个手机。那么,买手机这个活动,对淘宝来说就不能算个人隐私。因为在你买手机时,淘宝当然要知道是你买了一个手机。如果连这个活动都算个人隐私而不能搜集的话,那淘宝就没有办法保证这个手机能安全送到的手中了。然而,如果淘宝不光记录了你买手机这个活动,还把你的通讯录都搜集起来,那就要算侵犯个人隐私了。因为这些数据是和在淘宝上购物不相关的。

明确了这一点后,我们就可以肯定地说,现代的推荐系统是不依赖个人隐私的了。
想象一下,如果你走进一家店,店员要向你推荐一些他们的商品的话,肯定要问你“喜欢什么款式?”之类的问题。推荐系统也是一样,它虽然不问,但会默默地搜集关于你的信息,比如根据你的身高体重及喜欢的款式向你推荐一件T恤。这个做法很直接,但也侵犯了隐私。如果不搜集这些资料,系统就推荐不了商品。如果你不让搜集,或随便输入一些错误信息,那么生成的推荐八成是你不喜欢的东西。所以,它的准确度也严重依赖用户提供的信息,对卖家来说,也是严重不靠谱。毕竟,没有谁会在网上对着某个网友自报家门。因此,这个方法随着时间的推移和技术的发展被淘汰了。但它仍然留下了它的名字,它的名字是"Content-based filtering"(内容过滤)。

接替内容过滤的技术,叫做"Collaborative filtering"(协同过滤)。协同过滤就不一样了。它不匹配用户的偏好和商品的特性,而是直接匹配每个用户。比如下面的这个表格中展示的,我们已知三个人(甲、乙、丙)对四个商品(A, B, C, D)的购买记录。比如甲,他买了B和C,乙买了A和D。现在要对丙推荐商品,那么除了丙已经买过的B以外,他最有可能买哪一个呢?你们可能有不同的答案,但我会给丙推荐C,因为BC这个组合是甲买过的,所以丙也很有可能在买了B后再买C。

A B C D
X X
X X
? X ? ?

这就是协同过滤的原理了。淘宝不需要知道甲乙丙三个人的任何信息,只需要依靠三人买东西的记录就能知道他们最想要什么,而且这样的准确率还很高。得益于不依赖用户个人信息的特性,协同过滤逐渐成为了主流。所以我说,现在的推荐系统,是越来越不依赖个人隐私了。

以上是对推荐系统的大概介绍了。推荐系统的内容繁杂,发展的也很快,关于推荐系统的技术多见于会议论文里,于是普通读者很难了解到它了。所以我想总结一段时间内关于推荐系统的心得,并付诸博客。一来给有兴趣了解或研究推荐系统的朋友入门的一瞥,二来是看到近年来的发展,实在是很多体会和想说的话,存迹于此,算是不负几年的心血吧。