社交媒体上的个人账号数据被商业公司收集、分析、使用,对于长期跟算法、广告、猜你喜欢斗智斗勇的我们来说,已经不新鲜了。现如今,又多了一类不经常被我们提起的数据收集/使用方——科学研究者们。
民调网站 FiveThirtyEight 在 2018 年的一篇文章里,就以 Twitter 为例,介绍了社交媒体作为调查样本对科学研究的重要性:借助 Twitter 上的海量公开推文和各类行为数据,研究者曾经观察过人们如何应对全球危机、不同地区的公共卫生状况、2016 年美国总统选举辩论期间的社交媒体 bot(机器人)账户行为等等。根据威斯康辛大学密尔沃基分校的学者在 2014 年对 382 篇公开研究的测算,仅 2007 年到 2012 年(Twitter 成立于 2006 年)之间,研究作者们收集分析的推文大概有至少 250 亿条。
根据文章的介绍,因为收集数据的难度和获取成本都不算很高,Twitter 一直以来都是社交媒体研究的重要数据来源之一。通过使用 Twitter 自带的系统或搜集数据的第三方应用,科学家能获得免费的推文样本。如果预算足够的话,也可以花钱扩大样本量。
在国内,跟 Twitter 相似的微博有时候也能被用来进行类似的研究:2013 年,一项来自康纳尔大学的研究就收集了 20 多万用户约 7000 万条微博,目的是观察用户使用的语气对其传播路径的影响。
研究者们这样做,当然是通过了各自的伦理审查委员会(IRB)审核的。而且理论上说,他们其实也获得了平台或用户的许可:比如,在 Twitter 的注册协议里,就有类似于“授权平台在某些情况下向其他个人、公司或机构提供用户发表的内容”这样的条款。
但问题是,我们注册社交媒体账户的时候,通常根本就没认真看(也没看明白)那些条款,就直接点了“确定”。肯塔基大学的学者 Nicholas Proferes 在去年进行过一次针对 Twitter 用户的小规模调查,结果显示大多数人对待这件事的态度还是有所保留的:一方面,他们承认社交媒体数据对科研的重要性,也不反对有人拿自己的部分数据去研究;但另一方面,他们也认为研究人员不应该在没有明确通知的情况下收集自己发布的内容(尤其是还包括被自己删掉的推文),觉得这样违反了 Twitter 的规定(其实并没有)。
撇开复杂专业的科学伦理问题,这里其实还涉及到几个公众看法不一的概念,比如“数字资产”(它们在多大程度上归属于用户?)、“社交媒体”(它到底算是“一个广场”还是“一片自留地”?)、“研究”(研究者是普通用户/商业公司/政府部门/科研机构,分别意味着什么?)还有,研究的目的跟取样的方法也会影响人们的态度。换句话说,用户不仅想知道“谁在使用我的数据”,还想知道“用它是要研究什么”“是收集某一条还是收集我的全部社交历史”等等。为了消除某些可能的“非理性恐慌”,这些都是需要被科普的。
除了考虑普通人的知情权之外,退一万步讲,即便大家都不介意贡献出自己的数据,Big Data 这个黑盒子里跳出来的结果,也还是挺让人在意的。例如前阵子,美国普渡大学就被报道说校方在“用 Wi-Fi 数据分析学生的每日行程”,可见用户日常使用/分享的地理位置其实是个相当敏感的信息;Nature Human Behaviour 杂志最近发表的一篇的论文甚至说,他们可以通过分析你的 8 到 9 位联系人发布的内容,预测你的下一条 Twitter 要发什么,准确率高达 95%——算法能看穿用户的行为,几乎分不清人跟机器的区别,可以说是相当黑镜了。
直到现在,究竟如何区分“使用”和“滥用”数据,以及怎么使用才算真正的“合法合理”,科学家们依然在探索更好的方案。 Nicholas Proferes 在他的调查最后也给出了一些操作建议,比如,尽量以妥善的方式获得用户们(而不仅是平台方)的许可、抓取信息时匿名处理、如需实名要请求对方同意,以及,不要使用已经被 po 主删除的博文。
题图来自:Giphy ©️ Daniela Sherer
我们做了一个壁纸应用,给你的手机加点好奇心。去 App 商店搜 好奇怪 下载吧。