论文部分内容阅读
主持人:海风
荐书邮箱: [email protected]
主持人的话:
《咖啡機中的间谍》与间谍并没有多大关系,就如同它的副标题“个人隐私的终结”所揭示的,本书所讲,乃是计算机技术导致的社会行为的改变对个人隐私的挑战。本书作者奥哈拉和沙德博尔特均为英国计算机科学与人工智能方面的资深专业人士,但他们的兴趣不仅在于计算机或人工智能,还在于这些技术所引发的新的社会问题以及可能的解决方案。两位作者对此抱持乐观的态度,他们认为,在信息时代,尽管个人的信息可以轻而易举地被存储、搜索和传递,并且这一过程越来越难以为信息的主人所控制,但人类社会并不会陷入科幻小说《一九八四》所描绘的那种噩梦中。
本书的中文版于2011年底首版,面对飞速发展的计算机技术,书中使用的资料或许已显陈旧,但作者对技术与社会复杂关系的洞见仍然没有失去价值,两位作者提出了一个值得探讨的好问题,其实很值得科幻作家们用科幻小说来解答。
本期我们选摘的是这本书第四章的前半部分,在这部分,作者并未探讨本书的核心问题,但却展现了专业人士对计算机技术发展的冷静观察。
在过去二十年中,计算机技术的形象已发生了变化。计算机曾经是一种尖端的、令人兴奋的、科幻小说中所描述的工具。而现在许多人认为它们是一种令人厌烦的东西。例如在英国高校中选修计算机课程的学生的数量在2001年到2006年之间下降了40%。而在美国、加拿大和其他西方国家也出现了类似的下降。与此同时,如今计算机已无所不在,并且改变了我们的生活。
当然在这两个趋势之间有着某种联系。一项仅仅给人以希望的技术可能引发各种积极和消极的猜测。在计算机的主要用途还仅仅是从事各种复杂和重复性计算的时代,一种能够控制我们的生活、替代我们的记忆,并且消除世界上所有纷争的理性思考机器还只是一种有趣的假设。而如今随着计算机在西方民主国家中渗透到人们生活的每个角落,以上的这些设想已经成为现实,因而人们也就对它们失去了新鲜感。取而代之的是他们对随意散落在社会各个角落的、各种拼凑在一起的电脑装置的“数字朋克式”的担忧。
这就是所有技术的命运。我们中有的有些人至今仍然对《星际旅行》中“企业号”宇宙飞船上各种令人惊叹的尖端技术记忆犹新:这种飞船的舱门不用手推就会嗖的一声自动开启!机组人员用一个很小的通信器就可以相互对话!真是不可思议!但是如今还有什么比在任何一个超市都能看到的自动门更让你感到无聊的东西吗?而科克船长对着神奇的通信器所说的那些晦涩难懂的胡言乱语也许要比如今大多数人通过手机所传播的陈词滥调更为有趣。
电子计算机中如何在仅仅几十年的时间内就从科幻小说中的神奇机器变成了如此无所不在、如此普通的东西呢?导致这一现象的是摩尔定律。在1965年,世界上最大的芯片生产商英特尔公司的创始人戈登·摩尔写了一篇预测未来十年集成电路芯片发展趋势的小文章。根据他的预测,随着时间的流逝,计算机将越来越便宜。他不仅关注电子方面的因素,而且还关注经济方面的因素:
集成电路最吸引人的一点是其成本的降低。随着技术的发展,一个单一半导体芯片上所能够容纳的电路功能越来越强大。对于简单的电路来说,每个元件的成本与元件的数量大致成反比。这是由每个半导体能够容纳越来越多的元件所导致的结果。但是随着元件数量的增加,产量的下降将抵消复杂性的增加,从而趋向于导致每个元件成本的提高。因此在这一技术的发展过程中的任何一个时候都存在一个最低成本。目前当每个集成电路使用50个元件的时候就达到了最低成本。但是在整体成本曲线下降的情况下这一最低成本迅速上升……在五年之后,当每个集成电路含有1000个元件的时候电路成本达到最低值(条件是这种电路功能可以被较大批量地生产)。根据我的预计,在1970年,每个元件的生产成本仅为今天的十分之一。
以最低元件成本产生的集成电路的复杂性每年大约增加一倍。可以确信,短期内这一增长率即便不是有所加快的话,也会继续保持。而在更长时期内的增长率应是略有波动,但是有理由相信,这一增长率至少在未来十年内几乎维持为一个常数。这意味着到1975年,以最低成本生产的集成电路芯片上的元件数量将达到65000个。
我相信如此之大的集成电路可以被建造在单个的芯片上。
摩尔的意思是,以单个半导体最低成本生产的集成电路芯片上的半导体元件的数量每年增加一倍。换言之,假定一个芯片的功能与其上面的晶体管数量成正比的话,那么在这一时期集成电路芯片的功能以每年一倍的速度增长。在进一步思考和观察之后,摩尔发现这一成倍增长的趋势仍在继续,但是增长的速度比他预测的稍微慢一些——18个月到两年大约增长一倍。摩尔对于确定目标或做出准确的预测并不是特别感兴趣。他的目的是要指出,电子产品的成本正在迅速地、大幅度地下降。
摩尔有关计算机功能每18个月增长一倍的预言不久就被称为“摩尔定律”。人们之所以对这一定律如此感兴趣,主要有三个方面的原因。首先,虽然摩尔的这一预测是建立在经验之上的,但是它并不仅仅是对过去现象的观察,而是基于对芯片的生产方式以及降低成本的可能途径的深入了解,因此具有预见性。其次,让许多人感到吃惊的是,摩尔定律在1975年以及随后的很多年中一直得到了事实的验证。再次,摩尔定律即使没有被看成是自然规律,也被看成了经济规律,因为微电子行业开始将它用做衡量一个企业成功与否的关键性指标。如果一个芯片生产企业最新生产的芯片功能没有达到它在18个月前所生产的芯片功能的两倍,那么这个企业就会被认为失败的。
事实上,即使在40年之后的今天,摩尔定律仍然适用。但是如今芯片是如此之小,其上面的电路的密集程度是如此之大,以至于这一行业开始感受到了“量子效应”的影响(它将最终导致摩尔定律的终结或者对计算机技术的物理原理的彻底反思)。摩尔当时所列举的芯片上有数万个电晶体元件,而英特尔公司所生产的最新的一种芯片——双核英特尔Itanium 2处理器——上有数十亿个元件。 正是这种计算机功能的大幅度增长——增长幅度达到10亿倍(实际上摩尔定律要求计算机功能每星期增长1%)——才使得计算机成為我们生活中一个必不可少的部分。我们可以想象一下在1965年需要一台计算机用1秒钟来运行的一个计算。在2005年,同样的一个计算,具有同样硬件量的计算机仅需1微秒就可以运行1000次。就数据存储量而言,在1965年用来存储我们这一本书的芯片如今可以存储美国所有学术研究图书馆中的所有书籍。
这一惊人的增长可以导致许多事情发生:大量的信息可以被存储起来。计算机的计算速度达到了无与伦比的程度。信息技术在提高效率方面的作用非常直观——如果一家公司的IT设备无法满足实际需要,那么这个公司IT部门的经理只需要再等上几个月就可以用同样的成本买到功能更为强大的计算机。但是这种功能的增加对于计算机所能够解决的问题意味着什么呢?
人们总是对功能强大的计算机感到担忧,但是这些担忧大多数都是没有根据的。在20世纪60-70年代曾经出现过一种很有影响力但是不太可信的哲学思想,那就是:既然人体基本上只不过是一台极为复杂的计算机 ,那么达到相同复杂程度的机械计算机最终会获得曾经被认为只有人类才具有的属性(如情感、解决问题的技能以及邪恶感)。在阿瑟·C.克拉克的科幻小说《2001:太空漫游》中,一台名叫HAL的智能计算机意识到自己即将被关闭。为了阻止这一情况发生,它杀死了许多的人。
当然这种事情并没有发生——人类和计算机在许多方面还是有着很大的差别的。靠强力驱动的计算机能够在浩瀚的数据中找到其所需要的东西,这种功能虽然极为有用,但也会导致很多问题。计算机领域的进展使我们能够找到很多原本无法被找到的信息。这在许多情况下都是非常重要的,但是对于隐私来说却不是一件好事。虽然它们也许很普通,但并不是无害的,因为它们威胁到了隐私的一个虽然是非正式的,但却是很重要的防线——实践隐匿性(指纸基公开记录的不易获取性)。
信息的收集——实际上就是使人际交往所留下的痕迹永久化的尝试——以各种方式改变了我们的社会。查尔斯·狄更斯的著名小说《荒凉山庄》就是对19世纪隐私发展背景的一个很好的描述。它讲述了一个大家族中的整整一代人由于卷入错综复杂的“贾迪斯诉贾迪斯”案而家破人亡的故事。故事中有几个人物的隐私因为卷入这一诉讼而遭到了侵扰。例如,其中的两个年轻人需要获得法院的允许才能够与他们的监护人约翰·贾迪斯生活在一起,其中一人甚至连改变职业也需要申请法院的批准。
在这一背景中潜伏着更为险恶的力量。一个看上去很小的事件引起了像魔鬼一样邪恶的律师图金霍恩的注意。他开始调查此事的原因。在这一事件的背后隐藏着多年的隐瞒和罪过,而图金霍恩为解开这一秘密所需要的信息就隐藏在存放于某个地方的某些文件之中。然而当时的制度结构是如此之混乱,以至于这个律师为解开这一秘密而收集相关信息的过程就像侦探故事一样扑朔迷离。该书中人物之所以能够保持其私密空间的完整性,只不过是因为其他人缺乏将有关他们的各种杂乱的信息组织成为一个清晰的有机整体的手段。只有像图金霍恩和古皮那样掌握必要技能的人才能够查找到这些信息——即使是这些人也只有在坚持不懈地搜寻相关信息的情况下才能够达到目的。
以上这个例子很好地说明了作为保护隐私的一个重要因素——实践隐匿性。信息的存在是一回事,但是如果信息是以一种很难为人们所发现的方式存在的,那么从这些信息中获得重要知识就完全是另一回事。《荒凉山庄》在出版一个半世纪之后仍然是有关信息的力量的最伟大的一本书。它揭示了由实践隐匿性所提供的对隐私的保护是多么的脆弱。
摩尔定律是如何破坏实际隐匿性的呢?让我们首先举一个属于典型的人类技巧的例子——国际象棋。计算机科学家总是将国际象棋作为一项重要的任务。这主要是出于两方面的原因。首先,至少在公众的眼中,它被与人类智慧联系在一起。只有聪明的人才下国际象棋,而越聪明的人在这方面的技巧也就越高。其次,它是一个具有良好结构的技巧。在任何一个阶段,两位对手的目标都是很明确的。而且他们所能够走的棋的数量可以被制作成一个简短、明确和易于处理的列表。一步棋要么是符合规则的,要么是不符合规则的,不存在模棱两可的情况。因此诸如艾伦·图灵等计算机领域的先驱都认为国际象棋是测试计算机智能的一个很好的工具。
一个人在下国际象棋的时候很难确保获胜。在一局棋的任何一个阶段,每一步棋平均都有20种左右的走法。在整个一局棋中,每一方平均能够走25步棋,也就是说,双方一共能走50步棋。因此,从第一步棋算起,一局棋中可能会出现2050种不同的棋局(这只是一个大致的估计,实际情况可能会比这更多)。这是一个非常庞大的数字,大约是一个“1”后面加上65个“0”。如果你用一秒钟考虑每一个棋局的话,那么直到宇宙终结的时候你也只能完成其中的一小部分。
那么人们是如何下棋的呢?我们是用智能的方法下棋的。我们不会考虑那些愚蠢的走法。我们会使用策略,发现好的走法,并会估计对方所可能采取的应对方法。让我们考虑一下可以看到下五步棋所可能发生的棋局(非常聪明的棋手是能够做到这一点的)的棋手的情况。如果还是假定每步棋有20种不同的走法的话,那么他所要考虑的棋局的数量大约为2010(这也是一个非常巨大的数字:10 240 000 000 000)。但是他不会考虑所有可能出现的情况,而只会认真考虑20多种可能出现的棋局。
当计算机还处于傻大笨粗的发展阶段的时候,它们没有足够的智能去筛除不可能的走法,也没有足够强大的功能去考虑所有的可能的走法。因此它们在与人类对弈的时候往往会输掉。但是它们的水平在不断提高。迪特里希·普林兹于1951年所编写的国际象棋计算机程序能够解决一些简单的问题,它只走两步就被对方将死了。在1956年,MANIAC 1计算机可以在没有两枚“主教”棋子的情况下在6×6的棋盘上下国际象棋。它走4步棋用了12分钟。1958年,一台计算机首次在国际象棋比赛中击败人类对手。但是它的这个对手只是在与它对弈之前1小时才学习了象棋规则。 1966年MAC HACK VI计算机进入了马萨诸塞州业余象棋锦标赛。它是进入国际象棋联赛的第一台计算机,成绩是一平四负。在第二年它战胜了第一位人类对手。到了1967年底,它4次进入联赛,成绩是3胜3平12负。10年之后,最好的计算机已经是很厉害的棋手了:其中一台计算机在快棋比赛中第一次战胜了一名国际象棋赛大师;另一台计算机在明尼苏达公开赛中以5胜1负的成绩夺冠。1988年,计算机首次在联赛中击败象棋大师。到了20世纪90年代初,包括世界冠军加里·卡斯帕罗夫在内的顶级棋手也会偶尔成为计算机的手下败将。在1996年,卡斯帕罗夫在联赛中与一台名叫“深蓝”的计算机对弈,他输掉了一局棋,但是以4∶2的总比分战胜了“深蓝”。但是“深蓝”在于1997年举行的六局棋的复赛中战胜了卡斯帕罗夫。一台计算机最终战胜了世界上最优秀的国际象棋大师。如今在国际象棋比赛中高端计算机与人类选手相比已具有明显的优势:在2005年的一场六局棋的比赛中,一台名叫“九头蛇怪”的计算机以5.5∶0.5的比分战胜了世界排名第7的棋手迈克尔·亚当斯。
随着计算机象棋软件设计人员经验的增长,他们所编制的软件也将越来越好。但这并不意味着计算机程序比人更聪明。它们只不过仍然像以前一样以很笨拙的方法搜索所有或者大多数可能的走法。那么它们是怎样靠着这种笨拙的方法战胜人类棋手的呢?
伴随着计算机的这种笨拙方法的是蛮力。卡斯帕罗夫在3分钟内能够考虑10种不同的棋局。而在1996年“深蓝”尽管输给了卡斯帕罗夫,但是它在3分钟内能够计算出500亿种不同的棋局。由于摩尔定律的作用,如今计算机的计算功能与1996年相比已经增加了100倍。由此我们也可以看到卡斯帕罗夫的人类智能和技巧是多么的了不起:尽管他的思考速度比计算机慢50亿倍,但是他仍然在联赛中战胜了计算机。但是蛮力最终会取得胜利。
我们不能低估蛮力攻击法的巨大的力量。在密码学中,无论我们所使用的秘密多么的巧妙,我们总是应该考虑到蛮力攻击的可能性。蛮力攻击就是通过尝试所有可能的密钥的方法对信息进行解密。一般而言,用蛮力攻击法破解一个密码所需的尝试次数与密钥数量的一半(平均值)成正比。对于美国标准DES编码的256个可能的密钥而言,平均需要尝试255(36 028 797 018 963 968)次才能够找到真正的密钥。任何比强力攻击需要更多时间的方法都不值得加以考虑。因此界定“密码破译”的方法之一就是比蛮力攻击更好的方法。对于某一特定的密码而言,蛮力攻击的方法可能太费时间。在这种情况下如果没有比蛮力攻击更好的方法的话,那么这种密码就是无法破解的。但是随着计算机功能的日益强大,蛮力攻击方法的效果越来越好,因而在这方面的目标总是在不断发生变化。
例如,在20世纪70年代DES刚刚被开发的时候,要破解它所需的255次尝试超出了任何人的技术能力。然而,在1998年,一个名为“电子前沿基金”的倡导公民自由的美国私人组织使用一台名为“深裂”的配备了专门硬件的計算机只用了56个小时就破解了这一密码。这导致几年之后DES被AES所取代。
摩尔定律使我们能够从我们的计算机,尤其是——在隐私语境中——从我们所能够储存的越来越大量的数据(这也要感谢摩尔定律)中,获得比以前多得多的东西。各种组织和官僚机构总是希望获得尽可能多的信息,因为它们所掌握的信息越多,它们对于这个世界了解得就越多。但是我们需要从信息库中获得的信息是与知识十分近似的有用的信息。从数千个超市自动收款台上所收集到的信息可能是很全面的,但却是无用的。我们真正所需要的是能够从这些信息中得出的推论。例如,这个品牌的豆类销售量下降了;这个牌子的啤酒销售量与那个牌子的巧克力的销量之间存在某种联系;等等。根据这些推论我们可以采取相应的行动。我们所需要的是从嘈杂的数据中提取出这些微弱的有用信号。
从巨大的数据集中提取有用的信息的过程被称为数据挖掘。它是计算机科学、统计学和信息检索这三个学科结合所产生的一门复杂的学科。大量的数据使我们能够发现非常偶然的关系或者非常低的概率。例如,我们可以想象某种药物可能具有非常罕见的、有害的副作用。其发生概率为万分之一。这种副作用在临床测试阶段很难被发现。如果被发现的话,它的发生率看起来要高于实际情况(假设在1000名参与测试的人中有2人出现了副作用,那么副作用的发生率似乎为0.2%,而不是实际的0.01%)。但是在这一药物被使用了数年,并且有关其使用情况的数据被收集之后,我们就会有足够的样本来发现很小的可能性以及那些出现罕见副作用的人所具有的共性。这样,我们最终能够发现某个副作用与某种基因或生活方式有关。这一信息对开处方的医生很有帮助。如果没有从庞大的数据库中挖掘有用信息的巨大的努力,我们就不会发现这种副作用以及缓解这种副作用的方法。
数据挖掘在科学、商业、政府管理和公共健康方面极为有用。但是当一种方法能够从大量信息中总结出某种模式的话,那么它很明显也会对隐私构成威胁。在无法总结出模式的情况下,单条信息几乎是毫无用处的。行为模式可以揭示一个人有婚外恋,是某个政党的成员或者信奉某一宗教或邪教。某个人偶尔走过一个教堂并不说明他是这个教堂的成员。但是如果他每个星期天都出现在某个教堂附近的话,那么我们就会有更多的理由相信他是这个教堂的成员了。数据挖掘可以让我们发现隐藏在原始数据中的各种模式。
但是数据挖掘仍然是一项具有挑战性的任务——有用数据在原始数据中所占的比例可能非常小。例如,让我们假定数据挖掘的任务是在某人的硬盘上搜寻犯罪证据。让我们再假定这一犯罪证据的信息量非常大——它可能是长度为大约一兆字节的恐怖活动手册。如果用小四号字在A4大小的纸张上单页打印的话,这一手册打印出来大约有1.3英寸厚。一个G字节的数据打印出来有110英尺高;而263个G字节的数据——相当于4个笔记本电脑中所存储的信息——打印出来有珠穆朗玛峰那么高。要在如此庞大的数据中找出相关和“令人感兴趣”的材料是一项非常艰巨的任务。
在一些地区,由信息收集系统所收集到的信息量太大了,以至于无法由一台计算机单独进行有效的处理。另外在世界上有大量闲置的计算机能力——大多数计算机或者什么事情都不做,或者做一些远远不能发挥其潜在能力的工作,如文字处理或收发电子邮件。开发闲置计算机能力的一种方法就是将许多计算机链接在一起,让它们像单一一台计算机那样工作。这使得一些大的组织能够充分利用组织中的闲置计算机能力,从而使其工作流程更加灵活。但是更为重要的是,这种方法还可以将各自独立的计算机套在一起共同完成某一项任务。为完成这一任务所需的计算工作被分配到一个“网格”的各个计算机上。“网格”一词有两重含义:一系列平行连接的物体;可以在用户不知情的情况下从各种异质源中获得的明显同质的能力(就像电网一样)。
使用其他计算机闲置资源的最著名的例子就是“SETI@home”。使用者可以将其作为屏幕保护程序下载。每当计算机处于屏幕保护状态的时候,SETI就控制计算机的一部分处理能力,用以搜索通过电子望远镜接收到的来自太空的信号,以寻找可能解释智能外星生命形式的规律性(SETI是“外星智能探索”的简称)。也许并不令人感到意外的是,他们到现在为止仍然没有找到“小绿人”的踪迹,但是这种搜寻仍在继续。由于摩尔定律仍然在起作用,可供SETI使用的计算机能力甚至使这一项目得以改进其分析分辨率,并推出了“SETI@home增强版”。 而所有这些都是在参与这一项目的志愿者在使用其计算机的时候所察觉不到的背景之中发生的。网格计算机的使用是增加数据挖掘能力的众多方法之一。事实上,如果能将数据与价值和含义的机读描述结合起来,那么这种网格功能就会变得更为强大。所谓的“语义网格” 就是旨在实现计算机资源协调工作的更强大和更为有效的自动化,以解决大规模的问题。
荐书邮箱: [email protected]
主持人的话:
《咖啡機中的间谍》与间谍并没有多大关系,就如同它的副标题“个人隐私的终结”所揭示的,本书所讲,乃是计算机技术导致的社会行为的改变对个人隐私的挑战。本书作者奥哈拉和沙德博尔特均为英国计算机科学与人工智能方面的资深专业人士,但他们的兴趣不仅在于计算机或人工智能,还在于这些技术所引发的新的社会问题以及可能的解决方案。两位作者对此抱持乐观的态度,他们认为,在信息时代,尽管个人的信息可以轻而易举地被存储、搜索和传递,并且这一过程越来越难以为信息的主人所控制,但人类社会并不会陷入科幻小说《一九八四》所描绘的那种噩梦中。
本书的中文版于2011年底首版,面对飞速发展的计算机技术,书中使用的资料或许已显陈旧,但作者对技术与社会复杂关系的洞见仍然没有失去价值,两位作者提出了一个值得探讨的好问题,其实很值得科幻作家们用科幻小说来解答。
本期我们选摘的是这本书第四章的前半部分,在这部分,作者并未探讨本书的核心问题,但却展现了专业人士对计算机技术发展的冷静观察。
摩尔定律,功能与隐私
在过去二十年中,计算机技术的形象已发生了变化。计算机曾经是一种尖端的、令人兴奋的、科幻小说中所描述的工具。而现在许多人认为它们是一种令人厌烦的东西。例如在英国高校中选修计算机课程的学生的数量在2001年到2006年之间下降了40%。而在美国、加拿大和其他西方国家也出现了类似的下降。与此同时,如今计算机已无所不在,并且改变了我们的生活。
当然在这两个趋势之间有着某种联系。一项仅仅给人以希望的技术可能引发各种积极和消极的猜测。在计算机的主要用途还仅仅是从事各种复杂和重复性计算的时代,一种能够控制我们的生活、替代我们的记忆,并且消除世界上所有纷争的理性思考机器还只是一种有趣的假设。而如今随着计算机在西方民主国家中渗透到人们生活的每个角落,以上的这些设想已经成为现实,因而人们也就对它们失去了新鲜感。取而代之的是他们对随意散落在社会各个角落的、各种拼凑在一起的电脑装置的“数字朋克式”的担忧。
这就是所有技术的命运。我们中有的有些人至今仍然对《星际旅行》中“企业号”宇宙飞船上各种令人惊叹的尖端技术记忆犹新:这种飞船的舱门不用手推就会嗖的一声自动开启!机组人员用一个很小的通信器就可以相互对话!真是不可思议!但是如今还有什么比在任何一个超市都能看到的自动门更让你感到无聊的东西吗?而科克船长对着神奇的通信器所说的那些晦涩难懂的胡言乱语也许要比如今大多数人通过手机所传播的陈词滥调更为有趣。
电子计算机中如何在仅仅几十年的时间内就从科幻小说中的神奇机器变成了如此无所不在、如此普通的东西呢?导致这一现象的是摩尔定律。在1965年,世界上最大的芯片生产商英特尔公司的创始人戈登·摩尔写了一篇预测未来十年集成电路芯片发展趋势的小文章。根据他的预测,随着时间的流逝,计算机将越来越便宜。他不仅关注电子方面的因素,而且还关注经济方面的因素:
集成电路最吸引人的一点是其成本的降低。随着技术的发展,一个单一半导体芯片上所能够容纳的电路功能越来越强大。对于简单的电路来说,每个元件的成本与元件的数量大致成反比。这是由每个半导体能够容纳越来越多的元件所导致的结果。但是随着元件数量的增加,产量的下降将抵消复杂性的增加,从而趋向于导致每个元件成本的提高。因此在这一技术的发展过程中的任何一个时候都存在一个最低成本。目前当每个集成电路使用50个元件的时候就达到了最低成本。但是在整体成本曲线下降的情况下这一最低成本迅速上升……在五年之后,当每个集成电路含有1000个元件的时候电路成本达到最低值(条件是这种电路功能可以被较大批量地生产)。根据我的预计,在1970年,每个元件的生产成本仅为今天的十分之一。
以最低元件成本产生的集成电路的复杂性每年大约增加一倍。可以确信,短期内这一增长率即便不是有所加快的话,也会继续保持。而在更长时期内的增长率应是略有波动,但是有理由相信,这一增长率至少在未来十年内几乎维持为一个常数。这意味着到1975年,以最低成本生产的集成电路芯片上的元件数量将达到65000个。
我相信如此之大的集成电路可以被建造在单个的芯片上。
摩尔的意思是,以单个半导体最低成本生产的集成电路芯片上的半导体元件的数量每年增加一倍。换言之,假定一个芯片的功能与其上面的晶体管数量成正比的话,那么在这一时期集成电路芯片的功能以每年一倍的速度增长。在进一步思考和观察之后,摩尔发现这一成倍增长的趋势仍在继续,但是增长的速度比他预测的稍微慢一些——18个月到两年大约增长一倍。摩尔对于确定目标或做出准确的预测并不是特别感兴趣。他的目的是要指出,电子产品的成本正在迅速地、大幅度地下降。
摩尔有关计算机功能每18个月增长一倍的预言不久就被称为“摩尔定律”。人们之所以对这一定律如此感兴趣,主要有三个方面的原因。首先,虽然摩尔的这一预测是建立在经验之上的,但是它并不仅仅是对过去现象的观察,而是基于对芯片的生产方式以及降低成本的可能途径的深入了解,因此具有预见性。其次,让许多人感到吃惊的是,摩尔定律在1975年以及随后的很多年中一直得到了事实的验证。再次,摩尔定律即使没有被看成是自然规律,也被看成了经济规律,因为微电子行业开始将它用做衡量一个企业成功与否的关键性指标。如果一个芯片生产企业最新生产的芯片功能没有达到它在18个月前所生产的芯片功能的两倍,那么这个企业就会被认为失败的。
事实上,即使在40年之后的今天,摩尔定律仍然适用。但是如今芯片是如此之小,其上面的电路的密集程度是如此之大,以至于这一行业开始感受到了“量子效应”的影响(它将最终导致摩尔定律的终结或者对计算机技术的物理原理的彻底反思)。摩尔当时所列举的芯片上有数万个电晶体元件,而英特尔公司所生产的最新的一种芯片——双核英特尔Itanium 2处理器——上有数十亿个元件。 正是这种计算机功能的大幅度增长——增长幅度达到10亿倍(实际上摩尔定律要求计算机功能每星期增长1%)——才使得计算机成為我们生活中一个必不可少的部分。我们可以想象一下在1965年需要一台计算机用1秒钟来运行的一个计算。在2005年,同样的一个计算,具有同样硬件量的计算机仅需1微秒就可以运行1000次。就数据存储量而言,在1965年用来存储我们这一本书的芯片如今可以存储美国所有学术研究图书馆中的所有书籍。
这一惊人的增长可以导致许多事情发生:大量的信息可以被存储起来。计算机的计算速度达到了无与伦比的程度。信息技术在提高效率方面的作用非常直观——如果一家公司的IT设备无法满足实际需要,那么这个公司IT部门的经理只需要再等上几个月就可以用同样的成本买到功能更为强大的计算机。但是这种功能的增加对于计算机所能够解决的问题意味着什么呢?
人们总是对功能强大的计算机感到担忧,但是这些担忧大多数都是没有根据的。在20世纪60-70年代曾经出现过一种很有影响力但是不太可信的哲学思想,那就是:既然人体基本上只不过是一台极为复杂的计算机 ,那么达到相同复杂程度的机械计算机最终会获得曾经被认为只有人类才具有的属性(如情感、解决问题的技能以及邪恶感)。在阿瑟·C.克拉克的科幻小说《2001:太空漫游》中,一台名叫HAL的智能计算机意识到自己即将被关闭。为了阻止这一情况发生,它杀死了许多的人。
当然这种事情并没有发生——人类和计算机在许多方面还是有着很大的差别的。靠强力驱动的计算机能够在浩瀚的数据中找到其所需要的东西,这种功能虽然极为有用,但也会导致很多问题。计算机领域的进展使我们能够找到很多原本无法被找到的信息。这在许多情况下都是非常重要的,但是对于隐私来说却不是一件好事。虽然它们也许很普通,但并不是无害的,因为它们威胁到了隐私的一个虽然是非正式的,但却是很重要的防线——实践隐匿性(指纸基公开记录的不易获取性)。
信息的收集——实际上就是使人际交往所留下的痕迹永久化的尝试——以各种方式改变了我们的社会。查尔斯·狄更斯的著名小说《荒凉山庄》就是对19世纪隐私发展背景的一个很好的描述。它讲述了一个大家族中的整整一代人由于卷入错综复杂的“贾迪斯诉贾迪斯”案而家破人亡的故事。故事中有几个人物的隐私因为卷入这一诉讼而遭到了侵扰。例如,其中的两个年轻人需要获得法院的允许才能够与他们的监护人约翰·贾迪斯生活在一起,其中一人甚至连改变职业也需要申请法院的批准。
在这一背景中潜伏着更为险恶的力量。一个看上去很小的事件引起了像魔鬼一样邪恶的律师图金霍恩的注意。他开始调查此事的原因。在这一事件的背后隐藏着多年的隐瞒和罪过,而图金霍恩为解开这一秘密所需要的信息就隐藏在存放于某个地方的某些文件之中。然而当时的制度结构是如此之混乱,以至于这个律师为解开这一秘密而收集相关信息的过程就像侦探故事一样扑朔迷离。该书中人物之所以能够保持其私密空间的完整性,只不过是因为其他人缺乏将有关他们的各种杂乱的信息组织成为一个清晰的有机整体的手段。只有像图金霍恩和古皮那样掌握必要技能的人才能够查找到这些信息——即使是这些人也只有在坚持不懈地搜寻相关信息的情况下才能够达到目的。
以上这个例子很好地说明了作为保护隐私的一个重要因素——实践隐匿性。信息的存在是一回事,但是如果信息是以一种很难为人们所发现的方式存在的,那么从这些信息中获得重要知识就完全是另一回事。《荒凉山庄》在出版一个半世纪之后仍然是有关信息的力量的最伟大的一本书。它揭示了由实践隐匿性所提供的对隐私的保护是多么的脆弱。
蛮力攻击
摩尔定律是如何破坏实际隐匿性的呢?让我们首先举一个属于典型的人类技巧的例子——国际象棋。计算机科学家总是将国际象棋作为一项重要的任务。这主要是出于两方面的原因。首先,至少在公众的眼中,它被与人类智慧联系在一起。只有聪明的人才下国际象棋,而越聪明的人在这方面的技巧也就越高。其次,它是一个具有良好结构的技巧。在任何一个阶段,两位对手的目标都是很明确的。而且他们所能够走的棋的数量可以被制作成一个简短、明确和易于处理的列表。一步棋要么是符合规则的,要么是不符合规则的,不存在模棱两可的情况。因此诸如艾伦·图灵等计算机领域的先驱都认为国际象棋是测试计算机智能的一个很好的工具。
一个人在下国际象棋的时候很难确保获胜。在一局棋的任何一个阶段,每一步棋平均都有20种左右的走法。在整个一局棋中,每一方平均能够走25步棋,也就是说,双方一共能走50步棋。因此,从第一步棋算起,一局棋中可能会出现2050种不同的棋局(这只是一个大致的估计,实际情况可能会比这更多)。这是一个非常庞大的数字,大约是一个“1”后面加上65个“0”。如果你用一秒钟考虑每一个棋局的话,那么直到宇宙终结的时候你也只能完成其中的一小部分。
那么人们是如何下棋的呢?我们是用智能的方法下棋的。我们不会考虑那些愚蠢的走法。我们会使用策略,发现好的走法,并会估计对方所可能采取的应对方法。让我们考虑一下可以看到下五步棋所可能发生的棋局(非常聪明的棋手是能够做到这一点的)的棋手的情况。如果还是假定每步棋有20种不同的走法的话,那么他所要考虑的棋局的数量大约为2010(这也是一个非常巨大的数字:10 240 000 000 000)。但是他不会考虑所有可能出现的情况,而只会认真考虑20多种可能出现的棋局。
当计算机还处于傻大笨粗的发展阶段的时候,它们没有足够的智能去筛除不可能的走法,也没有足够强大的功能去考虑所有的可能的走法。因此它们在与人类对弈的时候往往会输掉。但是它们的水平在不断提高。迪特里希·普林兹于1951年所编写的国际象棋计算机程序能够解决一些简单的问题,它只走两步就被对方将死了。在1956年,MANIAC 1计算机可以在没有两枚“主教”棋子的情况下在6×6的棋盘上下国际象棋。它走4步棋用了12分钟。1958年,一台计算机首次在国际象棋比赛中击败人类对手。但是它的这个对手只是在与它对弈之前1小时才学习了象棋规则。 1966年MAC HACK VI计算机进入了马萨诸塞州业余象棋锦标赛。它是进入国际象棋联赛的第一台计算机,成绩是一平四负。在第二年它战胜了第一位人类对手。到了1967年底,它4次进入联赛,成绩是3胜3平12负。10年之后,最好的计算机已经是很厉害的棋手了:其中一台计算机在快棋比赛中第一次战胜了一名国际象棋赛大师;另一台计算机在明尼苏达公开赛中以5胜1负的成绩夺冠。1988年,计算机首次在联赛中击败象棋大师。到了20世纪90年代初,包括世界冠军加里·卡斯帕罗夫在内的顶级棋手也会偶尔成为计算机的手下败将。在1996年,卡斯帕罗夫在联赛中与一台名叫“深蓝”的计算机对弈,他输掉了一局棋,但是以4∶2的总比分战胜了“深蓝”。但是“深蓝”在于1997年举行的六局棋的复赛中战胜了卡斯帕罗夫。一台计算机最终战胜了世界上最优秀的国际象棋大师。如今在国际象棋比赛中高端计算机与人类选手相比已具有明显的优势:在2005年的一场六局棋的比赛中,一台名叫“九头蛇怪”的计算机以5.5∶0.5的比分战胜了世界排名第7的棋手迈克尔·亚当斯。
随着计算机象棋软件设计人员经验的增长,他们所编制的软件也将越来越好。但这并不意味着计算机程序比人更聪明。它们只不过仍然像以前一样以很笨拙的方法搜索所有或者大多数可能的走法。那么它们是怎样靠着这种笨拙的方法战胜人类棋手的呢?
伴随着计算机的这种笨拙方法的是蛮力。卡斯帕罗夫在3分钟内能够考虑10种不同的棋局。而在1996年“深蓝”尽管输给了卡斯帕罗夫,但是它在3分钟内能够计算出500亿种不同的棋局。由于摩尔定律的作用,如今计算机的计算功能与1996年相比已经增加了100倍。由此我们也可以看到卡斯帕罗夫的人类智能和技巧是多么的了不起:尽管他的思考速度比计算机慢50亿倍,但是他仍然在联赛中战胜了计算机。但是蛮力最终会取得胜利。
我们不能低估蛮力攻击法的巨大的力量。在密码学中,无论我们所使用的秘密多么的巧妙,我们总是应该考虑到蛮力攻击的可能性。蛮力攻击就是通过尝试所有可能的密钥的方法对信息进行解密。一般而言,用蛮力攻击法破解一个密码所需的尝试次数与密钥数量的一半(平均值)成正比。对于美国标准DES编码的256个可能的密钥而言,平均需要尝试255(36 028 797 018 963 968)次才能够找到真正的密钥。任何比强力攻击需要更多时间的方法都不值得加以考虑。因此界定“密码破译”的方法之一就是比蛮力攻击更好的方法。对于某一特定的密码而言,蛮力攻击的方法可能太费时间。在这种情况下如果没有比蛮力攻击更好的方法的话,那么这种密码就是无法破解的。但是随着计算机功能的日益强大,蛮力攻击方法的效果越来越好,因而在这方面的目标总是在不断发生变化。
例如,在20世纪70年代DES刚刚被开发的时候,要破解它所需的255次尝试超出了任何人的技术能力。然而,在1998年,一个名为“电子前沿基金”的倡导公民自由的美国私人组织使用一台名为“深裂”的配备了专门硬件的計算机只用了56个小时就破解了这一密码。这导致几年之后DES被AES所取代。
数据挖掘与网格
摩尔定律使我们能够从我们的计算机,尤其是——在隐私语境中——从我们所能够储存的越来越大量的数据(这也要感谢摩尔定律)中,获得比以前多得多的东西。各种组织和官僚机构总是希望获得尽可能多的信息,因为它们所掌握的信息越多,它们对于这个世界了解得就越多。但是我们需要从信息库中获得的信息是与知识十分近似的有用的信息。从数千个超市自动收款台上所收集到的信息可能是很全面的,但却是无用的。我们真正所需要的是能够从这些信息中得出的推论。例如,这个品牌的豆类销售量下降了;这个牌子的啤酒销售量与那个牌子的巧克力的销量之间存在某种联系;等等。根据这些推论我们可以采取相应的行动。我们所需要的是从嘈杂的数据中提取出这些微弱的有用信号。
从巨大的数据集中提取有用的信息的过程被称为数据挖掘。它是计算机科学、统计学和信息检索这三个学科结合所产生的一门复杂的学科。大量的数据使我们能够发现非常偶然的关系或者非常低的概率。例如,我们可以想象某种药物可能具有非常罕见的、有害的副作用。其发生概率为万分之一。这种副作用在临床测试阶段很难被发现。如果被发现的话,它的发生率看起来要高于实际情况(假设在1000名参与测试的人中有2人出现了副作用,那么副作用的发生率似乎为0.2%,而不是实际的0.01%)。但是在这一药物被使用了数年,并且有关其使用情况的数据被收集之后,我们就会有足够的样本来发现很小的可能性以及那些出现罕见副作用的人所具有的共性。这样,我们最终能够发现某个副作用与某种基因或生活方式有关。这一信息对开处方的医生很有帮助。如果没有从庞大的数据库中挖掘有用信息的巨大的努力,我们就不会发现这种副作用以及缓解这种副作用的方法。
数据挖掘在科学、商业、政府管理和公共健康方面极为有用。但是当一种方法能够从大量信息中总结出某种模式的话,那么它很明显也会对隐私构成威胁。在无法总结出模式的情况下,单条信息几乎是毫无用处的。行为模式可以揭示一个人有婚外恋,是某个政党的成员或者信奉某一宗教或邪教。某个人偶尔走过一个教堂并不说明他是这个教堂的成员。但是如果他每个星期天都出现在某个教堂附近的话,那么我们就会有更多的理由相信他是这个教堂的成员了。数据挖掘可以让我们发现隐藏在原始数据中的各种模式。
但是数据挖掘仍然是一项具有挑战性的任务——有用数据在原始数据中所占的比例可能非常小。例如,让我们假定数据挖掘的任务是在某人的硬盘上搜寻犯罪证据。让我们再假定这一犯罪证据的信息量非常大——它可能是长度为大约一兆字节的恐怖活动手册。如果用小四号字在A4大小的纸张上单页打印的话,这一手册打印出来大约有1.3英寸厚。一个G字节的数据打印出来有110英尺高;而263个G字节的数据——相当于4个笔记本电脑中所存储的信息——打印出来有珠穆朗玛峰那么高。要在如此庞大的数据中找出相关和“令人感兴趣”的材料是一项非常艰巨的任务。
在一些地区,由信息收集系统所收集到的信息量太大了,以至于无法由一台计算机单独进行有效的处理。另外在世界上有大量闲置的计算机能力——大多数计算机或者什么事情都不做,或者做一些远远不能发挥其潜在能力的工作,如文字处理或收发电子邮件。开发闲置计算机能力的一种方法就是将许多计算机链接在一起,让它们像单一一台计算机那样工作。这使得一些大的组织能够充分利用组织中的闲置计算机能力,从而使其工作流程更加灵活。但是更为重要的是,这种方法还可以将各自独立的计算机套在一起共同完成某一项任务。为完成这一任务所需的计算工作被分配到一个“网格”的各个计算机上。“网格”一词有两重含义:一系列平行连接的物体;可以在用户不知情的情况下从各种异质源中获得的明显同质的能力(就像电网一样)。
使用其他计算机闲置资源的最著名的例子就是“SETI@home”。使用者可以将其作为屏幕保护程序下载。每当计算机处于屏幕保护状态的时候,SETI就控制计算机的一部分处理能力,用以搜索通过电子望远镜接收到的来自太空的信号,以寻找可能解释智能外星生命形式的规律性(SETI是“外星智能探索”的简称)。也许并不令人感到意外的是,他们到现在为止仍然没有找到“小绿人”的踪迹,但是这种搜寻仍在继续。由于摩尔定律仍然在起作用,可供SETI使用的计算机能力甚至使这一项目得以改进其分析分辨率,并推出了“SETI@home增强版”。 而所有这些都是在参与这一项目的志愿者在使用其计算机的时候所察觉不到的背景之中发生的。网格计算机的使用是增加数据挖掘能力的众多方法之一。事实上,如果能将数据与价值和含义的机读描述结合起来,那么这种网格功能就会变得更为强大。所谓的“语义网格” 就是旨在实现计算机资源协调工作的更强大和更为有效的自动化,以解决大规模的问题。