SUPARS:聪明的图书管理员
1970年一个阳光明媚的秋天,数百名雪城大学(Syracuse University)的学生和教师轮流坐在一台打印机终端前(类似于电动打字机),该终端连接到纽约州校园内的IBM 360主机。几乎没有人使用过计算机,更不用说基于计算机的信息检索系统了。他们触摸键盘时手颤抖着;后来有几个人报告说他们害怕自己会在输入时破坏整个系统。
参与者正在进行第一次在线搜索,输入精心选择的单词以在全新数据库中找到相关心理学摘要。他们每行只输入一个关键词或指令,例如第1行是“动力”,第2行是“尊重”,第3行是“L1和L2”,以便搜索包含这些术语的论文。运行查询后,终端将生成一份输出结果表明有多少篇文档符合每个搜索条件;用户可以缩小或扩大搜索范围,并生成文章引用列表。许多参与者看到远程计算机返回结果时都笑了。
作为事后电话调查的一部分,参与者被要求提供两三个词来描述这次体验。在提供的总共 78 个单词中,有21个是相同的形容词:“令人沮丧”。参与者在登录系统时遇到了困难,并经历了不可预测的失败、“不相关的输出”,最重要的是,不知道“在搜索中使用什么词”。然而他们也发现这个系统很有趣和令人兴奋(“好玩”,“我喜欢计算机”),94% 的人表示如果SUPARS(the Syracuse University Psychological Abstracts Retrieval Service,雪城大学心理文摘检索服务)再次可用,他们会再次使用它。有几个人提出继续进行实验,请求他们的部门为该项目提供资金。
这群学术实验对象大多是教育学、心理学和图书馆学领域的研究生,他们是雪城大学图书馆学学院开展的激进在线搜索实验的一部分。SUPARS 是 20 世纪 60 年代末至 70 年代中期在美国大学校园进行的众多雄心勃勃的信息检索研究之一。许多因素导致了这项研究的激增。计算机处理速度和存储能力的发展使得学术数据库和目录可以数字化并移动到在线平台上。计算机终端是新型模块化设备,可以分布在校园各处,以便去中心化地访问主机。而且,军事和工业领域对基于计算机的研究的资金支持比以往任何时候都更加充裕。在有了这个机会后,学术图书馆员利用这种昂贵的新技术进行探索。反过来,大学提供了与企业技术公司和军事组织合作的非保密环境;SUPARS是由美国空军实验室罗马航空发展中心(Rome Air Development Center)赞助的。
很容易理解为什么 20 世纪 70 年代的图书馆员着手革新搜索。学术界的工作规模不断扩大,很快就会没有足够的人类图书馆员来支持所有工作。然而,为了获取所需的信息,研究人员需要面对耗时、费力与并需要图书管理员介入的过程。虽然学术研究人员可以浏览其领域的新期刊,但如果要进行全面搜索以查找之前所有内容,则仍需咨询参考图书管理员,在多卷手册中查找正确的国会图书馆主题标题。有了一组主题标题,研究人员就可以在图书馆目录中搜索图书,在期刊文章的引文索引中搜索,包括订阅数据库,如科学引文索引,以及由他们大学的学科图书管理员手工创建的书目。最后,他们会亲自找到正确的书籍和装订期刊,其中包括他们认为可能相关的资料— — 如果这些书恰好在图书馆的书架上的话。
难怪SUPARS参与者发现该系统引人注目,尽管它有局限性。考虑到大学图书馆员对搜索挑战的熟悉程度,他们设计的系统绕过主题标题和引文索引是有道理的。更令人惊讶的是,在这一时期发生的所有在线搜索实验中(包括像洛克希德的 Dialog 这样的商业搜索系统,该系统后来成为企业产品), SUPARS 比任何其他搜索都更接近地模仿当代网络搜索,预示了50多年后我们所依赖的网络搜索协议的几个主要特征。
SUPARS和其他几乎被遗忘的系统是我们今天所拥有的当代搜索引擎的先驱。虽然互联网的流行历史推崇硅谷的程序员 — — 有时也推崇美国前副总统阿尔·戈尔(Al Gore) — — 但搜索的许多最初概念来自图书馆科学家,他们关注的是文件在时间和空间上的可访问性。在军方和工业界的研发资助下,他们的进步在当前的在线信息领域随处可见——从获取和索引全文文档的通用方法,到自由文本搜索和利用以前保存的其他人搜索的复杂算法,当代查询扩展和自动完成的基础构建块。事实上,这些方法和许多其他由校园先驱开发的方法,至今仍被数十亿美元的网络搜索和商业图书馆数据库(从Google到WorldCat)所使用。
SUPARS是由一位名叫Pauline Atherton的图书管理员设计的(她现在的名字是Pauline Atherton Cochrane)。1960年,30岁的她刚开始图书馆生涯,就担任当年《世界图书百科全书》(World Book Encyclopedia)修订版的交叉参考编辑,确保不同条目之间的交叉链接全面准确。到1966年,她在雪城大学(Syracuse University)图书馆和图书馆学院工作,1968年,她演示了第一次使用在线十进制分类文件来帮助搜索。同年,她在图书馆学校(LEEP)建立了第一个基于计算机的教学实验室,将在线搜索整合到常规课堂教学中。(在互联网出现之前的世界,“在线”意味着在大型计算机和其他一些远程设备[如终端]之间建立网络化的实时连接。)
第二年,也就是1969年,Atherton与她的合作研究者、雪城大学的另一位图书馆学教授杰弗里·卡泽尔(Jeffrey Katzer)设计了SUPARS。SUPARS项目的主要目标是提供大规模的在线搜索,以便尽可能多地了解用户如何在线搜索,他们对在线搜索的感受,以及他们需要什么来更好地搜索。为此,该团队建立了一个可搜索的学术内容语料库,供整个校园使用;来自美国心理协会《心理学文摘》(Psychological Abstracts)的35000多篇文章。用于在SUPARS系统中进行索引和检索,这是第一个在非分类环境中在线提供的大型数据库。当时的用户群和可搜索的内容都非常庞大,虽然规模和范围远不及今天的网络搜索。
Atherton和她的团队做出的两个决定让SUPARS变得真正新颖。首先,他们从《心理学文摘》条目中去掉所有的主题标题,使所有的单词都可以直接搜索,除了“and”这样的连接词和“a”或“the”这样的冠词。这使得SUPARS成为第一个可以在线搜索和输出大量免费文本的系统。(他们的最终报告标题为“自由文本检索评估”[Free Text Retrieval Evaluation]。)其次,他们将每个SUPARS搜索保存在一个可以与摘要本身一起查询的并行数据库中,使SUPARS成为第一个允许用户访问和使用以前的搜索来找到替代术语或方法的实验。
这些功能中的每一个单独来说都是新颖的,但是,为了了解这种组合在当时是多么超前,有必要看看今天的网络搜索服务是如何运作的。Google、Bing等搜索引擎索引网页使用两个主要组件:爬虫搜索新页面,并定期重新抓取已经找到的页面;解析器分析页面内容,将结果信息(包括所有自由文本)存储在内部数据库中。当用户输入搜索查询时,Google会尝试将查询中的单词和短语与其数据库中的页面进行匹配,并为用户提供最相关的结果。
除了搜索者自己输入的词外,当代网络搜索算法还会考虑与搜索查询中那些词密切相关的其他词,包括同义词(比如搜索“bike”,返回的结果是“bicycle”和“cycle”)和其他直接相关的词。
大多数搜索引擎还会包括其他人执行的类似查询的一部分的单词,这些单词成为内部同义词库的一部分,用于向用户的查询添加搜索词。这个包含相关单词的过程,称为查询扩展(query expansion),可以显著提高返回记录的相关性。类似地,Google和其他搜索引擎也通过自动补全功能向用户推荐额外的搜索词,根据之前的搜索创建预测,帮助用户快速完成查询。
因此,通过赋予用户直接在文档中搜索自由文本的能力,以及允许搜索者借鉴前人使用过的搜索策略,SUPARS预示着网络搜索的到来。同时,SUPARS通过分析其事务日志来确定所有这些单个搜索的效用。在最初的试验项目之后,在1970年10月至12月(SUPARS I)和1971年11月至12月(SUPARS II)之间进行了两次SUPARS测试。Atherton的研究小组得出结论,自由文本搜索是提高搜索结果相关性(用科学家的话说就是“recall”)的一种有效方式,而且可能与由人类图书馆员领导的搜索一样有效。更重要的是,一个不断进化的词汇系统不断适应人类的输入和行为,相对于一个基于固定的、“一次性”控制的搜索系统词汇表的系统进行了升级。SUPARS团队不知道人工智能网络搜索算法会在几十年后完成这项精确的工作,但他们显然有一种感觉,这将是一种持续更新搜索结果的新且有效的方式。
在1972年写给《美国信息科学学会杂志》(Journal of the American Society for Information Science)编辑的一封信中,Katzer描述了提供所有先前搜索查询的数据库背后的原因:
这个搜索数据库的目的是帮助用户在文档数据库中制定查询(心理学文摘)。由于SUPARS目前使用的是不受限制的词汇表,因此搜索数据库的输出可以帮助用户发现在文档数据库中攻击其主题的其他方法:它将提供其他主题专家使用的关键字,以及他们的思维过程的表示……我们认为,这是一个尚未得到充分探索的领域的开端:使用用户智能来增强机器智能的所有努力。
人们很容易把Atherton的团队描绘成乌托邦式的未来主义者,但SUPARS实验的设计并没有像开放网络那样具有指导性的愿景。它是专门为未来能亲自帮助研究人员的图书馆员越来越少的情况下而设立的。扩展他人的集体智慧是一个实用的解决方案,而不是一个理想主义的解决方案。
Atherton的小组观察到,由于雪城大学的新计算机终端位置“远离参考图书管理员或用户感兴趣领域的任何其他人类专家”,他们将需要额外的帮助来源,这可以在“系统所有其他用户的人类智慧”中找到。他们写道,其他研究人员的综合决定只是图书馆专家的替代品:
理想情况下,用户能够与熟悉其兴趣领域的人交谈,并得到各种词汇和其他提示。然后,用户可以开发或制定对系统的搜索查询,该查询具有最大化检索所需的具体性或详尽性。
当他们在校园里使用模块化终端时,SUPARS团队看到了即将到来的未来,以及一个基于分布式、网络化计算的世界将失去什么:越来越多的研究人员将在图书馆之外独立工作,他们需要图书管理员无法提供的支持。Atherton的团队并没有预测到一个不需要专业图书馆员的世界;他们正在为这样一个世界做准备:研究将在许多不同的地点进行,距离参考咨询台太远,他们无法提供帮助。
SUPARS实验人员还得出结论,虽然利用他人的搜索词是基于主题的搜索的一个有希望的替代方案,但它确实有局限性。SUPARS的最后建议之一是继续开发受控词汇表,并解释说“交互式自由文本搜索对某种形式的用户词汇表或同义词控制的需求仍然存在”。他们是在看到SUPARS的参与者经常遇到搜索词汇问题后得出这个结论的,比如在他们的一个例子中,搜索“人”而不是“人类”,却没有返回任何结果。参与者自己也忽视了主题标题的全面性。事实上,作为SUPARS调查的一部分,他们被问及是否更喜欢自由文本系统或词汇受到更多控制的系统: 42%的人喜欢自由文本系统,36%的人喜欢受控词汇,12%的人希望两者兼得。
这样一来,SUPARS的意义就在于它既是一个远远领先于时代的设计,又是互联网和万维网的既定技术乌托邦历史的反例。在这段历史中,被誉为有远见的人几乎总是想象着这样一个世界:技术将绝对改善人类的交流、智力和效率。
例如,这段历史中最著名的人物之一是J. C. R. Licklider,他的通用网络想法直接启发了阿帕网 (ARPANET) 的发明,该网络通常被称为 “第一个互联网”。(Licklider也深入参与了类似的60年代和70年代的校园在线搜索实验;他既资助了麻省理工学院图书馆的几项研究,也为其提供了建议,这些研究与SUPARS在同一时期进行)。
1968年,即SUPARS设计的前一年,Licklider的论文《作为通信设备的计算机》(The Computer as a Communication Device)宣称: “几年后,人们将能够通过机器进行比面对面更有效的交流”,并描述了一个以人类计算机互动为媒介的有益的、幸福的社会。Licklider预言,“在线个人的生活将更加幸福”,“交流将更加有效和富有成效,因此也更加令人愉快”。Licklider的文章对于这种关于信息技术潜力的未来主义流派来说,是典型的既预测又美好的文章。
文化界赞扬像Licklider这样的人具有积极的愿景。但是,同样地,Atherton和SUPARS研究团队也应该被赞美,因为他们看到了未来可能失去的东西,然后为之设计。将我们的互联网梦想家群体扩大到像Atherton这样的人,我们看到了不同类型的研究人员如何设想未来世界的更复杂的画像。Licklider看到了我们将从能够与世界上任何一个人在线交流中获得什么,而Atherton的小组看到我们将失去专家中介;他们是为了这个成本而设计的。
2022年和2023年,随着第一批生成性人工智能搜索引擎(包括Elicit和Consensus等学术搜索引擎)被介绍给广大用户,既让人兴奋又让人怀疑,分析研究人员依赖这些工具会失去什么也同样有用。例如,当我们可以简单地输入研究问题来创建即时的文献综述时,这将不仅仅是一个巨大的积极飞跃。这种新技术将造成基础和背景的缺失,即使是在取得令人难以置信的新发现时也是如此——这种损失与Atherton所看到的不同,但同样是无形的和深远的后果。能够提前预测这些后果,不是像勒德分子(Luddites)那样哀悼它们,而是积极考虑如何帮助研究人员克服它们,这是我们可以从SUPARS团队那里学到的一课。
原文:The 1970s librarians who revolutionised the challenge of search
Like my work? Don't forget to support and clap, let me know that you are with me on the road of creation. Keep this enthusiasm together!