推广 热搜: page  关键词  数据分析  服务  获取  哪些  链接  数据分析系统  搜索  小红 

互联网起源之——索引信息时代

   日期:2024-12-24     作者:fvksp    caijiyuan   评论:0    移动:https://sicmodule.kub2b.com/mobile/news/9768.html
核心提示:转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢合作!转载请注明来源,并在文章开头添加以下文字/或公众号名

转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢合作!

转载请注明来源,并在文章开头添加以下文字/或公众号名片:来源:公众号☞不知名风险投资人 ♥作者:黄先生斜杠青年

♥声明:本文为原创文本,非生成式,转载请注明出处!

1995 年的一个周末,一小群人聚集在俄亥俄州,通过让互联网变得可导航来释放互联网的力量

1995年 3 月的一个周末,一群图书馆员和网络技术人员在俄亥俄州都柏林,争论应该使用什么单一标签来指定负责万维网上任何文件的知识内容的人员。许多人赞成使用通用且包罗万象的东西,例如“负责任的代理人”,但其他人则认为“作者”标签是描述创建文档或作品的个人的最基本和直观的方式。然后,该小组必须决定如何处理那些也为任何特定作品做出贡献的非作者的角色,例如编辑和插画家,而不必不必要地扩大名单。提出了新的标签,谈话重新开始。

我是斜杠青年,一个PE背景的杂食性学者!♥

该小组正在参加由 OCLC(当时的在线计算机图书馆中心)和国家超级计算应用中心 (NCSA) 主办的研讨会,试图创建一套简洁但全面的标签,可以添加到每个文档中,从文本文件到已上传到网络的图像和地图。关于这些假设标签的争论在接下来的几天里一直持续到深夜,通常基于对互联网未来的截然不同的假设。到周六下午,研讨会的联合组织者 Stu Weibel 对能否达成任何共识感到绝望。然而,到了长周末结束时,不拘一格的人群创建了一个用于描述和发现在线内容的激进系统,该系统至今仍直接为网络搜索提供动力,并为如何在开放网络上标记和发现所有内容铺平了道路。

图书馆和出版商以及 W3C(万维网联盟)的代表出席 1997 年堪培拉会议。图片:由托马斯·贝克/都柏林核心提供。

最近的两项发展给 1995 年的会议增加了重要性和压力:最近推出了第一个广泛使用的 Web 浏览器 Mosaic;以及随后在线上传内容的快速步伐。Mosaic 于 1993 年向公众开放,拥有任何人都可以使用的图形点击界面。Mosaic 无需编写自己的界面来探索网络,因此突然之间任何人都可以上网。网络的公共使用急剧增加。马赛克还允许用户在线上传自己的文本文档、图像和视频,导致散布在网络上的内容激增。与此同时,整个 20 世纪 90 年代初,大量且不断增长的学术资料一直在网上传播,大学图书馆员是最先指出这些文件的查找难度的人之一。

1995 年,网络上有 50 万个内容丰富的独特页面、文本文件和其他“类似文档的对象”(正如研讨会参与者所称),但在不知道其位置和内容的情况下,没有好的方法来搜索它们。早期的网络搜索工具,例如 Archie 和 Gopher,只能查询文件本身的标题或其位置,这意味着您必须知道要查找的文件的确切名称,或者它所在的位置(其完整 URL,或统一资源定位符)。因此,例如,如果您想查找您认为有人在网上发布的一篇文章的副本,您不能只搜索作者姓名和文章标题。这一障碍使得许多(如果不是大多数)在线文档对于大多数人来说基本上无法访问。正如 Weibel 在 1995 年研讨会的报告中所写:“这些[在线]材料的下落和状态通常通过特定社区成员的口口相传。”

为了使用户真正可以发现这些文件,需要某种具有顶级信息(例如作者和主题)的标记系统:换句话说,就是元数据。在这种情况下,元数据可以被视为与文档关联的一组简短标签,使您无需打开文档即可找到它并了解它是什么。

为了开发一个有效的系统,他们需要来自“怪胎、极客和穿着合理鞋子的人”的意见

数千年来,图书馆员一直在创建书目元数据。例如,在亚历山大图书馆,每卷纸莎草卷轴上都贴有一个小标签,上面标有卷轴的标题、作者和主题等信息,这样读者无需展开卷轴就能知道它是什么。图书馆员还可以使用这些标签将卷轴正确地重新搁置在罐子或架子上。

现在网络也需要同样的东西。

解决这个问题的研讨会始于 1994 年芝加哥第二届国际万维网会议上的走廊谈话。Weibel 曾在图书馆联盟 OCLC 的研究小组工作,当时他和五六个人站在走廊里喝咖啡,其中包括他的老板 Terry Noreault 和他在 OCLC 研究小组的同事 Eric Miller。正如 Weibel 回忆的那样:“我们讨论的是,如果有更简单的方法可以在网络上找到 500,000 个可单独寻址的对象(文档),那该多好……

该研讨会很快由 Weibel 和 Miller 共同组织,他们希望能够将研究结果带到明年春天在德国举行的下一次网络会议上。为了开发一个有效的系统,他们知道需要来自三组不同人员的输入:专业学科的编码和标记专家,他们可以帮助确保元数据与在线文件有效关联;计算机科学家;和图书馆员,或者,正如参加第一次研讨会的许多人深情地告诉我的那样,“怪胎、极客和穿着实用鞋子的人”。

大约 52 人参加了俄亥俄州都柏林的研讨会。与会者的多样性以及他们对如何组织网络文档的观点令人震惊。正如参加会议的图书管理员普里西拉·卡普兰 (Priscilla Caplan) 当时所写的那样:“IETF(互联网工程任务组)的成员非常年轻,看起来就像错过了一场兄弟会聚会一样。” 其中有 TEI(文本编码倡议)人员……地理空间元数据人员……出版商、软件开发人员和研究人员。所有人都有非常不同的目标,但“几乎所有人都同意非常需要某种标准”。

1995 年,大多数图书馆员使用 MARC(机器可读编目)为其图书馆目录创建元数据。MARC 记录非常复杂、非常长,并且需要深厚的专业知识才能创建。这些复杂的描述永远无法在整个网络上发挥作用。当时自动化方法还没有出现,所有与会者很快就清楚地意识到,网络的元数据标准必须是全新的东西,即使是那些认为自己可能正在调整现有系统的人也是如此。 :足够简单,任何人都可以在网上发布自己的文档时对其进行标记,但对于其他人和机器来说仍然有意义和具体,可以查找和索引它们。一个全新、简单和简洁的元数据系统意味着,对于现有的 50 万个在线项目,以及即将到来的数以百万计的项目,需要有一种商定的方式来添加元数据标签,标签本身具有相同类型的信息。

创建这些标签不仅需要弄清楚查找现在在线的文件需要什么,还要弄清楚随着网络内容不断增加,以后可能需要什么。该系统没有正式的投票或否决程序;每一条元数据都是通过共识、妥协以及偶尔的真实斗争创建的。事实上,大部分争论都涉及未来的本质,没有人能够真正完全预测。

例如,许多与会者没有预料到自动搜索引擎的到来,尽管一些技术水平较高的人看到了它们的出现,并提出了改进地理定位发现的要求。正如米勒所说:他记得引入了[地理定位]覆盖元素,但遭到了很多反对。他指出,覆盖范围将是本地的以及全球的,例如:查找我附近的一家餐厅。我们试图挑战极限,以便在其他技术先进和其他服务可用时做好准备。其他与会者将地理空间数据视为用来安抚个人或社区的东西,考虑到保持系统精简的需要,他们不确定这是否有意义。

一开始,分歧似乎无法克服,米勒感到沮丧。起初,没有人意见一致,也没有足够的信任彼此,也没有让彼此参与进来,尝试找出可能性的艺术。但随着让步和协议的达成,人们开始对新体系的创建感到充满活力,即使它并不完美;他们的系统一次一篇,可以让每个人都能接触到网络内容。卡普兰回忆道:“到了第二天,就有很多人喝酒、通宵工作。他们靠肾上腺素和能量奔跑。到最后一天,他们意识到他们正在创造历史。”

都柏林核心区革命性地创造了一个全新的中间地带

所有争论的结果是“都柏林核心”(DC)元数据,这是第一个描述网络内容的元数据标准。最后一组短 DC 标签或元数据“元素”是从一个较长的列表中抽取出来的,该列表经过开发、迭代、分析、争论,最终缩减为 13 个列表。在他的研讨会报告中,Weibel 提供了一个元素的示例,使用弗吉尼亚大学图书馆对玛雅·安杰卢的诗《早晨的脉搏》的记录,由图书馆根据安杰卢在比尔·克林顿就职典礼上的表演转录:

·主题:诗歌
·作品名称:清晨的脉搏
·作者:玛雅·安杰卢
·出版商:弗吉尼亚大学图书馆电子文本中心
·其他代理:由弗吉尼亚大学电子文本中心转录
·日期: 1993年
·对象:诗
·形式: 1 个 ASCII 文件
·标识符: AngPuls1
·资料来源:比尔·克林顿总统就职典礼上的报·纸报道和口头表演文本
·英语语言

与图书馆目录记录(MARC 记录有 999 个字段)相比,DC 的内容被严重截断,而且足够简单,任何人都可以创建它们,DC 革命性地创建了一个全新的中间地带:一条记录​​“比索引条目信息更丰富,但不太完整”正如 Weibel 在他 1995 年的报告中所写的那样。DC 标签可以由任何人(而不仅仅是图书馆员)手动轻松创建,从而允许以标准化方式描述更多文档,以便自动化工具可以对它们进行全面索引。DC 标签的易用性和简单性,同时仍然足够具体且有意义,是其成功的关键。正如米勒所解释的那样,DC“让简单的事情变得简单,让复杂的事情变得可能”。

如今,DC 看起来非常熟悉,甚至显而易见,部分原因是它深刻地影响了元数据嵌入网页的方式。元数据标签或“元标签”现在是开放网络的基本基础设施,它们通常采用 HTML(超文本标记语言)的形式,这是在网络浏览器中显示内容的最常用系统。HTML 元标签为页面添加标签,以便 Google 和其他网络规模搜索服务等搜索引擎进行爬行和索引。例如,元标记由网络索引器标记和解析,表示网页内容的作者是 Maya Angelou。元标签中嵌入的信息用于将查询与搜索引擎结果页面相匹配;SEO(搜索引擎优化)的大部分工作只是添加全面、详细的元标签。”dc.Author” content=”Maya Angelou” />

最初的 DC 元标签至今仍在全球范围内使用,它们还直接影响了许多其他元标签,从社交媒体帖子的Web 2.0元标签到网络上各种类型的内容丰富的 HTML 页面的通用和特定标签。例如,诗歌基金会的电子版“On the Pulse of Morning”包含嵌入到 HTML 源代码中的多组元数据:来自标准 DC​​ 元标记,例如;Twitter/X的标签,例如在平台上共享诗歌时用于添加图像的标签;Facebook/meta使用Open Graph 标签将用户引导至相关内容。<’dcterms.Title’><’twitter:image’><’og:see_also’>

DC 直接影响和塑造了过去30 年在网络上查找内容的方式,从 RSS 提要到构成 Google 搜索结果首页信息卡的知识图和面板背后的数据模型。米勒从华盛顿转到万维网联盟 (W3C),该组织负责监督整个网络的标准、协议和语言。你可以将任何网络标准与华盛顿的某些特征、经验教训联系起来。原则……许多来自全球标准的东西都是直接解决 DC 定义的行业标准的。

1995 年研讨会结束后的那个夏天,当时在巴斯大学领导英国图书馆和信息网络办公室 (UKOLN) 的图书馆员 Lorcan Dempsey 主动提出帮助传播该标准。Dempsey 帮助举办了未来的研讨会,与 Weibel 一起发起了今天称为都柏林核心元数据倡议 (DCMI) 的年度会议系列,该会议仍然会进行调整并就未来需要进行哪些改变提出争论。但核心元标签集仍然非常稳定。两天半后,他们就元素应该是什么及其特性达成了普遍共识。人们仍在都柏林核心会议上争论,但他们在弄清楚基本框架方面做得相当不错。

全新标准的采用速度很快。1997 年,Weibel 在德国波恩的一个小型研讨会上了解到,由奥斯纳布吕克大学的 Roland Schwänzl 领导的德国团队为其内容页面添加了 DC 标签,这代表了元标签在现实世界中的首次使用。那一刻对韦贝尔来说至关重要,因为他看到这实际上对人们有用:“这标志着我第一次意识到我们正在做的这种自我审视的影响:其他没有智力利益的人去建造了基于它的系统。一旦标准被编码,“肚脐眼”就变成了遗留代码,DC 就成为了现实。

如果都柏林核心有什么魔力的话,那就是社会过程,而不是技术

每个参加前几次研讨会的人仍然对他们在短短几天后竟然达成共识感到惊讶,他们都断言这个协议与元数据元素列表本身一样是一个非凡的产品。富有成效的分歧结构以及对事情发展方向的不同看法是成功的一部分。正如韦贝尔所描述的:“在某种程度上,真正的产品是共识。” 我们最终得到什么几乎并不重要。这不是火箭科学——它没有什么魔力……我们只是有共同的问题需要解决,而且它起作用了。如果说华盛顿特区有什么魔力的话,那就是社会进程,而不是技术,其背景是对新世界的可能性抱有深刻的乐观态度。

使会议变得困难的原因也是标准发挥作用的原因:参与者的多样性。卡普兰形容这个研讨会有时让她想起《星际迷航:深空九号》中的酒吧场景:“数十个外星物种在闲逛,谈论着稍微不同的类似英语的语言。” 坦率地说,由来自不同领域的多元化非商业团体领导的 DC 以共识驱动的成功在今天几乎是不可能的;甚至将异构网络社区聚集在一起,以中立、开放的标准解决网络规模的问题的概念现在也显得很奇怪。DC 还鼓励广泛使用元数据来改进数字资源的描述和组织,从而形成更加互联和可发现的网络生态系统。在当前网络的平台化、超企业空间中,该生态系统正在迅速消失。

DC 的成功很大程度上与当时缺乏在线商业活动有关。就在 1995 年之前的几年,国家科学基金会网络更新了其可接受的使用政策以允许商业流量。正如 Weibel 所描述的:“没有人眼里有初创公司的耀眼光芒……网络上商业的缺乏在一定程度上使得开放标准得以存在,并且具有真正的中立性。” 当然,这种情况并没有持续多久。现在很难想象。每个人都想创办一家公司。

网络的未来将坚定地朝着与透明的信息发现方法 DC 价值观相反的方向发展。大型商业技术平台通过利用应用程序内的黑盒算法而不是链接到外部位置,努力将用户留在围墙花园中。生成式人工智能工具被激励取代对开放网络的探索,并且当前基于文本的生成式人工智能工具几乎没有一个引用其来源。

这些变化标志着通常被描述为开放网络的终结,在开放网络中,企业集中服务并无形地控制你试图寻找某些内容时所看到的内容,而商业模式则更加倾向于远离可互操作的网络标准。开放网络的历史时期可以说是从30 年前的 Mosaic 开始的,但它已经在消退,也许已经结束了;DC 的故事标志着这个历史时刻的到来,当时这个时代是新的,而网络几乎是纯粹乐观主义的源泉。

1995 年是一段奇妙的时光,就在两个世界之间。人们强烈地感觉到,一个新的信息环境正在出现,就像一个新的黎明。现在这种环境已经不复存在,DC 标签充当了仍然具有功能的人工制品。正如一位 DC 参与者所说的那样:刚刚出现的那种环境以及那种运动与标准相结合的感觉已经消失了——我们留下的就是标准。

了解最新前沿科学技术和应用,尽在公众号《不知名风险投资人》和《谁是药神》

关注我,带你先看到未来!♥

转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢合作!

转载请注明来源,并在文章开头添加以下文字/或公众号名片:来源:公众号☞不知名风险投资人 ♥作者:黄先生斜杠青年

本文地址:https://sicmodule.kub2b.com/news/9768.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号