网络信息计量学研究——网络链接分析方法的探讨

admin 发布于 2024-01-04 阅读(151)

网络信息计量学研究()——网络链接分析方法的探讨第24月情报Vo1。24。3June,2005网络信息计量学研究()(武汉大学中国科学评价研究中心,武汉)(华东师范大学商学院信息学系,上海)(武汉大学中国科学评价研究中心,武汉)摘要本文首先分析了目前网络链接研究在方法领域存在的问题,进而提出构建方法的原则和思路,并以对美国商学院网站链接特征的研究为例,从样本的选择,原始数据的获取,数据的提取和整理以及如何对所获得的样本数据进行分析四个环节进行了探讨。关键词链接研究方法网络信息计量学(Part2)(n,/vers,)(,~,/)(/,。

)stly。Then,。,,a,g,,。,,。"工欲善其事,必先利其器",技术的进步,科学的发展在很大程度上可以说是得益于方法的创新。网络链接作为与传统信息表达和组织完全不同的事物,显然,无法全然秉承传统文献计量学与科学计量学的研究方法和思路,其理论体系的构建和在应用领域的拓展最终取决于研究方法的突破。

收稿日期:2004作者简介:邱均平,男,武汉大学信息管理学院,南京理工大学经济管理学院教授,博导,中国科学评价研究中心主任,图书情报研究所所长,主要研究方向为:信息管理与知识产权,信息计量与科学评价等。段宇锋,男,博士,华东师范大学商学院信息学系讲师,主要研究方向为:网络信息计量学,电子商务。赵蓉英。女,中国科学评价研究中心副主任,副教授,博士研究1)本论文是国家自然科学基金资助项目"网络信息计量学的理论,方法与实证研究"(批准号:)的组成部分和研究成果之~。网络链接研究在方法领域存在的问题目前,网络链接研究在方法领域存在的问题可以分成理论和操作两个层面。在理论层,主要表现为缺乏选择和构建网络链接研究方法的理论依据,更谈不上形成系统的方法论体系;在操作层,问题主要体现在难以保证样本的代表性,数据的可再现性和真实性,以及选择和开发合适的研究工具。1。1缺乏有效的理论依据信息管理学发展至今,人们对非网络信息的研究已经取得了丰硕的成果,但是,网络信息与非网络信息在生产,传播和利用方面都存在极大的差异,因而,在非网络信息研究领域取得的成果难以直接应用到网络领域。在网络链接研究初期,。

AI。mind,,RayR。1。a~on和等学者都试图将文献计量学的理论和方法"嫁接"到网络链接领域,甚至在当时取得了令人瞩目的成就,对推动网络链接研究起到了积极的作用"J。但是,随着研究的深入,人们逐步认识到这是在本质上存在差异的两类事物,并对以往的研究和成果开始的反思和讨论。可以说,迄今,在网络链接研究领域还没有为所有研究者所认同的理论和特征性方法。1。2样本选择缺乏科学性由于互联网的分布性和管理的松散性,目前我们对网络信息资源的建设和分布情况知之甚少。在1995年,1996年,还有可能以整个网络的大部分作为研究对象,譬如,Lyeos就宣称其覆盖了网络91%的内容。而目前,的研究表明,任何搜索引擎的网络覆盖率都不大于16%。并且,这针对的还仅仅是静态网页(),网络上还存在着大量的数据库和动态数据(),这部分资源所包含的信息容量相当于前者的500倍]。因此,在实际研究中企图以整个互联网作为研究对象是不现实的,在无法确知总体的情况下,试图考察其中的部分也是件非常困难的事情。

1。3数据可再现性差动态性是网络与传统信息资源最显着的差异之。传统文献作为信息的载体,一旦发表就不会再发生变化,新文献的产生不会使原有文献消失,因而,在一定程度上它的研究对象是静态的。而作为信息载体的网页,却始终在不断地变化,譬如,内容的更新,URL的变更,存取权限的改变,甚至被从网络中删除。网络的动态性已经被许多研究所证实。认为,网络信息交流有别于以往的两种方式,即产生后永久存在的方式和产生后即刻消失的方式,是一种介于两者之间的,人类新的信息交流方式。在1996年12月的最后两周,他使用"。"从数据库中随机获取361个网址,以周为时间间隔,进行了为期一年的跟踪研究。结果表明,6个月后,有12。2%的网站和2O。5%的网页不能被访问到,一年后,分别上升到17。7%和31。8%。在6个月和一年内网站发生变化的比率分别为97%和超过99%,对于网页,这组数据分另为98。3%和99。1%。类似地,Bar-lima和在1998,1999年,以信息计量学为主题对网络信息的生命周期进行了研究。

研究发现,在6月内近50%的网页发生了变化,一年后68%的网页被从网上移除。网络的这一特性使我们获取的数据反映的都是某一时刻的情况,其他研究者重复和验证的可能性基本上没有。1。4网络链接抽取困难网上数据形式复杂,除了页面文件,在各种文档和图像,动画,声频,视频等格式的文件中也含有相当多的链接信息,而目前的信息识别和处理技术很难解析出这类文件中的链接;再则,目前研究者们对链接的理解还存在一定的分歧。"ahref="是最经典的链接形式,但页内定位标记,框架,重定向 标记和座标位图是否也应该涵括在链接范畴之内却 存在不同的观点。而且,随着网络技术的进步,动态 网页的数量和比例越来越大,这些网页和链接的产 生是由外部事件触发的,链接的产生方式还受脚本 语言的种类,程序员的设计风格等因素影响,不存在 规范的表达形式,因而分析和抽取极为困难。 1。5 缺乏完善的研究工具 商业搜索引擎是网络链接研究最常用的获取数 据的方法,它在网络链接研究中的重要性曾被认为 相当于引文分析中的SCI,。 和Peter 甚至还证实了两者之间的相似性…。特别 是,在一段时间内它成为几乎所有网络链 情报24 接研究的工具。

譬如,1996年,RayR。 地球科 学相关核心网站的测定,1998 年 对"— on"的探索以及 对"Web—IFs"的讨论使用的 都是"。 然而,商业搜索引擎在网络信息覆盖率,检索的 准确性等方面存在的问题一直困扰着网络链接研 究。对于商业搜索引擎的覆盖率,除了 月在)上发表的"。",, 和的研究也表明,搜索引擎对不 同域和网站的信息覆盖率在数量和类型上都存在着 明显的差异。。。另外,Bar-Ilan 研究发现搜索引擎索引的范围重叠程度很小。 和 证实,,, 共同索引的部分只有220 覆盖率的1。4%;在检索结果的准确性研究方面, 发现由于 的算法存在 缺陷,导致其检索结果波动极大。-I]an 在1998 月期间对,,Hot—bot,,Lycos 和 六个搜索引擎的 研究也发现搜索引擎存在这方面的问题"。

并且, 他在2001 年对,,Fast,, ,1won 和 进行的研究还表明,利 用这些搜索引擎所提供的链接检索功能检索网站被 链接情况所得结果是不完整的。 网络链接研究方法建立的原则和思路 研究方法建立的原则是方法创新和研究思路形 成的指导思想,它是理论方法体系的组成部分,在这 体系中发挥着形式上的作用。构成理论方法体系主体的是各种具体的研究方法和思路,是各项原则 在科学实践中的具体体现。 2。1 网络链接研究方法建立的原则 根据科学研究的一般规律和网络链接的特殊 性,我们认为,网络链接研究方法的建立必须遵循以 下原则: 2。1。1 科学性 科学性原则是一切科学研究所遵循的首要原 则,它主要体现在从客观事实出发,综合运用各种手 段,辨明现象的本质,掌握客观事物的内在规律,形 成客观,正确的认识。这项原则要求网络链接研究 方法的设计必须基于以下要素:对大量研究对象 的观察和计量,获取相关数据和事实;对原始信息 进行处理,运用各种分析,推理,判断方法,从大量数 据和现象中发掘研究对象的本质和相互联系,即发 现其内在规律;要避免各种主观因素的影响,防止 主观片面性,更不能用主观臆测和个人好恶代替客 观事实,不能根据主观结论寻找材料来印证。

要尊 重客观事实,只有这样才能真正反映客观事物的本 来面目。 2。1。2 可操作性 可操作性原则就是在追求信度和效度的同时, 要考虑是否具备相应的客观条件。信度就是可靠 性,指针对特定对象和内容的研究,研究结果应该具 有一致性和稳定性,这是研究科学性的体现,也是对 设计研究方法的基本要求。效度就是正确性,即研 究结果要能经受实践和理论的检验。在理论上,实 现最大效度的前提是完全占有信息,即穷举所有的 研究对象,并详尽无遗地表达其各方面的属性,效度 是我们研究要追求的目标。然而,网络的特殊性使 现实的网络链接研究既不可能完全占有信息,也难 以完全再现研究过程和结果,因此,在强调尽可能提 高研究的效度和信度的情况下,我们所涉及的思路 和方法必须考虑在技术,资金,设备,时间,人力资源

标签:  研究 链接 科学 网络 计量 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。