语义网环境下叙词表构建方法研究

99真人网上现金娱乐

2018-10-26

内容摘要:【目的/意义】通过研究语义网环境下叙词表的构建方式,促进叙词表的共建和共享。

【方法/过程】叙词表是进行知识组织的有效工具。 从知识工程的角度,对语义网环境下叙词表的基本特征和构建方式进行分析,研究叙词表构建的技术模型与演进路径,为叙词表的编制、使用和维护提供新的思路和视角。

进而,结合知识的多维度描述方法,对语义网环境下叙词表构建的有效性进行实证研究和展望。 【结果/结论】《汉语主题词表》研究和实践表明,语义网环境下叙词表的共建共享在机制和技术上是可行的。 关键词:作者简介:  1引言    叙词表作为一种轻量级的知识组织工具,侧重于对概念和概念关系的描述,在图书情报领域得到了广泛的应用,特别是在纸质文献信息标引、检索与服务等方面发挥了重要作用。

近30年来,我国陆续编制了《汉语主题词表》《军用主题词表》等各种类型的叙词表,具有概念规范、语义关系严密、简单易用等诸多优点,成为图书情报领域开展知识组织与知识服务的基础性、支撑性知识工程。

同时,随着互联网的深入发展,用户群体的知识需求和使用习惯已经发生了显著变化,不仅突破了传统图书馆在时间、地域、资源载体等方面的物理限制,而且更加迫切地需要对知识内容进行有效组织和获取。 叙词表作为计算机可读的专业知识库,如何主动适应用户需求的变化,形成数据、技术和用户需求多重驱动的编制新模式,更加有效支撑海量专业知识的细粒度标引、推荐与服务,实现知识内容快速、精准服务,是当前知识组织领域面临的重要研究课题。

    语义网(semanticweb)为叙词表的编制提供了更为丰富的理论视角、技术条件和数据资源。

语义网以知识组织为基础,侧重于知识的表示、推理、存储等,形成便于计算机使用的知识库资源,提高计算机的智能化水平,形成了值得借鉴的范式。

因此,本文试图对语义网环境下叙词表的基本模型、构建方法、应用领域、维护更新机制和相关技术进行引介和探讨,为叙词表的良性发展与应用提供借鉴。

    2研究现状    网络环境下,语义的重要性正在日益凸显,国内外学术界对叙词表编制方法和技术进行了较为深入的研究。 常春等学者研究了网络环境下叙词表编制与更新维护中概念及关系的获取方法[1];曾建勋等对网络环境下叙词表表现形态、编制维护方式和功能定位进行了研究,提出了“基础词库-范畴体系-概念关系网络”三级联动机制[2];邰杨芳等提出基于受控词表的Folksonomy优化系统方案,以提高环境下网络信息资源的组织管理和检索效率[3];曾文等研究了叙词表自动构建、词间关系、可视化等多个方面[4];滕广青等对知识组织体系的结构和演进路径进行了梳理,指出知识组织体系正在向柔性化、复杂化方向发展[5];司莉等对网络叙词表的现状进行了调研,对网络叙词表的用户服务界面提出了构建策略[6-7];欧石燕研究了通过SKOS对叙词表进行转化和共享的方法与技术[8];曹树金对网络叙词表的结构模式进行了分析,并提出了优化建议[9]。 在国际上,也进行了相应的研究,Berners-Lee于2000年提出了语义网(semanticweb),试图通过机器可理解的本体知识实现知识之间的语义互通,被万维网联盟W3C广泛推广,语义已经成为知识互联互通的必要基础[10]。 Almeida等在语义网环境下通过上下文语境对知识组织系统中的语义关系进行界定[11]。

DeLuca等从词汇关联的角度,展示了如何重用语义关系并实现语义推理[12]。 Hernandez从用户交互需求角度提出了知识建模技术,实现对碎片化知识的集成和推理[13]。

特别在大数据背景下,关联数据理论在图书情报界形成研究热潮,借助本体、叙词表等语义资源,实现对各类知识语义层面的管理和服务,语义在知识聚合方面起到了不可替代的作用[14]。 在工程实践方面,美国国立医学图书馆开发的一体化医学语言系统UMLS集成了150余部医学主题词表,用于对互联网文献的挖掘和服务,已经在概念融合、语义推理等方面取得突破性进展[15]。 此外,IEEE推出的顶层本体SUMO(SuggestedUpperMergeOntology)也在试图将包括叙词表在内的知识组织工具进行融合,以支持语义网的构建[16]。

    叙词表与语义网具有天然紧密的联系。

语义网环境下,叙词表的基本理念和结构仍然基本保持,并具有更丰富的社会需求和应用场景。

同时,叙词表的构建方式、技术方法、应用方式也必然要主动适应语义网环境的需求,在语义结构、数据格式、互操作等方面加以改进,以适应语义网环境的需求。     可以说,语义网将对叙词表的构建与发展起到积极的促进作用,如何顺应互联网向语义网转变这一总体趋势,对叙词表编制技术和方式进行完善并形成良性循环,是本文的主要研究目的。     3叙词表基本特征    为了便于称谓和比较,本文根据叙词表的载体类型,分为以纸质版为载体的传统叙词表和以网络方式为载体的网络叙词表。 虽然“网络叙词表”目前尚无统一的定义,但学术界已经对其形态、功能和应用有了一些共识。

它不是简单地将传统叙词表进行数字化,转移到网上,而是在叙词表基本原理和整体框架的基础上,根据新的信息对象采用相应的技术手段进行有机整合与改进,对叙词表的结构、方法和技术加以优化与发展。

两者在很大程度上仍有基本的共性。 语义网环境下,叙词表的构建一方面需要继承传统叙词表的经验和成果,例如概念遴选原则、概念关系类型等,另一方面也需要对编制技术和方法创新,形成适合语义网信息环境的有效组织工具。 见表1。     在工程实践中,叙词表在语义网时代的发展已经呈现出一些新的特点和趋势,其主要特征有三点:一是叙词表构建方式网络化与半自动化,包括基于网络环境的多用户协同编制组织方式、适于网络信息资源的词表结构组织框架调整以及计算机辅助编制技术开发,辅助人工提高编制效率,突破了传统上以手工或者计算机操作的局限,编制效率大大提高;二是叙词表更新维护的动态化,借助数据挖掘技术从大规模语料库中进行叙词表知识内容的动态更新,以及基于用户交互的叙词表动态维护更新,知识可快速更新,叙词表的时效性大大增强;三是叙词表应用方式的多样化,包括采用叙词表进行语义关联以及在网络中的开放式应用和规范化共享,用于网络环境下各类数字化文献的有效组织和管理,并支撑术语服务、知识图谱构建等应用。

总之,语义网时代,叙词表构建的自动化、更新的时效性和应用的多样化,都大大有别于传统的手工与纸质方式,展现出良好的发展前景。