DEC.2019InformationResearchNo.12(SerialNo.266)
“江海文化”资源知识聚合策略与模型设计研究∗
徐晨飞 孙 静
(南通大学经济与管理学院 江苏南通 226019)
摘 要:[目的/意义]对“江海文化”资源展开知识聚合研究ꎬ推动大数据时代地域文化资源知识组织方式的变革ꎮ[方法/过程]对相关概念及研究现状进行梳理ꎬ提出实现“江海文化”资源知识聚合的五种策略ꎮ结合“江海文化”资源特征ꎬ设计基于关联数据技术的“江海文化”知识聚合模型ꎮ[结果/结论]本研究将进一步提升相关馆藏机构的知识服务能力ꎬ推动“江海文化”研究的不断深化ꎮ
关键词:江海文化ꎻ知识聚合ꎻ关联数据ꎻ模型设计
中图分类号:G07 文献标识码:A Adoi:10.3969/j.issn.1005-8095.2019.12.002
ResearchonKnowledgeAggregationStrategyandModelDesignof
“River-MarineCulture”Resources
(SchoolofEconomicsandManagementNantongUniversityNantongJiangsu226019)
topromotethechangeofknowledgeorganizationmodeofregionalculturalresourcesintheeraofbigdata.[Method/process]Thepapertheknowledgeaggregationmodelof“River-MarineCulture”basedonlinkeddatatechnology.[Result/conclusion]Theresearchwilldeepeningofthe“River-MarineCulture”research.
Keywords:River-MarineCultureꎻknowledgeaggregationꎻlinkeddataꎻmodeldesign
Abstract:[Purpose/significance]Thepaperistodoknowledgeaggregationresearchon“River-MarineCulture”resourcessoas
XuChenfei SunJing
summarizestherelatedconceptsandresearchstatusputsforwardfivestrategiesforachievingtheknowledgeaggregationfromtheexisting“River-MarineCulture”resources.Alsothepapercombineswiththeresourcecharacteristicsof“River-MarineCulture”anddesignsfurtherimprovethelevelofknowledgeserviceservicesinlibrariesandotherresourcecollectionagenciesandpromotethecontinuous
0 引言
文化是人创造的ꎬ地方文化是特定群体特定地方共享的全部精神生活与物质生活ꎮ南通地处长江与黄海、东海相汇处ꎬ又是南北文化交汇叠合的地域ꎬ历经五千多年历史的变迁ꎬ南通烙上了吴越、齐鲁、荆楚等众多文化的痕迹ꎬ加上其本地固有的沙地文化ꎬ形成了一种独特、深邃、神秘的“江海文化”ꎮ“江海文化”的形成发展ꎬ始终与“江”“海”息息相从本世纪初起ꎬ有关“江海文化”的各类研究成为区域研究热点ꎬ相关研究成果层出不穷ꎮ随着网络技
收稿日期:2019-07-24
术和多媒体技术的迅猛发展ꎬ各种“江海文化”数字化资源日益增加ꎬ这也为“江海文化”研究提供了更为便捷的途径ꎮ
近些年来ꎬ语义网技术的成熟与普及使得馆藏资源知识组织与知识聚合逐渐成为图情领域研究热点ꎮ目前ꎬ在学界也初步形成了一整套关于知识建模、知识存储、知识聚合以及知识可视化的实现技术、方法和流程[2]ꎬ可以较好地满足书目与规范控也为网络环境下“江海文化”异构资源多维度知识聚合提供了技术保障ꎮ本文结合“江海文化”资源特制、数据重用和共享、知识组织与知识发现等功能ꎬ
关ꎬ凸显出海纳百川、崇文重教、开拓创新的特质[1]ꎮ
2016SJB870011)和国家社科基金重大项目“东亚楚辞文献的发掘、整理与研究”(项目编号:13&ZD112)成果ꎮ为行政管理ꎮ
∗本文系江苏高校哲学社会科学研究基金资助项目“基于关联数据的‘江海文化’资源聚合与应用研究”(项目编号:作者简介:徐晨飞(1981—)ꎬ男ꎬ博士ꎬ讲师ꎬ研究方向为数据挖掘、数字人文ꎻ孙静(1995—)ꎬ女ꎬ2017级硕士研究生ꎬ研究方向
10
2019年12月徐晨飞等:“江海文化”资源知识聚合策略与模型设计研究第12期(总266期)
征ꎬ提出“江海文化”资源知识聚合的若干策略ꎬ在此基础上构建基于关联数据的“江海文化”资源知识聚合模型ꎮ1 相关研究1.1 江海文化
本体、关联数据、文献计量及社会分析法进行特征及优劣势分析的基础上ꎬ从方法融合视角对数字资源聚合方法的融合趋势进行了归纳总结[11]ꎮ毕强、尹长余等从概念聚类、概念关联、知识关联三个层次阐述数字资源聚合方法ꎬ构建数字资源聚合的方法体系[12]ꎮ李亚婷将知识聚合的方法分为四大类别:基于情报检索语言的聚合ꎬ包括元数据、主题词和分众分类等情报学常用的检索语言ꎻ基于知识网络的聚合ꎬ该方法主要针对网络、图数据、涉及基于网络的成的特有文化ꎮ在以往有关“江海文化”的论述中ꎬ长江黄海环抱与南北交会的独特地理位置、冲积平原与沿海滩涂的自然环境、三角洲沧海桑田的地理“江海文化”是江海人民在本区域长期发展中形
变迁、移民的进入与近邻文化的流传影响ꎬ以及依托于自然条件形成的生产方式的多元化等等均成为研究和概括江海文化特征的充分理由[3]击的沙地“关东文化ꎬ“”“江海文化荆楚文化”具有”“维扬文化“齐鲁文化ꎮ”等输入的影响”“作为江海冲吴越文化”体现“盐文化”“农耕文化ꎬ““里下河文化”“沙地文化””““植棉文化海洋文化””““移民文化五山文化””存近代文化、包容会通”等内生的特质”的文化结构形态ꎬ呈现[3]“五方杂糅、多元共社会长期发展过程中ꎬ“江海文化ꎮ”积淀了深厚的历在江海大地经济史底蕴ꎬ形成了“崇文尚武、擅农重商、富民兴邦、以德化民”[4]的文化传统ꎮ本课题研究的“江海文化”是指各种与群众生活密切相关、世代相承的地域文化ꎬ包括人物、地点、建筑、时间、事件、风俗、方言等ꎬ以及表现形式丰富的非物质文化遗产ꎮ近二十年来ꎬ关于“江海文化”的研究层出不穷ꎮ曹琳2002年发表的«江海文化论纲»中首次对“江海文化”的内涵与题材进行了界定与阐述[5]的形式对南通江海文化进行了描述ꎻ丰坤武以系列论文[6-9]出江海文化结构与文化南通建设[4]ꎻ黄鹤群提出彰显南通江海文化魅力的建议与对策ꎻ王敦琴团队提[10]有大量学者对“江海文化”中提及的代表性人物ꎻ此外还、南通方言、民俗文化、音乐艺术、非物质文化遗产等展1.2 开了深入细致的研究知识聚合ꎮ
知识聚合旨在通过统计分析、数据挖掘、人工智
能等方法对可能存在隐性关联的知识单元进行凝聚ꎬ以提取知识单元间的内在关联为手段ꎬ构建多维多层又互相关联的知识体系ꎬ进而提供准确的、有针对性的知识服务ꎬ对实现知识的开发与利用具有重要意义ꎮ知识聚合的实现方法多样ꎬ基于元数据、社会标签、关联数据和计量等方法的聚类实现得到了广泛的讨论ꎬ学者们从不同角度进行了方法的对比与归纳ꎮ马鸿佳、李洁等在对主题词表、分众分类、
统计分析、计量分析与社会网络分析方法等ꎻ基于语义网的聚合ꎬ包括本体、微格式、关联数据等一系列语义网发展过程中产生的方法ꎬ研究强调构建知识间的语义关联ꎻ基于主题的聚合方法ꎬ是通过数据挖掘将主题相似或相同的知识聚合在一起ꎬ常用的方法有主题聚类和主题模型[13]化”资源知识聚合的研究并不多ꎮꎬ目前关于笔者曾对““江海文江海文化”文献资源进行知识组织ꎬ构建了知识本体[14]文将在此基础上探讨如何实现“江海文化”资源知识ꎬ本聚合应用ꎮ
2 “江海文化呈现多样化特征“江海文化””资源知识聚合策略
ꎬ研究对象较为丰富本研究中“江海文化ꎬ其资源类型也
”资源类型包括文献资源(如图书、期刊论文、会议论文、报纸、地方志等)、多媒体资源(如影视资料、人物访谈等)以及“江海文化”专题资源(如网站、典型人物、饮食文化、方言、非物质文化遗产等)ꎮ目前实现资源知识聚合的方法较多ꎬ笔者结合“江海文化”资源特点ꎬ提2.1 出五种可实现该领域文献资源知识聚合的策略基于计量分析的资源知识聚合策略ꎮ
计量分析一般可采用共现主题词、耦合作者及
耦合关键词等方法对现有文献资源进行分析和知识聚合ꎮ计量学的研究理论和方法为大量文献信息资源的深度知识聚合提供了量化支撑ꎮ采用基于计量分析的文献资源聚合策略ꎬ即通过建立相关资源之间的语义关系ꎬ从而构建一个可用来表示已有文献资源的元数据语义关系网络ꎮ
基于计量分析的“江海文化”资源知识聚合策略ꎬ即可采用文献计量方法对“江海文化”相关研究文献进行定量分析ꎮ例如ꎬ将知网、万方以及维普等中文期刊数据库作为检索平台ꎬ以“江海文化”为主题词或关键词进行检索ꎬ通过数据清洗与整理得到最终结果ꎮ利用文献计量统计与分析等方法对文献的作者分布情况、作者机构分布情况、期刊来源分
11
2019年12月情报探索第12期(总266期)
布、发表时间等进行统计分析ꎻ同时还可运用引文分析法对文献的引用与被引用情况进行分析ꎬ以揭示方法的缺点是只能对文献资源的外部特征知识进行2.2 基于本体的资源知识聚合策略
聚合与分析ꎬ而无法处理文献的内容特征知识ꎮ
本体的概念来源于古希腊哲学ꎬ是指通过形式“江海文化”研究的演变过程和文献之间的关联ꎮ该
解ꎬ获取“文本—潜在主题”和“潜在主题—特征词”的概率分布ꎻ最后采用K-means算法对“文本—潜在主题”概率数据进行聚类ꎬ并从“潜在主题—特征词”概率分布中提取标签数据对聚类结果进行描述ꎬ2.4 基于元数据的资源知识聚合策略由此实现“江海文化”资源的知识聚合ꎮ
元数据是关于数据的数据ꎬ用于描述数据的属
化语言对事物、信息等进行描述ꎬ通过本体映射消除语义差异ꎬ实现信息的共享和交互ꎮ本体包括以下性ꎮ在图书情报领域ꎬ元数据是指通过对信息资源进行结构化处理的数据ꎬ用于描述信息资源的结构特征:①本体是对某一领域知识概念体系的反映ꎻ②本体具有共享性ꎻ③本体能描述资源的一些动态性特征[15]象之间有着各种复杂的语义关系ꎮ本体中的概念与概念之间ꎬ比如等级关系、实例对象与对、互操作关系、相关关系、等同关系以及相似关系等多种关系ꎮ对各个领域的信息资源集合进行领域本体的构建ꎬ并利用语义映射机制来实现具有异构性的文献信息资源之间的语义关联ꎬ就能达到资源深度知识聚合的目的ꎮ简单来说ꎬ基于本体的文献资源知识聚合策略ꎬ就是以领域知识本体为基础对文献资源的内外部特征知识进行描述ꎬ通过本体的推理机制实现资源知识的关联与聚合ꎮ
“将该策略应用于“江海文化”资源ꎬ首先需构建
架江海文化ꎬ包括相关类”知识本体用来描述、属性以及关系ꎬ“使用江海文化RDF”/OWL资源框语言描述显性知识ꎬ运用推理机挖掘隐性知识ꎬ从而可深度揭示“江海文化”各类资源的内外部特征知识并2.3 实现知识的聚合基于主题模型的资源知识聚合策略ꎮ
主题模型也是一种概率生成模型ꎬ认为一个文
档由多个潜在主题以一定的概率分布组成ꎬ文献中的每个特征词都是由主题按概率分布选择得到的ꎮ常用的主题模型包括PLSA模型、HDP模型和LDA模型等[13]语义关联ꎬꎮ近几年得到了不少实际应用由于主题模型的方法能够有效地进行ꎮ目前在语义网环境下ꎬ主题模型的应用领域主要包括图形图像与文本知识处理ꎮ
若将主题模型策略应用于“江海文化”资源知识聚合ꎬ可采用主题模型中的LDA模型ꎮLDA模型是一种能够提取文本隐含主题的非监督学习模型ꎬ被广泛应用于信息检索、图像分类、文本聚类等方面ꎮ首先可对“江海文化”各类文献资源内容进行文本化ꎬ并对相关文本进行分词、去停用词等预处理ꎻ然后对处理后的文本通过LDA主题模型进行主题求12
化[16]等相关信息ꎮ元数据提供了各种信息资源的特征和属性ꎬ对各类数字信息单元和资源的集合进行规范化处理ꎬ对大量分散的信息资源按标准描述方法和检索体系进行整合和分类ꎬ能较好地对信息资源进行描述、发现等一系列处理ꎮ目前学界对基于元数据的资源知识聚合策略已进行了充分研究ꎮ
针对“江海文化”异构资源分散、无法统一管理等问题ꎬ可采用编制“江海文化”描述元数据的方法ꎬ在归纳总结该领域资源的内外部特征知识基础之上ꎬ结合国内外已有成熟元数据标准ꎬ对“江海文化”各类资源进行统一编码ꎬ依据“江海文化”各类数字资源的不同属性对资源作多个角度的分类和规范ꎬ得到“江海文化“江海文化ꎮ
”资源有效地组织与管理”资源描述元数据ꎬꎬ从而可将各类实现资源的知2.5 识聚合关联数据技术的本质是在大量分布的基于关联数据的资源知识聚合策略、异构的
数据之间建立语义关联ꎬ一方面ꎬ它可以将格式各异的信息资源转化为规范格式ꎬ使各个单元相互关联ꎻ另一方面ꎬ它也能在已有的知识库的基础上建立联系[13]经成为图情领域的一个研究热点ꎮ目前基于关联数据的资源知识聚合策略已ꎮ
运用关联数据技术对“江海文化”资源展开知识聚合ꎬ要依据关联数据的逻辑原则ꎬ对“江海文化”相关资源数据进行改造ꎬ如运用RDF来转换与存储原始文献元数据ꎬ将实体型资源和虚拟型资源的主题词表、分类表、格式文件以及各种描述元数据等都转化为关联数据ꎬ并采用语义技术框架设计在线系统ꎬ允许前端用户进行检索与可视化ꎬ进而实现资源的多维度知识聚合应用ꎮ接下来ꎬ本文将着重探讨如何运用该策略实现“江海文化”资源知识聚合ꎮ3 基于关联数据的“江海文化”资源知识聚合模型设计
运用关联数据技术可将“江海文化”各类资源进
2019年12月徐晨飞等:“江海文化”资源知识聚合策略与模型设计研究第12期(总266期)
行精准描述ꎬ并对其蕴含的元知识以及元知识之间的语义关系进行揭示ꎬ进一步将“江海文化”资源转化为一个由知识单元互链接而成的领域概念知识网络ꎬ从而为“江海文化”资源多维度知识聚合提供优质的数据模型基础ꎬ可以满足各类用户获取和利用其资源中的知识性内容ꎬ并且还能发掘出各类知识之间的隐性关联ꎮ笔者以“江海文化”相关研究文献为分类依据ꎬ在对其内部知识内容进行分析的基础上ꎬ构建“江海文化”知识分类体系ꎬ包括一级类目与二级类目ꎬ其内容详见表1ꎮ
表1 “江海文化”文献资源知识分类具体内容
序号123456789
一级类目建筑方言风俗文献人物地点机构
非物质文化遗产事件
二级类目
公共建筑、工业建筑、文化教育建筑南通话、海启话、通东话、如海话礼仪风俗、经济风俗
地方史志、学位论文、报刊杂志、网络资源、期刊论文
文化名人、文献作者自然风貌、行政区域
出版机构、发表机构、作者机构、馆藏机构传统医药、传统戏剧、传统技艺、传统音乐、传统舞蹈
术的使用直接影响“江海文化”文献资源知识聚合的效率与质量ꎻ从语义维度来说ꎬ“江海文化”资源承载了丰富的知识内容ꎬ合适的资源描述形式可以增强其聚合效果ꎬ采用不同的编码方式和语义描述形式是确保实现有效聚合的手段ꎬ也决定了对数字化技术的选择ꎻ从效用维度来说ꎬ资源知识聚合不仅是对“江海文化”进行语义层面的揭示ꎬ而且要尽可能保留资源的完整性和多样性ꎬ将资源中的知识以结构化的方式呈现给用户ꎬ形成知识图谱ꎮ
“江海文化”文献资源知识聚合模型设计需要遵
循一定的原则ꎬ如需考虑模型的层次性、规范性、真实性、完整性、科学性和可扩展性ꎬ从而能够适应不断变化的用户需求ꎬ有效保护并合理利用“江海文化”相关资源ꎮ关联数据技术相较于其他技术ꎬ在大的优势ꎬ许多相关联的信息资源都可以作为聚合对象ꎬ并且不受资源载体、系统、种类及来源机构的限制ꎬ从而可赋予用户知识获取和语义检索的能力ꎮ
“江海文化”文献资源知识聚合模型应用中展现出较
基于关联数据的“江海文化”文献资源知识聚合模型(图1所示)可以划分为五个层次ꎬ即资源层、本体层、工具层、聚合层和应用层ꎮ资源层涵盖“江海文化”各领域的各类资源ꎬ如人物资源、建筑资源、方言资源、戏曲资源等ꎬ且随时空的变化可不断扩展ꎻ本体层的核心领域知识本体ꎬ为“江海文化”
在“江海文化”资源知识聚合的过程中ꎬ可以从多个维度进行分析ꎮ从技术维度来说ꎬ“江海文化”资源聚合可以使用多种数字化技术ꎬ如关联数据技术、语义标注技术、语义检索技术、可视化技术等ꎬ技
图1 基于关联数据的“江海文化”资源知识聚合模型
各类资源由传统信息组织模式向语义知识组织模式的转化提供了精准的映射机制与数据模型ꎻ工具层是指创建与发布“江海文化”资源关联数据的技术、方法和工具ꎬ主要包括诸如数据清洗工具GoogleRe ̄
fine、RDF数据存储工具Virtuoso以及相关可视化工具等ꎻ聚合层用于构建、关联与发布“江海文化”资源关联数据ꎬ并与国内外其他开放数据资源建立联系ꎬ该层还将建立数据索引与关联数据消费机制ꎬ从
13
2019年12月情报探索第12期(总266期)
师范学院学报(哲学社会科学版)ꎬ2002(3):105-109.-127.
[5] 曹琳.江海文化论纲[J].艺术百家ꎬ2002(1):125[6] 丰坤武.海派风神:南通文化特色之三(下)[J].[7] 丰坤武.海派风神:南通文化特色之三(上)[J].[8] 丰坤武.淮吴风韵:南通文化特色之二[J].南通而实现“江海文化”与其他异构资源在语义层面的知识聚合ꎻ应用层面向各类用户提供基于关联数据的知识检索及知识图谱可视化等多种知识服务功能ꎮ该模型不仅可深度挖掘领域内涵义丰富、多源异构的数据资源ꎬ还可将这些资源最大程度地与其他网络开放资源相关联ꎬ将“江海文化”领域中各类资源有效地融入不断发展壮大的语义网中ꎮ4 结语
南通职业大学学报ꎬ2010ꎬ24(2):1-4.南通职业大学学报ꎬ2010ꎬ24(1):1-7.职业大学学报ꎬ2009ꎬ23(4):1-7.本文提出“江海文化”资源知识聚合的若干策略ꎬ并基于关联数据技术设计“江海文化”资源多维度知识聚合模型ꎬ目的是梳理相关资源的知识特征ꎮ将“江海文化”各类资源的知识内涵深度发掘ꎬ不但可对其空间构成与历史演进进行梳理ꎬ还可推动“江海文化”研究的深化与地域文化资源组织方式的变革和创新ꎮ在未来研究中ꎬ将进一步基于关联数据构建“江海文化”资源知识服务平台ꎬ在大数据环境下服务地域特色文化研究ꎬ同时促进“江海文化”的传承与弘扬ꎮ
参考文献
测[J].[1] 新世纪图书馆徐耀新.江苏维扬ꎬ2018(5):5、江海-7.
、海盐三地文化略览及蠡doption[R].[2] MITCHELLET.Librarylinkeddata:researchanda ̄[3] 赵明远Library.简论江海文化演进的时空脉络TechnologyReportsꎬ2013:10-15.工程职业技术学院学报ꎬ2016(1):53-58.
[J].江苏[4] 黄鹤群.江海文化结构与文化大市建设[J].南通
14
职业大学学报[9] 丰坤武ꎬ2009ꎬ23(3):1.江海风情:-南通文化特色之一9.
[J].南通通大学学报[10] (王敦琴社会科学版ꎬ蒋辉明)ꎬ2005(4):134.“中国近代第一城-138.”诠释[J].南研究[11] [J].情报资料工作马鸿佳ꎬ李洁ꎬ2015(5):24ꎬ沈涌.数字资源聚合方法融合趋势-29.
基础及其方法体系建构[12] 毕强ꎬ尹长余[J].ꎬ滕广青情报科学ꎬ等.ꎬ2015(1):9数字资源聚合的理论-14.2016(21):128[13] 李亚婷-136..知识聚合研究述评[J].图书情报工作ꎬ文献知识组织体系构建研究[14] 徐晨飞ꎬ倪媛ꎬ钱智勇[J].现代情报.基于本体的ꎬ2015ꎬ35(10):62
“江海文化”
-71.
书馆学研究[15] ꎬ2015(2):46穆向阳.图书馆数字资源整合策略研究-53.
[J].图度聚合模式及其应用研究[16] 邱均平ꎬ方国平.高校图书馆语义化馆藏资源深
-[J].图书馆学研究ꎬ2014(21):6471.
因篇幅问题不能全部显示,请点此查看更多更全内容