利用VB读取方正排版文件提取元数据

doi:10.11946/cjstp.201501070027

中国科技期刊研究 ›› 2015, Vol. 26 ›› Issue (6): 612-617. doi: 10.11946/cjstp.201501070027

利用VB读取方正排版文件提取元数据

杨海亮,徐用吉

东北大学学报编辑部,辽宁省沈阳市和平区文化路三巷11号 110819

收稿日期:2015-01-07 修回日期:2015-03-16 出版日期:2015-06-15 发布日期:2015-06-15
作者简介:杨海亮（ORCID：0000-0003-3605-584X）,编辑,E-mail：yhl@mail.neu.edu.cn

Research on metadata extraction by using VB to read from founder typesetting files

YANG Hailiang,XU Yongji

Journal of Northeastern University,3-11Wenhua Road,Heping District,Shenyang 110819,China

Received:2015-01-07 Revised:2015-03-16 Online:2015-06-15 Published:2015-06-15

摘要/Abstract

摘要： 目的为科技期刊自动提取更加全面的元数据提供方法和借鉴。方法以方正排版文件为对象,建立了提取元数据的数学模型,同时提出尾部分割算法。然后利用基于对象的VB编程软件编写了自动提取元数据程序。结果在分析了方正排版语言特点之后,对方正排版文件进行了字符串替换处理,并建立了分割关键词列表文件,最后将提取的元数据保存到Excel文件中。结论实际应用表明,仅几秒钟就可以完成一期数据的提取工作,大大提高了工作效率。

关键词: 网刊发布系统, 元数据, 方正排版, VB, 自动提取

Abstract:

[Purpose] The objective of this paper is to automatically extract more comprehensive metadata from the journals of science and technology.[Methodology] A mathematicalmodel which takes founder typesetting files as the object is established to extract themetadata,and also the tail segmentation algorithm is advanced.Then,the automatic metadata extraction software is programmed based on VB programm ing software.[Findings] The strings of founder typesetting files are replaced,w ith analyzing the founder typesetting language features,and then a segmentation keywords list file is established.Finally,the extractedmetadata is saved to the Excel file.[Conclusions] The actual application shows that completing the extraction work of 1 issue consumes only a few seconds,which greatly improves the work efficiency.

Key words: Network publishing system, Metadata, Founder, VB, Automatic extraction

杨海亮,徐用吉. 利用VB读取方正排版文件提取元数据[J]. 中国科技期刊研究, 2015, 26(6): 612-617.

YANG Hailiang,XU Yongji. Research on metadata extraction by using VB to read from founder typesetting files[J]. Chinese Journal of Scientific and Technical Periodicals, 2015, 26(6): 612-617.

https://www.cjstp.cn/CN/Y2015/V26/I6/612

图/表 9

图1 变量S分割示意图

图2 算法流程图

图3 VB程序代码

图4 方正排版文件的部分截图

图5 替换字符列表

图6 数据分割关键词参数

图7 方正排版数据提取程序界面

图8 2014年第1期的元数据Excel数据表

图9 2014年第1期的网页

参考文献 13

[1]	周亚. 2001-2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23): 140-142. doi: 10.3969/j.issn.1005-6033.2009.23.072 URL
[2]	李朝光,张铭,邓志鸿,等.论文元数据信息的自动抽取[J].计算机工程与应用,2002(21):189-191. doi: 10.3321/j.issn:1002-8331.2002.21.064 URL
[3]	李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002 (5):526-533. doi: 10.3321/j.issn:0254-4164.2002.05.012 URL
[4]	狄涤,周竞扬,潘金贵.基于规则的HTML文档元数据提取[J].计算机工程,2004,30(9): 85-86. doi: 10.3969/j.issn.1000-3428.2004.09.034 URL
[5]	郭志鑫. 基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(18):304-306. doi: 10.3969/j.issn.1008-0570.2006.18.107 URL
[6]	Flynn P,Zhou L,Maly K,et al.Automated template-based metadata extraction architecture[C]//Proceedings of the 10th International Conference on Asian Digital Libraries:Looking Back 10 Years and Forging New Frontiers.[n.l.],2007:327-336.
[7]	刘华中. 面向PDF文档的论文元数据提取方法研究[D].秦皇岛:燕山大学,2012.
[8]	赵子浩. 基于集成学习的OA期刊论文元数据提取方法研究[D].秦皇岛:燕山大学,2012.
[9]	潘霄. 中文专家元数据提取研究[D].昆明:昆明理工大学,2014.
[10]	虞海明. 基于三阶条件随机场的元数据提取方法[D].秦皇岛:燕山大学,2013.
[11]	张科,王景发.期刊网络采编系统研发及系统功能分析[J].自动化数字化网络化,2008(4):72-76. doi: 10.3969/j.issn.1002-1027.2008.04.015 URL
[12]	刘晓华. 非计算机专业VB程序设计教学探讨[J].创新教育,2011(38):135-137. doi: 10.3969/j.issn.1674-098X.2011.36.112 URL
[13]	曾月蓉. 方正排版中几个注解命令的技巧[C]//科技编辑出版研究文集.北京,2005:66-67.

[1]	孟美任,彭希珺,华宁,李春源. 基于VBA编程实现编务工作整合[J]. 中国科技期刊研究, 2019, 30(3): 248-252.
[2]	张闪闪,洪凌子. 合著论文作者贡献声明的学术规范框架研究[J]. 中国科技期刊研究, 2019, 30(11): 1164-1170.
[3]	侯修洲,黄延红. 基于逻辑原则的科技论文自动校对方法[J]. 中国科技期刊研究, 2018, 29(9): 920-924.
[4]	杨松迎, 王志鸿, 曹荣章. 科技期刊数字内容的挖掘与服务——以《电力系统自动化》为例[J]. 中国科技期刊研究, 2017, 28(2): 145-150.
[5]	杨海亮,徐用吉. 提取方正排版文件广义元数据并生成全文HTML的探索[J]. 中国科技期刊研究, 2016, 27(2): 202-206.
[6]	冯民,毛善锋. 一种适合大批量期刊元数据自动化提取的程序设计[J]. 中国科技期刊研究, 2016, 27(10): 1081-1084.
[7]	张小强,李欣. 数据出版理论与实践关键问题[J]. 中国科技期刊研究, 2015, 26(8): 813-821.
[8]	王红剑,高爱英. Pubmed文献的检索与自动格式化[J]. 中国科技期刊研究, 2014, 25(6): 800-.
[9]	王玥, 毛善锋, 刘谦. Word文档中通过CrossRef自动查询与整合英文参考文献DOI的实践[J]. 中国科技期刊研究, 2013, 24(2): 333-337.
[10]	王玥, 南娟, 刘谦, 周玲, 孙丹, 李博, 丁燕. 基于XML的InDesign期刊排版文件标记与转换处理实践[J]. 中国科技期刊研究, 2012, 23(1): 94-97.
[11]	张柏林, 李小萍. 方正排版校样的一种转换传输方法[J]. 中国科技期刊研究, 2007, 18(3): 459-459.
[12]	胡海霞. 相对方正选择WORD排版的四大理由[J]. 中国科技期刊研究, 2006, 17(3): 433-435.
[13]	何桂华. 科技期刊几种插图的处理技巧[J]. 中国科技期刊研究, 2006, 17(3): 435-436.
[14]	熊水斌, 胡新宇, 马敏峰, 骆超. 科技期刊方正大样转为PDF文档的一种快捷方法[J]. 中国科技期刊研究, 2006, 17(1): 86-88.

选择文件类型/文献管理软件名称

选择包含的内容

利用VB读取方正排版文件提取元数据

Research on metadata extraction by using VB to read from founder typesetting files

RichHTML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 9

参考文献 13

相关文章 14

编辑推荐

Metrics

本文评价

关于我们

联系我们