Optimization of the mechanism for data mining of potential readers of Chinese academic journals based on big data

doi:10.11946/cjstp.202206200474

Abstract

Abstract:

[Purposes] Based on the mainstream communication data mining logic mechanism supported by the current big data technology, namely the author relevance mechanism and the document fragmentation natural language processing mechanism, this study aims to conduct experimental design and data statistics around the relevance, effectiveness, and other dimensions of propagation objects. [Methods] In the CNKI database, 100 documents were randomly selected according to the discipline classification as the propagation samples, and a total of 10000 propagation objects were mined in mechanism application platforms for Delphi judgment and data statistical analysis. The analysis dimension involved a series of graph and information indicators such as timeliness correlation, matching correlation, and document frequency. [Findings] The analysis shows that the author relevance mechanism has inherent defects and it is difficult to continue optimization. Although the document fragmentation natural language processing mechanism has the objective problem that the representation of discipline classification and the essence of matching clustering are not easy to bridge, the effect of data mining can be improved by optimizing data mining logic. [Conclusions] Based on the analysis results, an optimization path is proposed by improving algorithm mapping and abandoning the average data, and its effectiveness is verified through experiments.

Key words: Big data, Academic journal, Accurate communication, Potential reader, Data mining

摘要：

【目的】基于当前大数据技术支撑的主流传播数据挖掘逻辑机制,即作者关联度机制及文献碎片化自然语言处理机制,围绕传播对象的相关性、时效性等维度进行实验设计和数据统计。【方法】在CNKI数据库中按照学科分类随机选取100篇文献作为传播样本,在各机制应用平台挖掘共计10000个传播对象进行德尔菲式的判定及数据统计分析。分析维度涉及时效相关性、匹配相关性、发文频率等一系列图情指标。【结果】分析显示,作者关联度机制存在内生性问题,难以继续优化;文献碎片化自然语言处理机制虽存在学科分类表象与匹配聚类实质不易弥合的客观问题,但可以通过优化数据挖掘逻辑提升数据挖掘效果。【结论】基于分析结果,通过改进算法映射及摒弃“超龄”数据来提出优化路径,并通过实验验证其有效性。

关键词: 大数据, 学术期刊, 精准传播, 传播对象, 数据挖掘

TIAN Haijiang, HUANG Jianghua. Optimization of the mechanism for data mining of potential readers of Chinese academic journals based on big data[J]. Chinese Journal of Scientific and Technical Periodicals, 2023, 34(3): 341-347.

田海江, 黄江华. 基于大数据的中文学术期刊传播对象数据精准挖掘逻辑优化[J]. 中国科技期刊研究, 2023, 34(3): 341-347.

/ / Recommend / Download Citations

URL: https://www.cjstp.cn/EN/10.11946/cjstp.202206200474

https://www.cjstp.cn/EN/Y2023/V34/I3/341

Figures/Tables 8

References 22

[1]	中共中央办公厅、国务院办公厅. 关于加快推进媒体深度融合发展的意见[J]. 科技与出版, 2020(10):140.
[2]	中共中央宣传部. 关于推动出版深度融合发展的实施意见[J]. 中国出版, 2022(9):13-15.
[3]	李国杰, 程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域:大数据的研究现状与科学思考[J]. 中国科学院院刊, 2012, 27(6):647-657.
[4]	张玲玲. 新媒体时代学术期刊传播力的提升路径[J]. 青年记者, 2022(4):88-89.
[5]	马娜. 媒体融合下的期刊传播策略[J]. 新闻研究导刊, 2021, 12(13):195-197.
[6]	孟超, 胡国豪. 融媒时代学术期刊传播路径多元化研究[J]. 中国出版, 2022(7):37-41.
[7]	刘伟, 刘柏嵩, 王洋洋. 海量学术资源个性化推荐综述[J]. 计算机工程与应用, 2018, 54(3):30-39.
[8]	程莹. 学术期刊碎片化传播的有效性思考[J]. 新闻研究导刊, 2022, 13(3):20-23.
[9]	田海江, 张祥合. 一种基于期刊采编系统和用户行为分析的文献主动推送方法[J]. 编辑学报, 2021, 33(6):679-682.
[10]	孙丽华. 学术期刊数字化出版提高学术传播力实践[M]//刘志强. 学报编辑论丛,上海:上海大学出版社, 2021(1):451-455.
[11]	王黎. 新媒体时代学术期刊传播现状探究[J]. 传媒论坛, 2021, 4(24):23-24.
[12]	杨金庆, 肖兵, 程秀峰, 等. 基于HDP过程模型与学术会议的学科新兴主题发现研究:以“人工智能”领域为例[J]. 情报理论与实践, 2019, 42(4):117-122.
[13]	蒋学东, 涂鹏, 阳丽霞. 数据挖掘与智能筛选视角下的科技期刊选题策划[J]. 出版科学, 2020, 28(1):36-41.
[14]	曹洪刚. 媒体融合视域下,高质量实现期刊内容升级和精准传播[J]. 编辑学刊, 2021(6):53-58.
[15]	梁维卿. 新媒体时代科技期刊传播力提升问题分析[J]. 新闻研究导刊, 2021, 12(21):201-203.
[16]	王含晖, 黄珍娟. 论文、期刊及其评价[J]. 科技管理研究, 2010, 30(12):54-56.
[17]	余凯, 贾磊, 陈雨强, 等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展, 2013, 50(9):1799-1804.
[18]	丁雅娴. 学科分类研究与应用[M]. 北京: 中国标准出版社, 1994:23-25.
[19]	《中国科技期刊发展蓝皮书2021》编写组. 《中国科技期刊发展蓝皮书(2021):开放科学环境下的学术出版专题》内容简介[J]. 中国科技期刊研究,2021, 32(12):1477-1480.
[20]	廖宇, 沈哲思, 李立, 等. 论文层次分类体系在期刊学科布局中的应用[J]. 中国科技期刊研究, 2022, 33(4):513-520.
[21]	任元秋, 王兴, 郑钦钦. 不同学科分类方案下不同学科标准化方法效果的比较研究[J]. 图书情报工作, 2021, 65(3):84-92.
[22]	罗鹏程, 王一博, 王继民. 基于深度预训练语言模型的文献学科自动分类研究[J]. 情报学报, 2020, 39(10):1046-1059.

中央处理器	主存	操作系统	样本文献数量/篇
中央处理器	主存	操作系统	CSCD	CSSCI	北大核心	其他
Intel Core i7-4710MQ@2.5 GHz	8 GM	Windows 10	21	7	32	68

中央处理器	主存	操作系统	样本文献数量/篇
中央处理器	主存	操作系统	CSCD	CSSCI	北大核心	其他
Intel Core i7-4710MQ@2.5 GHz	8 GM	Windows 10	21	7	32	68

学科	传播对象数量/人
学科	高价值,与样本文献相关	低价值,与样本文献无关
哲学	817	183
农学	804	196
医学	768	232
理学	823	177
工学	869	131

学科	传播对象数量/人
学科	高价值,与样本文献相关	低价值,与样本文献无关
哲学	817	183
农学	804	196
医学	768	232
理学	823	177
工学	869	131

学科	相关的传播对象数量/人(传播对象总数/人)
学科	0~3年	4~6年	7~10年	10年以上
哲学	374(401)	291(369)	13(159)	3(71)
农学	263(296)	198(277)	22(265)	7(162)
医学	297(322)	291(359)	18(211)	5(108)
工学	341(386)	289(347)	15(184)	4(83)
理学	294(312)	277(323)	19(238)	5(127)

Please choose a citation manager

Content to export