生成式人工智能技术在科技期刊论文关键信息提取与总结中的应用

doi:10.11946/cjstp.202408280941

中国科技期刊研究 ›› 2025, Vol. 36 ›› Issue (1): 37-43. doi: 10.11946/cjstp.202408280941

生成式人工智能技术在科技期刊论文关键信息提取与总结中的应用

沈锡宾¹^,²⁾()(), 刘红霞¹^,²⁾, 王红剑¹^,²⁾, 王立磊¹^,²⁾

1) 中华医学会杂志社新媒体部,北京市西城区东河沿街69号 100052
2) 国家新闻出版署医学期刊知识挖掘与服务重点实验室,北京市西城区东河沿街69号 100052

收稿日期:2024-08-28 修回日期:2024-12-26 出版日期:2025-01-15 发布日期:2025-02-11
作者简介:
沈锡宾(ORCID:0000-0002-7310-8157),硕士,编审,E-mail: Shenxibin@cmaph.org;
刘红霞,学士,副编审;王红剑,学士,编审;王立磊,学士,产品经理。
作者贡献声明: 沈锡宾:论文框架设计,收集资料,数据处理,撰写论文; 刘红霞:收集资料,修改论文; 王红剑:数据处理,修改论文; 王立磊:收集资料,修改论文。
基金资助:
中国科技期刊卓越行动计划集群化试点项目(卓越计划-集群-5)

Application of generative AI technology in indexing and summarization for scientific literature

SHEN Xibin¹^,²⁾()(), LIU Hongxia¹^,²⁾, WANG Hongjian¹^,²⁾, WANG Lilei¹^,²⁾

1) New Media Department, Chinese Medical Association Publishing House, 69 Dongheyan Street, Xicheng District, Beijing 100052, China
2) Key Laboratory of Knowledge Mining and Service for Medical Journals, National Press and Publication Administration, 69 Dongheyan Street, Xicheng District, Beijing 100052, China

Received:2024-08-28 Revised:2024-12-26 Online:2025-01-15 Published:2025-02-11

摘要/Abstract

摘要：

【目的】 探讨4种大模型技术在科技期刊论文关键信息提取与总结中的应用能力,为科技期刊知识服务技术路径的探索提供实证参考。【方法】 随机选取《中华医学杂志》100篇研究型文献,通过提示语工程利用ChatGPT 4o、Kimi、ChatGLM 4、星火认知大模型从文本中以JSON方式提取信息,并评价各大模型知识抽取、文本理解及总结能力。【结果】 所有大模型均返回准确的JSON格式数据,在提取研究对象、样本量、疾病、研究类型、学科和主题词等信息时,表现出较高的准确性。在概要总结能力上也表现良好,仅在研究方法的理解方面表现不佳。【结论】 大模型具备较强的文本理解、知识提取和总结能力,但也存在一些不足。若能克服技术难点,GenAI有望在科技期刊的内容传播、知识服务以及垂直领域的决策支持等方面发挥重要作用。

关键词: 科技期刊, 知识标引, 大语言模型, 生成式人工智能, 知识服务

Abstract:

[Purposes] To explore the application capabilities of four large language models (LLMs) in key information extraction and summarization of medical papers, providing empirical references for the technical pathways of knowledge services in STM journals. [Methods] One hundred research articles published in National Medical Journal of China were selected randomly.Using prompt engineering, ChatGPT 4o, Kimi, ChatGLM 4.0, and iFLYTEK Spark were employed to extract information in JSON format from the papers. The LLMs’ abilities in knowledge extraction, text comprehension, and summarization were evaluated.[Findings] All models returned accurate JSON-format data successfully, demonstrating high accuracy in extracting information such as study sample, sample size, disease, research type, discipline, and keywords. The models also performed well in summary generation, though their understanding of research methods was suboptimal. [Conclusions] The study indicates that LLMs possess strong capabilities in text comprehension, knowledge extraction, and summarization, but certain shortcomings remain. Overcoming these technical challenges could enable GenAI to play a significant role in STM journal dissemination, knowledge services, and decision-making support in vertical domains.

Key words: Scientific journal, Knowledge indexing, Large language models, Generative AI, Knowledge services

沈锡宾, 刘红霞, 王红剑, 王立磊. 生成式人工智能技术在科技期刊论文关键信息提取与总结中的应用[J]. 中国科技期刊研究, 2025, 36(1): 37-43.

SHEN Xibin, LIU Hongxia, WANG Hongjian, WANG Lilei. Application of generative AI technology in indexing and summarization for scientific literature[J]. Chinese Journal of Scientific and Technical Periodicals, 2025, 36(1): 37-43.

　　　　 https://www.cjstp.cn/CN/Y2025/V36/I1/37

图/表 3

参考文献 15

[1]	陈晓峰, 沈锡宾. 生成式人工智能重塑科技期刊产业的影响、挑战及应对策略研究[J]. 中国科技期刊研究, 2024, 35(7): 890-898. doi: 10.11946/cjstp.202403150235
[2]	沈锡宾, 王立磊, 刘红霞. 人工智能生成内容时代学术期刊出版的机遇与挑战[J]. 数字出版研究, 2023, 2(2):27-33.
[3]	张重毅, 牛欣悦, 孙君艳, 等. ChatGPT探析:AI大型语言模型下学术出版的机遇与挑战[J]. 中国科技期刊研究, 2023, 34 (4): 446.
[4]	董文杰, 李苑. 人工智能在科技期刊中的应用及启示[J]. 中国科技期刊研究, 2023, 34(11):1399-1408. doi: 10.11946/cjstp.202308300696
[5]	李侗桐, 高瑞婧, 田佳. ChatGPT在中文科技期刊摘要文字编辑中的实用性测试与分析[J]. 中国科技期刊研究, 2023, 34(8):1014-1019. doi: 10.11946/cjstp.202303160175
[6]	陈玮, 叶飞. 国内外人工智能工具在中文编校中应用效果评价与建议[J]. 编辑学报, 2024, 36(3):313-317.
[7]	崔玉洁. ChatGPT与人工编校相结合:提高期刊编校效率和文章质量[J]. 编辑学报, 2023, 35(4):429-433.
[8]	刘俏亮, 张洁, 刘东亮. 应用Notion AI辅助编校中文科技期刊论文[J]. 编辑学报, 2023, 35(5):550-553.
[9]	文采. 人工智能阅读工具在引文真实性审查中的应用于分析[J]. 编辑学报, 2024, 36(2):198-202.
[10]	夏丽云, 岳于佳, 徐敏赟, 等. 生成式人工智能应用于编校工作的探索与分析:基于ChatGPT和150余款国产大模型的实测[J]. 中国科技期刊研究, 2024, 35(7): 948-956. doi: 10.11946/cjstp.202401210065
[11]	刘俏亮, 刘东亮, 张洁. 国产AIGC大模型辅助稿件初审的研究:以信息科学类论文为例[J]. 编辑学报, 2024, 36(5):548-552.
[12]	沈锡宾, 王立磊. 人工智能生成学术期刊文本的检测研究[J]. 科技与出版, 2023(8):56-62.
[13]	沈锡宾. 4项大模型对中文医学文献知识标引的测试数据集[DS/OL]. V1. Science Data Bank, 2024. [2024-07-24]. https://cstr.cn/31253.11.sciencedb.o00130.03231. URL
[14]	刘红霞, 王立磊, 沈锡宾, 等. 中国科技期刊知识服务技术路径探析:以Consensus.app为例[J]. 中国科技期刊研究, 2024, 35(5):600-606. doi: 10.11946/cjstp.202403050191
[15]	Dyke F, Isabella C W, Georg W, et al. GPT-4 for information retrieval and comparison of medical oncology guidelines[J/OL]. NEJM AI 2024 ;1(6). [2024-08-25]. https://ai.nejm.org/doi/full/10.1056/AIcs2300235. URL

标引项目	赋分值/分	标准说明
主题词	0~2	准确描述文章核心主题词4个及4个以上,且不出现明显错误主题词给予2分;命中关键的主题词不足4个或过多的英文缩略词给予1分;命中关键的主题词不足2个,或存在较多的无关主题词不给分
学科	0~2	准确说明文献涉及的学科方向给予2分;部分准确给予1分
研究类型	0~1	准确给予1分,不准确不给分
研究方法	0~1	准确给予1分,不准确不给分
一句话摘要	0~2	表达核心观点给予2分,表达部分核心观点给予1分,未能表达或错误者不给分
一句话结论	0~2	表达核心观点给予2分,表达部分核心观点给予1分,未能表达或错误者不给分
研究对象	0~2	完全准确给予2分,部分准确给予1分,不准确不给分
样本量	0~1	准确给予1分,不准确不给分
疾病	0~2	完全准确给予2分,部分准确给予1分,不准确不给分

标引项目	赋分值/分	标准说明
主题词	0~2	准确描述文章核心主题词4个及4个以上,且不出现明显错误主题词给予2分;命中关键的主题词不足4个或过多的英文缩略词给予1分;命中关键的主题词不足2个,或存在较多的无关主题词不给分
学科	0~2	准确说明文献涉及的学科方向给予2分;部分准确给予1分
研究类型	0~1	准确给予1分,不准确不给分
研究方法	0~1	准确给予1分,不准确不给分
一句话摘要	0~2	表达核心观点给予2分,表达部分核心观点给予1分,未能表达或错误者不给分
一句话结论	0~2	表达核心观点给予2分,表达部分核心观点给予1分,未能表达或错误者不给分
研究对象	0~2	完全准确给予2分,部分准确给予1分,不准确不给分
样本量	0~1	准确给予1分,不准确不给分
疾病	0~2	完全准确给予2分,部分准确给予1分,不准确不给分

项目	ChatGPT4o		Kimi		星火		ChatGLM		平均		P值^c
项目	分值	准确率/%	分值	准确率/%	分值	准确率/%	分值	准确率/%	分值	准确率/%	P值^c
研究对象	176	88.0	181	90.5	182	91.0	175	87.5	178.50	89.3	0.284
样本量	95	95.0	91	91.0	96	96.0	86^b	86.0^b	92.00	92.0	0.016
疾病	177	88.5	172	86.0	164^a	82.0^a	168	84.0	170.25	85.1	0.111
研究类型	90	90.0	90	90.0	81^a	81.0^a	90	90.0	87.75	87.8	0.012
研究方法	23	23.0	23	23.0	20	20.0	21	21.0	21.75	21.8	0.789
学科	164	82.0	158	79.0	154^a	77.0^a	157	78.5	158.25	79.1	0.186
主题词	169	84.5	181^a	90.5^a	148^b	74.0^b	143^b	71.5^b	160.25	80.1	0.000
一句话摘要	152	76.0	179^b	89.5^b	147	73.5	160	80.0	159.50	79.8	0.000
一句话结论	167	83.5	157^a	78.5^a	153^b	76.5^b	170	85.0	161.75	80.9	0.000
总体情况	1213	75.8	1232	77.0	1145	71.6	1170	73.1	1190.00	74.4	0.000

项目	ChatGPT4o		Kimi		星火		ChatGLM		平均		P值^c
项目	分值	准确率/%	分值	准确率/%	分值	准确率/%	分值	准确率/%	分值	准确率/%	P值^c
研究对象	176	88.0	181	90.5	182	91.0	175	87.5	178.50	89.3	0.284
样本量	95	95.0	91	91.0	96	96.0	86^b	86.0^b	92.00	92.0	0.016
疾病	177	88.5	172	86.0	164^a	82.0^a	168	84.0	170.25	85.1	0.111
研究类型	90	90.0	90	90.0	81^a	81.0^a	90	90.0	87.75	87.8	0.012
研究方法	23	23.0	23	23.0	20	20.0	21	21.0	21.75	21.8	0.789
学科	164	82.0	158	79.0	154^a	77.0^a	157	78.5	158.25	79.1	0.186
主题词	169	84.5	181^a	90.5^a	148^b	74.0^b	143^b	71.5^b	160.25	80.1	0.000
一句话摘要	152	76.0	179^b	89.5^b	147	73.5	160	80.0	159.50	79.8	0.000
一句话结论	167	83.5	157^a	78.5^a	153^b	76.5^b	170	85.0	161.75	80.9	0.000
总体情况	1213	75.8	1232	77.0	1145	71.6	1170	73.1	1190.00	74.4	0.000

选择文件类型/文献管理软件名称

选择包含的内容

生成式人工智能技术在科技期刊论文关键信息提取与总结中的应用

Application of generative AI technology in indexing and summarization for scientific literature

RichHTML

PDF

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 3

参考文献 15

相关文章 15

编辑推荐

Metrics

本文评价

关于我们

联系我们

[1]	王浩毅. 中文科技期刊科学数据引用行为的实证分析——以计算机技术领域为例[J]. 中国科技期刊研究, 2025, 36(1): 104-112.
[2]	胡晓静. 科技期刊编辑出版标准体系框架构建及标准现状分析[J]. 中国科技期刊研究, 2025, 36(1): 113-124.
[3]	王新娟, 霍振响, 杨继涛. 科技期刊编辑从事出版研究的制约因素探析[J]. 中国科技期刊研究, 2025, 36(1): 125-131.
[4]	汪慧玲, 姚长青, 雷雪. 科技期刊论文关联数据的确权现状及治理对策[J]. 中国科技期刊研究, 2025, 36(1): 18-24.
[5]	王飞, 王智博. 中文科技期刊出版伦理规范内容建设现状分析及发展建议[J]. 中国科技期刊研究, 2025, 36(1): 25-36.
[6]	林珑, 周华清, 李来斌. 科技期刊高质量发展赋能新质生产力的内在逻辑、现实困境与实现路径[J]. 中国科技期刊研究, 2025, 36(1): 44-51.
[7]	高乐旋, 杨箫, 崔晓峰. 专职科学编辑助力世界一流科技期刊建设——以《分子植物》为例[J]. 中国科技期刊研究, 2025, 36(1): 80-86.
[8]	高梦晗, 郭宸孜, 程门雪, 白雨虹, 邢翔宇, 赵天业, 伦志军. Hindawi期刊批量撤销论文分析[J]. 中国科技期刊研究, 2024, 35(9): 1169-1177.
[9]	闵甜, 孙涛, 谭春林, 赖富饶. 虚拟数字人技术赋能科技期刊内容视频化传播的实践及策略[J]. 中国科技期刊研究, 2024, 35(9): 1178-1185.
[10]	郭宸孜, 张莹, 常唯, 高梦晗, 孙婷婷, 白雨虹. 领军期刊引领子刊：eLight的创新发展之路[J]. 中国科技期刊研究, 2024, 35(9): 1186-1195.
[11]	卫夏雯, 张昕, 祝叶华, 刘晶晶. 我国中文科技期刊短视频传播现状与策略研究——以“卓越”中文期刊微信视频号为例[J]. 中国科技期刊研究, 2024, 35(9): 1204-1211.
[12]	王丽丽, 杨永强, 董立, 杜鹃, 尹牡丹. “卓越行动计划”地学期刊现状分析和发展建议[J]. 中国科技期刊研究, 2024, 35(9): 1212-1220.
[13]	张辉洁, 刘世华, 金晶, 季小存, 张虹, 赵敬, 彭智, 冉明会. 科技期刊发展特征及其与区域科技创新协同发展状态分析——以长江干流流域英文科技期刊为例[J]. 中国科技期刊研究, 2024, 35(9): 1221-1231.
[14]	武晓耕, 刘碧颖, 沙冰溶. 中国科技期刊发展的思考——以STM Trends 2028为背景[J]. 中国科技期刊研究, 2024, 35(9): 1246-1252.
[15]	雷雪, 陈序文, 姚长青. 科技期刊论文关联数据汇交的发展历程分析及启示[J]. 中国科技期刊研究, 2024, 35(9): 1263-1270.