【INC国际大咖研究成果】大型语言模型与AI在同行评审结果预测中的应用-INC国际神经外科医生集团

　　James T.Rutka（鲁特卡）教授曾任世界神经外科学院院长，30多年来深耕儿童神外研究，带领团队不断突破，从脑瘤分子分型、精准治疗、新药治疗、微创治疗，为全球神经外科疑难病患儿带来希望，他新近发表了研究《Application of large language and artificial intelligence modeling in the prediction of peer-review outcomes》（大型语言模型与人工智能建模在同行评审结果预测中的应用），以下是研究简述。

James T.Rutka（鲁特卡）教授

　　PART

　　研究目的

　　人工智能（AI）的快速发展为简化同行评审流程、为学术期刊、编辑人员、评审人以及作者提供关键指导信息带来了机遇。本研究旨在基于评审人评论文本和编辑最终决定，对几种标准大型语言模型和Transformer模型（LLM）进行微调，以发现与期刊录用或退稿决定相关的文本特征。

　　PART

　　研究方法

　　本研究与《JOURNAL OF NEUROSURGERY》出版集团（JNSPG）合作，纳入了2021年至2023年间向《JOURNAL OF NEUROSURGERY》（JNS）及其子刊提交的所有稿件，经过匿名化处理后的最终决定和评审人评论。所有最终决定被分为二元类别（录用/修改vs退稿/转投）。从文本评审意见中移除引导词（如"录用"或"退稿"），然后使用各种机器学习和大型语言模型（包括BERT、GPT-2、GPT-3、GPT-4o以及GRU变体）进行分析，以预测稿件的最终决定结果。

　　PART

　　研究结果

　　在ROC分析中，经过微调的GPT-4mini和GPT-3模型取得了最高的曲线下面积（AUC）值，均为0.91；其次是BERT和GPT-2模型，AUC值均为0.84。随后是双向GRU和未经训练的GPT-3模型，AUC值分别为0.75和0.70。单向GRU和未经训练的GPT-4o模型表现最差，AUC值分别为0.68和0.67。

　　在SHAP分析中，逻辑回归模型识别出如"future"、"interesting"和"written"等词汇是录用的显著正向预测因子，而"clear"、"unclear"和"does"等词汇则与退稿相关。GRU模型识别出"study"、"useful"和"journal"为显著正向预测因子，而"unclear"、"reading"和"incidence"为负向预测因子。

　　PART

　　总结

　　这项概念验证研究表明，经过微调的人工智能模型（特别是GPT-3）能够仅凭文本评审意见以合理的准确度预测稿件录用情况。影响文章结果的重要因素包括文章清晰度、实用性、适用性、队列规模以及回应评审人质询的细致程度。这些发现表明，经过微调后，人工智能建模在辅助和促进同行评审流程方面具有巨大潜力。