中国的纸厂用AI制作垃圾纸?
作者:bet356在线官方网站 发布时间:2025-07-15 09:06
中国论文工厂,已经用AI批量生产垃圾论文了?资料来源:Pixabay文章|张提安奇(Zhang Tianqi)●●●Matt Spick是英国英国大学科学和数据科学家的副编辑Matt Spick,并指出,一群垃圾论文很快就倾注了他每天以一票甚至两种的速度工作的期刊。他们有不同的话题,但他们的活动令人惊讶地相同。一些人研究血清维生素D与悲伤之间的关系,一些研究碘和糖尿病的使用,有些人回顾了炎症指数和睡眠质量。简而言之,检查变量对疾病的影响。这种类型的纸可以仅通过标准数据集,回归模型脚本和重大统计结果来快速编写。更改变量,另一篇新文章。没有信息的垃圾纸的数量正在迅速扩大。 2024年,从1月到10月,根据美国NHANES HEALTH DATABASE,在全球范围内发布了190年,例如“单因素相关研究”,该数据库接近五十倍他在2014年至2021年之间的年平均出版物数量。01涵盖更明显垃圾的期刊的国内垃圾文件几乎完全集中在中国。在2021年至2024年之间,全世界总共发表了316篇此类论文,其中第一盘中有292张来自中国单位,提供了92%以上。在2014年至2020年的25篇文章中,这个数字只有2篇文章[1]。数据来自Spike今年发布的一项研究和他的合作。为了系统地研究这种现象,尖峰和Hiscollaberations使用准确的关键字组合来搜索学术数据库,例如PubMed和Scopus,在过去十年中使用NHANES数据筛选所有论文,并设计为A-Factor相关性。筛选后,他们最终确定了341篇以作为审查对象作为审查对象的论文。这些论文中的大多数使用相同的方法:使用逻辑回归模型来研究可变h之间的统计组织爱卫生和一种生理疾病,最多可以控制三到五个协方差,这些结论集中在“重要的关系”水平上。研究问题是不同的,结构几乎没有变化。在审查了他们的300多篇论文之后,研究团队发现他们通常遵循剧本的重复写作脚本。研究人员已经从数据库中选择了一个可变预测因子,例如一定水平的维生素,然后选择一个健康结果,例如抑郁症,并通过标准统计过程将两者关联起来,以最终得出一个简单的结论,即A和B是相关的。在最极端的情况下,研究人员只能扭转独立变量和因变量的位置,以产生另一个角色,而无需任何生理或理论假设,并且可以永远扩大变量和结果的组合。为了进一步描述此类研究中存在的问题,研究团队使用了网络捕获所有论文中提到的MGA变量预测因子和疾病之间关系配对的工作评估方法。结果表明,分别研究了诸如抑郁之类的复杂疾病(例如抑郁症)已成为一定剂量的无关变量。该图提出了“变量对应于疾病”的广泛广泛的结构,宣布该研究通常忽略了疾病背后的许多因素,而仅确定单个因素与特定结果之间的联系。该团队以抑郁症为例测试这些论文是否可靠。他们计算所有据说与抑郁症显着相关的研究,总共28篇文章,并使用统计上称为“错误发现率”(FDR)的统计结果重新纠正这些结果。 FDR用于处理同时测试许多变量时容易出现的时间的积极问题。结果表明,这28个项目中有15个在校正后不再显着,这意味着许多看似有效的结果可能是由于意外冲击而引起的。研究人员甚至发现,许多论文涉嫌操纵数据使用。 NHANES是一项新年的滚动滚动调查,涵盖了数十年来正在进行的数据的数据,该数据为全面的研究人员提供了。但是,在大多数论文中,那些有赛场的人只选择了一年中的一个小季节进行审查,而无需提供任何解释。仔细的数据选择很难不怀疑其动机会以最低的p值和最佳发布结果筛选集成。通过连接所有线索,清楚地显示了AI纸管道。一个开放的AI数据库用作原材料,并用自动检查脚本补充,并应用于高度公式化的研究设计,最后可以在短期内以指数级的速度完成大量类似论文。这个过程非常适合AI辅助工作模型,正如报告的作者所说,HA通过提供低质量或锻造的手稿,这种生产力在旨在赚钱的纸张工厂中特别有吸引力。 02纸厂使用AI来启动这一切,这是巨大的NHANES健康数据库。这是一个由美国领导的长期项目,旨在评估美国患有SFOUR年和儿童的人的健康和营养状况。该调查每两年进行一次,并招募了近10,000名参与者。通过访谈,体格检查和实验室测试的结合,涵盖了700多个变量,包括疾病,危险因素,营养指标等。这种情况的部分原因是NHANES数据本身的高度结构化形式。它的数据可以由压迫者直接导入Python或R环境。一系列常见的库(例如NHASA,Pynhanes,Nhanes Pytool等)支持自动搜索,清洁,建模和输出。分类数据并列出了现在可以在较短的时间内使用脚本工具来实现所需的团队。更重要的是,NHANES是AI准备的数据集。这意味着研究人员很容易,可以通过应用程序编程(API)界面自动提取和研究数据。该设计最初旨在提高科学研究的效率,但也为“数据挖掘”和论文的大规模制作打开了大门。 Spike团队认为,他们的发现可能会严重低估问题的规模。他们的搜索范围仅限于符合NHANES的单因素研究。但是更广泛的搜索表明,仅在短短一年内,使用NHANES数据发表的论文数量从2023年的4,926个增加到2024年的7,876。在快速搜索中,Foundhe在Spike团队中没有五篇NHANES的论文,这是相关的纸厂削弱。它们的写作结构与Spike确定的论文非常相似,并且还围绕NHANES数据中单个变量与特定疾病的单个变量的简单相关性,例如使用电子烟和肺部疾病之间的关系[2]。使用关键字“临床公共矿业数据库”,很难找到为中国社交媒体平台提供服务的大量公共帐户。除了本文中提到的NHANES数据库外,GBD(全球疾病负担)等数据库经常出现在这些平台上的推文和案例中,这成为流行的数据源。这些类型的公共帐户中的大多数以不同的方式提供服务,例如:根据研究主题帮助下载公共数据,完成统计评论,撰写数据评论或根据现有数据和主题提供纸质和写作想法。一些平台进一步传递了“成功的Runn的口号从主题选择,英语抛光的分析,涵盖纸质写作的所有阶段。在广告某些平台时,很明显的欺诈暗示。 - 数据库中的删除和屏幕变量将产生一组足够重要的结果。
电话
020-66888888