Abstract
同行审稿是学术界发paper的一个很重要的环节,通过这个环节来提高paper的质量,而不是重复的实验和调查
本文主要是对计算机安全领域的同行审稿环节进行了一些定性调研,通过对审稿委员会的半结构化访谈,收集了部分审稿人对顶会顶刊的审稿过程的见解
本文的调研发现了审稿过程中存在的一些问题,包括但不限于众所周知的审稿人的随机性问题,以及审稿人对拒稿的指标和意见比较多样化等等问题
本文旨在鼓励建立一个社区规范来改进同行审稿这个环节存在的问题
1 Introduction
众所周知,学界通过paper的形式来发表新的研究成果,而为了评审出最合适的出版物,通常由来自学界和业界的多个不同方向的专家组成的委员会来进行评审,确保paper的质量和研究成果的有效性
近年来,各种顶会的投稿数量逐年上涨,2020年的四大顶会投了3039篇paper,因此委员会的审稿也是一个问题,包括投稿数量的增加,审稿人的工作量,审稿的数量和质量,截稿日期和投稿方式之类的多种因素都会影响审稿,而且截稿日期不变的情况下,投稿数量的增加也会影响审稿结果(本来是minor,结果投稿多了,不想看了,直接给major)
本文调研了2015-2019年四大顶会上的评审委员会的部分大佬(共计21位),并重点讨论下面两个问题
- 同行评审环节如何驱动安全方向的科学研究
- 大佬们如何看待同行评审环节(尤其是最近两年投稿数量爆炸的情况下)
围绕这两个问题,本文主要探讨了审稿人的责任、审稿方式、审稿指标、与审稿系统的互动、以及审稿人给作者的评语等等多个方向,得出了以下结论
Evaluation metrics are subjective
21位大佬中有19位会在审稿时考虑创新性,具体而言包括如何推进技术进步,新的(有趣的)研究问题,对旧问题的新的解决方案/思路/方式
表2给出了一些相关的指标
可以看到九成以上的大佬都会看创新性,其次是正确性、是否独立完成之类的,像一些无关紧要的问题,比如是否有更深入的见解,是否有建议的解决方法,是否解决了相关问题之类的,审稿人不太care
Reviewer shave much more diverse and concrete opinions on themetrics of rejecting papers
和评估论文的指标相比,审稿人对拒稿的指标有更多样性和更具体的意见
调研的21位大佬给出了16种不同的审稿指标(上面的表2),同时也给出了52种不同的拒稿的红线,而且这些拒稿红线要比上面那十六种更具体,更多样化,这意味着踩到红线大概率会被拒稿
而且经过调研,这意味着审稿人在接受时猪脑过载,在拒稿时人间清醒
另外就是安全界的顶会顶刊比较卷,而且随着投稿数量越来越多,大佬们更倾向于拒稿
Program Chairs understand their responsibilities betterthan PC members
由于委员会主席比审稿人更清楚子集的责任和审稿的重要性,因此委员会的高层认为审稿人应当接受更高质量的论文
经过本文的调研,与非主席成员相比,担任过委员会主席的大佬在审稿时的粒度更细
此外,审稿人的工作不局限于审稿,还需要帮助主席制定更好的评审项目
"Randomness" of reviews is a serious and exploitableproblem
顶会顶刊中最常见的就是随机审查的问题
审稿意见中,Accpet和Reject基本上没什么质疑,但是位于中间水平的paper,审稿人会更为主观和随机的去做决定,这实际上是一个可以利用的机制(潜规则),利用这个环节中存在的随机性性和准确性不足的点来投稿
这也是那天为啥师兄说了一句:面向审稿人的写作,这是否也意味着,运气也是实力的一部分?
基于上述几个点,本文为学界提了一些建议,以改进这些审稿的流程,尝试将一些主观的因素转变为倾向于测试的方式,来提高审稿的质量
2 Related Work
Qualitative human factors research in security
安全界的研究者和开发者通常需要研究或开发理论或实际的解决方案,因此安全界的定性人为因素非常重要,本文也采用定性方法来调研安全界的审稿人在审查过程中遵循的方法
这种人为因素包括中小企业的风险认知,用户对安全口令的认知,学生对密码学知识的认知,还有人调查性工作者面临的安全和隐私挑战
Peer review process
同行审稿的目的是提高发表文章的有效性、质量和原创性,过滤掉无效或者质量差的paper来确保科研的严谨性和完整性
目前的同行审稿可以分为下列几种方式
- 单盲(Single-Blind):仅揭示作者身份,审稿人身份保密
- 双盲(Double-Blind):双方身份都保密
- 公开(Open):双方身份都公开
不同的方式各有优劣,比如
- 单盲会有各种已知或未知的评审员的主观偏见,包括但不限于性别、种族、国籍、声誉、资历、人脉等等
- 双盲一定程度上确保了开始搞科研的人不会因为资历少或者没啥成果而被拒,同时还可以增加女性作者的代表性,可以鼓励审稿人的公平公正和言论自由,但也会因为双方都保密的原因,出现部分苛刻或者不尊重的审稿意见
- 公开则没这么多问题,可以缓解盲评中问责制缺失的问题
保持双盲的主要挑战是通过各种方式和渠道进行去盲,包括社交媒体、写作风格、研究领域、之前的研究成果和出版物、参考文献(自引/互引)、致谢中的赞助机构和基金、网络上的预印本(arXiv占坑或者eprint)(之前有其他研究表明:大佬和其论文在交稿之前的传播有比较强的关联性,这也是一种去盲的方式)
为了缓解双盲存在的挑战,部分研究建议权衡其他的替代方案,比如更多采用公开的方式,这样可以促进作者、审稿人和主席之间的共同责任,从而加强同行审稿这个环节的完整性
Stelmakh等人表明,新手审稿人往往对重新提交(Resubmissions)有一定的偏见
Cabanac和Preuss评估了偏袒早期提交的论文而损害后提交的论文的影响
Ragone等人分析了CS中个别审稿人的行为,并构建了对应的理论模型、发展和基本原理
Olsen Jr.的论文指出,如果某项研究取得了重要进展并提高了技术水平,审稿人应当予以足够高的重视
Haffar等人调研了生物医学领域中的审稿机制,并指出审稿过程会一定程度的扭曲研究结果
Suazzoni等人旨在促进同行审稿作为一个跨学科的研究领域,并促进对当前身高系统的进一步定量研究
其他还有特定领域的审稿过程,比如ACM Conference on Human Factors in Computing Systems,Neural Information Processing Systems,and International Conference on Software Engineering(ICSE)
之前也有过对2014-2016年ICSE的241作者和委员会成员进行的调研的综述,该综述表明错误的评审、评审时间的不足和对研究领域的不熟悉是ICSE审稿环节中存在的主要问题
其他领域都有一些审稿环节的调研,但是计算机安全领域比较少,本文试图推进一下对这个环节的研究,调查了21名审稿人和安全顶会的双盲审稿机制
Research paper quality
除了对审稿环节的研究,其他的研究主要集中于如何提高论文质量、如何攥写CS类的研究论文,比如有一些课程会教你如何写出清晰、具有实质性的论文,有的研究还归纳了paper中常见的问题,以帮助作者避免这些问题,从而提高审稿通过的概率
本文主要关注安全界审稿人的审稿指标和作者需要避免的一些审稿红线
3 Background and Overview
先来看一个图,这个图大致展示了同行审稿环节是如何运作的,更具体的可以看原文的附录A
上图中有11个步骤,不过整个同行审稿流程可以总结为下列4个步骤
- 首先得有一篇需要交稿的论文,可以是新写的,或者是之前修改好了的,把你的paper通过顶会顶刊官网指定的渠道交稿
- 论文会来到审稿委员会,审稿人(可能)会对想要审的paper进行投标,委员会主席过一遍paper的摘要和intro部分,然后匹配对应的审稿人,每篇paper通常会送到至少三至四位审稿人那里进行审稿
- 审稿过程一般分为两轮,第一轮几乎不可能Accept,而且这一轮拒稿是常有的事,如果没拒就到第二轮评审,部分paper可能还会给作者反馈,或者把作者抓来互动一下(上图中的J和I环节)
- 走完上述流程之后就可以拿到审稿结果了(或者第一轮就可以拿到),Accept表示录用,Reject表示拒稿,Revise通常分为Minor(小修)和Major(大修),Revise这个部分还可以再细分,具体可以看$[2]$
Background
为了便于阅读,本文重点介绍审稿过程中出现的两种方式:滚动提交(Rolling Submissions)和授权(Delegation Process)
滚动提交是近年来顶会引入了新的交稿模式,此类模式中,会议的一年间隔期间内会有2-4个交稿Dead Line
由于会议是一个介于期刊和传统学术年会之间的投稿渠道,这么做的目的是有助于审稿人环节审稿的时间压力和精神压力(审太多了容易猪脑过载),同时也可以让作者有更多的投稿机会
而授权方式的出现主要也是由于审稿强度太大,时间太短,或者审稿人对相关方向不熟悉,此时审稿人会把一部分paper交给委员会以外的人进行审稿,交给谁进行审稿由原先的审稿人决定,并且也由他对审稿质量负责
顶会顶刊通常允许审稿代表团参与审稿环节,授权审稿的方式在第十节详细介绍
Overview
本文的研究主要探讨下列两个问题
- 社区如何通过同行审稿环节来推进安全界的研究,本文的第五至七节讨论这个问题
- 专家如何看待当前安全界的同行审稿环节,在第一个问题的基础上进行进一步的讨论,希望这个问题可以提供相关的评估指标,并为审稿建立合理的期望
4 Methodology
本文联系了70位安全界顶会的审稿委员会成员,并实际采访了其中的21位(编号为P01至P21)
所有的采访以半结构化的方式进行,被采访者可以选择跳过问题或提出后续问题,所有的采访主要围绕下列三个主题
- 委员会成员与审稿系统的互动
- 审稿的指标
- 攥写高质量paper的建议
下表包含了被调查的审稿人的身份、审稿经验、研究方向等等,其中受访的21位审稿人中有9位没有委员会主席的经历,其余都有
可以看到涵盖了很多方向,包括隐私、密码(理论与实践)、分布式系统、硬件、AI、机器学习、系统安全、恶意软件、社交网络、移动安全、可证明安全、数据科学、
本文对参与调研的人做了一个小的统计,相关问题在附录B
5 Evaluation Metrics
这里研究了一下审稿人的评估指标和优先级,指出了可能对审稿产生负面影响的指标和红线,具体可以看附录D(附录D中有一些审稿人关于如何攥写高质量paper的建议)
Common Evaluation Metrics
P19指出了一个点
So, security is an area where there are not any kind of hardened established metrics for evaluating security itself
安全界是一个没有既定指标来评估其安全性的领域
那如果没有既定的指标来评估,那审稿人会着重看哪些方面,下面以表2中占比的降序,分析前四个指标(后面的占比小于两成,不没分析)
Novel
首先来看创新性,从上面的表2可以看出,审稿人对创新性的重视程度非常高,表中可以看到其占比高达九成,第二高的正确性连一半都不到
创新性是审稿人最看重的一个因素,包括但不限于新的问题、解决方案、方法、技术、概念、意识、与当前最先进技术的比较等等,P19继续指出
Novelty is definitely subjective. This is something where different reviewers will see different values out of a paper. Novelty is possibly multi-dimensional in itself in terms of, what are we learning from this, and what information from this is valuable?
创新性必然是主观的,相同的论文在不同的审稿人那里可以看到不同的价值,而且创新性本身就包含多个不同的维度,审稿人需要从中学习什么,获取哪些信息是有价值的
下面是一些简单的采访结果
- P01表明其不希望审稿的paper是其子领域的第一篇,但是这些论文应当可以解决新的问题或者为已知问题提供新的解决方案来满足创新性的要求
- P10会关注问题的相关性,并在解决方案或核心思想中找创新性
- P17的创新性主要关注新方法、攻击手段,或者引入新的未知事物
- P08:有趣就行(Interestingness)
- P09:需要推动科学发展
- 其他的比如P05,P06等人主要关注论文的核心思想和/或研究的问题
8号选手这个有趣太主观太粗糙了,what kind of interestingness should we reach?9号的推动科学发展还相对明确一些
对于创新性,P04还指出,部分paper太关注他们自己的攻击方式或者对策,忽视了与最近或者最先进的技术的对比,如果加入这个对比环节,可以很好的帮助审稿人理解作者的观点
P19继续表达其对创新性的观点
What's the related work, who solves similar problems in the same or possibly different domains, have the authors talked about those other papers sufficiently? Is the nuance and difference between them of sufficient delta?
相关的工作介绍一下?之前的研究是否在相同或可能不同的领域解决了类似的问题?作者是否充分讨论了其他的研究?这些研究之间的差异是否足够大?
Correct
然后是正确性,P01和P08认为正确性和创新性是审稿的首要因素,而且P08明确指出
If it is wrong then it does not really matter what else is in the paper.
如果paper的内容是错的,那写了其实没什么所谓
P03,P08,P11还会关注paper中的技术可靠性、正确性和深度
Evaluation Self-Contained
P05表明
From a performance point of view, from a security point of view, and you have to be self-contained. So, you have to use the evaluation to convince the reviewer to say that hey, this work is really complete and self-contained.
在性能和安全性方面,论文的工作应当是独立的,因此作者需要用evaluation来说服审稿人:哥们很强,论文里的实验都是哥们做的
P19表明论文的评估部分需要用正确的标准,P10表明评估部分需要足以支持论文的结论
Well-Written
有六位大佬认为写作也是一个审稿指标,好的写作风格更利于论文的理解和传播
P21要求作者在写作和演示上投入足够多的时间,P11认为一篇写得很好的paper可以将很多东西联系在一起,且P11表明
Something that is well-written, well-structured, has good flow, can prepare the reader for what is coming next, can help the reader ask the right questions or provide the answers. This is always very welcome.
写得好的、结构和流程都很好的paper可以让读者为接下来要做的事情做好准备,可以引导读者提出正确的问题并回答之,这种论文非常得劲
Red Flags of Paper Rejection
采访者给出的审稿指标有16种(表2),而红线有多达52种
P09表明
We know that the acceptance rate is so low (at these conferences) that sometimes there can be a tendency from the reviewer side to look for reasons to reject instead of reasons for accepting a paper.
众所周知,顶会录用率很低,所以审稿人更倾向于找拒稿的理由,而不是录用的理由
而且P09还指出,找拒稿理由的时候更多的是关注执行情况(Execution),而不是内容,如果一篇paper忘记引用某些东西、没有审稿人中意的实验,或者写作不对审稿人的胃口的时候,很容易找到拒稿理由
由于顶会拒稿率很高,因此P10表明,审稿人需要与这种找拒稿理由的本能作斗争,制定建设性和积极的审稿方式
而且当前审稿结果中还包含小修和大修两种,这会要求审稿人写修改意见
本文将上述52种拒稿红线分为三大类
- 内容相关:包括论文试图解决的问题,论文包含的客观信息,具体如表3
- 论点相关:比如论文的贡献之类的问题,具体如表4
- 写作:与写作相关的问题,具体如表5
表3可以看到,论文内容的创新性不足也是拒稿原因之一,这一点和前一节的观点基本一致
此外还有比如内容不重要,方法有问题、实验有问题、结果有问题之类的
Evaluation Metrics Consistency
由于审稿人不总是能分到其对应领域的paper,此时部分审稿人会以最高级别的审稿水平,尽可能地做出判断,因为他们不懂这些领域,因此很难在短时间内评审这些最新的研究成果
但是P10和P17表明,如果他们收到了一篇非相关领域的paper,这通常意味着这篇paper不适合这个领域,但是又需要有人审稿,所以才会被分到,此时审稿人大概率会直接拒掉,或者建议该作者投到其他领域
所以那天师兄说他之前的paper投稿的时候会遇到不懂的审稿人,然后给一个很低的分,导致徘徊在拒稿的边缘
调研的21位大佬中,他们在评审安全方向的paper时,有9位会尽可能地将他们的评审标准与顶会的要求保持一致,其中P03表示他会尽可能保持一致,以公平的态度对待每一篇他审稿的paper,还有几位审稿人表明,他们在审非顶会paper时会降低预期,但是也会保持相关的评审要求
P15表明其审稿的范围很广,难以保持已知的审稿标准,但是P11表示,每篇paper都需要阐述它们自己的工作,很多生理上的因素(比如压力,情绪等等)也会影响审稿标准的一致性
P01觉得审稿人需要有自己的评审标准,因为每一篇paper都是独一无二的,没有一种普适的标准来衡量
6 Responsibilities of PC
本节主要讨论评审委员会的主要责任,重点关注了主席和非主席成员的调研结果,因为paper一旦录用,就会成为学界所有研究者的知识库,会作为后续研究者的研究参考,因此录用与否的责任非常重大
Accept papers of quality
接受调研的九位大佬(5位主席+4位非主席)都确保了录用的paper都是高质量的,其中那四位非主席大佬表示:一篇高质量的paper具备一个或多个特征,包括但不限于前沿性、创新性、重大突破、写得不错、一些小技巧等等
不过那五位主席表示,在上述这些特征的基础上,还需要有一些额外的特征,比如社区感兴趣、对社会有帮助、推进相关领域、达到了会议的标准、具有实质性的评价等等,不难看出,主席评价高质量paper的粒度要比非主席更细
Provide constructive feedback
调研者中有六位主席表明为作者提供建设性的反馈是他们的主要职责之一,但是只有两位非主席提到了这一点,比如P17表明审稿人需要展示如何改进paper并做出相关的解释
What kind of extra experiments are needed, where some of the numbers need additional support, or where the explanation could be improved, or even simple things like typos or whether the paper structure needs to be changed.
还要什么样的额外实验,哪些数据需要额外支持,哪些解释可以改进或者简化,错别字改一下,论文结构是否需要改变
P10的观点是:建设性的反馈在任何阶段对作者都非常有帮助,并且他表示
helping the authors with feedback to improve their papers in the best possible way. Be it for the final version, for the next iteration, for the revision of the paper, and so on.
给作者提供反馈,以尽可能好的方式帮助他们改进paper,无论是终版、修改下一版,还是小修/大修,都应如此
个别受访的审稿人也认为,审稿人经常会忘记给出一些有价值的、有建设性的反馈,尤其是没有太多审稿经验的人
Evaluate correctness,novelty,and validity
调查的九位大佬提到了正确性对审稿的重要性,有的大佬还指出验证paper采用的方法是否正确也是审稿人的责任之一,两位主席表明检查paper的有效性是他们的职责之一,有的大佬则表示其会通过paper中的说法是否符合对应的论据来判断paper的有效性
有八位大佬会检查创新性,P20表示
Traditionally speaking, something that has not been published in a peer-reviewed setting such as a journal or a conference.
传统角度而言,(创新性)指的是未在期刊或会议等同行评审环节中发表的内容
Review and advocate papers fairly
有两位非主席受访者认为公平评审paper是他们的主要职责之一,还有一位非主席成员认为,审稿人在后续的讨论阶段也应当公平的对待paper
不过本文调研的主席成员并没有表明公平审稿是他们的职责之一
Help shape the best program
只有三位主席成员认为,审稿人的职责并不在于将他们的评审插入审稿系统,但是他们应当通过给出建议和提出一套可以在会议上提交的paper来支持主席推进这个审稿环节
这里没理解
7 Characteristics of High-Quality Reviews
不难看出,同行审稿这个环节很重要,因为它是审稿人对paper进行评审和提出修改建议的唯一渠道,本文的调查注意到了审稿人在审稿时有下列主要特性
Providing constructive and actionable feedback
有20位受访者表明:好的审稿应当有建设性和可操作(actionable)的反馈,P02表示审稿重点在于给出改进的意见、激发其他的想法,甚至对paper的结果给出不同的观点,P18觉得审稿人给出的建设性的审稿意见,有助于作者下一次投稿时出现比较粗糙的paper
这些大佬还补充了一点
What I would not like to have is only an opinion that says, I don’t think this is an interesting result or technique. I think that is the most useless one.
我不希望我收到的意见是:这不是一个有趣的结果或者技术,因为这些审稿意见没什么卵用
Being detailed and informative
12位大佬表明,综述需要写的详细一些,需要给审稿委员会提供paper的信息,有的受访者表明,其他审稿人只看paper的综述也可以发表意见
P01对比了审稿评论写作和paper写作,观点如下
I feel that writing a review is just like writing a paper . In that, you establish a position, you make some claims regarding that position, and then you provide evidence to support that position. If any of these things are missing, it is not a good review or a good paper.
写评论就和写论文一样,需要确立一个立场,并针对这个立场提出一些主张,并给出提出这些主张的证据
上述过程缺一不可,否则就不是一篇好的paper或者审稿意见
Being comprehensive and well-structured
P10认为好的审稿意见应当从各个角度对paper进行评估,包括问题、想法、贡献、影响、执行、评估,以及与之前工作的比较
P20给出了攥写好的审稿意见的指南:首先需要证明审稿人理解了paper并总结决策(summarize the decision),其次给出paper的优点和不足之处,以及这些优缺点的相关证据,审稿人需要对每一条意见进行详尽的解释,最后审稿意见以语言和排版问题结束
Being clear and carefully written
六位大佬指出,一份好的审稿报告应当写的很清晰,和paper一样,需要是独立的、读者可以理解的审稿报告,不应当有错误的陈述或者错别字
P11认为他们在起草审报告后会自己审一遍,防止出现错误
P16会过一遍审稿报告里面的错别字、语法错误之类的,防止自己写的东西太“暴躁”
P15则表示,即便他要拒一篇paper,也会尽可能地把审稿报告写的谦虚一些,同时给出建设性地评论
两位主席(P18,P20)给出了写出建设性意见地技巧:保持好心情,并且审稿人应当在意见中表现出同理心,仿佛他们正在亲自给某人读这些意见
审稿人需要稳健不浪心态棒,虽然能投顶会的质量应该不会太差,但是毕竟审稿人也是人,审稿审多了难免也会心态爆炸
Being objective
客观也是审稿意见的关键因素之一,有大佬指出审稿意见需要避免主观的因素,比如“我不认为你在推进该领域的研究”,“研究不相关”,“我不喜欢”
Including a paper summary
八位受访者认为,有一个总结性的陈述(summary statement)对于论文的理解很重要,部分受访者认为paper的总结对处于讨论阶段的其他审稿人和作者自身都很有帮助
P15补充
and some people do not really do that well (write a summary statement about the paper), and I think it affects the quality of the review.
有些人(在写论文的总结这方面)做的并不好,这会影响审稿意见的质量
Being anonymous
两位主席(P08,P17)避免了对自己的去匿名化,他们认为如果一个人总是用相同的风格写意见必然会被认出来,这样会暴露他们的身份
为了确保匿名性,P08不建议作者引用他们的研究工作,而P17则会改变自己写意见的风格
8 Systemic Issues with the Review Process
审稿人需要在审稿期间频繁与审稿系统进行互动,本节介绍受访者对审稿环节的一些意见
Randomness
有六位受访者不一致的接受或拒绝审稿的随机性,尤其是一部分处于灰色地带的paper,审稿人的决策几乎都是主观且随机的,审稿系统存在随机性,主要是因为委员会可能会在同一篇paper上得出完全不同的审稿结论
P07表明随机性是审稿人设定优先级的结果,而且谁审稿、审稿人的想法、讨论的进展如何等方面都存在很大的随机性,并且补充道
My main concern is you would not be able to use papers that are accepted in selective conferences the same way you have been using them in the past to signal quality and academic excellence.
我主要担心的是,作者不能像过去那样使用选择性会议上被录用的论文来展示paper的质量和学术卓越
P11则指出,paper的作者可能会因为审稿的随机性而去“搞”(game)这个系统(顶会也不例外),意思是作者可以不短的交稿,直到其收到一个钟意的审稿意见或者录用为止,而P07觉得,在审稿系统具有足够的确定性之前,审稿人不应当对试图与审稿系统进行battle的作者上火(could not be angry),并且P07进一步补充
If we can be more accurate in our reviews, then yeah, it (gaming the system) is a horrible thing to do. But, we are not; it works. And so, somebody whose job depends on getting these papers in, why would you blame them for doing something that works.
如果我们可以更精确的评论,则玩弄这个系统确实是一个很恐怖的事情,但是我们并不,所以对于那些工作依赖于这些paper的人,为何需要责怪他们做了一些有效的事情呢
没看懂啥意思,英语太差了
Usefulness of reviewing history
有两位主席(P06,P17)认为将评审延续到其他会议是一个很有用的点,P06觉得评审历史不仅可以让审稿人发现作者重新交稿且未作任何修改的行为,还可以将过往的审稿意见作为参考,看看以前的审稿是否公平
而P17认为,审稿历史可以确保相同的审稿意见不会重复,大部分顶会的录用率在20%左右,这意味着剩余的八成会被拒稿并且大概率在其他地方重新投稿,如果没有审稿历史,这意味着审稿人的工作量被白白浪费了(审稿人会有一种被白嫖的落寞感)
Re-submission with unfair reviews is acceptable
接着上一个点,P01有不同的观点,他不喜欢会议中要求的评审历史,因为有些时候审稿意见的质量比较垃圾,没有任何建设性意见,或者给的评论本身就有问题
在作者的角度看来,与之前的评审互动非常困难,因为这会向审稿人传递一些负面的含义,尽管作者可能会觉得之前的评审有一点建设性,但是新的审稿人发现作者没有在重新交稿时做出对应的修改时,审稿人会觉得作者没有很好的解决之前的评审
因此P01觉得,此类情况,重新交稿且不提供评审历史是唯一的选择
还有三位大佬认为,只要作者可以证明他们收到了错误的、无法回应的反馈,或者证明其paper受到了不公平的对待,那重新交稿时不给审稿历史也是可以接受的
Need for accountability
P10和P11觉得目前的审稿环节缺乏问责制,很多审稿都存在一定的固执或者错误性
P11认为,无论审稿质量的优劣,审稿人都应当对其审稿意见负责,此时最理想的方式是前面提到的公开审稿,P17也觉得公开审稿可以增加审稿人攥写好的审稿意见的责任
Huge reviewing load due to being on multiple PCs
有四位大佬觉得,审稿人在多个评审委员会中工作时,其工作量会急剧增加
这一点和前面提到的类似,当审稿人的工作太多时,他就没有足够的时间和精力去理解所有的paper,从而导致审稿质量因人而异
这几位大佬也觉得,顶会应当限制审稿人的工作量(来提高审稿质量)
Scalability challenges with rolling submissions
P10觉得滚动交稿仍然存在很多冗余的paper,因为顶会拒稿率很高,某个会议拒稿的paper会在其他会议上由其他的审稿人重新审,变相增加了审稿人的工作量,因此这里其实有非常大的扩展性
Need for a balanced PC
P12提到,有时候有的paper无法在委员会内匹配到合适的审稿人,并且他认为审稿人不应当对不属于他自己领域的paper指指点点
P03觉得需要有更多合格的审稿人来提供更清晰的反馈
但是P17觉得
There is also a time when a paper is not a good fit for the conference because if there is no PC member to review this paper in a meaningful way, then this probably is not the right audience for this type of paper.
有些时候,一篇paper不适合会议,因为如果委员会没有以有意义的方式进行审稿,那么可能意味着这篇paper的受众不太合适
不过此类论文通常不在会议的征稿范围内,所以本文并没有调研此类情况
Need more objectivity from reviewers
P10提到,安全界是以影响力和炒作为导向的,审稿人喜欢这样的paper
P12觉得,部分审稿人对技术和研究有偏见,尤其是在审一些新的idea的时候,而且偏心是安全顶会中最常见的问题
P20提到,安全界的审稿人对某些领域存在哲学偏见,并且补充
I think it's very hard to divorce a reviewing system if the community is not huge and everyone knows each other , even if it's double-blind. I mean, it's difficult to fix social problems with cabals that are accepting each other's papers.
如果圈子不大,大佬们都互相认识,即便是双盲的审稿方式,也很难脱离审稿系统,意思是难以用接受对方的paper来解决一些社会问题
这里没理解,是不是想说人情世故?
P17补充
It might not always be really objective. There are of course humans involved so, they could also give sometimes wrong decisions, but I haven't seen any proposal on how to improve the process significantly.
(审稿)这个过程可能并不总是真正客观的,因为这个过程有人为因素,人必然会犯错,但是目前还没有一个可以显著改进这个过程的提议
A shift in PC discussions
委员会讨论是审稿环节的重要组成部分,这个环节很有可能对paper的结果产生重大的影响
本文没有调研委员会讨论的部分,但是有八位受访者提到了他们的看法和意见
- P06:委员会讨论比写审稿意见更重要
- P20:一些边缘的paper很难单独进行评审,这也会导致评审结果不一致,所以阐明观点(支持或反驳paper)对选择的过程很重要,可以推动或者破坏一篇paper
- P05:一些年轻的审稿人可能会被长辈恐吓,导致其不敢在讨论环节互动或者不敢和长辈对线,这样就违背了讨论环节的初衷,也达不到期望的目的
- P10:对于小修/大修,审稿人可以避免这两个维度之间的优先级,并且将每个维度的改进情况传达给作者
- P13:审稿人在线上形式的讨论过程中的投入要比线下形式要少,线下行驶中,审稿人会通过其他的评审来判断他们自己的评审是否有疏漏,然后与其他审稿人进行进一步的讨论
- P17:审稿人仅限于在线讨论中指定的paper,对于其他paper不太了解,并且其鼓励围绕提交的论文进行积极的讨论,他自己也补充道,委员会讨论有助于后续新的成员加入
Negative sentiments
当被问及安全会议审稿系统的现状时,有13位受访者给出了负面的反馈(其中包含8位主席)
P12对审稿系统系统的态度如下
The review system that we have currently is broken, and it is not systematic in the way that papers are reviewed.
目前的审稿系统已经被打破,而且对paper的审稿方式也不够系统
P20的态度是
It is a flawed system, but like democracy, we do not have a better system to replace it.
这个机制有问题,但是就和民主一样,没有更好的制度来取代之
Positive sentiments
只有四位受访者对审稿系统持积极态度
- P08:安全界目前仍在发展,提交的paper也越来越多,但是审稿人仍然会花费足够的时间和精力来写一些有意义的审稿意见
- P21:赞赏了部分审稿人对他们不喜欢的paper仍然提供的建设性的意见行为
- P09:对社区尝试自我创新和滚动交稿的转变感到高兴
当然,社区也在学习如何更好的利用审稿机制,本文作为这个机制的调研者,也应当愿意做一些相关的实验
9 Rolling Submissions
本节讲一下滚动交稿这个新的方式,从作者和审稿人两个角度来分析,看看不同的角色对这个机制的态度(P03和P12两位大佬没有滚动交稿的相关经历)
Blessing to authors
有十位受访者(包括6位主席)认为此类方式对作者有利,这个机制在paper的内容、交稿的时间和地点上赋予了作者更多的灵活性,P10也反馈了这个机制提高了他们项目组paper的质量,也有个别大佬觉得和这个机制相比,以前的单一截稿日期的方式真不行
但是也有几位大佬觉得这个机制会引起拖延症,因为存在多个截稿日期,可能会存在作者多次错过截稿日期的情况(我忘了,下次还敢)
Negative sentiments from reviewers' perspective
也有部分大佬指出,滚动交稿的方式会增加工作量,尽管每天需要审的paper的数量不变,但是审稿的周转时间缩短了,本文的受访者都反馈了难以管理审稿时间
P15表示,他们有足够的信息录用paper,有更长的时间完成审稿,并且其认为时间压力会降低审稿质量
P07表示在更少的时间内写更多的令人满意的审稿意见变得越来越难,而且从单次交稿转变到滚动交稿很折磨
有8位受访者表明,他们会不断的收到需要审稿的paper,还有个别大佬指出,Oakland截稿的那个月能把审稿委员会忙死
有三位受访者指出滚动交稿会让审稿人感到疲惫,P18认为自我激励对委员会成员非常重要
P04补充:主席在审稿过程中保持审稿人的参与是一个挑战,精力下降会影响审稿质量,如果工作量太大,大佬们可能直接摆烂了,这也会导致部分方向的paper没有对口的专家进行审稿
P09表明,滚动交稿更关注出版物的准备程度,从而忽略了paper的重要性,他担心后期才提交的paper可能会得到积极的推动(因为这些paper在前几轮中录用的比较少)
P07补充
Just getting used to the details of how do you assign PC members? How do you return reviews and talk? How do you motivate authors to submit to any of them as opposed to the last deadline? Once everybody has figured it out, it is not a hard problem.
这仅仅是习惯了如何分配委员会的成员么?你怎么回复审稿意见和讨论的?你又如何激励作者在截稿日期前提交paper给其中的任何一个(审稿人)?
如果每个人搞清楚这几个问题的话,审稿其实也没这么难
Positive sentiments from reviewers' perspective
两位受访者认为他们可以更公平的进行审稿,毕竟没什么好竞争的,而有五位受访者认为,根据全年工作量的分布,他们的审稿质量有所提高,可以更多的在审稿时抠一些paper的细节
部分受访者认为滚动交稿也是一种与作者沟通的方式,并且这个方式可以传达审稿人对paper修改的期望,而不是拒稿-重新交稿的恶性循环
P10认为,小修/大修可以促使审稿人写出更具建设性的意见
This revised model is pushing more people to write reviews where you (reviewers) are by construction more constructive and positive towards papers because they're fighting perhaps the common instinct to find reasons to reject.
此类模式可以促使更多的人写意见,而审稿人也可以构建更具建设性和积极性的意见,因为他们或许在寻找与拒稿的理由这一本能作斗争
P10和P20还提到了,滚动交稿使得总体paper质量有所提高,当然也包含审稿人在看到paper的潜力时可以写意见要求作者做一些改进
10 Review Delegation
之前提到了,如果审稿人忙死了,可以将paper代理给自己的博士、博后,或者其他的专家团队,但是这个代理的过程不透明,也导致了这是一个极具争议性的方式
简单来说就是:摇人,找代练
本文采访的21位大佬中,有18位(主席和非主席各一半)都提到了他们以某种形式进行了授权审稿,所以本节分析一下授权审稿的一些问题
Delegation Process
先来看一下授权的目的,受访者提到了下列两类主要目的
- 培养学生:有七位受访者认为授权对他们的学生的发展很重要,甚至有大佬会授权给一些年轻的博士生,并且认为这帮年轻人应当尽早地学会审稿
P18表示如果学生读其他的paper,他们会关注其中的技术和结论,并尝试理解如何在研究中使用这些技术和结论,如果学生必须写一篇综述,则他们会更多关注“使用不同的方法来让paper更容易理解” - 利用外部的专业资源:有七位受访者认为他们如果没有足够的信心,会摇人,找外面的大佬,有三位审稿人会在主席许可的情况下摇人,有的会议只允许他们找系统内指定的外部专家
P10补充道:只有当审稿人认识该领域的专家,且主席允许多一个审稿名额时,这种找代练的审稿方式才是一个不错的主意
值得注意的是,尽管受访者将审稿委托给外部人员,但是他们反对完全的授权,比如P12表示顶会的paper有很多有争议和新颖的ideas,因此审稿人“永远都不要选择完全授权”
自己看一看吧,别天天摆烂找代练
而对于如何选择被委托的人,一半的受访者表示其会根据自己领域的专业知识来找代练,个别受访者表示会把paper发给高年级的博士生,让他们在审paper时有更高的自信
P12会先看一遍paper,再决定授权给谁,P09会授权给小组里面“非常愿意”(very willing)进行审稿的其他成员(包括博士、博后),P07会给学生过一遍paper的题目和摘要,并让他们自己挑要审的paper
在处理委托的过程中,10名受访者表示不会再没有监督的情况下进行授权,不过有两位受访者表示,委员会成员应当尝试理解这些paper,因为作为审稿人,他们必须了解这些paper与其他提交的paper之间有什么技术关系或差异,如果一篇paper只有授权评审,那很有可能到了讨论环节之后没人讨论了
部分受访者表示会给学生一个Dead Line,并于学生讨论paper的优势与不足,从学生那里蹭一点审稿的反馈
P19表示其在授权给学生进行审稿时会解释保密性和相关的审稿概念,还会将其他审稿人的审稿意见匿名处理后发给自己的学生,然后让他们思考一下不同的观点
Opinions on Delegation
有7位主席对授权审稿展示消极态度,但是只有两名非主席成员有同样的消极态度
P20觉得安全界在滥用授权审稿机制,而且变成了一种传统,如果高级成员不能授权,他们可能都不会加入审稿委员会,这种抵制行为很有可能会影响审稿流程,尤其是主席试图平衡委员会和相关的资历时,如果此时主席禁止授权,他们可能都无法按时收到审稿
而且他还表示表示,如果主席无视规则并得出相关结论时,他们可以决定不邀请外部评审员
But in practice, it doesn’t really hurt people as black lists are kind of ad hoc and irregularly enforced.
但实际上这样并没有真正伤害到谁,因为黑名单知识临时的,而不是常规黑名单
不过有两位受访者觉得,审稿人被邀请加入委员会是因为他们专业知识足够强,而不是其他人的专业知识,而且委员会成员需要在在线讨论中发表有价值的评论,如果没有看过paper,或者没写过对应的评论,那就无法对paper给出建设性的内容
P20又补充到,评论最好自己写,以确保质量和声誉
P12和P13表示其不喜欢委员会成员,尤其是有些高级审稿人会委托给与paper主题无关的学生
It will be unfair for the authors, and it will be unfair for the students because they will not learn how to evaluate. So, it is not good for either.
这样对作者和学生都很不好,因为学生不会学习如何评论
另外两位受访者觉得社区已经厌倦了委员会成员,他们将很多工作授权给学生或者博后,但仍然可以因为是委员会成员而获得一些奖励,P18觉得审稿人将审稿外包时,还在自己的简历里面写上自己是审稿人的行为,很恶心
不过也有七位受访者给出了积极的态度(其中仅有四位主席),P15表示应当将审稿授权给专家以确保审稿的质量,并且其认为委员会成员应当参与授权过程以提高审稿质量,而不是以摆烂作为借口
We (reviewers) try to be as expert as we can and cover as many areas as we can, but we cannot be an expert for everything that lands on our desks.
审稿人需要尽可能成为专家,涵盖更多的领域,但不能成为所有领域的专家
有三位审稿人觉得授权机制对未来的审稿教育和培训很重要,如果学生在加入委员会之前没有审稿的经验,那他们加入之后要干啥可能都不知道,这样会一定程度上影响审稿机制的运作
他们还觉得,学生应当需要知道审稿机制的运作方式,应当知道经验丰富的审稿人怎么写意见的,以及审稿人在讨论中如何进行互动的
11 Recommendations
最后,所有受访者分享了他们在安全顶会审稿机制中的见解和担忧,并对前面的表4中的点提出了一些具体的意见
本节讨论了几项建议,不过在本文自己的审议和对安全界不同分析的基础上做了进一步的扩充,这里只是讨论一下,不是说一定要这么做,而是期望这些讨论可以作为学界内部讨论的一个基石
Focus on review quality when mentoring novice reviewers
受访者处于各种原因,都希望扩大审稿委员会,原因包括但不限于:工作量超标、授权受阻、审稿期间的专业知识的平衡
前面也提到了,部分受访者觉得委托给学生是出于培训和教育的目的,需要注意的是:审稿人在教学生根据自己的经验进行审稿时可能会映入偏见,而不是普遍接受的最佳方式
S&P的方式是组织学生/影子委员会,旨在让博士生接受审稿的相关教育,尽管2017年有报告表示学生比资历较深的审稿人更为消极,而且也没有根据学生的审稿质量来苹果学生的表现,这可能是衡量会议同行评审过程是否成功的关键指标
Proceedings on Privacy Enhancing Technologies(PoPETs)为应届生和高年级博士生提供了作为外部评审员的方式,他们认为直接参与评审是培养新手的最有效的方式
为了解决审稿过载、缺乏合格审稿人的问题,建议会议通过学生/影子委员会的方式招聘审稿人,可以先从试用期开始做起,并分配一个高级的委员会成员作为导师,通过审稿来评估学生的审稿质量,如果审的不错就可以转正
Assist reviewers in performing timely reviews
作者期望审稿人提供建设性、可操作的、详尽的和及时的反馈,但是本文注意到,由于各种承诺,审稿人没办法尽早地开始审稿工作(比如:我绝不可能拖延症)
有的受访者建议审稿人可以拒掉一些审稿邀请来减少工作量,但是部分年轻教师会接受所有邀请,因为要评职称,多审稿会让简历好看一点
为了帮助审稿人即使审稿,而不是拖到DDL,本文给出了一些建议
- 确保每个审稿人有足够的资源,比如主席可以要求审稿人限制他们同时参与的委员会的数量,确保审稿人在接受审稿邀请之前不会有档期的冲突
- 为了确保审稿人有足够的时间周转,可以缩短审稿周期,少量多次的分配paper
- 为了帮助委员会进行审稿,主席可以要求审稿人提前提交paper的摘要部分,确保审稿人不会推到DDL才开始上班
- P08提议:可以用自动化来解决迟到、拖延和差评所带来的挫败感(比如自动化的paper审稿匹配机制,自动化闹铃来提醒提交审稿)
Reward and recognize good reviewer behavior
审稿人更倾向于再提交的paper中选择好的那些,不过P13表示,部分审稿人会在审稿过程中一直持否定态度,并且如果评审得到补偿(compensated),委员会会更加严格
这里向委员会主席提出两个建议
- 利用高质量审稿的特点来设计审稿指标列表,主协议可以评估审稿人是否一贯持否定态度,并且决定不邀请他们参加未来的评审
- 通过跟踪某些参数来监控审稿人的表现,比如身高数量、自上一篇paper分配以来的时间周期、平均审稿时间、评审长度、审稿人之间的约定、审稿质量、参与讨论的质量等等,表现越好则收到审稿邀约的可能性也越大,但是需要持续跟踪这些参数
主席也可以通过使用质量指标来创建一个审稿人的识别过程,委员会资格对审稿人的学术成功很重要,不良的学术行为会影响其是否收到委员会邀约,因此也会约束各个科研人员的行为
此外,主席还可以通过一封描述审稿人贡献的介绍信来作为审稿人晋升时的参考,或者干脆评个奖之类的,也可以激励审稿人更好的完成审稿工作
Make authors accountable for their submissions
有两位受访者强烈表示:作者在没有更改、没有正当理由的情况下重新提交,并尝试与审稿系统进行对线时,应当收到乘法
由于部分作者会犹豫是否提交之前的审稿意见,我们认为顶会的组织可以联合起来,构建一个共享数据库,以跟踪审稿过程中的每一篇paper,通过该数据库标记论文之间的匹配程度,并设定一个阈值(然后再从委员会成员里面找一个倒霉蛋来处理系统可能存在的假阴性的情况)
如果采用这种方式的话,项目主席需要确保新的审稿人将评审历史作为附加信息,以确保没有任何偏见
Social media makes it difficult to enforce double-blind
之前提到了双盲的方式无法阻止作者们呼唤评论和审稿意见,包括在推特之类的社交媒体上,有的受访者也认为这会影响审稿人的公正性
在双盲方式中,只有paper在录用之后,作者的身份及其单位才会被解释,但是无法组织社交网络对审稿的去盲
委员会可以在征稿时,考虑社交媒体上的信息,并且在非合作者之间共享这些信息,社区也应当坦诚地讨论双盲是否稳健到可以在社交媒体上立足,同时需要确保维持双盲的这种形式
Meet with the community to listen, identify, and reflect
安全界应当有足够的空间,促进那些参加会议的大佬和与会者之外的人进行交流
比如S&P对滚动交稿的更改同时会延长着GitHub上进行的社区研讨
由于顶会的受众很广,包括新的学生、学者、作者、审稿人和会议组织者,这样有助于阐明审稿过程的不同的看法,有利于对改进审稿过程需要做出的修改达成一致
12 Limitations and Future Work
本文的研究存在一定的局限性,这里讨论一下,同时给出了一些缓解这些局限性的方法
- 普遍性(Generalizability):本文的研究主要针对安全界的同行审稿环节,不太适合推广到其他研究领域,其他研究者可以重点关注他们的领域来提出针对性的建议
- 社会期望偏差(Social desirability bias):审稿人可以分享他们的想法,展示他们的思路,也可以在自我报告(Self-Report)中藏一手,本文的受访者都表示他们没有在审稿的时候有冒犯的行为,但是实际情况可能是另一回事
未来的研究可以着重观察委员会的讨论环节,以加强本文的结果,或者针对被拒稿的paper展开调查,以提高作者对审稿人红线的理解 - 无响应偏差(Non-response bias):本文联系了70位审稿人,但是只有21位接受了采访,拒绝或忽略了采访邀请的审稿人中可能会有影响本文研究结论的观点
- 回忆偏差(Recall bias):由于部分受访者的资历比较深,因此存在一定的回忆偏差
本文调研时向受访者询问了有关总体审稿经验、评估指标、堆审稿系统的独特理解,以及他们在安全研究论文中寻找的典型的特征问题,受访者可能会因为时间太长,难以回忆起上一次审顶会的paper的部分细节 - 采访时间受限(Interview time limitation):本文最初设计的采访时间为一小时,但是部分受访者在知道采访时间后就推掉了,所以本文将采访时间缩短到了20min,并且优先考虑收集数据
但是还是因为时间太短了,有些受访者不足以回答更多的问题
13 Conclusion
本文介绍了审稿人对当前顶会所采用的审稿制度的意见和担忧,采访了21位顶会审稿人,了解了同行审稿环节中的一些细节,找出了一些问题,并探索了潜在的改进方案
本文的结果表明,安全界的审稿委员会对审稿系统有一定的意见,这是一个亟待解决也应当解决的问题,希望本文可以引起安全界同行的关注
References
$[1]$ Ananta Soneji, Faris Bugra Kokulu, Carlos E. Rubio-Medrano, Tiffany Bao, Ruoyu Wang, Yan Shoshitaishvili, Adam Doupé:"Flawed, but like democracy we don't have a better system": The Experts' Insights on the Peer Review Process of Evaluating Security Papers. IEEE Symposium on Security and Privacy 2022: 1845-1862
$[2]$ 你读懂审稿人的“潜台词”了吗?SCI论文审稿决定类型汇总 - 知乎 (zhihu.com)