This week, we received a press release that caught our attention: A company is releasing software it claims will write manuscripts using researchers’ data.

이번 주에 우리는 눈에 띄는 기사 하나를 발견했다: sciNote라는 회사에서 연구자가 얻은 데이터에 기반하여 논문 초안을 써주는 소프트웨어를 출시했다는 것이다.


The program, dubbed “Manuscript Writer,” uses artificial intelligence (AI) to generate papers, according to the company that created it, sciNote LLC. A spokesperson explained the software generates a first draft the scientist should revise, and won’t write the Discussion, “the most creative and original part of the scientific article.” But can it provide any coherent text? 

매뉴스크립트 라이터라고 명명된 이 프로그램은 인공지능을 사용하여 논문을 생성해낸다고 sciNote 측은 밝혔다. 회사 대변인의 설명에 따르면 이 소프트웨어는 논문 초안만을 작성하여 연구자가 검토할 수 있도록 하며, "논문의 가장 창의적이면서 본래적인 부분"인 고찰(논의) 파트는 작성하지 않은 채로 남겨둔다. 하지만 이 소프트웨어는 정말로 말이 되는 글을 쓸 수 있을까?


According the release from sciNote, Manuscript Writer (an add-on to the company’s Electronic Lab Notebook, or ELN):

    …has the ability to significantly simplify the process of preparing scientific manuscripts by using the technological advances in machine learning and artificial intelligence. Recognizing the importance of timely publication of scientific findings by the global scientific community, the add-on aims to significantly reduce the time taken to prepare initial content. By drawing upon data contained within the ELN and references that are accessible in open access journals, to provide a structured draft for the author to then edit and develop further.
A spokesperson told us the company’s ELN is the first to generate scientific articles.

sciNote의 보도자료에 따르면, 매뉴스크립트 라이터(이 소프트웨어는 동 회사에서 출시한 전자랩 노트북의 애드온이다)는 '기계학습과 인공지능 분야에서의 성과를 사용하여 과학논문 초안 준비과정을 크게 간편화할 수 있다. 과학적 발견을 전세계의 과학 공동체를 대상으로 적시 공개하는 것은 매우 중요하므로, 해당 애드온은 초기 논문내용을 준비하는데 드는 시간을 크게 줄일 수 있다. 전자랩 노트북에 들어있는 데이터 및 외부에 공개된 각종 과학저널의 참조문헌을 사용하여 구조화된 논문 초안을 저자에게 제공하여 차후 편집과 내용 추가를 할 수 있도록 해준다.

회사의 대변인은 전자랩 노트북이 사상최초의 과학논문 생성 소프트웨어라고 말한다.


What about avoiding the problems that sometimes befall paper mills, such as plagiarism? We asked someone with experience investigating paper mills, Charles Seife at New York University. Seife said he couldn’t speak from experience about Manuscript Writer, as he doesn’t have it on his computer, but it seems “dodgy:”

    I could certainly imagine a useful system of some kind that would take lab notes and attempt to fit data, protocols, and notes into various templates; help format references; even create an outline of what information goes where in a paper. This system is promising more than that, though, suggesting that the software would provide a “first draft.” To me, this suggests that, unless the scientist’s already entered a substantial amount of prose, the program’s going to get it from somewhere else… which is problematic, to say the least.

하지만 논문 생성기들이 때때로 부닥치는 문제, 예를 들어 표절은 어떻게 해결할 것인가? 우리는 이에 대해 논문 생성기 조사를 전문으로 해온 뉴욕대학교의 찰스 세이페에게 문의했다. 찰스 세이페는 자신이 매뉴스크립트 라이터를 써본 적은 없으나 회사 측의 주장은 의심스럽다고 답변했다:

"랩노트를 작성하거나 데이터, 프로토콜, 노트 등을 다양한 형식에 맞춰주는 시스템은 가능할 것입니다. 심지어 논문의 어느 부분에 무슨 정보가 들어있는지 대한 개략적인 설명도 제공해줄 수 있을 것입니다.  하지만 회사 측은 여기서 한 발 더 나아가 해당 소프트웨어가 논문 초안을 작성해줄 수 있다고 주장합니다. 제 생각에는, 만일 과학자가 미리 적지 않은 양의 문구를 입력해둔 것이 아니라면, 해당 소프트웨어는 해당 문구들을 어딘가에서 얻어와야 하는데, 이는 좀 문제의 소지가 있을 수 있습니다".


    The terms of service say explicitly that the draft will be generated not just from the data stored by the user but from “relevant keywords and open access references.” Obviously, an AI isn’t capable of understanding and digesting prose the way a human is, so it’s hard for me to see how it’s going to be able to create any sort of derivative work based on open-access references that isn’t plagiaristic or incoherent (or most likely both.)

   "소프트웨어의 사용조건에 보면 논문초안이 단순히 사용자가 입력해준 데이터에서뿐만 아니라 "관련 키워드와 공개된 참조문헌"에서 얻은 데이터를 가지고 생성된다고 분명히 명시하고 있습니다. 인공지능이 인간처럼 문구를 이해하고 해석할 가능성은 극히 드물며, 따라서 이 소프트웨어가 대체 무슨 방법으로 공개된 참조문헌에 기반하여 표절이 아니거나 알아먹을 수 있는 (아니면 둘 다 해당되는) 논문을 생성해낼 수 있을지 모르겠습니다."


Seife added:

    So, having not used the program myself, I can’t say for sure, but I’d be willing to bet money that it’s scraping prose from references’ introductions, jumbling it up in some fashion, and plunking it down for the researcher to use in his own introduction. This ain’t a good idea, for obvious reasons.

    So, yes, this business model concerns me. If it, in fact helps automate the process of stealing other people’s prose, lightly massaging it, and using it as one’s own, then it is a terrible thing.

찰스 세이페는 이에 덧붙여 다음과 같이 대답했다:

   "비록 제가 소프트웨어는 직접 써본 적이 없기 때문에 확실하게는 말씀드릴 수 없지만, 아마도 소프트웨어가 참조문헌의 개요에 있는 구문들을 긁어모아서 어떤 방식으로 뒤섞은 후 연구자한테 툭 내던지면( -_-) 연구자가 그걸 가지고 논문 개요를 쓸 가능성이 높습니다. 잘 아시겠지만 이건 별로 좋은 아이디어가 아닙니다.

   결과적으로 말하자면 저는 이런 사업모델에 우려를 느낍니다. 만일 이 소프트웨어가 정말로 다른 사람들의 구문을 훔쳐서 약간 주무른 다음( -_-) 자신이 직접 쓴 것처럼 보이게 만든다면, 이건 꽤 끔찍한 일이지요"


We brought Seife’s concerns to the spokesperson, who told us:

    Manuscript Writer will generate materials and methods section of the manuscript based on the scientist’s project and experiment data, protocols and notes in sciNote…In addition to that, Manuscript Writer will generate an introduction based on relevant keywords and DOI numbers that the scientist selected and entered. Manuscript Writer will pull information from selected references, and based on the relevant keywords it will look for additional relevant open access references and include them in the draft as well. The scientists will get an introduction in which every sentence or paragraph comes with a citation and all references are added to the list of references (another part of the manuscript generated by Manuscript Writer).

우리가 찰스 세이페의 답변을 가지고 회사 대변인에게 문의하자, 대변인은 다음과 같이 답변을 주었다:

   "매뉴스크립트 라이터는 논문의 '재료 및 방법' 부분을 해당 과학자가 sciNote에 저장한 프로젝트 및 실험데이터, 프로토콜 및 노트기록에 기반하여 생성해냅니다. 여기에 더하여 매뉴스크립트 라이터는 과학자가 선별하고 입력한 관련 키워드 및 DOI 번호에 기반하여 논문개요를 생성해냅니다. 매뉴스크립트 라이터는 과학자가 선정해준 참조문헌에서 정보를 추출하는 동시에 관련 키워드를 기준으로 외부에 공개된 참조문헌을 추가 탐색하여 논문초안에 포함시킵니다. 맨 마지막에 과학자는 모든 문장 또는 단락에 인용표시가 되어 있으며 모든 참조문헌이 문헌목록에 추가된 논문개요를 받게 됩니다 (문헌목록은 매뉴스크립트 라이터가 생성해주는 또다른 파트입니다)".


The program checks for plagiarism, the spokesperson noted:

    After every paragraph that is included in the introduction, the scientist sees the number of the reference and a percentage (e.g. 100%) which shows the scientist that a particular paragraph is cited from the specified reference and is 100% the same text. This information cannot be overlooked, because it is part of the text and additionally notifies the scientist that she/he should edit it…It is then their responsibility to edit and proofread the text. As it would be in every other case when writing manuscripts.
We also notify the scientist to edit the received text at the point when they receive the draft. The main benefit is that Manuscript Writer can include interesting paragraphs, related to the subject at hand, to the introduction and give the scientist a head start while writing.

해당 소프트웨어는 표절여부도 확인해준다고 대변인은 덧붙였다:

   "논문개요에 들어간 단락 각각마다 과학자는 참조문헌 번호와 백분율(예를 들어 100%)를 보게 되는데, 이는 해당 단락이 특정 참조문헌에서 따온 것이며 그 내용이 100% 똑같음을 의미합니다. 이는 매우 중요한 정보로 해당 단락은 참조문헌 텍스트의 일부분이고 과학자가 편집할 필요가 있음을 알려줍니다. 논문 내용을 편집하고 미리 읽어보는 것은 과학자의 책임에 속합니다. 이는 그 어떤 논문초안을 써도 마찬가지입니다.

   또한 우리는 과학자가 논문초안을 받아본 시점에 해당 텍스트를 수정하도록 과학자에게 고지합니다. 매뉴스크립트 라이터가 가지는 장점은 현재 연구 중인 주제와 관련하여 흥미로운 단락을 논문개요에 포함시킬 수 있다는 점, 그리고 과학자가 논문을 작성하는 과정에서 시작점을 제공해준다는 데 있습니다".

The spokesperson added:

    Manuscript Writer’s purpose is not to write the finalized text instead of the scientist, [its] purpose is to empower the scientist. Which is why it cannot write the discussion section, which is the most creative and original part of the scientific article and greatly depends on the scientist’s style and way of thinking. Every scientist adds their own expertise and knowledge to the entire text.

회사 대변인은 또 다음의 내용을 덧붙였다:

"매뉴스크립트 라이터의 목적은 과학자를 대신하여 논문을 최종 집필하는 것이 아니며, 과학자를 돕는데 있습니다. 이러한 이유로 매뉴스크립트 라이터는 논문에서 가장 창의적이면서 본래적인 부분이라 할 수 있는 고찰(논의) 파트는 작성하지 않습니다. 해당 파트는 과학자의 사고방식 및 사고경로에 따라 크게 달라질 수 있습니다. 어느 과학자든지 간에 자신만의 고유한 전문성과 지식을 논문 내용에 담습니다."

David Moher of the Ottawa Hospital Research Institute said the program also raises a different concern:

    The product appears to be geared to maintain the publication mill – publish or perish. Many universities and research institutes are trying to move away from this model. Today, there are many avenues to make research accessible, such as Open Science Framework and a host of preprint servers. Most importantly, research needs context and I’m not sure this tool can or should be providing the necessary human involvement in generating research reports.

오타와병원연구소의 데이빗 모허는 이 소프트웨어사가 또한 다른 문제를 낳는다고 말한다:

"이 소프트웨어는 '논문 게재를 하거나 아니면 죽어라'라는 모델에 따라 논문 생성기를 지원하는데 적합하도록 설계되었습니다. 많은 대학교와 연구소가 이러한 모델을 버리려 노력하고 있습니다. 오늘날에는 연구결과를 공개할 수 있는 다양한 경로들이 있으며, 오픈 사이언스 프레임워크나 다양한 게재전논문용 서버들이 그 예입니다. 가장 중요한 점은 연구가 컨텍스트를 필요로 한다는 점이며, 저는 개인적으로 이 소프트웨어가 논문 생성과정에서 필요한 인간의 참여를 허용하는지 또는 허용하도록 해도 되는지에 대해 의구심이 듭니다."

Seife added he doesn’t know of other companies offering a similar product, but others have experimented with computer-generated prose. For instance, one company (Automated Insights) generates news stories about sports and corporate earnings, which often have specific structures, he said:

    …but I don’t think that a scientific paper is as easy to tackle.

찰스 세이페에 따르면, 이와 같은 소프트웨어를 공급하는 회사는 sciNote 이외에는 보지 못했지만 컴퓨터로 기사를 생성하려 시도해온 회사들은 있었다고 말했다. 예를 들어 Automated Insights라는 회사는 스포츠나 회사 재무발표에 관한 뉴스를 자동으로 생성해내는 소프트웨어를 개발하고 있다.

"그러나 논문의 경우 그렇게 쉽게 되지는 않을 겁니다"라고 찰스 세이페는 말했다.