先日、2022年11月30日に試験公開された OpenAI による対話型の応答システム ChatGPT の話題でやりとりをしている中で、AI によるプログラミングに話が及びました。
「プログラムが OpenAI であるかどうかを判定できるか?」と ChatGPT に聞いてみたところ、「おそらく、OpenAI の API を使用したプログラムを特定することは困難です。OpenAi の API は一般的なプログラミング言語やフレームワークを使用して・・・」といった「無難な」返事が返ってきました。質問は、「OpenAI の API によるプログラム作成システムによって生成されたプログラム」に関してというつもりでした。
そのときに、ふと、思い出したのが「論文生成器」のことでした。
5年ほど前に大学改革支援・学位授与機構で研究不正防止に関する責任者として研修を担当したときに、そのころに話題になっていたことが頭に浮かびました。この研修は教員だけでなく、機構の業務上でも重要なことですので大学評価や学位授与を担当する職員の方々も受けておられました。
添付の資料は研究活動における不正行為の防止について、研究費に関わる不正は別に扱うこととして、主として研究成果の公表に関わることを扱ったものです。この中で、「論文生成器」については pp.14-15 で扱っています。
2005 年に MIT の SCIgen という Computer Science の論文を自動生成するシステム (2002年) を使った nonsense 論文2編を国際会議に投稿してうち1編が “non-reviewed” paper として採択されたという話題が発端です。じつは、2014年に Springer と IEEE が 120本の論文を Proceedings から削除したということが話題になっていました。それを検出したのが Grenoble で開発された SCIgen Detection システムだったというのです。添付の資料には、実際、SCIgen で作成した “論文” のPDF ファイルを SCIgen Detection Site で与えてみた例をあげてあります。
このように、AI による nonsense 論文生成(とはいってももっともらしい体裁の文書)とそれの検出ツールが別に存在するというのではなく、論文の生成と検出がおなじ知識を持つようなことになれば、ChatGRT に「SCIgen で作った論文かどうかの判定する方法は?」と聞いたときの4つの答えの中の「SCIgen で生成された論文は、一般的にクオリティが低いため、他の論文と比較しても劣っていることが多いです。そのため、論文のクオリティや影響度などを評価する指標を用いて比較することができます。」ということに尽きるのでしょう。
しかし、一方で、添付資料 pp.6-7 でも扱っていますが、いわゆる”ハゲタカ出版社” (Predatory Publisher) での出版を研究業績と認めることがないような仕組みも必要でしょう。
なお、この資料は5年前の状況ですので状況が変わっていることもあると思います。