Category Archives: Research

OpenAI の ChatGPT と「論文生成器」による研究論文不正について

先日、2022年11月30日に試験公開された OpenAI による対話型の応答システム ChatGPT の話題でやりとりをしている中で、AI によるプログラミングに話が及びました。

「プログラムが OpenAI であるかどうかを判定できるか?」と ChatGPT に聞いてみたところ、「おそらく、OpenAI の API を使用したプログラムを特定することは困難です。OpenAi の API は一般的なプログラミング言語やフレームワークを使用して・・・」といった「無難な」返事が返ってきました。質問は、「OpenAI の API によるプログラム作成システムによって生成されたプログラム」に関してというつもりでした。

そのときに、ふと、思い出したのが「論文生成器」のことでした。

5年ほど前に大学改革支援・学位授与機構で研究不正防止に関する責任者として研修を担当したときに、そのころに話題になっていたことが頭に浮かびました。この研修は教員だけでなく、機構の業務上でも重要なことですので大学評価や学位授与を担当する職員の方々も受けておられました。

添付の資料は研究活動における不正行為の防止について、研究費に関わる不正は別に扱うこととして、主として研究成果の公表に関わることを扱ったものです。この中で、「論文生成器」については pp.14-15 で扱っています。

2005 年に MIT の SCIgen という Computer Science の論文を自動生成するシステム (2002年) を使った nonsense 論文2編を国際会議に投稿してうち1編が “non-reviewed” paper として採択されたという話題が発端です。じつは、2014年に Springer と IEEE が 120本の論文を Proceedings から削除したということが話題になっていました。それを検出したのが Grenoble で開発された SCIgen Detection システムだったというのです。添付の資料には、実際、SCIgen で作成した “論文” のPDF ファイルを SCIgen Detection Site で与えてみた例をあげてあります。

このように、AI による nonsense 論文生成(とはいってももっともらしい体裁の文書)とそれの検出ツールが別に存在するというのではなく、論文の生成と検出がおなじ知識を持つようなことになれば、ChatGRT に「SCIgen で作った論文かどうかの判定する方法は?」と聞いたときの4つの答えの中の「SCIgen で生成された論文は、一般的にクオリティが低いため、他の論文と比較しても劣っていることが多いです。そのため、論文のクオリティや影響度などを評価する指標を用いて比較することができます。」ということに尽きるのでしょう。

しかし、一方で、添付資料 pp.6-7 でも扱っていますが、いわゆる”ハゲタカ出版社” (Predatory Publisher) での出版を研究業績と認めることがないような仕組みも必要でしょう。

なお、この資料は5年前の状況ですので状況が変わっていることもあると思います。

研究活動における不正行為の防止について

 

Implementation of Conflict-free Collaborative Data Sharing

CCDSAgent is an agent for Conflict-free Collaborative Data Sharing for distributed systems based on our published papers:

Through the implementation of the CCDSAgent, we made several findings in details which are not described in the paper, e.g., Operational Transformation and Concurrent synchronization.

Our implementation reveals the versatility of the CCDS approach:

  • The CCDSAgent does not use any locks for shared data nor has any chances of blocking in message passing.
  • Separation of peer’s application from synchronization of shared data would demonstrate our proposal of “Sharing-Oblivious” design for distributed systems.

 

CCDSAgent for Conflict-free Collaborative Data Sharing

Technical Report – Operation-based Collaborative Data Sharing for Distributed Systems, Masato Takeichi. November 26, 2021.

Abstract:

Collaborative Data Sharing raises a fundamental issue in distributed systems. Several strategies have been proposed for making shared data consistent between peers in such a way that the shared part of their local data become equal.

Most of the proposals rely on state-based semantics. But this suffers from a lack of descriptiveness in conflict-free features of synchronization required for flexible network connections. Recent applications tend to use non-permanent connection with mobile devices or allow temporary breakaways from the system, for example.

To settle ourselves in conflict-free data sharing, we propose a novel scheme Operation-based Collaborative Data Sharing that enables conflict-free strategies for synchronization based on operational semantics.

TR-OCDS (Click to download)

Also available at https://arxiv.org/abs/2112.00288

Technical Report – Conflict-free Collaborative Set Sharing for Distributed Systems, Masato Takeichi. November 19, 2021.

Abstract:

Collaborative Data Sharing is widely noticed to be essential for distributed systems.
Among several proposed strategies, conflict-free techniques are considered useful for serverless concurrent systems.

They aim at making shared data be consistent between peers in such a way that their local data do not become equal at once, but they arrive at the same data eventually when no updates occur in any peer.

Although the  Conflict-free Replicated Data Type (CRDT) approach could be used in data sharing as well, it puts restrictions on available operations so as to concurrent updates never cause conflicts. Even for sets, popular operations such as insertion and deletion
are not freely used, for example.

We propose a novel scheme for  Conflict-free Collaborative Set Sharing that allows both insertion and deletion operations. It will provide a new synchronization method for data sharing and gives a fresh insight into designing conflict-free replicated data types. We might consider that this becomes a substitute for CRDTs.

TR-CCSS (Click to download)

Also available at https://arxiv.org/abs/2112.00286

Technical Report – BCDS Agent: An Architecture for Bidirectional Collaborative Data Sharing, Masato Takeichi. March 31, 2020.

Abstract.

We have been discussing data sharing among autonomous independent sites in the distributed system to meet various demands for application. Among them the need for collaborative data sharing has attracted attention in many fields where not only the owner of the original data but the receiver can update that shared data. The BCDS Agent is a new building unit for configuring such systems with scalability and versatility. It rests on the novel feature of bidirectional programming which encourages us to take the compositional approach in developing the distributed system with data consistency.
We present the key issue on designing the BCDS Agent with some examples.

TR-BCDS Agent

Published version (August 2021) available at

https://www.jstage.jst.go.jp/article/jssst/38/3/38_3_41/_pdf