既存の論文を収集し整理する上でGeminiは極めて有用であり、その出力に誤りはほとんど見受けられない。一方で、既存特許の調査を行わせた場合、出力自体はもっともらしく見えるものの、特許庁のデータベースで事実確認を行うと百パーセント虚偽であることが判明した。異なるテーマで複数回試行したが、正しい情報が得られたケースは皆無であった。具体的には、特定のアイデアに基づく先行特許の抽出を条件付きで指示した際、それらしい出願番号や公開番号とともに内容の要約が提示された。それらの出願番号や公開番号をインデックスにして特許庁データーベースの明細書を取得して読んでみると、指示した内容との関連性はなく、完全に無関係な特許であった。
この意外な結果の背景には、大規模言語モデルの特性と特許文献の性質という二つの要因が絡んでいると考えられる。第一に、特許には新規性が必須であり、特定のアイデアに関する記述がその明細書以外に存在しないことが多々ある点だ。大規模言語モデルは確率的に知識を学習するため、出現頻度が極端に低い情報はノイズと見なされ、定着しにくいのである。第二に、特許特有の難解な文体である。権利範囲を広範に確保するため、意図的に抽象的かつ曖昧に記述される傾向があり、こうした文章構造はモデルにとって処理が困難である。これら二つの不適合要素が重なった結果、特許文献の読み解きにおいて、大規模言語モデルは壊滅的な精度の低さを露呈してしまったのだと言える。
読みにくい特許の文章こそ大規模言語モデルに代わりに読んでもらって楽をしたいと目論んだのだが、そうそう甘くはなかった。結局、昭和の時代と同じで明細書の束を人間が目を通して確かめるという辛い作業をするはめになった。
0 件のコメント:
コメントを投稿