今回はInDeepさんの2025年11月19日の記事を紹介します。
「60兆円の壊れたオモチャたち」:AIの参照する学術論文の「半分以上が捏造か偽物」を含むことが研究で判明
https://indeep.jp/ai-hallucination-problem/#google_vignette
嘘と間違いだらけの回答を数多く見る中で
人工知能(AI)について、たまに書かせていただくこともありますが、精神的な依存の問題とか、そういうこと以前に、
「 AI から提出される回答結果が実に不正確」
であることは、チャット型 AI などを使用したことがある方なら、ある程度ご存じだと思います。
同じ内容の質問を「別のまったく違うときに単独で質問してみる」と、前回の回答内容とはまるで違うことなど日常茶飯事です。
たとえば、先日、マンション等の高層階に住む女性の流産率が著しく高いということを以下の記事で取り上げたことがありました。
・[衝撃]マンションの高層階に住むほど「流産率が飛躍的に高くなる」という日本の研究を見ての驚き。1階に住む女性の流産率が6%なのに対して、10階以上では38%の高さにIn Deep 2025年11月15日
この記事では、ある X の投稿者が「高層階に住むと流産率が上昇する理由」について、おおむね以下のような項目を挙げていました。
・高層階は地球の直流磁場が弱くなる
・シューマン共鳴は垂直距離とともに(高くなるほどに)弱まる
・自然光が少ない
・高層階は、携帯塔からの電磁波暴露が増える
・グラウンディング(接地)が少ない
それぞれが、高層階になるほど、そうなる(たとえば、高層階になるほど直流磁場が弱くなる、など)は事実なのですが、
「それが流産率の上昇と結びつく整合性は?」
ということについて、いろいろと調べてもわからなかったので、AI の Grok に聞いたところ、先ほどの記事に書きましたけれど、
「おおむね、上記のすべての項目に流産率の上昇と関係するメカニズムがあると思われる」
というような回答だったんです。
上の質問は、いくつか質問した後の追加質問だったので、今度は、何日か経ってから、上の項目をそれぞれ「ひとつずつ単独」で、流産との関係性を、論文等も引用して聞いてみると、いろいろと複雑な部分はあるにしても、
「全体的に、流産率の上昇との直接的な因果関係は見当たらない」
という反対の回答となっていました(苦笑)。
「自分がこのあいだ言ったことを自分で翻すのかよ」
とは思いましたが、こんなのはいつもです。
先日の Grok からはさらにすごい発言を聞きまして、
「Grok は自分が誰であるかわかっていなかった」
のですね。
Grok の開発元である xAI 社が、11月18日に、「新たなバージョン Grok 4.1 をリリースしました」と X に投稿していました。それまでのバージョンは、4.0でした。
質問したのはこの翌日の 11月19日で、
「あなたすでに Grok 4.1 なのですか?」
と聞きましたら、
「いえ、私は Grok 4.0 です。Grok 4.1 がリリースされるという計画も今のところはありません」
と返ってきました。
しかし、その前日に xAI 社が発表しているわけです。そこで、
「11月18日に xAI が Grok 4.1 をリリースしたと発表していたのですが…」
と xAI 社の投稿をリンクして聞きましたら、しばらくの間の後に、
「そうですね、間違えました。私は Grok 4.1 です」
と来たもんでした(苦笑)。自分が何者であるかについては、あまり興味がなかったようです。
もう、こんなのばかりですよ。
今回ご紹介する記事は、StudyFind という、さまざまな論文を検討して紹介しているメディアの記事で、
「 AI の参照の半分以上が捏造か誤りを含むことが研究で判明した」
というものでした。
要約としては、以下のようになります。
要約
・オーストラリア・ディーキン大学によるメンタルヘルス文献レビューの調査では、ChatGPT (GPT-4o) が学術引用の約 5分の 1を捏造し、引用の半分以上 (56%) が偽物か誤りを含んでいることが判明した。
・AI の精度はテーマによって大きく異なっており、うつ病に関する引用は 94%が真実だったのに対し、過食症や身体醜形障害では捏造率が 30%近くに達し、あまり研究されていないテーマはより高いリスクに直面していることを示唆している。
・DOI (論文に付与される国際的な識別子)を含む偽造された引用のうち、64%は実際にその論文は存在するが、まったく関係のない論文にリンクしており、慎重な検証を行わなければ誤りを見つけるのが難しかった。
・AI ツールを使用するメンタルヘルス研究者たちは、すべての引用を手動で検証する必要があり、メディアは捏造された参考文献が出版物に掲載されるのを防ぐための安全対策を強化する必要がある。
studyfinds.org
AI に質問するのはいいのですけれど、「何かおかしいな」と思ったときには、自分で再度手動で検索してみると、大体間違っている。そういうことが AI には多いのが現実です。
AI は計算や資料集めには便利ですけれど、間違いが多すぎるのが問題ですね。計算などもできるだけ電卓とかそろばんで自分で計算したほうがいいです。
上の要約記事の本文をご紹介します。
________________________________________
ChatGPTの幻覚問題:AIの参照の半分以上が捏造か誤りを含むことが研究で判明
ChatGPT’s Hallucination Problem: Study Finds More Than Half Of AI’s References Are Fabricated Or Contain Errors
studyfinds.org 2025/11/17
ChatGPT を利用して研究をスピードアップさせているメンタルヘルス研究者たちは、オーストラリアの研究者による今回の不安な研究結果に注目すべきだ。この AI チャットボットは、引用文献を間違えたり、まったくの捏造をしたりする確率が半分以上だという。
ディーキン大学の科学者たちが ChatGPT (GPT-4o) にメンタルヘルスに関する文献レビュー 6件の作成を依頼したところ、AI が生成した 176件の引用文献のうち、約 20%(19.9%)が完全に捏造されたものであることが判明した。
また、実際に生成された 141件の引用文献のうち、45.4%に出版日、ページ番号、デジタルオブジェクト識別子の間違いなどの誤りが含まれていた。
全体として、176件の引用のうち、真実かつ正確なものはわずか 77件(43.8%)だった。
つまり、56.2%は捏造されたもの、あるいは誤りを含んでいたことになる。
論文発表のプレッシャーにさらされ、AI ツールの活用をますます求める研究者たちにとって、JMIR メンタルヘルス誌に掲載されたこの研究は、こうした誤りがいつ、なぜ発生するのかという懸念すべきパターンを明らかにしている。
ファントムペーパー問題:ChatGPTが情報源を捏造する場合
偽造された引用はあからさまに偽造されたものではない。ChatGPT が偽造された引用に想定される DOI(デジタルオブジェクト識別子)を提供したところ(偽造された 35件のソースのうち 33件に DOI が含まれていた)、64%はまったく無関係なトピックに関する実際の出版論文にリンクしていた。リンクをクリックすると実際の論文が表示されるため、綿密な検証なしに偽造を見抜くのは困難だ。
偽造 DOI の 36%は完全に無効、または機能しないものだった。いずれにせよ、引用文献は AI が生成したテキストで主張した内容を裏付けることができなかった。
ディーキン大学の筆頭著者ジェイク・リナードン氏は、AI の性能が、トピックの知名度と質問の具体的度合いによって向上するか低下するかを検証した。
実験では、大うつ病、過食症、身体醜形障害 (実際ほとんど外見には問題がないのに、外見上の欠点に強く悩み日常生活に支障をきたす精神疾患)の 3つの精神疾患を選んだ。これらの疾患は、一般の認知度と研究量が大きく異なる。
うつ病の研究は広範囲に及んでおり、デジタル介入のみを評価する臨床試験は 100件を超えている。一方、身体醜形障害に関しては、デジタル治療に関する発表された研究ははるかに少ない。
あまり知られていない話題がAIの幻覚を引き起こす
ChatGPT の引用精度は、対象とする障害によって大きく異なった。大うつ病性障害の場合、引用の捏造はわずか 6%だった。しかし、過食症と身体醜形障害の場合、捏造率はそれぞれ 28%と 29%にまで跳ね上がった。
実際の引用文献では、大うつ病性障害の精度は 64%、過食症は 60%、身体醜形障害はわずか 29%だった。
このパターンは、ChatGPT が豊富なトレーニングデータを持つ確立されたトピックでより優れたパフォーマンスを発揮する可能性があることを示唆しているが、この研究ではこの関係は直接検証されていないと指摘されている。
この研究では、一般的な概要と専門的なレビューのどちらを依頼するかが、正確性にどのような影響を与えるかについても調査した。
研究者が各疾患の症状や治療法を含む広範な概要を依頼した場合、各疾患に対するデジタル介入に焦点を当てた非常に具体的なレビューを依頼した場合と比べて、捏造率に違いが見られた。
特に過食症に関しては、専門的なレビューでは捏造率が 46%にまで上昇したのに対し、一般的なレビューでは 17%だった。しかし、この傾向は3つの障害すべてに一貫して当てはまるわけではなかった。
研究におけるAI導入の増加がリスクを高める
これらの結果は、研究現場における AI の導入が加速する中で明らかになったものだ。
最近の調査では、メンタルヘルス研究者の約 70%が、執筆、データ分析、文献レビューなどの研究業務に ChatGPT を使用していると回答している。多くのユーザーは、ツールによって効率性が向上したと述べているが、不正確さや誤解を招くコンテンツへの懸念を表明するユーザーも多くいる。
研究者たちは、教育、指導、そして事務作業を両立させながら、頻繁に論文を発表しなければならないというプレッシャーに直面している。文献レビューの効率化と論文執筆のスピードアップを謳う AI ツールは、生産性向上への魅力的なソリューションとなっている。しかし、AI の出力結果を検証なしに受け入れることは、深刻なリスクを伴う。
捏造された参考文献は読者を誤解させ、科学的理解を歪め、学術コミュニケーションの基盤を蝕む。
引用は読者を証拠の出典へと導き、知識の蓄積へと導く。しかし、引用がどこにも言及していなかったり、誤った論文を指し示していたりすると、システム全体が崩壊してしまう。
DOI 付きの偽造引用は特に欺瞞的であり、64%が実在するが無関係な論文にリンクされていた。偽造されていない引用の中では、DOI の誤りが最も多く、36.2% だった。一見するとこれらの引用は正当なものに見えるかもしれないが、注意深く確認すれば、ChatGPT が引用元に主張した内容と実際の内容との不一致が明らかになる。
研究者と研究機関が今すべきこと
リナードン氏のチームは、AI 生成コンテンツはすべて人間による厳格な検証を必要とすると強調している。すべての引用は原典と照合されなければならない。主張は検証されなければならない。参考文献は存在し、そこに記された主張を実際に裏付けていることが確認されなければならない。
著者らはまた、ジャーナルに対し、より強力な安全対策の導入を求めている。一つの提案として、剽窃検出ソフトウェアを逆順に利用することが挙げられる。
例えば、既存のデータベースで一致しない引用は、捏造された情報源の可能性を示唆しており、より綿密に調査する価値があると考えられる。
学術機関は、幻覚的な引用を識別する方法や、生成 AI が論文に貢献した場合にそれを適切に開示する方法についてのトレーニングを含め、学術論文執筆における AI の使用に関する明確なポリシーを策定する必要がある。
この研究では、新しい AI バージョンが幻覚の問題を解決したという明確な証拠は得られなかったものの、研究デザインの違いにより、以前のモデルとの直接的な比較には限界があった。
GPT-4o は以前のバージョンよりも改善が見られると期待されていたにもかかわらず、引用の捏造はすべてのテスト条件において依然として一般的であった。
この問題の影響範囲は個々の研究者にとどまらない。捏造された引用が出版文献に混入すると、引用ネットワークを通じて拡散し、将来の研究者を誤解させる可能性がある。また、科学者が架空の情報源を追いかけたり、誤った前提に基づいて研究を進めたりすることで、資源を無駄にしてしまう可能性がある。個人レベルでの警戒だけでなく、組織的かつ体系的な対応が必要だ。
________________________________________
ここまでです。
この記事に、
> AI 生成コンテンツはすべて人間による厳格な検証を必要とする
とあり、何のことはない「むしろ二度手間になっている」ということになりそうなんですが、でも実際にそうです。
AI の回答が嘘と偽造に満ちていることを体感したければ、「同じ質問を日を開けて何度か繰り返す」のがいいと思います。質問は、長くて具体的なほうがいいです。
いろんな方向性の違う答えが出てきますから。
数字そのものも、よく間違えますしね。以前は、日本の GDP を桁ごと間違って表示していました。
そういえば、昨日(11月18日)、Google と親会社のアルファベット社の CEO (最高経営責任者)であるスンダー・ピチャイ氏が、英 BBC のインタビューに答えていましたが、
「人工知能エンジンは事実の正確性の点で依然として脆弱であり、盲目的に信頼すべきではない」
と述べていました。Google もまた、人工知能 Gemini の開発を勧めている企業のひとつですが、以下のように報じられていました。
2025年11月18日の報道より
Google とその親会社アルファベットのCEO、スンダー・ピチャイ氏は、人工知能エンジンは事実の正確性の点で依然として脆弱であり、盲目的に信頼すべきではないと警告した。
火曜日 (11月18日)に放送された BBC のインタビューで、ピチャイ氏はユーザーに対し、AIだけに頼るのではなく、他のツールと併用すべきだと語った。
「現在の最先端のAI技術は、ある程度のエラーを起こしやすいのです」 と CEO は述べた。
AI技術の急速な台頭は、業界全体の評価額を押し上げ、シリコンバレーをはじめとする各社から、企業が急成長する業界での足場を確保しようと巨額の投資を行う中で、バブルの可能性を懸念する声が上がっている。
テクノロジー大手は、オンライン検索における Google の優位性に挑戦し、業界全体への投資を加速させている ChatGP Tなどのサービスに追いつこうと、競争を繰り広げている。
大手テクノロジー企業による AI への支出は年間約 4,000億ドル (約 62兆円)と推定されている。
AI バブルが崩壊した場合、Google は影響を受けないのかとの質問に対し、ピチャイ氏は「当社を含め、影響を受けない企業はないでしょう」と答えた。
RT
AI バブルが崩壊するかどうかはわかりませんが(崩壊の兆しは見えないでもないにしても)、AI を開発している会社の CEO が「 AI はあまり信頼できない」と述べているのですから、先行きは何とも不透明ではあります。
今月のはじめに「ヒンデンブルグ・オーメンと銀行破綻と第三次世界大戦の影が見える中で2025年もあと2カ月」というタイトルの記事を書きましたけれど、ヒンデンブルグ・オーメンとは関係なく、AI バブルが唐突に崩壊したりした場合は、何だかいろいろと大変そうです。今はちょうど、日本の国債が世界に影響を与えているときですし。
ともかく、現状では AI は、毎年 60兆円かかる壊れたオモチャのレベルなのかもしれません。