AI輔助診斷的幻覺問題是源自數據忽略
在醫療診斷領域,人工智能技術的應用正日益普及,但其準確性和可靠性仍然是公眾和專業人士關注的焦點。本文深入探討了AI輔助診斷中存在的挑戰,特別是AI如何突破人類醫生診斷準確率的“天花板”,以及如何識別和利用那些可能被人類醫生忽視的隱藏特征。
前段時間讀了杰羅姆·格魯普曼的《醫生如何思考》(How Doctors Think)。這本書我覺得任何接受過重大治療的人都應該讀一下,它會徹底改變你對醫生的看法。書里提到一個讓我震驚的事實:即使是通過委員會認證的放射科醫生,他們大約有 15% 的時間會對自己的診斷意見不一致(如果沒記錯的話)。
讓我好奇的是,既然人類醫生都有這種限制,那我們怎么讓人工智能的診斷準確率比人類高?
目前的方法,比如放射科醫生的診斷,準確率可能在 95% 左右。如果我們用這些準確率只有 95% 的方法來訓練 AI,那么 AI 怎么能突破這條“天花板”?它需要一些我們還沒意識到的知識來提高到 99.999% 的準確度,但這些知識我們自己卻并不知道它們是什么。
舉個極端但形象的例子。假設有種叫紅流感的疾病,患者臉上會出現紅點,這點大家都知道,但更少人注意到的是,這種病可能會在發病前四周讓腳趾甲變紫。人類醫生可能永遠不會發現這個細節,但 AI 可能會自動發現兩者的聯系。問題是,我們如何主動找到這些“紫腳趾甲”式的隱藏特征?
更復雜的是,我們的數據本身可能會欺騙 AI。拿肺癌來說,訓練數據相對簡單。我們可以只用活檢確認過的癌癥患者的 CT 和 XR(而不是那些放射科醫生懷疑有癌癥但未確診的樣本),這樣訓練出來的 AI 特異性幾乎是 100%。敏感性如何?這很難說,但實際上人類醫生的敏感性也沒有明確的標準。
但如果是肺炎,情況就完全不同了。肺炎沒有像活檢一樣的“金標準”來驗證,診斷往往依賴 XR 上的特征和醫生的經驗判斷。訓練數據不可避免會摻雜噪聲,這種情況下,AI 的特異性一定低于 100%。
不過即便如此,AI 的一致性可能讓它在實際表現中仍然優于平均水平的醫生。即便訓練數據并不完美,AI 也有可能接近頂級放射科醫生的表現,這比普通醫生要好得多。
然而,AI 還有一個問題是它的“黑箱”屬性。我們不知道它在檢測癌癥時究竟看到了什么,忽略了什么,也無法完全理解它的決策過程。就像醫學本身更像一場概率游戲一樣,AI 也并非絕對確定的工具。
本文由人人都是產品經理作者【羅福如】,微信公眾號:【羅福如】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
畢竟ai大模型就是用大量的數據訓練出來的,總有沒訓練到位的地方。