AI 產品經理,我的學習方法

AI 產品經理

AI 產品經理的職缺越來越多,搞得大家一副非跳進這波浪潮不可的樣子,彷彿不找個和 AI 相關的工作就會瞬間掉隊。但我只能說,別急著追風口,有些人已經在這波熱潮裡磨刀霍霍,準備割韭菜了。是要跟風還是被割,自己想清楚。

60 秒看懂本篇文章

AI 產品經理

「AI 產品經理」(AI Product Manager)是一個專注於人工智慧產品規劃與管理的角色。他們負責定義 AI 產品的方向,整合 AI 技術與商業需求,並確保產品能有效解決用戶的痛點。

詞源

隨著 AI 技術快速發展,許多企業開始關注如何將 AI 應用於產品中,AI 產品經理因此應運而生,作為技術與市場之間的橋樑。

可以這樣理解

想像你在規劃一款能預測使用者需求的應用程式,AI 產品經理需要與工程師合作,將機器學習模型整合進產品,同時還要確保用戶體驗流暢並符合商業目標。

AI 產品經理核心職責

  • 需求分析:了解市場與用戶需求,定義產品目標。
  • 技術整合:與 AI 團隊合作,確保技術開發時能符合預期。
  • 產品迭代:根據用戶反饋和數據分析,最佳化產品功能。

順便學英文

“An AI Product Manager bridges the gap between cutting-edge technology and user needs.”
AI 產品經理是尖端技術與用戶需求之間的橋樑。

還是得要懂一點技術

這問題你躲不掉,因為做 AI 產品,真的跟一般的 B 端或 C 端產品不一樣。平常的產品經理,聽一聽需求,做個幾年的產品經理都大概就能梳理出運作流程,抓到要解決的用戶痛點,接著去規劃、執行就好了。

但 AI 產品不是這麼簡單,你得摸清楚演算法的邊界在哪,否則你可能根本不知道這個功能到底能不能做得出來,甚至連「可能性」都無法判斷,這就是為什麼 AI 產品更需要技術深度和對邏輯的精準掌握,別指望靠模糊的方向感去亂撞。

我舉個例子,今天你收到一個需求:從圖片中來文字識別,用來做什麼什麼……,這時候你可能第一步就是去 Google 查資料、問問 ChatGPT,看看目前有哪些技術原理、哪些工具可以用,到這裡,一切都還算順利,問題不大,感覺就是個簡單的技術研究,沒什麼特別難的。

但問題是,當你跟「演算法工程師」討論時,你們雙方的理解程度差得十萬八千里,這可不是簡單的溝通不良,而是你根本不知道問題出在哪,而且你也聽不懂演算法工程師在說什麼。

假設,你已經知道在要在圖片中進行文字識別,可以依靠 CNN 負責找出圖片的特徵值,而 LSTM 可以用於處理序列數據(如文字序列)。這種技術架構理論上能夠開發出圖片中的文字識別功能,然後呢?這樣就完了嗎?絕對不是。

現在你得開始想,這些技術能解決真實問題嗎?例如:圖片中的模糊、光線過暗或過亮導致CNN 無法準確提取特徵,導致識別錯誤,又或是手寫字跡或字體過於特殊,LSTM 難以正確理解文字序列呢?

你不可能指望工程師憑空去解決這些問題,你必須深入理解工程師的卡點在哪裡,我們才能知道這個需求能不能真正被開發出來,能不能在預期的時間內完成,讓你的老闆去賣大餅的時候才不會被洗臉。

你做產品,永遠不能只停留在需求定義和痛點上,你得夠清楚,這些技術不會像你想像中那麼簡單,如果你對技術一無所知,你就會在討論過程中迷失,最後讓自己陷入做不出來的困境。

做 AI 產品,千萬別以為技術不關你的事!這項功能能不能做?怎麼做才對?做出來會不會出現預料之外的問題?如果你對這些問題都沒把握,那你不過是在帶領一群人在沙灘上堆城堡,等著被大浪淹沒。

AI 領域要先搞清楚

什麼是 AI ?這問題聽起來簡單,但其實很難用一句話回答清楚,你可以不要先想得太複雜,讓我用一個簡單的比喻來解釋。

AI 就像「食物」。

臭豆腐是食物,豆花也是食物,肉粽還是食物,食物有非常多的種類,而 AI 就像是「食物」這個總稱,底下可以細分成很多種不同的類別,每個類別有它的特點和用途,AI 不是單一的東西,而是一整個「家族」,裡面有各自的「菜系」,而每個菜系的工具和技術,解決的都是不同的問題,而以下項目,也被稱為 AI :

  • 自然語言處理(NLP):讓電腦能理解、分析和產生自然語言,就像模仿人類的語言能力一樣。
  • 電腦視覺(Computer Vision):讓電腦看得懂並解讀影像資料,像是圖片或影片中的內容。
  • 機器學習(Machine Learning):透過數據訓練,讓機器能學會模式和規則,並用來做出預測或判斷。
  • 深度學習(Deep Learning):機器學習的一種進階方法,透過多層神經網路模擬人腦的學習過程,用來處理更複雜的數據。
  • 推薦系統(Recommendation Systems):根據使用者的喜好和歷史行為,推薦適合的商品、服務或內容,例如線上購物或串流影音平台。
  • 語音辨識與合成(Speech Recognition and Synthesis):讓機器能聽懂我們說的話,還能用自然的語音回應。
  • 自動駕駛技術(Autonomous Vehicles):讓車輛能自主判斷路況並進行安全駕駛。
  • AI 醫療應用(AI in Healthcare):運用 AI 技術協助醫生進行病狀的診斷、治療方法設計或藥物的研發。
  • 機器人(Robotics):設計讓機器人能執行人類指派的各種任務,例如搬運、清潔甚至手術。
  • AI 藝術創作(AI in Art):利用 AI 創造藝術作品,像是繪畫、音樂或文章,讓科技和藝術等等。
  • 生成對抗網路(GANs):用來創造虛擬數據,例如生成逼真的圖片、影片或音樂。

好,落落長的寫那麼多,你喜歡哪一個?對,這個就是和一般傳統產品經理在做產品的時候不一樣的地方,你不可能什麼都精通,所以,在跳入 AI 產品領域時,就要先想好了,因為領域你一旦選好之後,就要開始往那個方向去研究,才能在面試的時候跟人說的頭頭是道,講出對方現在做產品是不是遇到了什麼卡點,或是用戶不喜歡現在工程師自已土炮做出來的產品,你今天會怎麼改。

我的 AI 產品,幾乎都是文字互動

從對話機器人開始

我的 AI 產品之路,最早就是從客服機器人開始。當時老闆的需求很明確:想減少人力和資源的消耗,又想打造一個對外看起來像「AI」的平台。結果,那時候的技術環境根本還是非常「土炮」,完全靠關鍵字觸發來回應用戶,但老實講在還沒有 ChatGPT 的年代,這類產品還真的解決了不少客服的痛點,我來講講當時幾種方式:

一、關鍵字觸發
像是當使用者輸入:「你家產品是垃圾」,機器人會觸發預設回應:「你才是垃圾,你全家都垃圾。」

二、特定句型或意圖匹配
例如,使用者說:「我覺得很難過。」機器人識別到「我覺得X」這個句型,回應:「為什麼你會覺得X?」

三、決策樹導引
像是:「請選擇服務項目:1. 查詢訂單 2. 更改地址」這種選項式對話,但我超討厭這種,很浪費使用者的時間。

但這些設計最大的痛點就是,需要大量手動設定,一旦沒有把所有可能的情況窮舉完,就會變成無法回應的「死路」,現在回頭看,當時這些方法已經很有突破,但和現在的 AI 對話能力相比,還是天差地遠啊。

但說實話,這些方式還是很局限,像是關鍵字無法被觸發,或是句型設計得不夠全面,就會漏掉很多變化,尤其是當用戶輸入一些不在我們預設句型範圍內的內容時,系統又會回不出來,雖然比完全依賴關鍵字觸發更進一步,但還是感覺像是在拿湯匙挖坑,效率非常低。

再做語音對話機器人

後來,在技術上稍微有了進展,我們可以利用「斷詞」技術來分析使用者的意圖,當意圖分析完成後,再根據匹配的結果從內部系統取出答案回覆給用戶即可,但是,流程超繁瑣:

  1. 語音轉文字:要處理音訊辨識,準確度還參差不齊。
  2. 文字斷詞:中文斷詞工具當時少得可憐,還要自己微調詞庫。
  3. 意圖匹配:得手動標註語料,一點一點去訓練模型,還常常誤判。
  4. 找到答案回應用戶:得靠決策樹或關鍵字回應,還要一條條設定。
  5. 被用戶罵:因為匹配不準或回答太機械,被罵爆是日常。

結果進入無限迴圈 → 被罵 → 改規則 → 再被罵 → 再修 → 還是被罵,相比之下,現在各種 AI API 直接讓產品開發「速成」,真的讓我感慨萬千啊。

聲音偵測、聲音識別

但就在這個時候,我又同時接觸到了「聲音偵測、聲音識別」的相關的產品需求,簡單來說,需要做出一個產品,能判斷此時此刻的聲音是否屬於小嬰兒的哭聲,接著再進一步分析,這個哭聲究竟屬於什麼類型(飢餓、疲憊還是疼痛等),為了完成這個產品,我們採用了以下方法來實現:

我們利用了傅立葉轉換,提取出聲音的關鍵特徵,例如頻率分布、振幅變化等,這些數據可以幫助我們捕捉到聲音的細微差異,接著,我們結合了大量的用戶聲音標註數據,構建出一個「有效的、且乾淨」的訓練數據集。

在特徵值取得的工程完成後,我們利用了一些方法,把用戶標註回來的聲音進行分類,再送進模型當中,簡單講就是幾個階段:

  1. 聲音偵測階段: 分析聲音頻率特徵,判斷是否為嬰兒哭聲。
  2. 聲音識別階段: 訓練分類器,將不同類型的哭聲(如飢餓、疲憊、疼痛等)進行分類。
  3. 持續最佳化: 結合用戶反饋與新增數據,定期重新訓練模型,提升正確率。
  4. 自動化測試:人工測試反饋品質或是等用戶在APP上反饋是一種方式,但我們選擇的是另外寫一套自動化測試正確率的機制。

但是,剛上線的時候正確率還是很低,但多虧了「很多很多」用戶的反饋,一點點的把正確率往上拉上來,最終也做到了「很好」的成果。

隨後,來到了一些高偽善、低道德的台灣公司,讓外界看來有在試著和一些學校教授交流,讓股東以為自家也有在做 AI 相關的研究,但實際上,這些研究對用戶、對內部研發單位,一點貢獻也沒有也沒有任何進展,這促使我開始自己探索 AI 領域,並選擇了專注於文字互動的相關技術,因為文字始終是我更熱愛的方向。

開始利用 Llama 3 來做擬人化

這個手上快收尾的產品,受了 OpenAI 的啟發,直接選用 Meta 的 Llama 3 來提升用戶體驗。Llama 3 在語意理解這塊確實不錯,還能根據用戶需求,生成幾乎像真人講出來的內容,讓個性化服務更到位。

像我希望打造的「擬人化」平台,就是靠 Llama 3 的多輪對話能力,讓對話更自然、更順暢,盡量別讓用戶一開口就發現是機器人。

但最後還是交給了一個沒碰過對話機器人的團隊來接手,接下來的發展會變成什麼樣子……說真的,我也只能等著看了。

我的 AI 產品經理學習路線

我自己的 AI 學習歷程,老實說,真的很感謝當初在學校教授教的 Transformer 概念,這些基礎讓我在實際應用中能快速上手,不管是看懂未來趨勢,還是解決工作中遇到的各種問題,都幫了大忙。

1.搞懂為什麼電腦能讀懂文字?

電腦無法直接理解文字,必須將文字轉換成數字,才能進行處理和運算,而在執行這件事之前,句子必須先進行「斷詞」,單單是「斷詞」這件事情,在很早很早以前就把我們搞到瘋掉,例如下面兩句意思完全不同:

  • 全「台大」停電
  • 「全台」大停電

而一個句子「斷詞」完成之後,就需要將詞轉換為詞向量 (Word Embedding),詞向量的目的是將詞轉換為數字形式,方便模型進行計算和理解詞語之間的關係,這是現代自然語言處理 (NLP) 的重要步驟之一。

2.為什麼要用類神經網路來模仿人類?

接下來,我著重在搞懂 AI 的運作邏輯,從模擬人類神經元結構開始。我花時間了解感知器(Perceptron)和早期的神經網路模型,還有它們的局限性。但我更關注的是「背後的技術邏輯」,例如,神經網路是怎麼透過調整權重來模仿人類大腦的連結,以及這些基礎技術如何真正在「應用」層面可以發揮作用。

3.機器學習,讓它做中學,怎麼做的?

機器學習就像小朋友學東西一樣,重點是讓電腦能從數據中找到規律,然後運用到新的情況中,例如,傳統的機器學習中,我們需要人工提取圖片的特徵,像是顏色、形狀或材質,然後把這些特徵交給模型進行訓練。

但如果這些特徵是由工讀生來標註,結果的準確度可能會比較有限,若由專業人士來標註,模型的表現自然會更精確,因為數據的品質直接決定了模型的水準。

4.深度學習讓電腦自我學習,但怎麼自動的?

深度學習(Deep Learning)和機器學習(Machine Learning)的差異是一件很重要的事。簡單來說,機器學習像是教孩子學走路,先給幾個基本的規則讓他學起來,但深度學習比較像是給了一個「自我學習的工具」,讓它從大量的經驗中自己摸索怎麼走得更穩、更快。

而這個「自我學習的工具」的核心,就是反向傳播(Backpropagation),這是一個用來「修正錯誤」的機制。每次模型做出預測後,我們都會把結果跟實際答案比較,產生一個誤差,接著用反向傳播的算法,讓模型自己調整內部的權重(就像修正自己的判斷方式)。

這過程就像訓練一個射箭手,每次沒射中靶,就會稍微改變手臂的角度或拉弓的力度去重新調整。

5.大型語言模型,為什麼現在才紅?

LLM(大型語言模型)的原理,可以想像成一個讀過超多書的 AI 它透過 Transformer 架構來學習語言,重點在「注意力機制」(Attention)。這機制有點像聊天時專注聽你說話,會根據前後文找出重要訊息,來理解你真正的意思。

模型在訓練時會不斷「計算」下一個要出現的詞,比如看到「今天天氣」,模型會想:「後面是『很好』,還是『不好』呢?」經過數百億次這種訓練,模型就能生成邏輯通順的句子。

訓練 LLM 非常燒硬體和電力,因此早期只有科技巨頭能負擔得起,直到 GPU 和基礎設施成本降低,再加上 OpenAI 用 ChatGPT 成功讓大眾看到 LLM 的強大,這才引爆了熱潮。

我也是在 ChatGPT 出現後,才更深入研究這些模型背後的技術。Transformer 架構中的「注意力機制」,是讓 LLM 能理解對話上下文的關鍵。它會不斷「回顧」之前的對話內容,來保持語意連貫,像你問問題時,它能精準記住前面的提問,再給出相關回應。

不過這機制也有極限,對話太長時,模型就會「忘記」開頭的內容。所以,如果哪天 ChatGPT 開始瞎回答,八成是記憶容量滿了。

八成是記憶容量滿了?是什麼意思?LLM 在一次對話中只能記住一定長度的文字,這段記憶的長度取決於模型的設計和訓練時設定的參數,例如 GPT-4 的記憶上下文窗口約為 8,000 到 32,000 個 token(一個 Token 大約等於4個英文字母)。

當對話過長、超過這個限制時,之前的內容就會被丟棄或忽略,導致模型在回答時「失憶」,也就是無法再考慮到對話最開始的上下文。

所以當 ChatGPT 開始答非所問或變得不連貫時,很可能就是因為對話長度超過了它的上下文容量,模型只能依據最近的對話片段來回應,無法再回顧一開始的內容。這時候,你可以試著簡化對話或重新提問來幫助模型找回重點。

簡單講,LLM 就是金魚腦啦。

6.LLM 和 RAG的結合超好用,公司搶著建立本地的

因為 LLM 是基於「過去的資料」進行訓練,且主要用於「生成內容」,而 RAG 可以即時檢索當前的資料來輔助生成內容,這使得這樣的組合在即時性和準確性的場景中特別有價值,且我覺得是一個值得長期研究的有趣課題。

我科普一下,想像你要寫一篇文章,內容是「台北有什麼好吃的牛肉麵?」:

1. 檢索外部資料

  • 想像你在回答問題時不記得答案,所以你去查字典、Google 或看書,找到了有關的內容。
  • 在 RAG 中,這些查到的資料是由檢索系統提供的,叫做「檢索片段」。
    • 例子:你問 AI:「台北有什麼好吃的牛肉麵?」
      • 檢索系統找到以下資料:
        1. 「永康街牛肉麵湯頭清爽。」
        2. 「林東芳牛肉麵以辣油出名。」

2. 把檢索結果交給 LLM(生成式模型)

  • 這時候,檢索到的內容(像前文檢索系統找到的的 1 和 2)會送進 LLM(像 ChatGPT 這樣的模型),當作它回答問題的輔助資訊。
  • LLM 的任務是:
    • 理解你的問題(「台北牛肉麵?」)。
    • 根據檢索到的資訊,重新組織答案,讓它變成更清楚、更有條理的句子。

3. 生成結合檢索內容的回答

  • LLM 把檢索到的資訊「重新包裝」成一段自然語言回應,像這樣:
    • 「台北有很多好吃的牛肉麵,例如永康街牛肉麵湯頭清爽,林東芳牛肉麵則以辣油著名。」

為什麼 LLM 和檢索資料要合作?

  • LLM 的優點:它會「說話」,能生成自然語言。
  • 檢索資料的優點:它有即時的、最新的資訊。

但是:

  • 如果 LLM 不知道最新的資料,它可能會「瞎編」,這也就是所謂的幻覺(hallucination)或是稀有的 token 導致的 hallucination。
  • 如果只有檢索資料,沒有 LLM,回答可能會生硬、缺乏條理。

兩者結合,既有準確的資料,又能給出流暢的回答!

7.這些影片、圖片,怎麼生成式的?

生成式 AI (Generative AI) 也是 AI 的一個子領域,它就是透過模型「生成新的內容」,例如文字、圖片、音樂、或影片,而不是僅僅對數據進行分析或分類。

而生成式 AI 是利用了擴散模型,這是生成式 AI 的核心技術,用於生成影片、圖片或其他形式的內容,它模仿了物理中「擴散」的過程,可以參考我這篇Sora 解鎖人類的文字力量,搞懂生成式 AI文章,有比較詳細的解說。

8.未來就是AI 代理人的戰爭了嗎?

最近,我將注意力轉向了AI 代理 (AI Agents) ,這是一種能「自主執行任務」的 AI 系統,它具備「感知」環境、進行決策和執行行動的能力,這些代理我的能力,能夠根據目標或環境變化動態調整策略,並以更高的效率完成複雜任務。

簡單講,就是 AI 代理能在沒有用戶介入的情況下,完成更複雜的多個步驟任務。

給想轉職為 AI 產品經理的建議

其實這些是我自己給我自己的建議,各位參考就好,因為每個人的個性不同,要找的 AI 產品領域也不同。

學習 AI 基礎知識

熟悉機器學習(Machine Learning)、深度學習(Deep Learning)、自然語言處理(NLP)、計算機視覺(Computer Vision)等領域的基本原理和運用場景。可以從以下入門:

  • Coursera、Udemy 上的入門課程。
  • 學習 AI 相關書籍。
  • 看論文。

不要逼自己要會寫程式

不要強迫自己一定要學會寫程式。現在很多與 AI 相關的需求,常常會用到像 TensorFlow、PyTorch、Scikit learn 這類的 Python 框架,你只需要了解的是這些工具的用途,以及為什麼要用它們,而不是執著於學會每一行程式碼的細節。畢竟,別忘了你的身份角色,清楚自己該專注在哪些事情上才是最重要的。

學習 AI 的限制、邊界

AI 並非萬能,你需要了解演算法的邊界,例如,模型的訓練數據不足時會出現偏差,或者處理某些任務時可能需要結合多種技術。

不要呆呆的一直逼問工程師,因為真的做不到。

要瞭解工程師的工作內容

你過去可能都是和前端、後端、全端或其他種類的工程師合作,但你接下來會是與演算法工程師、數據科學家,和原始的開發團隊協作合作時,你需要能夠理解他們的語言,並能清楚地表達產品需求和邏輯。

持續追蹤 AI 業界動態

了解當前流行的大型語言模型(如 GPT-4、Llama),並掌握其 API 的使用,例如,學習如何結合 Generative AI 與 RAG 技術運用到真實場景。

找一個具體的 AI 子領域

AI 涉及範圍廣,選擇你感興趣的細分領域(例如 NLP、語音處理、推薦系統等),進行深入研究。這樣不僅能提高面試成功率,也更容易在實際工作中表現出色,也做的更有興趣。

參加相關社群與活動

參與產品經理與 AI 技術相關的社群與同行討論和分享經驗等等,只是我目前看到的社群都在割韭菜,我實在不敢推薦。

我個人推薦的 AI 學習資源

常見問題

AI 產品經理需要會寫程式嗎?如果不會,我還能進入這個領域嗎?

我也不會寫啊,我以前做的AI 產品還給中國最大公司來串接呢!把產品規劃才是你產品經理的責任。

我應該先學習哪種 AI 技術,例如 NLP、Computer Vision,還是 Machine Learning?

你應該先找到你的興趣,從興趣開始延伸下去。

如何與演算法工程師有效溝通,讓他們理解我的產品需求?

瞭解他的工作內容、瞭解他的背景、瞭解你要請他做的產品,從頭開始學。

如果我聽不懂工程師的技術細節,應該怎麼辦?

問 ChatGPT、讀書、問人。

如何將 AI 技術與商業需求結合,讓產品既有技術深度又符合市場需求?

這個部分我覺得要較好的產品思維,再反推這個產品所需要的技術現行開發能力是否可行。

如何評估某個 AI 功能是否能在預算和時間內實現?

首先要明確需求,了解這個功能要解決的問題和預期效果,然後評估技術可行性,看是否有現成的工具或技術可以達成。同時需要檢查數據是否足夠、是否需要標註,以及數據隱私問題。

接下來,確認團隊是否有合適的人才和硬體資源,並詳細估算開發成本和所需時間,還要考慮潛在的風險,如果功能過於複雜或超出預算,可以考慮縮小範圍或使用替代方案。

最後,要記得 AI 產品通常需要持續的維護和更新,因此要評估長期運行的成本與需求,才能做出合理的決策

有哪些常見的 AI 技術限制,可能會影響我的產品開發?

通常限制你的不會是技術,而是人,像是賣餅的老闆、出餿主意的行銷、亂答應客戶的業務等等。

「AI 產品經理」必讀的相關文章

  1. AI 對話時,他在想什麼呢?看懂系統提示的規則
  2. Sora 解鎖人類的文字力量,搞懂生成式 AI
  3. 連你阿嬤都會用的本地 LLM 模型|我只是想玩不同的LLM 模型
  4. Prompt Engineering不學,就無法發揮GPT的實力

返回頂端