交大校友創業文章 轉載文章http://ideas.org.tw/magazine/article.php?AKEY=1186

艾微從中文語意分析 創造商業價值

文字: 文/徐鳳美    影像: 攝影/李玉清

 

0.02秒,是當你點閱一篇九份遊玩的部落格文章時,網站同時推薦給你類似文章的所需時間,並不知不覺點了很多篇來看,甚至連旁邊的廣告都打中你的心,這很有可能是出現在「艾微科技-inside」的部落格網站中。


艾微(AI-Web)是從交大校園中新創的公司,專研語意分析技術產品,成立兩年多,去年損益平衡。它用語意分析技術產品來分析部落格文章,並進行高關聯性文章的推薦,因為精準度高及回應快速,被客戶中華電信及天空傳媒拱出來,做網路廣告聯播生意,將網頁閱讀率轉換成更高的網路廣告點閱效率,並讓原有廣告點閱率提高至少3倍。


廣告點閱率增3倍


在短時間內就開發出領先市場的技術產品,搶下不少客戶,艾微科技這顆新星如何持續綻放耀眼光芒,本期《創新發現誌(ideas)》邀請艾微科技核心團隊和利資本資深合夥人周大任對談,也請創投專家指點迷津。以下為對談內容的精要再現。


《創新發現誌(ideas)》(以下簡稱「問」):請艾微介紹公司及商業模式。


艾微科技創辦人陳宏偉(以下簡稱「陳」):艾微原本是做資料探勘技術,應用在企業商業領域上,都是需要核心資料才能發揮價值,但是企業不太可能給較為機密的資料,我們後來發現,這項技術可運用到網路上的開放性資料,來創造商業價值。因此,我們再結合語意分析技術,分析部落格文章及新聞,提供文章推薦、分類甚至網路廣告精準行銷等功能。透過關聯度高的文章推薦,不僅延長網友停留在該網站上的時間,也提升網路廣告的點閱機會,尤其像中華電信這種擁有部落格、新聞、入口網站等各種頻道的集團式網站而言,停留的效益更大。我們是採授權產品給各平台使用,並不賣斷。


和利資本資深合夥人周大任(以下簡稱「周」):可否再深入談你們的語意分析技術?
陳:當一篇關於九份的旅遊文章出現時,文中會包含了九份、老街景點等詞彙,這就是文章背後的語意,語意分析技術先找出這些語意詞彙,再限制運算範圍,比起另一種「以文找文」的技術,是以整篇文章的詞彙進行關聯度分析,我們的運算範圍小得多,也能夠更快速,精準度又更高;以文找文平均需要花2秒分析時間,我們只要0.02秒就能夠找出所有高關聯度文章。以同時在線人數50人而言,以文找文技術讓使用者花1分多鐘等待,但網友通常都沒有這樣的耐心。


分析語意  累積龐大詞庫

周:所以你們自己做目錄索引?
陳:對,我們用資料探勘的方式做目錄索引,包括一個中文詞庫,用AI的方式去運作,不需人工介入。由於很多部落格已跟我們合作,因此我們累積很多中文詞彙;如H1N1這個新名詞1、2天內,就納入我們詞庫。


周:它是怎麼去學習的?是去找出現最多的詞彙,還是…
陳:以文找文技術來說,會去看一篇文章有多少詞,算出每個詞的相似度,在這個前提下,一篇文章裡面的詞都是重要的,舉例而言,「王建民」跟「洋基」在一起,以及「王建民」跟「筆記型電腦」一起時(代言廣告),文章的意義就不一樣。若把這些詞全部放下去計算相似度,就不太合理,而且運算量也太龐大了,更重要的是,運算結果也不精準。因此,我們一開始是先去分析一篇文章的語意,判斷文章主旨是往哪個面向去表達,再進行分析推薦。


周:我聽過兩種語意分析技術:隱藏式馬可夫模式及大陸中國科學研究院的漢語詞法分析系統,你們也了解嗎?
陳:中科院的作法跟我們的中研院很像,中研院會進行人工維護一個詞庫,不過這種技術在市場上的廣泛運用,就是自然中文輸入法。其實他們聚焦探討中文世界中的詞彙,而我們則是在有限的詞庫下改進演算法,發揮詞庫最大的效益。


周:長期而言,雖然他們是下苦工,會不會他們做得其實更有效率,當他們的詞庫累積龐大時,能做的事情更多?
陳:以目前而言,我們的詞庫還是比他們龐大。因為他們太聚焦於新聞,民生用詞就比較弱。以「露得清」這3個字來說,5、6個月前我看時,他們的詞庫都還沒放進去,但是在網路上已經是很流行的詞了。


周:公司研發人員有多少?花多少時間開發出這套語意分析技術產品?
陳:研發人員共6人,其中核心技術是3個人。核心技術是指語意分析、資料探勘及高速運算部分。因為我們每日查詢筆數有上千萬筆,因此提高查詢效率很重要。我們是在公司成立1年半後開發這套技術產品,然而在校時我們就已針對語意分析技術在做研究了。


周:提供這樣的服務,需要投資多少運算設備呢?
陳:很多人以為做這麼大量的運算服務,硬體設備投資一定不小;事實上,以網路廣告推播這部分,只要一台組裝的伺服器和電腦,加上雲端的服務,就可支持目前市場上主要部落格客戶的使用。


問:除了艾微的技術之外,周先生認為艾微如何創造更多商業價值?
周:在回應時間0.02秒上,最令人印象深刻!我看過以文找文或者是搜尋引擎技術,都沒這麼快速。此外,以一台伺服器就能支援網路廣告需求,這也滿讓人驚訝的,只是我懷疑,當同時在線人數超過一定數量時,艾微需要再投資多少設備去做。
艾微的語意分析產品一開始就鎖定在網路部落格市場,日後大致發展的領域大概也不偏離此,這對新創公司無可厚非,然而這種市場競爭者會很多,建議艾微站穩後開始納入一些利基市場,例如學術或法務等比較專業的領域,比較不會因為競爭者激增而稀釋獲利。


陳:是的,利基市場是另一種保障。但是學術界也會有市場嗎?
周:這不見得。你知道現在電子書最大的客戶是誰?是圖書館。因為電子書可以讓他們少蓋一些書庫設備來存放書本,並省下龐大的人力成本。


另外,你們考慮過分析使用者背景資料提供給客戶參考嗎?雖然礙於個資法不能提供,但是你們可以間接從使用者上網位址開始,追蹤所瀏覽的內容,從而判斷他的年齡、性別、興趣等,建立使用者背景資料庫,這就不違法了,而且對業主而言,是很具參考價值的。


陳:這倒是沒想過。的確很值得一試!
艾微科技業務經理賴奕銘(以下簡稱「賴」):我們最近在拓展的是網路廣告聯播業務,而且透過點擊率分析,我們發現產品的興趣族群跟我們原先所想像的分類並不一樣!
以「除臭襪」而言,點閱率最高的是「家庭食譜類」,這裡多是家庭主婦族群;而排名第四高的,則是「宗教類」,這很讓大家驚訝,推測可能因為一貫道及佛教共修時需要脫鞋而想避免腳臭的尷尬;至於業主原先以為的「運動類」,卻無很高的點閱率。


問:艾微是否考慮過做簡體字市場呢?
周:你們的繁體字市場已經做得很好了,但對(潛在)投資人而言,如果不能做到擴大市場規模,投資價值仍有限。然而打進大陸入口網站市場不易,因為他們的流量很大,姿態也高,尤其跟研發部門打交道更難,他們不會認為你的技術多了不起,只是他們沒時間做。


陳:我們不知如何敲開大陸市場大門,到現在還沒做。
周:可以透過你們的大客戶中華電信、台灣的入口網站業者,或者像奧美廣告這種在大陸有分公司的廣告業者幫你們引薦。至於重建一個簡體字分析引擎這個任務,建議趁早著手。


再一陣子,你們要考慮找一個CEO來思考未來方向。我相信你們的財務體質還很健全,所以財務不是現階段要衝刺的,經營策略方針的擬定才最重要。可以先以顧問的方式接觸適合人選,從入口網站挖角可能最適合,他可為你們減少冤枉路。

arrow
arrow
    全站熱搜

    honeytai123 發表在 痞客邦 留言(0) 人氣()