統計機器學習中的特徵選擇方法綜述

  在機器學習的嗡嗡聲下,許多人加入了從事機器這個行業,因此越來越多人學習機器,那麼機器學習的方法有哪些?下面是小編分享給大家的機器學習的方法的資料,希望大家喜歡!

  機器學習的方法一

  從心開始

  在先前的Thinking Big Data? Think Bold Questions Instead一文中我指出,在大資料時代,我鼓勵人們從一個問題開始學習而不是從一個工具開始。這個道理同樣適用於AI/機器學習領域。在我們如今生活的年代,讓人興奮的是我們可以提出真正無所畏懼的問題。因為我們已經不再受到硬體或軟體的限制。

  首先花時間徹底弄清楚你正在解決的問題的型別。使用“五個為什麼”***問為什麼?五次***的方法來追朔問題的根源。根據我的經驗,我發現了一些常規形式:

  Top Line***收入***:哪一個是我們最好/最有利可圖的產品、客戶、期望等,採取什麼行動可以獲取最大利益?這是一個擴充套件的經典市場細分和商業智慧報告。使用大資料和人工智慧領域的新工具,我們可以分析海量的資料和組,或者做出高精度和細微差別的預測。

  Bottom Line ***成本代價***:在我們的操作過程中,效率低下的地方有哪些,如何優化才能降低成本?這也是一個擴充套件的傳統報表技術。

  消費者經驗:促使消費者最佳/積極消費經歷的因素是什麼,要怎麼做才可以提升它?除了上面提到的方法和工具,推薦引擎***類似於Amazon和Netflix***在這個領域裡也扮演了重要的角色。面向客服服務的自動助手也成為可能。

  知識發現/決策支援:我們從已知的資訊中能夠挖掘到什麼新知識,並且應該如何使用它來做出決策呢?這是我個人最喜歡的一個方向,我職業生涯的大部分時間都在做這個。決策支援工具已經出現了一段時間,但技術的進步持續地提高了計算機的處理分析能力,讓我們從處理分析能力的限制裡解脫出來,不用擔心處理能力的不足,從而專注發現。

  智慧機器/軟體:其他領域都集中於使企業或消費者變得更好,然而這一領域專注於創造智慧機器來處理世界上特定的問題:從導航真實世界到資料的實時分析和反應。機會仍然存在,即使你不是一個核心軟體開發公司。如果你在這個領域有商業理念,你可以永遠與那些能給你的生活帶來願景的人合作。

  如果這些問題帶領你去尋找一個非技術性解決方案,那麼請不要驚訝。有時候,最好的解決方案並不是實現一個軟體,而是從人以及處理方法上做改進。

  比如,我曾被帶去幫助一個出版社組織去評估新的分析工具。在挖掘詳細資訊之後,我發現他們面臨的真實問題是“創新者的窘境”。任何一種新技術都可能腐蝕他們已存的商業模式,除非他們先解決自己市場上的混亂。我對此給出了一些適度的技術改進方法,但我還是鼓勵他們把大部分精力集中在解決商業模式的問題上。

  你可能也會發現,很多傳統的商業智慧工具都是有必要的,或許你有一個不需要人工智慧的大資料規模問題。請牢牢記住,成功往往是問正確的問題,而不是挑選閃亮的新玩具。

  機器學習的方法二

  識別機器學習類別

  儘管供應商和演算法多的讓人有些眼花繚亂,但事實上機器學習方法只有那麼幾類。首先,從你需要解決的問題開始識別方法,然後你就可以縮小供應商和支援此方法的最佳工具。這看起來可能很明顯,但我都不知道有多少次看到一些公司在理解需求或方法之前就開始使用特定的工具了***Hadoop,還有其它的嗎?***。

  最常見的方法如下:

  Feature Extraction***特徵提取***:這種方法需要一個類似文字、影象、視訊、音訊的原始輸入,然後提取可以在隨後的機器學習演算法中使用的相關“特徵”和模式。這與其自身並不是息息相關,但卻是一個重要的預處理步驟。

  Clustering***聚類***:此方法也稱作"unsupervised learning***無監督學習***",它基於相似性原理將原始資料或特徵和組物件組放到一起。唯一真正的要求就是物件需要一種比較相似性的手段,例如,比較它們相似或不同的方法。

  Classification***分類***:此方法也稱作“supervised learning***監督學習***”,分類需要原始資料或特徵,以及一個使用者定義的類別,然後開發規則將這些物件歸入到這些類別中。這種規則接著可以用來預測新的、沒有類別的物件。這種技術也有助於標記內容,例如,圖片、視訊和產品。

  Prediction***預測***:此方法根據已知的資料來確定關係,並制定規則,然後預測未來的事件,例如,一個客戶的離開***“客戶流失”***或一個人會不會買這件商品***“推薦引擎”***。預測的過程真的很有趣,做預測的一個最佳理由就是:誰不想預測未來呢?

  該列表看似很短,然而很多公司在實踐中都曾在其中絆倒過,簡而言之就這幾個。即使更先進的解決方案,如谷歌的無人駕駛汽車使用的也是這些基本的構建模組:特徵提取***將其三維空間降解為一系列機器可讀的物件***,分類***這些物體看起來像一輛車,那些物件看起來像行人***,預測***如果是紅燈,我前面的車將會停止***。

  這些模組的選擇***無論是單獨使用還是組合***,取決於你需要解決的問題,並且你可以以你的方式更好地完成一個成功的機器學習專案。

  機器學習的方法三

  選擇適合你風險承受能力的技術

  一旦你瞭解了你需要的機器學習的演算法型別,最後一步就是評估和選擇符合你特定需求的技術。你可能會傾向於使用最富有特色的方法,但這可能會導致組織風險承受能力的不匹配。我看到一些大的、成熟的組織從一些靈活的小公司中選擇軟體,類似於小公司和IBM這樣的大公司。每一次,都在合同的墨水還沒幹涸之前就出現了問題。

  所以,你最好和一個與你的整體策略、理念和風險承受能力在一個等級的供應商合作。領域的變化非常快,一個純技術的決定是相當短見的。你要有一個能以類似的速度成長和適應的夥伴,這樣就不存在任何期望的不匹配。除了技術,還需根據以下幾個方面進行評估:

  機器學習的方法四

  公司成長戰略

  領導團隊

  諮詢方式***傳統的瀑布型,敏捷開發型等***

  技術風格***專有的重型研發,整合等***

  找到那些與你的企業精神相匹配的公司,如此你才會為你踏上這個旅程找到一個好的合作伙伴。你也可以使用這種評估,故意地移除這些公司。如果你是一個需要更多創新的大型公司,你可以選擇一個更富有活力和進取心的供應商,僅僅只是為了將新的思想和精力注入到一個不景氣的企業。只是要確保時刻睜開你的雙眼,關注著發生的一切。