企業大資料探勘為員工構建職場知識圖譜

　　微軟亞洲研究院有一位大名鼎鼎的個人助理，暱稱EDI音同Eddie，從幫助員工預訂會議室到更新梳理公司內部“八卦”資訊，隨叫隨到全年無休;不僅如此，EDI對員工們的喜好也堪稱瞭如指掌，知道你最喜歡什麼時候、最常在哪裡開會，也知道你最關心哪些新聞。下面是有企業大資料探勘為員工構建職場知識圖譜，歡迎參閱。

　　企業大資料探勘為員工構建職場知識圖譜

　　職場知識圖譜

　　EDI為何如此聰明?一方面，EDI擁有精準的自然語言理解和對話能力;另一方面，利用深度學習和社交網路融合等前沿技術，EDI為每個使用者構建了一張關於他們的職場知識圖譜。本文首先介紹如何構建使用者的職場資訊圖譜，這是EDI個人助理的“大腦”，後續文章將介紹如何賦予EDI自然語言理解和對話能力，讓它能為主人愉快地工作，歡迎有興趣的讀者繼續關注。

　　“The more it has, the more it’s him.” 在英劇《黑鏡》第二季第一集當中，女主人公通過和機器人對話的方式懷念自己逝去的男友。藉助大資料的力量，這個機器人能夠從主人公男友的社交網路甚至私人郵件中抽取和整合他的個人資訊、關係網路和語言習慣，構建屬於這位男生的個性化知識圖譜，從而實現對他惟妙惟肖的模仿——如上圖臺詞所說，系統抓取到的資訊越多，機器人模仿的語言行為就越和他本人相似。

　　若說《黑鏡》裡的機器人是基於關於使用者的全方位知識圖譜，那麼，本文要介紹的EDI 則專注於使用者的一個側面，即使用者的職場知識圖譜。

　　在一個機構裡，我們把員工的職場知識圖譜叫做EDI GraphEnterprise Deep Intelligence Graph，圖譜內的資訊包括員工的部門、技能、專案、文件、時間、會議室和辦公室等，其中每條資訊又有各自豐富的屬性，資訊與資訊之間也存在豐富的關聯;這些資訊的來源主要分為企業內部資料和網際網路資料兩部分，其中，企業內部資料主要包括內部網頁、文件、會議記錄、員工基本資料等資料，網際網路資料則主要包括維基百科、學術論文、LinkedIn等公開資料。如何將來自公司內部、社交網路、Web等不同來源的異構資料進行梳理和融合、構成一張完整的職場知識圖譜，這是構建EDI Graph的關鍵技術。只要有了圖譜，就能構建EDI Bot，讓這個暱稱為EDI的機器人擁有“大腦”，能進行理解和分析，瞭解每個員工的專長以及從事的工作內容，成為員工貼心的個人助理。

　　與《黑鏡》裡的機器人相似，EDI也是知道資訊越多就越能瞭解人以及人與人之間的關係，越接近員工的工作知己。

　　資訊融合

　　“EDI, where is BJW1?”

　　對於同一件事，人們往往會有不同的表達，這是人與機器的一大不同。舉例：“BJW1”是英文“北京微軟西1號樓“的簡稱，但人們在不同情境下可能還有其他表達方式，比如“BJW-1”、“Beijing West 1”、“Microsoft Tower 1，Beijing，China”以及“微軟1號樓”等，這些表達上的差異無法用簡單的字串匹配或縮寫匹配的方式來完成相似度的計算。那麼，EDI該如何知曉它們所指的其實是同一個地點呢?

　　我們的做法是將這些千變萬化的表達看作不同的語言，通過機器翻譯技術，找到詞與詞之間具有的某種翻譯關係，從而實現相似詞語的融合。

　　首先，利用種子規則，找到資訊中高準確度的種子節點對，利用種子節點對中屬性的不同表達，構建平行語料庫。之後，使用深度學習技術構建翻譯模型，完成不同資訊源之間的屬性“翻譯”。通過機器翻譯，不僅能計算簡單字串匹配無法計算的相似表達，甚至還能計算不同語言中同一表達的相似度，讓EDI 能夠吸收消化更多更廣泛的資訊來源，對使用者的表達做出更準確的判斷。

　　“Hi EDI, schedule a meeting with David now.”

　　得到不同表達的相似度之後，如何精準對應也是一門學問。例如，只要給個人助理EDI傳送一條非常簡潔的資訊“幫我和David訂個會議室”，EDI就能幫助員工準確預訂好會議室。然而只要開啟微軟員工目錄，就會發現名為David的員工大約有兩千名，EDI如何分辨他們並從中確定要和使用者開會那個David究竟是哪一個呢?要知道，這兩千位名為David的員工，有些位於同一部門，甚至職務也都相同，這時，單單通過機器翻譯得到的屬性相似度，可能無法做出正確的對應。

　　精確匹配的突破口在於不同David的職場知識圖譜，其網路結構也是不同的，我們使用協同訓練Co-Training的方法，迭代地進行圖結構資訊的匹配。在每一輪迭代中，首先利用當前已匹配的實體對，更新神經網路翻譯模型，並利用更新後的模型完成屬性間的相似度計算;同時，根據當前已匹配節點計算待匹配節點的公共相鄰節點對，通過結合屬性匹配和圖結構，可以得到新的匹配集合，如此迭代直到收斂。

　　簡單說，EDI能將職場知識圖譜中同一個David的資訊融合到一起，把不同的David放在各自節點上，然後通過參會歷史、專案合作、內部的彙報關係等等，瞭解公司同事之間的遠近，從而鎖定使用者真正想找的David，完成使用者交給的安排會議並預訂會議室的任務。

　　資訊分析與理解

　　《黑鏡》中的機器人系統對主人公男友在社交網路上的電郵、照片、視訊甚至聊天記錄進行了深入的分析和學習，從而實現對其惟妙惟肖的模仿。同樣，EDI在掌握豐富的資訊之後，也需要進一步分析和理解這些資料，才能深入瞭解企業中的每一個員工。

　　在一個企業中為員工構建職場知識圖譜，最為基本也最為重要的一點，就是構建出每位員工的工作內容時間線，通過時間線我們就可以瞭解到“who，when，what”，即：誰，在何時，做過什麼事情。

　　有了這些結構化的知識，如果想知道誰在做Cortana相關的專案，只需要問“Who is working on Cortana?”，EDI就能給出你想要的答案。這對構建企業智慧應用具有極為重要的意義。

　　順帶指出，專案名稱的抽取也不簡單。我們無法通過簡單地標註資料、訓練模型或是基於規則的方法來進行抽取，因為不同行業、不同領域對於專案的表述可能千變萬化，那麼EDI是如何抽取出工作內容以及相關專案的名稱呢?

　　我們認為，專案的名稱都是語義完整的短語——例如，在“微軟亞洲研究院在丹稜街5號”這句話裡，“微軟亞洲研究院”就是一個語意完整的短語——於是，我們先從企業內部的資料抽取出語意完整的短語，再從這些短語中劃分出項目的名稱。在微軟內部，各種文件、網頁等總量在千萬這個數量級，而統計規則例如互資訊、熵等，在資料量較大的時候可以有效地完成對短語的切分。因此，我們在遞迴神經網路Recursive Neural Network模型中通過後驗正則化Posterior Regularization引入互資訊、熵等統計量定義的偏序切分規則，在完成短語劃分的同時，得到其對應的語意向量表示，最後通過度量語意資訊來判斷其是否是一個專案的名稱。

　　小結

　　有了基於企業內部和網際網路大資料構建員工的職場知識圖譜EDI Graph，就能讓機器人個人助理EDI Bot擁有聰明的“大腦”，為使用者提供貼心的服務。我們將在後續的文章具體介紹EDI Graph怎麼被運用到機器人的工作場景中，以及怎樣通過平臺讓機器人獲得與人進行自然語言對話的能力，敬請關注，也歡迎你就這一題目分享自己的見解和經驗。

　　【大資料探勘組】

　　微軟亞洲研究院大資料探勘組致力於從大資料中挖掘資訊構建海量知識圖譜，以提高人工智慧應用中的知識推理和自然語言理解能力。大資料探勘組的研究方向包括資料探勘、大資料、深度學習、自然語言處理、智慧聊天機器人等。十多年來，該組成員的研究成果對微軟的許多重要產品及應用產生了深刻影響，包括人立方、微軟學術搜尋、讀心機器人、微軟知識圖譜Satori、智慧聊天機器人開發平臺等。

　　大資料探勘組現招聘實習生，工作內容涉及機器學習、大資料探勘、自然語言處理等領域，工程和研究均可，根據個人興趣和能力確定工作內容。要求程式設計能力較強;有一定的溝通能力，有責任心;對機器學習、大資料探勘、自然語言處理有熱情和興趣; 高質量的完成工作;半年以上實習期。

1.企業文化管理

2.企業勵志名言名句大全

3.鼓勵企業發展名言100句