心得分享

Card image cap

Atalanta 研習紀錄 分享經驗 2014/03/10 08:00 ~ 2014/05/02 12:00 102(2)閱讀達人競賽 學生學習發展組

2014/03/10 08:00 ~ 2014/05/02 12:00 102(2)閱讀達人競賽 學生學習發展組
主辦單位 學生學習發展組
名稱 102(2)閱讀達人競賽
主題 科技類
時間 2014/03/10 08:00 ~ 2014/05/02 12:00
時數 1.0 小時

書名:世界連在一起,搜尋引擎的核心秘密
作者: 張俊林
出版社:博碩文化公司
出版年:2012
心得:
網路搜尋大家都會用 輸入關鍵字就能查到想要的資料 而搜尋結果的排序是搜尋引擎最核心的部分 這決定了搜尋的品質和使用者是否接受 還有網頁內容和使用者是否相關 就要仰賴檢索模型 第五章介紹了以下這幾種:
1.布林模型
就是數學裡的集合論
ex:蘋果AND(賈伯斯 OR iPad2)
2.向量空間模型
*使用者查詢可被當成一個特殊的文件 轉換成t維陣列的特徵向量(畫成表格容易了解)
*cosine相似性運算:分母為特徵向量長度的乘積 分子為向量的點積
*詞彙頻率因素:W=1+log(Tf) 加log是為了值不要那麼大
反向文件頻率因素:IDF=logN/n (IDF衡量不同詞彙對文件的區分能力)
TF*IDF框架(特徵權值越大 有可能是好的指示詞)
3.機率模型
*機率排序原理:依貝氏定理寫成的公式
*二進制獨立模型:
二進制("出現"和"不出現"兩種情況表示)
獨立性(詞彙之間沒有關聯 各自獨立)
*BM25模型是目前最成功的內容排序模型
4.語言模型
為文件建立不同的語言模型 判斷使用的查詢的可能性有多大 按照機率由高到低排列
5.機器學習排序演算法
由機器自動學習排序公式 人只要提供訓練就好
***檢索品質評估標準:廣為採用準確率和召回率
評估搜尋引擎精度指標:P@10和MAP

更新日期:2014/4/30 上午 10:08:05