心得分享

Atalanta 於研習紀錄分享經驗 2014/03/10 08:00 ~ 2014/05/02 12:00 102(2)閱讀達人競賽學生學習發展組

2014/03/10 08:00 ~ 2014/05/02 12:00 102(2)閱讀達人競賽學生學習發展組
主辦單位	學生學習發展組
名稱	102(2)閱讀達人競賽
主題	科技類
時間	2014/03/10 08:00 ~ 2014/05/02 12:00
時數	1.0 小時

書名:世界連在一起,搜尋引擎的核心秘密
作者: 張俊林
出版社:博碩文化公司
出版年:2012
心得:
網路搜尋大家都會用輸入關鍵字就能查到想要的資料而搜尋結果的排序是搜尋引擎最核心的部分這決定了搜尋的品質和使用者是否接受還有網頁內容和使用者是否相關就要仰賴檢索模型第五章介紹了以下這幾種:
1.布林模型
就是數學裡的集合論
ex:蘋果AND(賈伯斯 OR iPad2)
2.向量空間模型
*使用者查詢可被當成一個特殊的文件轉換成t維陣列的特徵向量(畫成表格容易了解)
*cosine相似性運算:分母為特徵向量長度的乘積分子為向量的點積
*詞彙頻率因素:W=1+log(Tf) 加log是為了值不要那麼大
反向文件頻率因素:IDF=logN/n (IDF衡量不同詞彙對文件的區分能力)
TF*IDF框架(特徵權值越大有可能是好的指示詞)
3.機率模型
*機率排序原理:依貝氏定理寫成的公式
*二進制獨立模型:
二進制("出現"和"不出現"兩種情況表示)
獨立性(詞彙之間沒有關聯各自獨立)
*BM25模型是目前最成功的內容排序模型
4.語言模型
為文件建立不同的語言模型判斷使用的查詢的可能性有多大按照機率由高到低排列
5.機器學習排序演算法
由機器自動學習排序公式人只要提供訓練就好
***檢索品質評估標準:廣為採用準確率和召回率
評估搜尋引擎精度指標:P@10和MAP

更新日期：2014/4/30 上午 10:08:05

其他心得分享

心得分享

Atalanta 於 研習紀錄 分享經驗 2014/03/10 08:00 ~ 2014/05/02 12:00 102(2)閱讀達人競賽 學生學習發展組

Atalanta 於研習紀錄分享經驗 2014/03/10 08:00 ~ 2014/05/02 12:00 102(2)閱讀達人競賽學生學習發展組