EragonJ – A humble navigator

About EragonJ | About this blog

Archive for the ‘Research’ tag

[Research] Our next generation of Search Engines ?!

leave a comment

自從Google PageRank的論文出現之後,Google於搜尋引擎的市場就一直處於龍頭的地位,但是卻可以發現近期Google在Search Engine上的改良並沒有說特別的另人印象深刻,除了之前「社交資訊搜尋」及「改良介面後的圖片搜尋」這兩個服務還蠻有新意之外,似乎就只剩下頗具玩具性質的Google Instant而已。

特色沒什麼增加之外,不便性反而增加許多。而最近最讓我無法接受的就是Google Search的防洪機制,只要你多搜尋幾次同樣的關鍵字,就直接被導向到sorry.google.com…不知道是不是學網的問題,我很常遇到這個狀況,所以還要透過Yahoo的Search Engine才能找我想找的東西,真的是很不方便。

在傳統IR的時代之後,我們實驗室雖然是在做Search Engine,但是就立志要走和主流不同的方向,採用藍海策略以試圖在這片大海中找尋一盞明燈。「有用的創新」是我跟著老師這半年所學到的最重要的事情,也是實驗室研究的方向,如果我們想的是一個沒有用的點子,那我們不做,又如果我們做的是有用但是沒有創新的點子,我們還是不會讓步。我們只做有用又有創新的點子。

實驗室這一屆的專題生,也就是我和同學godChess,我們試著設計出專注於Plurk社交平台的Vertical Search Engine,所有的資料都是靠Spider從Plurk上抓下來的,完完全全只利用你在Plurk上提供的所有資訊(如個人資料或是噗的內容)而不依靠其他資訊,是一個完全信任於這個社交平台的搜尋引擎。

plurk

Image from Here

而有別於傳統搜尋引擎,我們提供給使用者搜尋的是「關係」而不是「關鍵字」,舉個例來說,你也許是一個很喜歡音樂的人,而你也想認識一些和你有同樣興趣的噗友,所以你就可以試著在Search Bar那邊輸入「音樂」這樣的關係,之後就會把分析過後,並符合該關係的噗友資訊提供給你,進一步把人與人之間的距離拉近,甚至是打破了虛擬與現實世界的界線。

而目前整個計畫已經進行到40%左右了,大約能夠在十二月完工,到時候再釋出網站連結來請有帳號的噗友來做個壓力測試吧,希望你們會喜歡:)。

Written by EragonJ

October 1st, 2010 at 1:45 am

[Research] Dartboard Statistics Method

leave a comment



共有16筆資料

2.2(-1.1)

4.1(+0.8)

3.5(+0.2)

4.5(+1.2)

3.4(+0.1)

1.6(-1.7)

3.1(-0.2)

3.2(-0.1)

3.2(-0.1)

3.7(+0.4)

3.0(-0.3)

2.6(-0.7)

3.8(+0.5)

3.1(-0.2)

4.7(+1.4)

3.7(+0.4)

平均≒3.3

說明:

圖上的每個間距是0.5(看統計者要統計到多詳細),而中間那條線代表平均值(在本例為3.343)而藍色部分代表的是大於平均值的資料,紅色部分代表的是小於平均值的資料,然後依照離均差的大小來決定資料點是落在哪個圓內,之後依照圓內點的數目比上所有點的數目求出分佈機率(ex:最小圓有10個點,全部有16個點,其分佈機率為62.5%)






如果我們以平面的角度來看的話,會發現他的分佈情況是呈現在一個呈現兩色的二維鏢靶上,可以很明顯的看出整體資料的離均情況。在這邊要特別討論一下這個圖的優點,因為我認為就算是一些不常出現的極值,還是整體資料的一部分,所以如果為了建出理論的完美模型而拾棄那些極值,反而是和現實生活不合的情況。因此我是以離均的大小來建構出這個圖,所以就算是少數極值也只會分配在最外圍的圓上,不會對整體架構產生太大的影響。





統計方法命名:

Dartboard Statistics Method – 鏢靶統計方法

Written by EragonJ

March 1st, 2009 at 4:06 pm

Posted in Research

Tagged with , , ,