社會性人物搜索研究:人的社會性本質(zhì)
發(fā)布時間:2020-03-07 來源: 美文摘抄 點擊:
[摘要]分析社會搜索和社會性人物搜索的相關(guān)研究,給出人物搜索和社會性人物搜索的定義、特點及一般流程,對近年來社會性人物搜索的熱點事件分析,基于上述研究,進(jìn)一步給出社會搜索的過程框架和工具軟件,并完成第一階段的軟件開發(fā),發(fā)布了ROST系列社會性人物搜索工具。
[關(guān)鍵詞]社會搜索 人肉搜索 ROST 情報分析 社會計算
[分類號]TP393
1 研究背景
社會性搜索引擎由提問者提出搜索目標(biāo),通過某種激勵機制來發(fā)起其他的網(wǎng)友對其進(jìn)行回答,沉淀的知識形式是針對問題的答案,本質(zhì)是一個互動問答平臺,讓人與人之間就各種知識或問題進(jìn)行溝通,鼓勵更多的人參與互助,英文譯為Social Search Engine。2007―2008年間共有約29篇英文文獻(xiàn)討論社會性搜索問題,主要分布于計算機、情報學(xué)、圖書館學(xué)、教育技術(shù)、互聯(lián)網(wǎng)科學(xué)等領(lǐng)域,D Bottazzi談到語義中間件將應(yīng)用于普適環(huán)境的社會網(wǎng)絡(luò)中,社會搜索將變得至關(guān)重要;T Yamakami討論了移動Web2.0如何從利用社會搜索傳統(tǒng)Web以及移動環(huán)境吸取新的創(chuàng)新動力;KF White主要談到了利用社會性搜索進(jìn)行跨組織的知識共享問題;s Bao研究了利用社會標(biāo)注改進(jìn)搜索引擎效果;M Dalai研究了個性化社會性協(xié)同搜索;EH Chi和P Pirolli研究了社會信息獲取和社會搜索的關(guān)系;Jason Calacanis推出Mahalo,其全部搜索結(jié)果都是編輯手工挑選產(chǎn)生;Google張智威認(rèn)為社區(qū)是下一代搜索技術(shù)的曙光;Marissa認(rèn)為未來搜索引擎將會共用自動化和人工勞動。在韓國Naver互動問答平臺已占據(jù)77%搜索引擎市場,而Google只有2%,國內(nèi)與之類似的有新浪愛問、天涯問答、百度知道和雅虎知識堂。
在社會搜索中存在一種特殊的搜索形式,即社會性人物搜索,俗稱人肉搜索。人肉搜索引擎是指利用人工參與來提純搜索引擎返回信息的一種機制。人肉搜索的理論本質(zhì)是依據(jù)網(wǎng)絡(luò)跨媒體素材獲得少量的人物信息特征,不斷調(diào)整搜索策略迭代搜索,最終獲得搜索對象的全部真實人物信息的包含信息分析的復(fù)雜檢索過程,英文一般譯為Human Search。
社會性人物搜索誕生于2001年的貓撲論壇,2004年“銅須門事件”進(jìn)入大眾的視野,“社會性人物搜索”是2007年的年度熱詞之一,“姜巖事件”將社會性人物搜索推到了前所未有的高度,從Google Trends的搜索趨勢可以看出,目前每天社會性人物搜索量達(dá)到4000次,而2007年僅有200次/日。從社會學(xué)角度看社會性人物搜索存在程序正義、侵犯隱私權(quán)等問題,存在一個政府不斷改善監(jiān)管調(diào)控和網(wǎng)民自組織涌現(xiàn)的過程,隨著網(wǎng)絡(luò)公民搜索意識的進(jìn)一步增強,社會性人物搜索將會逐漸走向完善,并將最終發(fā)展成有效的輿論監(jiān)督工具,并進(jìn)一步進(jìn)入門戶網(wǎng)站。大規(guī)模社會性人物搜索是中國獨有的網(wǎng)絡(luò)現(xiàn)象,國外只有小規(guī)模類似應(yīng)用,目前未見理論文獻(xiàn)對該問題進(jìn)行研究,因此筆者準(zhǔn)備就以上問題展開論述。
2 定義、產(chǎn)生原因及特點
筆者把社會搜索分為兩種類型:一種叫作服務(wù)器端社會性搜索如Sproose、Mahalo、iRazoo、Bessedt、wikia、百度知道等;一類叫作客戶端社會性搜索,典型的如由網(wǎng)友發(fā)起的社會性協(xié)作式人物搜索,傳播范圍是Personal→Group→Public Web→統(tǒng)媒體,在某種程度上,隨著信息豐富性的增加而加大,逐步向更大面積傳播,信息真實性和傳播面積成一定正比關(guān)系,如圖1所示:
搜索引擎SEO災(zāi)難導(dǎo)致搜索引擎返回網(wǎng)頁質(zhì)量的直線下降,同時搜索引擎不能完全解決用戶的所有問題,搜索引擎只是返回網(wǎng)頁,而用戶需要的是某些具體的相關(guān)性信息,現(xiàn)有搜索引擎技術(shù)還不能在語義層面智能化給用戶精確回答,因此,機器搜索結(jié)果還不能替代情報分析。對于人物信息精致而準(zhǔn)確的需求導(dǎo)致社會性人物搜索的出現(xiàn),從這個角度講,互聯(lián)網(wǎng)的發(fā)展將極大促進(jìn)包含了數(shù)據(jù)挖掘的情報分析技術(shù)的發(fā)展。
其特點主要有以下方面:
?動機熱點化。整個社會性人物搜索發(fā)起一般是由于熱點事件,所以社會性人物搜索等發(fā)起具有一定門檻性。未完成社會性人物搜索時,事件往往在互聯(lián)網(wǎng)中發(fā)酵,一旦完成,該事件才進(jìn)入傳統(tǒng)媒體領(lǐng)域,這是因為傳統(tǒng)媒體領(lǐng)域本身非常強調(diào)真實性和可追溯性。有影響的社會性人物搜索往往發(fā)端于娛樂事件,和時事熱點密不可分。
?技術(shù)高級化。有些信息必須利用高級的搜索引擎技巧和情報分析技術(shù)以及社會網(wǎng)絡(luò)、心理學(xué)成果才能找到,然而這些很難被大多數(shù)的普通用戶所掌握。由于傳統(tǒng)搜索引擎檢索網(wǎng)頁的局限性,所以必須查詢窮盡一切可能的搜索引擎及查詢手段來進(jìn)行搜索。在很多時候還需要對跨媒體素材中隱含的線索進(jìn)行細(xì)致的梳理,從而構(gòu)造出最終能查詢到真相的實施策略。
?行為的社區(qū)化。搜索行為和社交活動相結(jié)合,這一變化給個性化搜索帶來新的發(fā)展方向。用戶在搜索過程,不斷積累社會關(guān)系,從淺關(guān)系到弱關(guān)系,再到強關(guān)系,構(gòu)建出一個個旨趣各異的圈子或者虛擬群,搜索過程就是人際交往過程。
?勞動密集化。社會性人物搜索將是一種勞動密集型行為,今后將出現(xiàn)大量人工編輯的搜索引擎,每個編輯只負(fù)責(zé)幾十到一百個詞條,從而返回高度相關(guān)的檢索網(wǎng)頁。這些詞條由編輯每天更新索引和決定排序,并且在每個用戶查詢的同時有若干工作人員為他/她服務(wù),用戶最后采納了誰給出的搜索結(jié)果,誰就能獲得報酬。而檢索次數(shù)較少的檢索詞是以長尾化形式呈現(xiàn)的,此時可以采用現(xiàn)有排序算法進(jìn)行相關(guān)性排序。
?虛擬和現(xiàn)實的滲透性。在互聯(lián)網(wǎng)中有時并不一定能夠搜索到所有需要信息,此外,如電話號碼、職位之類的易變隱私信息即使檢索到了也是無效的。這種虛擬和現(xiàn)實的交互性決定了社會性人物搜索有時呈現(xiàn)出一種跨越地域的網(wǎng)友合作調(diào)查形式。
3 社會性人物搜索流程及案例
利用Google、百度、有道、搜狗、Yahoo、Live Search、迅雷等搜索引擎,不斷調(diào)整搜索策略獲得不同的返回結(jié)果。對于高學(xué)歷人員,可以搜索文獻(xiàn)資源數(shù)據(jù)庫中找到他的導(dǎo)師和同學(xué),從畢業(yè)分配辦公室或者校友會的網(wǎng)頁上也可找到其畢業(yè)工作情況,而已刪除網(wǎng)頁可通過百度快照查詢。
從被搜索者的社會網(wǎng)絡(luò)入手,例如其朋友或親人的博客,也可以去校友錄網(wǎng)站去找他的求學(xué)經(jīng)歷,還可以到論壇、在線購物、求職網(wǎng)站進(jìn)行搜索,大部分網(wǎng)友都會注冊某些論壇。由于人的信息使用慣性,一般會使用相對固定的注冊號或者郵箱進(jìn)行注冊,所以可以通過某個注冊號,獲得他在一系列網(wǎng)站的情況。在這方面今后將可用展現(xiàn)個人網(wǎng)絡(luò)活動的路線圖軟件輔助搜索。
可通過論壇或QQ留下的IP查找被搜索者上網(wǎng)地點,并且識別被搜索者的馬甲(泛指同一個人的不同ID)?梢詮淖蕴柕淖詴r間、習(xí)慣用詞以及活動的 相關(guān)性上進(jìn)行猜測。因此網(wǎng)絡(luò)用戶真實身份識別工具也將逐步出現(xiàn)。
如果知道對方所在地區(qū),可以利用Google衛(wèi)星地圖、MapABC查到他戶外照片的確切所在地。還可以結(jié)合現(xiàn)實的社會機構(gòu)進(jìn)行查詢,在不違反法律情況下,可通過公開的銀行、通信服務(wù)商、地產(chǎn)中介、網(wǎng)上商城以及手機資料庫查詢到人物的信息,如電話歸屬地等。
在整個搜索過程中最重要的是必須具備一定的邏輯分析能力,整合梳理龐雜信息,整合出可被驗證的調(diào)查結(jié)果。其本質(zhì)是利用信息分析技術(shù),充分挖掘社會網(wǎng)絡(luò),利用社會網(wǎng)絡(luò)來搜索,表1是目前已經(jīng)發(fā)生較為著名的社會性人物搜索的案例分析。
從表1可以看出,社會性人物搜索呈現(xiàn)出較大的差異性,處在發(fā)展早期,整個互聯(lián)網(wǎng)都在摸索如何將社會性人物搜索進(jìn)行完善和改進(jìn),顯現(xiàn)出一定的自發(fā)性和無序性。
4 ROST社會性人物搜索過程框架及工具
依據(jù)前面的案例和理論分析可以給出一個社會性人物搜索的整體過程框架(見圖2),在這個框架中,利用現(xiàn)有搜索引擎進(jìn)行分析還需要輔以很多手工工作,例如在各個搜索引擎中的信息集成;靈活調(diào)整的搜索策略;需要盡可能多的相關(guān)搜索詞及搜索策略重寫工具,社會網(wǎng)絡(luò)的深度分析工具,證據(jù)保存軟件;證據(jù)集成和發(fā)布一體化工具,語義性相關(guān)挖掘工具及群發(fā)工具。針對以上各個環(huán)節(jié),我們開發(fā)了數(shù)款適合社會性人物搜索的工具。
ROST元搜索引擎解析工具,主要實現(xiàn)以下功能:針對Google、百度和Yahoo實現(xiàn)某個搜索詞的所有返回結(jié)果結(jié)構(gòu)化,把摘要、鏈接等元組全部解析成一條條的記錄字段,存放在一個Excel中,自動把某個搜索詞在多個搜索引擎中的相關(guān)鏈接全部抓取出來,以便進(jìn)行進(jìn)一步的處理。本版本已經(jīng)發(fā)布互聯(lián)網(wǎng)的免費版,搜索即可下載。
ROST搜索策略采集和分析系統(tǒng),可以針對多個搜索引擎,采集高度相關(guān)的搜索策略候選詞,目前給出的下載文件是一個高頻1萬詞集,152,027句的相關(guān)詞句集。
ROST正文抽取和信息指紋提取工具,針對某個網(wǎng)頁進(jìn)行正文提取,并給出某個人的語言風(fēng)格。
ROST BlogGroupTools可以采集某個網(wǎng)站的Blog圈信息,目前已能采集CSDN中所有博客的全部信息,并已成功應(yīng)用到985項目中。
5 結(jié)語
社會搜索引擎大大降低了進(jìn)入搜索行業(yè)的技術(shù)壁壘,高妙的搜索排序算法也許不如聘請一個本科水平的專職人員。這種新的搜索模式為發(fā)展中國家網(wǎng)絡(luò)服務(wù)商進(jìn)入發(fā)達(dá)國家市場提供了機會,方式類似當(dāng)年印度軟件巨頭靠低成本打入美國軟件外包市場。對全球的搜索引擎市場將產(chǎn)生深遠(yuǎn)的影響。我們將在社會性搜索工具研發(fā)方面進(jìn)行的研究,同時對社會性搜索協(xié)同模式進(jìn)行更加深入的研究。
相關(guān)熱詞搜索:社會性 人物 研究 社會性人物搜索研究 人物搜索 搜索人物
熱點文章閱讀