基于泛域名解析方式的關鍵詞實現(xiàn)技術_關鍵詞匹配方式
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
〔摘要〕基于數(shù)字圖書館用戶的關鍵詞信息查詢問題,提出一種泛中文域名與關鍵詞超鏈接實現(xiàn)方法。通過設立關鍵詞表、利用泛中文域名的解析技術與重定向技術和添加鏈接算法,實現(xiàn)網(wǎng)頁中全中文專業(yè)術語、通用詞都能點擊和按關鍵詞加域名方式直接訪問到相應站點、專題、網(wǎng)頁或搜索頁。本實驗通過建立關鍵詞庫、完成關鍵詞地址導向、泛中文域名的解析實現(xiàn)、超連接添加技術4個過程實現(xiàn)。
〔關鍵詞〕泛域名 關鍵詞 重定向技術 超鏈接
〔分類號〕G230
The Implementation Technology of Keyword Based on Wildcard Domain Name Analysis
RenHui
Ludong University library, Yantai264025
〔Abstract〕This paper tries to find a new way about the hyperlinks between wildcard domain name and keyword based on the digital library user"s need in keyword searching. Through setting up keywords table, making use of the technology of wildcard domain name analysis and re-directional technology and adding link algorithm,the Chinese technical terms, general words in web pages can be clicked and visited to correlated websites, Special domains. Web pages or search pages directly by keywords as well as domain name. This experiment can be made through the establishment of keywords table, orientation of keywords address. Analysis of wildcard domain names and additional technology of hyperlinks.
〔Keywords〕wildcard domain name keyword re-directional technology hyperlinks
超鏈接是網(wǎng)頁中最重要、最根本的元素之一。它能使多個孤立的網(wǎng)頁之間產(chǎn)生相互聯(lián)系,使單獨的網(wǎng)頁形成一個有機的整體。目前網(wǎng)頁上的超鏈接一般分為三種:①絕對URL的超鏈接,URL(Uniform Resource Locator)就是統(tǒng)一資源定位符,簡單地講就是網(wǎng)絡上的一個站點、網(wǎng)頁的完整路徑,如http://www.swnu.省略/index.htm ;②相對URL的超鏈接,將網(wǎng)頁上的某一段文字或某標題鏈接到同一網(wǎng)站的其他網(wǎng)頁上面去;③同一網(wǎng)頁的超鏈接,這就要使用到書簽的超鏈接。由于數(shù)字圖書館用戶信息需求量大,信息組織不能一步到位,一些關鍵詞的導向頁面不完備。本實驗以關鍵詞的超鏈接技術實現(xiàn)為例,根據(jù)用戶信息數(shù)據(jù)源的語義擴充請求,引入和結合泛中文域名解析思路,能有效解決目前關鍵詞鏈接中存在的鏈接不全面問題。
1關鍵詞的實現(xiàn)
1.1建立關鍵詞庫
WEB頁面中的關鍵詞是直接從文章中抽取出來的自然語言,關鍵詞可以是主題詞,也可以是自由詞。字、詞、短語、詞組、專業(yè)術語和別名都可作為關鍵詞進行檢索。關鍵詞庫的建立可以參照《中國分類主題詞表》、《漢語主題題表》等專家學者公認的主題詞表,也可以根據(jù)數(shù)字圖書館用戶的需要以及工作與科研的需要自己組建關鍵詞庫。所有關鍵詞條都應對應到知識點上或某些研究主題。我們以生物信息學為例來說明關鍵詞庫的建立,如關鍵詞可以包括納米技術、生物制藥、基因組、藥物靶、DNA分子、核苷酸順序、基因芯片、基因卡、轉基因技術、蛋白質結構、生物識別技術、克隆、生物信息學機構組織、人類基因組計劃、分子設計、表達譜數(shù)據(jù)、分子模擬技術等。
1.2關鍵詞地址導向
每一個關鍵詞都能對應到相應的知識點上,鏈接導向地址可以是一個站點、子站點、具體的頁面、相關專題研究等。為了保證關鍵詞能鏈接到下一個完整的知識點,我們通過WEB頁面查詢對關鍵詞的鏈接進行了信息資源的準確定位,讓用戶更準確在檢索到所需要的生物信息。本實驗建立了一個關鍵詞鏈接檢索對照表(見表1) 。
另外,還通過關鍵詞的建立導向各高校網(wǎng)站的大量課件,其中都是各生物信息學教師講課的素材,含有大量的知識信
息,最新技術熱點。從中能挖掘出其課件內容并加工出大量超鏈專題。在關鍵詞的建設過程中,一些關鍵詞對應知識點
表1關鍵記號鏈接檢索對照
的地址無法確定,或因信息或欄目專題的調整導致某些頁面地址(URL)經(jīng)常變化,常存在關鍵詞條設置不全、無法指向正確頁面或已經(jīng)添加的網(wǎng)頁需要重新生成等一系列問題。只有關鍵詞本身是唯一的、確定的、不變的,因此,我們采用泛域名的映射解析技術,將每一個關鍵詞作為二級域名。
1.3關鍵詞參照表
關鍵詞表用于生成關鍵詞詞典文件和泛域名解析和重定向。其中關鍵詞列具唯一索引,參照詞用于解決多詞一義現(xiàn)象。關鍵詞、BIG5碼、IDN編碼等列具有索引以提高解析速度。部分列數(shù)據(jù)冗余以避免嵌套查詢或反復編碼解碼操作。在關鍵詞表管理平臺中,實現(xiàn)對BIG5碼、IDN編碼列和參照詞鏈接地址列的自動維護。關鍵詞表可同時具有優(yōu)先級別、廣告鏈接等屬性(見表2) 。
3泛中文域名解析
3.省略,之下所設的*.省略全部解析到同一個IP地址上去。比如域名alex.省略就會自已自動解析到與abc.省略一樣的頁面。
泛解析定義為:設已有域名是bizsn.com,將主機名設置為“*”,IP解析到比如:203.88.192.省略之前的所有子域名都將解析到203.88.192.省略sn.省略sn.com都將解析到203.88.192.134。在系統(tǒng)里面如果單獨設置一個子域名解析,比如將主機名設置為mail,單獨解析到203.88.192.134,那么該解析記錄優(yōu)先。泛域名在實際使用中作用是非常廣泛的,比如實現(xiàn)無限二級域名功能,提供免費的url轉發(fā),在IDC部門實現(xiàn)自動分配免費網(wǎng)址,在大型企業(yè)中實現(xiàn)網(wǎng)址分類管理等等,都發(fā)揮了巨大的作用。
泛解析目前常用于博客系統(tǒng),但子域均為英文字母和數(shù)字,中文子域名由于編碼技術問題易造成無法正常訪問,尚少見應用。下面以Windows 2000 server + asp環(huán)境下實現(xiàn)的方法為例說明建立泛解析的兩種方法:
第一種方法是直接在域下建立名為“*”的主機。但實際上在Windows 2000中你使用DNS控制臺建立“*”主機時它是不允許你輸入這個字符的,因此需要一點小技巧:就是修改c:\winnt\system32\dns\aoom.省略區(qū)域下另建一個二級區(qū)域,名為“*”,這個是系統(tǒng)允許建立的,然后在*.省略區(qū)域下建立一個空主機名的記錄就行了。建好DNS后,在區(qū)域“abc.com” 上彈出菜單中選擇“重新加載”,待刷新后,出現(xiàn)畫面如下。您會發(fā)現(xiàn)此時多了一個主機名為“*”的記錄。
3.2 編碼轉換
目前Internet DNS是7位ASCII編碼環(huán)境,中文域名解析多 以PUNYCODE編碼進行兼容轉換。中文編碼格式有國際標準(UTF-8)、國家標準(GB2312,GBK)和工業(yè)事實標準(BIG5),經(jīng)過瀏覽器提交編碼后捕捉到的可能為國際化域名(IDS)或其它標準。如CNNIC的中文域名用戶插件、TWNIC的中文通、NETSCAPE7.1以上版本、Mozzilla browser-1.4以上版本。Opera browser7.2以上版本等支持和轉換為IDN標準,Internet Explorer\3721網(wǎng)絡實名等仍采用UNI-CODE編碼或UTF-8標準。
對于大量關鍵詞若采用相應漢語拼音或英文作子域名容易重復且不便記憶,直接采用中文關鍵詞本身將很簡潔直觀,如http://轉基因.省略。采用WEB服務器上關鍵詞多編碼對照表和子域名捕捉處理程序,泛中文域名的實現(xiàn)可以不涉及更改瀏覽者客戶端設置或DNS服務器調整。針對當前對不同瀏覽器或安裝不同插件的瀏覽器捕捉到的編碼方式差異,我們采用在頭飾詞表中預先設置好各類編碼,即除簡體中文外,同時對照有BIG5(繁體中文)、IDN或punycode編碼、漢語拼音、英文、拉丁名等字符串,用于兼顧多種標準和輔助解析,并實現(xiàn)對各類子域名如http://轉基因.省略;http://轉基因.省略;http://zhuanjiyin.省略的同時把持。
3.3子域名的重定向
DNS泛域名解析將除明確定義(如WWW)外的主機頭均指向到“*”對應IP的WEB站點。WEB中腳本程序(JSP、ASP、ASPX、PHP等)捕捉取到子域名字符串,掃描關鍵詞表,比較子域名字符串與表中各編碼,定位到關鍵詞;若有相應鏈接地址,通過參照詞找到和重定向到參照的鏈接地址;若沒有此關鍵詞提示高有開通此域名,或者重定向到某搜索頁面。
4超鏈接添加技術
4.1實現(xiàn)過程
在網(wǎng)頁中添加超鏈接其實就是字符串操作,實現(xiàn)過程分下面4個步驟:
4.1.1定位取出正文內容。在制作和發(fā)布生成頁面時采用WEB標準格式,將內容與表達分離,正文內容用約定標簽,網(wǎng)頁中其它文字如當前位置、相關文章等在標簽之外,以便處理時準確定位。
4.1.2保護一些文字和HTML代碼。對于種類特殊用途的文字或字符,如HTML代碼、已存在的鏈接文字、圖片的alt文字、各DOM對象的title文字等進行保護處理,方法是按規(guī)則找到所有需要保護字符存入數(shù)組后替換為識別用編號。
4.1.3依次掃描關鍵詞庫。在構建完整主題詞庫表和明確泛域名導出鏈接思路基礎上,詞庫的詞條采用近字符長度和優(yōu)先級別排序,避開語義分析和斷詞處理的困難。
4.1.4對各關鍵詞只對在正文中第一次出現(xiàn)者增加超鏈接。方法是當某關鍵詞在文中首次出現(xiàn)時將其轉換為鏈接HTML代碼記錄到中轉數(shù)組,同時將原正文換為關鍵詞前內容+對應數(shù)組的編號符+關鍵詞后內容。當掃描所有詞條后,再根據(jù)識別用編號從中轉數(shù)組中還原成添加鏈接后的正文內容。
4.2 添加方式分類
關鍵詞的添加方式一共有三種:①手工添加。即由編排人員手工勞動一條一條添加,效率低,一般不采用這種方式。②發(fā)布時自動。這是我們采用的方式,這種方式在服務器端完成,速度快,一次性完成,發(fā)布后對所有數(shù)字圖書館用戶一次性有效,利于訪問,有利于搜索引擎收錄,但當關鍵詞調整后需要重新發(fā)布各頁面;發(fā)布前手工添加,即編輯人員編排信息時人為設定、發(fā)布時添加到發(fā)布系統(tǒng),在信息編審完成表態(tài)頁面后,更新發(fā)布服務器前,由添加關鍵詞超鏈接模塊自動完成。③在線添加。為HTML包含的is腳本文體在用戶瀏覽見面時對正文部分分析與實現(xiàn)。網(wǎng)頁正文本身漢有超鏈接代碼,用戶可選擇是否啟用此功能,關鍵詞表的調整能實時生效,但詞條多時資源消耗較大,適用于各種論壇或博客頁面,相對較少采用。
4.3Java腳本語言
以下是利用Javascript腳本語言將上述實現(xiàn)過程編成的腳本文件,在用戶端運行。即可實現(xiàn)所需求的目的,以下是腳本文件的主體描述部分:
//獲取關鍵詞的正文內容
if (typeof ( thelnfoContent )! = "undefined" )
。鹶ar obj =docunent.get ElenentByld ( "thelnfo Content" );}
else {var obj = document.body; }
var s = obj.inner HTML;
//獲取關鍵詞,按順序排列,用逗號隔開
var strwords = “基因組,基因工程,分子設計,蛋白質結構,生物芯片,細胞融合,”
var k = strwords.split",";
//初始化中間數(shù)組
Var mArray4 Protect = new Array ( );
mArray4 Prorecr[0]=" ";
//保護特別標記為添加鏈接范圍外內容,略
Special_Content Protect ( );
//保護文中已有鏈接部分
Comm_Content Protect ("<A", " </A>");
//保護各類HTML代碼部分
Comm_Content Protect ("<", ">");
//掃描詞條,對首次出現(xiàn)的關鍵詞按加鏈接后代碼保護
for (var ilinks = 0; iLinks<= k. length; iLinks ++){Link Words2 Protected Array (k[iLinks],k[iLinks]) }
//從中間數(shù)組依次還原
Restore From Protected Array ( );
//回寫到操作對象
obj.inner HTML = s;
//保護字符到中間數(shù)組,原相應內容換為編號標識
function Add2 Protected Array (str4 Protect) {var iNext = mArray4 Protect.length; mArray4 Protect[iNext]= str4 Protect;
s = s.replace (str4 Protect, "-" + iNext.to String ( )+ "l" ) }
//將出現(xiàn)關鍵詞以超鏈接代碼記錄到中間數(shù)組
function Link Words2 Protected Array ( strWord, strUrl ) {var iPosition = s.index Of (str Word )
if ( iPosition= = -1) { return" "}
var iNext = mArray4 Protect.省略"target =" "-blank" cllass = "bl" >+strWord + "</a>";
var strtemp = "-"+ iNext.to String ( ) + "l"
s= s.substr ( 0, iPosition ) + strtemp + s.substring ( iPosition + strWord. Length, s .length) }
//掃描中間數(shù)組將各標識號還原
function Restore From Protected Arroy ( ){for (var larray = marray4Pr - otect.length;iarray> = 0; iarray--){s = s.replace ("-" + iarray.to String ( ) +"l", marray4 Protect[iarray]) }}
//將所有*與*間字符均保護
function Comm_ Content Protect (strStart, strEnd ) }
While ((s. index Of strStart )! = -1&& ( s. index Of (strEnd )! =-1) && ( itimes <5000 ) ) {
var strtemp = s.substring ( s. index Of(strStart ),s. index Of ( strEnd )+ strEnd. Length );
itimes++;
Add2 Protected Array ( strtemp ) }}
5結語
通過基于關鍵詞的搜索引擎進行信息的定位和查詢,這種方式隨著WEB上的信息猛增而變得越來越不適應;陉P鍵詞的搜索引擎最大的問題是其忽略了關鍵詞所包含的語義信息而造成查全率和查準率比較低。而設立關鍵詞表、利用泛域名解析技術與重定向技術和添加鏈接技術能發(fā)揮互聯(lián)網(wǎng)的優(yōu)勢,形成文本超鏈接、圖像超鏈接、E-mail鏈接、錨記鏈接、多媒體文件鏈接等,為數(shù)字圖書館用戶提供更高效更準確的服務。
參考文獻:
[1]Li Quanzhong,Moon B.Indexing and query XML data for regular path expressions.// the International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc,2001.361-370
[2]WWW Consortium,Xqueryl.0 [2003-11-12]. http://www.省略/TR/xpath20.
[3]Ashburner M,Ball C A,Blake J A,et al.Gene ontology:tool for the unification of biology.The Gene Ontology Consortium.Nature Genetics.Nat Genet,2000,(25):25-29.
[4]生物信息學. [2006-05-25].http://baike.省略/view/7303.htm.
[5]生物信息學討論組. [2006-08-24].省略bio.org.
[6]Foster I,The grid:a new infrastructure for 21st century science.Physics Today,2002,55(2):42-47
[7]杜義華.基于泛中文域名的網(wǎng)頁關鍵詞超鏈接功能的探討與實現(xiàn).計算機系統(tǒng)應用,2006(10):76-81
[8]于欣麗.試論中文域名標準化.世界標準化與質量管理,2000(12):29-31
[9]金海峰.談ASP在實現(xiàn)虛擬域名重定向中的應用.電腦知識與技術,2005(4):38-41
[10]成 瑜,何潔月.基于本體的生物信息數(shù)據(jù)源的發(fā)現(xiàn).發(fā)現(xiàn)計算機應用技術,2005(1):38-41
相關熱詞搜索:域名解析 關鍵詞 方式 基于泛域名解析方式的關鍵詞實現(xiàn)技術 幾度網(wǎng)絡 e是幾g網(wǎng)絡
熱點文章閱讀