信息抽取 基于Heritrix的Web信息抽取
發(fā)布時(shí)間:2020-03-07 來(lái)源: 幽默笑話 點(diǎn)擊:
[摘要]針對(duì)現(xiàn)階段web信息抽取技術(shù)的不足,提出一種基于Heritrix的精確抽取方法,由三個(gè)分別獨(dú)立的功能模塊共同完成。與一般信息抽取不同,本方法注重于在精確抽取的前提下實(shí)現(xiàn)通用化,做到可以根據(jù)數(shù)據(jù)庫(kù)表的字段來(lái)進(jìn)行最小單位的信息抽取,并且較好地解決信息采集通用性和準(zhǔn)確性之間的矛盾。
相關(guān)熱詞搜索:抽取 信息 Heritrix 基于Heritrix的Web信息抽取 基于web的管理系統(tǒng) 基于web的圖書管理系統(tǒng)
熱點(diǎn)文章閱讀