Lucene是apache軟件基金會4 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。Lucene是一套用于全文檢索和搜尋的開源程式庫,由Apache軟件基金會支持和提供。Lucene提供了一個簡單卻強大的應用程式接口,能夠做全文索引和搜尋。在Java開發(fā)環(huán)境里Lucene是一個成熟的免費開源工具。就其本身而言,Lucene是當前以及最近幾年最受歡迎的免費Java信息檢索程序庫。人們經(jīng)常提到信息檢索程序庫,雖然與搜索引擎有關,但不應該將信息檢索程序庫與搜索引擎相混淆。
中文名稱 | 全文搜索引擎 | 外文名稱 | Lucene |
---|---|---|---|
類屬 | 搜索引擎 | 開發(fā)人 | Doug Cutting |
開發(fā)時間 | 2000年 |
1、經(jīng)久耐用 在任何戶外裝備中,結實耐用恐怕是衡量一個產(chǎn)品好壞的最基本指標了。這款杯子在溫度-2度~23度的環(huán)境中從1.5米高的地方墜落不會有任何損傷。美國制造。 2、不殘留氣味 ...
genelec音箱挺不錯的。音箱主要用于控制室、錄音室作節(jié)目使用,它具有失真小、頻響寬而平直,對信號很少修飾等特性,因此最能真實地重現(xiàn)節(jié)目的原來面貌。這種音箱在我們民用領域中卻不太被看好,一方面是我們...
電熱膜還是進口的比較成熟,在國外已經(jīng)有幾十年的使用史,好的品牌比如美國的凱樂瑞克電熱膜(可鋪設于地磚下面),韓國的大宇電熱膜(鋪設于地板下面)等等。
格式:pdf
大?。?span id="r60ofwn" class="single-tag-height">52KB
頁數(shù): 7頁
評分: 4.6
中文名稱:聚丙烯 英文名稱: polypropylene ,PP 分子式: (C3H6)n 定義:重復單元為的聚合物。根據(jù)分子構型不同,有等規(guī)聚丙烯、間規(guī)聚丙烯、無規(guī)聚丙烯三 種。 應用學科:材料科學技術(一級學科);高分子材料(二級學科);塑料(二級學科) 物理性能 聚丙烯為無毒、無臭、無味的乳白色高結晶的聚合物,密度只有 0. 90--"0. 91g/rm ,是目 前所有塑料中最輕的品種之一。它對水特別穩(wěn)定,在水中的吸水率僅為 0. O1% ,分子量約 8 萬一 15 萬。成型性好,但因收縮率大 (為 1%~2.5% ) .厚壁制品易凹陷,對一些尺寸精度較高 零件,還難于達到要求,制品表面光澤好,易于著色。 力學性能 聚丙烯的結晶度高,結構規(guī)整,因而具有優(yōu)良的力學性能。聚丙烯力學性能的絕對值高 于聚乙烯,但在塑料材料中仍屬于偏低的品種,其拉伸強度僅可達到 30 MPa 或稍高的水平
格式:pdf
大?。?span id="rua2xug" class="single-tag-height">52KB
頁數(shù): 2頁
評分: 4.5
CANopen,DeviceNet電纜M12插頭
本書是一本介紹搜索引擎開發(fā)的書籍,通過本書,讀者可以獨立構建一個企業(yè)級的搜索引擎網(wǎng)站。本書講解了搜索引擎與信息檢索基礎,Lucene入門實例,索引的建立,使用Lucene來搜索,排序,分析器,對Word、Excel和PDF格式文檔的解析,Compass搜索引擎框架,Lucene分布式,爬蟲Heritrix,HTMLParser,DWR等內(nèi)容。最后綜合這些技術,構建了一個典型的垂直搜索系統(tǒng),具有很強的商業(yè)實用價值。
本書是一本使用Lucene和Heritrix來講解搜索引擎構建的書,通過對API和源代碼的分析,力求使讀者在應用的基礎上,能夠深入其核心,自行擴展和開發(fā)相應組件,發(fā)揮想象力,開發(fā)出更具有創(chuàng)意的搜索引擎產(chǎn)品。
本書適合Java程序員和從事計算機軟件開發(fā)的編程人員閱讀,同時也可以作為搜索引擎愛好者的入門書籍。
開發(fā)自己的搜索引擎---Lucene+Heritrix(第2版)?圖書信息
副 標 題:Lucene+Heritrix
作 者:邱哲,符滔滔,王學松 編著 出 版 社:人民郵電出版社
出版時間:2010-1-1
版 次:2
頁 數(shù):562
字 數(shù):773000
印刷時間:2010-1-1
開 本:16開
紙 張:膠版紙
印 次:1
I S B N:9787115215291
包 裝:平裝
定 價:69.00元
第一篇 搜索引擎入門
1.1 搜索引擎的歷史
1.1.1 萌芽:Archie、Gopher
1.1.2 起步:Robot(網(wǎng)絡機器人)的出現(xiàn)與Spider(網(wǎng)絡爬蟲)
1.1.3 發(fā)展:Excite、Galaxy、Yahoo等
1.1.4 繁榮:Infoseek、AltaVista、Google和Baidu
1.2 信息檢索系統(tǒng)的基本知識
1.2.1 什么是信息檢索系統(tǒng)
1.2.2 信息檢索的過程
1.2.3 傳統(tǒng)查找的優(yōu)點和不足
1.2.4 使用索引提高檢索速度
1.2.5 倒排索引
1.2.6 評價信息檢索系統(tǒng)的標準
1.3 Lucene簡介
1.4 小結
第二篇 Lucene開發(fā)詳解
2.1 實例介紹
2.1.1 實例說明
2.1.2 開發(fā)過程
2.2 準備工作
2.2.1 將文檔的全角標點轉換成半角標點
2.2.2 將大文檔切分成多個小文檔
2.2.3 預處理源文件的統(tǒng)一接口
2.3 創(chuàng)建Eclipse工程
2.3.1 準備工作
2.3.2 創(chuàng)建工程并引入Lucene的JAR包
2.3.3 運行文檔預處理類
2.3.4 創(chuàng)建處理文檔的索引類:IndexProcessor
2.3.5 創(chuàng)建檢索索引的搜索類
2.4 運行效果
2.5 小結
3.1 Document邏輯文件
3.1.1 Lucene的Document
3.1.2 為Document添加多種Field
3.1.3 Document的內(nèi)部實現(xiàn)
3.2 Field的內(nèi)部實現(xiàn)
3.2.1 Field包含的類
3.2.2 Field類的構造方法
3.3 Lucene的索引工具IndexWriter
3.3.1 IndexWriter的初始化
3.3.2 向索引添加文檔
3.3.3 限制每個Field中的詞條的數(shù)量
3.4 Lucene索引過程詳解
3.4.1 Lucene索引建立過程概述
3.4.2 使用addDocument方法向索引添加文檔
3.4.3 DocumentWriter的addDocument方法
3.4.4 文檔的倒排
3.4.5 對postingTable進行排序
3.4.6 將Posting信息寫入索引
3.5 索引文件格式
3.5.1 索引的segment
3.5.2 .fnm格式
3.5.3 .fdx與.fdt格式
3.5.4 .tii與.tis格式
3.5.5 deletable格式
3.5.6 復合索引格式.cfs
3.6 索引過程的優(yōu)化
3.6.1 合并因子mergeFactor
3.6.2 maxMergeDocs
3.6.3 minMergeDocs
3.7 索引的合并與索引的優(yōu)化
3.7.1 FSDirectory與RAMDirectory
3.7.2 使用IndexWriter來合并索引
3.7.3 索引的優(yōu)化
3.8 從索引中刪除文檔
3.8.1 索引的讀取工具IndexReader
3.8.2 使用文檔ID號來刪除特定文檔
3.8.3 使用Field信息來刪除批量文檔
3.9 Lucene的同步問題
3.9.1 為什么要進行同步以及Lucene的同步法則
3.9.2 commit.lock與write.lock
3.10 Lucene 2.0的新類:IndexModifier類
3.11 小結
4.1 使用IndexSearcher進行搜索
4.1.1 初始化IndexSearcher
4.1.2 IndexSearcher最簡單的使用
4.1.3 IndexSearcher的多種search方法
4.2 Hits類詳解
4.2.1 Hits類的公有接口
4.2.2 效率分析
4.2.3 Hits內(nèi)部的緩存
4.2.4 Hits類的工作原理
4.3 對搜索結果的評分
4.3.1 文檔與詞條的向量空間
4.3.2 Lucene的文檔得分算法
4.4 構建各種Lucene內(nèi)建的Query對象
4.4.1 toString查看原子查詢
4.4.2 查詢重寫與權重
4.4.3 TermQuery詞條搜索
4.4.4 BooleanQuery布爾搜索
4.4.5 RangeQuery范圍搜索
4.4.6 PrefixQuery前綴搜索
4.4.7 PhraseQuery短語搜索
4.4.8 MultiPhraseQuery多短語搜索
4.4.9 FuzzyQuery模糊搜索
4.4.10 WildcardQuery通配符搜索
4.4.11 SpanQuery跨度搜索
4.5 第三方提供的Query對象:RegexQuery
4.6 通過QueryParser轉換用戶關鍵字
4.6.1 詞條的定義
4.6.2 QueryParser初始化
4.6.3 改變QueryParser默認的布爾邏輯
4.6.4 短語和QueryParser
4.6.5 FuzzyQuery和QueryParser
4.6.6 通配符與QueryParser
4.6.7 查找指定的Field
4.6.8 RangeQuery與QueryParser
4.6.9 QueryParser和SpanQuery
4.7 多Field搜索與多索引搜索
4.7.1 多域搜索MultiFieldQueryParser
4.7.2 MultiSearcher在多個索引上搜索
4.7.3 ParalellMultiSearcher:多線程搜索
4.7.4 Searchable和RMI
4.8 小結
5.1 相關度排序
5.1.1 使用Score進行自然排序
5.1.2 Searcher的explain方法
5.1.3 通過改變boost值來改變文檔的得分
5.2 使用Sort來排序
5.2.1 Sort簡介
5.2.2 SortField
5.2.3 按文檔得分進行排序
5.2.4 按文檔的內(nèi)部ID號來排序
5.2.5 按一個或多個Field來排序
5.2.6 改變SortField中的Locale信息
5.3 搜索的過濾器
5.3.1 過濾器的基本結構
5.3.2 一個簡單的Filter:建立索引
5.3.3 一個簡單的Filter:打印索引文檔信息
5.3.4 一個簡單的Filter:安全級別與過濾器代碼
5.3.5 一個簡單的Filter:在搜索時應用過濾器
5.3.6 一個簡單的Filter:總結
5.3.7 按范圍過濾RangeFilter
5.3.8 在結果中查詢QueryFilter
5.3.9 緩存結果:CachingWrapperFilter
5.4 翻頁問題
5.4.1 依賴于session的翻頁
5.4.2 多次查詢
5.4.3 緩存+多次查詢
5.4.4 緩存+多次查詢+數(shù)據(jù)庫
5.5 小結
6.1 分析
6.1.1 分詞
6.1.2 Lucene的分析器的結構
6.1.3 Lucene的分析器的實現(xiàn)
6.2 Lucene與JavaCC
6.2.1 JavaCC簡介
6.2.2 JavaCC為Lucene提供的分析器腳本
6.2.3 Lucene的標準分析器
6.2.4 標準過濾器:StandardFilter
6.2.5 大小寫轉換器:LowerCaseFilter
6.2.6 忽略詞過濾器:StopFilter
6.3 分析器的進階
6.3.1 再看StandardAnalyzer中的管道過濾器結構
6.3.2 長度過濾器:LengthFilter
6.3.3 PerFieldAnalyzerWrapper
6.3.4 其他
6.4 對中文的分析
6.4.1 現(xiàn)有的中文分詞方式簡介
6.4.2 中科院的分詞軟件和JE分詞
6.5 小結
第三篇 Lucene相關話題
7.1 使用PDFBox處理PDF文檔
7.1.1 PDFBox的下載
7.1.2 在Eclipse中配置
7.1.3 使用PDFBox解析PDF內(nèi)容
7.1.4 運行效果
7.1.5 與Lucene的集成
7.2 使用xpdf來處理中文PDF文檔
7.2.1 xpdf的下載
7.2.2 配置
7.2.3 提取中文
7.2.4 運行效果
7.3 使用POI來處理Excel和Word文件格式
7.3.1 對Excel的處理類
7.3.2 ExcelReader的運行效果
7.3.3 POI中Excel文件Cell的類型
7.3.4 對Word的處理類
7.4 使用Jacob來處理Word文檔
7.4.1 Jacob的下載
7.4.2 在Eclipse中配置
7.5 小結
8.1 Compass簡介
8.1.1 Compass的下載
8.1.2 Compass的代碼片斷
8.2 Compass的初始配置
8.2.1 Compass的配置文件
8.2.2 將索引存放于內(nèi)存中
8.2.3 使用JDBC來存儲索引
8.2.4 使用連接池來存儲索引
8.2.5 加載compass.cfg.xml文件
8.3 域模型的配置
8.3.1 實體代碼
8.3.2 實體關系
8.3.3 實體Book的配置文件
8.3.4 通用元數(shù)據(jù)定義文件(.cmd.xml)
8.3.5 Author和Article的配置文件
8.4 使用Compass來建立索引
8.4.1 索引代碼
8.4.2 對象關系圖和運行結果
8.5 使用Compass來搜索
8.5.1 使用find()方法搜索
8.5.2 CompassHits類型
8.5.3 CompassHit類型
8.5.4 使用Lucene語法來查找
8.6 配置Analyzer和Optimizer
8.7 小結
9.1 Lucene與分布式
9.1.1 什么是GFS
9.1.2 為Lucene提供分布式的幾點設想
9.2 Google的Search API
9.2.1 搭建環(huán)境
9.2.2 構建搜索類
9.2.3 設置查詢時的參數(shù)和查詢語法
9.2.4 運行測試
9.3 小結
第四篇 網(wǎng)絡爬蟲Heritrix
第10章 無比強大的網(wǎng)絡爬蟲Heritrix?? 10.1 Heritrix使用入門
10.1.1 下載和運行Heritrix
10.1.2 在Eclipse里配置Heritrix的開發(fā)環(huán)境
10.1.3 創(chuàng)建一個新的抓取任務
10.1.4 設置抓取時的處理鏈
10.1.5 設置運行時的參數(shù)
10.1.6 運行抓取任務
10.1.7 Heritrix的鏡像存儲結構
10.1.8 終止抓取或終止Heritrix的運行
10.2 Heritrix的架構
10.2.1 抓取任務CrawlOrder
10.2.2 中央控制器CrawlController
10.2.3 Frontier鏈接制造工廠
10.2.4 用Berkeley DB實現(xiàn)的BdbFrontier
10.2.5 Heritrix的多線程ToeThread和ToePool
10.2.6 處理鏈和Processor
10.3 擴展和定制Heritrix
10.3.1 向Heritrix中添加自己的Extractor
10.3.2 定制Queue-assignment-policy的兩個問題
10.3.3 定制Queue-assignment-policy繼承QueueAssignmentPolicy類
10.3.4 擴展FrontierScheduler來抓取特定的內(nèi)容
10.3.5 在Prefetcher中取消robots.txt的限制
10.4 小結
第五篇 構建垂直搜索引擎
11.1 實例簡介以及實現(xiàn)途徑
11.1.1 選擇網(wǎng)站
11.1.2 太平洋電腦網(wǎng)和網(wǎng)易手機頻道
11.1.3 分析網(wǎng)站內(nèi)容并準備抓取清單
11.1.4 從下拉列表獲得手機品牌首頁
11.1.5 解析手機品牌頁面
11.2 在Heritrix中為pconline開發(fā)抓取所需的定制類
11.2.1 保存所有產(chǎn)品的頁面和圖片
11.2.2 不保存其他無關頁面
11.2.3 開始抓取
11.3 在Heritrix中為網(wǎng)易手機頻道開發(fā)抓取所需的定制類
11.3.1 分析網(wǎng)易手機頻道
11.3.2 設計抓取代碼
11.4 在Eclipse中創(chuàng)建工程結構
11.4.1 下載插件
11.4.2 在Eclipse中配置插件
11.4.3 創(chuàng)建工程
11.4.4 設置工程的Context
11.4.5 設定源代碼存放和輸出路徑
11.4.6 添加Java代碼
11.4.7 添加Jar包
11.4.8 創(chuàng)建JSP文件
11.4.9 工程整體結構一覽
11.5 設定配置文件及其相關類
11.5.1 系統(tǒng)屬性配置文件
11.5.2 封裝配置文件
11.6 產(chǎn)品詳細信息文件格式
11.7 解析網(wǎng)頁信息的基類Extractor
11.8 太平洋電腦網(wǎng)手機產(chǎn)品頁面Extractor
11.9 pconline產(chǎn)品信息運行效果測試
11.9.1 編寫測試函數(shù)
11.9.2 執(zhí)行測試
11.10 網(wǎng)易手機頻道的產(chǎn)品信息運行效果
11.11 構建產(chǎn)品信息詞庫
11.12 數(shù)據(jù)庫與索引結構
11.12.1 定義Product類
11.12.2 確定數(shù)據(jù)庫與索引的結構
11.13 數(shù)據(jù)庫處理和索引處理
11.13.1 對數(shù)據(jù)庫進行操作
11.13.2 對索引進行操作
11.14 調(diào)用數(shù)據(jù)庫處理類和索引處理類
11.15 運行
11.16 小結
使用正則表達式與HTMLParser提取網(wǎng)頁內(nèi)容?
12.1 HTML的基本知識
12.2 JDK中的正則表達式提取網(wǎng)頁內(nèi)容
12.2.1 java.util.regex包
12.2.2 正則表達式提取網(wǎng)頁內(nèi)容實例
12.3 HTMLParser提取網(wǎng)頁內(nèi)容
12.3.1 HTMLParser的下載
12.3.2 HTMLParser概述
12.3.3 Lexer的功能及實現(xiàn)
12.3.4 HTMLParser的功能及實現(xiàn)
12.3.5 HTMLParser實例
12.4 小結
13.1 DWR的下載
13.2 DWR入門與實例演示
13.2.1 創(chuàng)建工程結構
13.2.2 在web.xml中配置DWR
13.2.3 配置dwr.xml
13.2.4 頁面代碼
13.2.5 運行效果
13.2.6 DWR與直接使用XMLHttpRequest對象的比較
13.2.7 在DWR中操縱自定義的對象
13.2.8 查看DWR的輸出日志
13.3 dwr.xml的配置
13.3.1 dwr.xml的標準結構
13.3.2 標簽與DWR自帶的converter和creator
13.3.3 標簽
13.3.4 標簽
13.3.5 另一個例子
13.4 util.js
13.4.1 調(diào)用util.js
13.4.2 使用useLoadingMessage方法顯示提示圖標
13.4.3 DWRUtil.setValue和DWRUtil.getValue
13.4.4 DWRUtil.getValues和DWRUtil.setValues
13.4.5 DWRUtil.addOptions和DWRUtil.removeAllOptions
13.4.6 DWRUtil.addRows和DWRUtil.removeAllRows
13.4.7 DWRUtil.toDescriptiveString方法
13.5 小結
14.1 配置文件
14.1.1 Spring配置文件
14.1.2 DWR配置文件
14.1.3 web.xml
14.2 各種Bean類
14.2.1 SearchResult
14.2.2 SearchResults
14.2.3 SearchRequest
14.3 SearchService的實現(xiàn)
14.4 SearchResultDao
14.5 前臺部分
14.5.1 搜索主頁面main.jsp
14.5.2 圖片的顯示
14.5.3 詳細信息頁面detail.jsp
14.6 問題
14.7 小結