亚洲国产天堂久久综合226114,亚洲va中文字幕无码毛片,亚洲av无码片vr一区二区三区,亚洲av无码乱码在线观看,午夜爽爽爽男女免费观看影院

曙海教育集團(tuán)
全國報名免費(fèi)熱線:4008699035 微信:shuhaipeixun
或15921673576(微信同號) QQ:1299983702
首頁 課程表 在線聊 報名 講師 品牌 QQ聊 活動 就業(yè)
 
 
     班級規(guī)模及環(huán)境--熱線:4008699035 手機(jī):15921673576( 微信同號)
         每期人數(shù)限3到5人。
     上課時間和地點(diǎn)
  上課地點(diǎn):【上?!浚和瑵?jì)大學(xué)(滬西)/新城金郡商務(wù)樓(11號線白銀路站) 【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學(xué)成教院 【北京分部】:北京中山學(xué)院/福鑫大樓 【南京分部】:金港大廈(和燕路) 【武漢分部】:佳源大廈(高新二路) 【成都分部】:領(lǐng)館區(qū)1號(中和大道) 【沈陽分部】:沈陽理工大學(xué)/六宅臻品 【鄭州分部】:鄭州大學(xué)/錦華大廈 【石家莊分部】:河北科技大學(xué)/瑞景大廈 【廣州分部】:廣糧大廈 【西安分部】:協(xié)同大廈
最近開課時間(周末班/連續(xù)班/晚班):2020年3月16日
     實(shí)驗(yàn)設(shè)備
       ☆資深工程師授課
        
        ☆注重質(zhì)量 ☆邊講邊練

        ☆合格學(xué)員免費(fèi)推薦工作
        ★實(shí)驗(yàn)設(shè)備請點(diǎn)擊這兒查看★
     質(zhì)量保障
 

        1、培訓(xùn)過程中,如有部分內(nèi)容理解不透或消化不好,可免費(fèi)在以后培訓(xùn)班中重聽;
        2、培訓(xùn)結(jié)束后,授課老師留給學(xué)員聯(lián)系方式,保障培訓(xùn)效果,免費(fèi)提供課后技術(shù)支持。
        3、培訓(xùn)合格學(xué)員可享受免費(fèi)推薦就業(yè)機(jī)會。

 
課程大綱
   
 


一.概述:

1.1 什么是Lucene4

1.2 全文檢索系統(tǒng)的結(jié)構(gòu)

1.3 Lucene4能做什么

1.4 為什么使用Lucene4

1.5 Lucene4只關(guān)注文本的索引和搜索

1.6 索引庫結(jié)構(gòu)—倒排序索引

1.7 基于Lucene4的搜索程序例子

1.8 Nutch

Nutch是一個開源Java實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

1.9 開源搜索引擎列表

JXTA Search是一個分布式的搜索系統(tǒng).設(shè)計用在點(diǎn)對點(diǎn)的網(wǎng)絡(luò)與網(wǎng)站上.

Carrot2是一個開源搜索結(jié)果分類引擎。它能夠自動把搜索結(jié)果組織成一些專題分類。

?MG4J可以讓你為大量的文檔集合構(gòu)建一個被壓縮的全文本索引,通過使內(nèi)插編碼(interpolative coding)技術(shù).

1.10 全球商用搜索市場

在全球商用搜索市場上,Autonomy是老大!Autonomy的市值不足Google的零頭,而Google在這一市場的份額也不足Autonomy份額的零頭.

1.11 幾種常見的基于Lucene4的開源搜索解決方案對比

Solr Cloud;Solandra = Solr + Cassandra ;HBasene(Lucene+HBase)

1.12 Lucene4倒排索引原理

1.13 Lucene4基本開發(fā)環(huán)境配置-樣例項(xiàng)目概覽

1.14 快速瀏覽demo

?

二、Lucene系統(tǒng)架構(gòu)?

2.1 Lucene4系統(tǒng)結(jié)構(gòu)

2.2 Lucene4包結(jié)構(gòu)功能表?

2.3 Lucene4的主要邏輯圖?

2.3.1 查詢邏輯

2.3.2 入庫邏輯

2.4 理解核心索引類?

2.4.1 IndexWriter

2.4.2 Directory

2.4.3 Analyzer

?2.4.4 Document

2.4.5 Field

2.5 靜態(tài)內(nèi)部類

Field.Store ?表示Field的存儲方式

2.6 關(guān)于Field的重要說明

org.apache.lucene.document.StringField ??A field that is indexed but not tokenized: the entire String value is indexed as a single token.

org.apache.lucene.document.TextField ? ? ?A field that is indexed and tokenized, without term vectors. For example this would be used on a 'body' field, that contains the bulk of a document's text.

org.apache.lucene.document.BinaryDocValuesField ??The values are stored directly with no sharing, which is a good fit when the fields don't share (many) values, such as a title field. If values may be shared and sorted it's better to use?SortedDocValuesField.?

2.7 項(xiàng)目實(shí)戰(zhàn)動手演練

?

三、 Lucene索引里有什么

什么是索引 index

Lucene索引的術(shù)語定義

倒排索引(inverted indexing)

Fields的種類

片斷(segments)

文檔編號(document numbers)

索引結(jié)構(gòu)概述

Lucene src自帶樣例代碼

Lucene索引的目錄結(jié)構(gòu)

?

四、Lucene索引深入

4.1 Lucene4索引的目錄結(jié)構(gòu)

4.2 索引文件后綴名說明:segments.gen, segments_N;write.lock;.si;.cfs, .cfe ;.fnm;dex .fdx;.fdt;.tim;.tip;.doc;.pos;.pay;.nvd, .nvm;.dvd, .dvm;.tvx;.tvd;.tvf;.del

4.3 當(dāng)前版本索引的限制:Lucene的當(dāng)前實(shí)現(xiàn)索引中使用Java語言中的 int 對term詞典計數(shù)。所以單個索引片段文件中詞典最大的數(shù)目為: ~2.1 billion ?(約21億) ?X ?索引片段文件最大個數(shù)(128)

故 能索引的詞典最大數(shù)目為: ~274 billion (約2740億)

這個限制不是索引文件格式造成的,是采用當(dāng)前java實(shí)現(xiàn)版本造成的。(This is technically not a limitation of the index file format, just of Lucene's current implementation.)

同理:也是使用int 對document文檔源計數(shù)的。并且索引文件格式也是采用的?Int32?在硬盤上存儲document文檔號的。這個限制即是實(shí)現(xiàn)版本也是索引文件格式的限制,后續(xù)可能會改為?UInt64?或?Vint 更好就沒限制了。

4.4 索引文件可放的位置

內(nèi)存,硬盤

?

五、 Lucene索引深入優(yōu)化

5.1 索引的合并

實(shí)際代碼實(shí)戰(zhàn)

5.2 索引優(yōu)化的部分技巧

重用Document和Field實(shí)例

使用按照內(nèi)存消耗Flush代替根據(jù)文檔數(shù)量Flush(4.3版缺?。?/p>

當(dāng)使用 fuzzy 查詢時設(shè)置一個較小的比較長度 (prefixLength)?

考慮使用filters?

等等

?

六、Lucene索引搜索及實(shí)戰(zhàn)

6.1 理解核心搜索類?

6.2 IndexSearcher

6.2.1 基本Search方法

6.2.2 代碼實(shí)戰(zhàn)

?

6.3 Term?

6.3.1 TermQuery?

6.3.2 Hits 返回的命中結(jié)果

6.3.3 關(guān)鍵詞搜索的大致過程

?

6.4 Query?

6.4.1 BooleanQuery布爾搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.2 ? TermRangeQuery范圍搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.3 ? NumericRangeQuery范圍搜索

?使用場景說明及代碼實(shí)戰(zhàn)

6.4.4 ? PrefixQuery 前綴搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.5 ? PhraseQuery短語搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.6 ? MultiPhraseQuery多短語搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.7 ? FuzzyQuery模糊搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.8 ? WildcardQuery通配符搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.9 ? RegexpQuery正則表達(dá)式搜索

使用場景說明及代碼實(shí)戰(zhàn)

6.4.10 ? 正則表達(dá)式語法

深入介紹:正則表達(dá)式是一種文本模式,包括普通字符(例如,a 到 z 之間的字母)和特殊字符(稱為“元字符”)。模式描述在搜索文本時要匹配的一個或多個字符串。/^\s*$/ 匹配空行。? /\d{2} \d{-5}/ 驗(yàn)證由兩位數(shù)字、一個連字符再加 5 位數(shù)字組成的 ID 號。

/<\s*(\S+)(\s[^>]*)?>[\s\S]*<\s*\/\1\s*>/ 匹配 HTML 標(biāo)記。

等等詳細(xì)語法指導(dǎo)

6.4.11 SpanQuery跨度搜索

使用場景說明及代碼實(shí)戰(zhàn)

?

十二、Lucene搜索深入實(shí)戰(zhàn)進(jìn)階

QueryParser語法

一、Terms,F(xiàn)ields

一般來說,創(chuàng)建索引的分析器和查詢的分析器最好保持一致(當(dāng)然也有特殊情況,比如單字索引,分詞組合查詢),所以選擇一個不會干擾查詢詞的分析器是很重要的。

代碼實(shí)戰(zhàn)

?

二、Term操作符 ??

AND,OR,分組,特殊字符及: QueryParser.escape(q)? 可去除q中含有查詢關(guān)鍵字的字符!如:* ,? 等

代碼實(shí)戰(zhàn)

?

三、模糊查詢,范圍查詢

Lucene支持在Term中使用通配符來支持模糊查詢。

范圍查詢是按字典查詢,非“org.apache.lucene.search.NumericRangeQuery”

代碼實(shí)戰(zhàn)

?

四、優(yōu)先級

Lucene支持給不同的查詢詞設(shè)置不同的權(quán)重。設(shè)置權(quán)重使用“^”符號,將“^”放于查詢詞的尾部,同時跟上權(quán)重值,權(quán)重因子越大,該詞越重要。設(shè)置權(quán)重允許你通過給不同的查詢詞設(shè)置不同的權(quán)重來影響文檔的相關(guān)性。

代碼實(shí)戰(zhàn)

?

十五、Lucene高級進(jìn)階

在索引中清除Document

maxDoc()和numDocs()

更新索引中的Document?

分頁搜索的實(shí)現(xiàn)

?

十八、 Lucene排序

Lucene默認(rèn)按照文檔得分進(jìn)行排序

explain方法

加分

sort排序

?

十九、Lucene過濾

內(nèi)置的過濾器

org.apache.lucene.search.Filter 提供了幾個內(nèi)置的過濾器

Direct Known Subclasses:?

CachingWrapperFilter,DocTermOrdsRangeFilter,?FieldCacheRangeFilter,FieldCacheTermsFilter,?FieldValueFilter,?MultiTermQueryWrapperFilter,QueryWrapperFilter

FieldCacheRangeFilter

?

二十、Lucene分詞器?

20.1 英文分析器比較 ??SimpleAnalyzer; StopAnalyzer; StandardAnalyzer xy&z?mail?is?-?xyz@hello.com ,中文 SimpleAnalyzer 空格及各種符號分割:xy ? , ? ?z ? , ? mail ? , ? is ? , ? xyz ? , ? hello ? , ?com , ? 中文 StopAnalyzer?

空格及各種符號分割,去掉停止詞,停止詞包括?is,are,in,on,the等無實(shí)際意義的詞 :xy ? ?, ? z ? , ? ?mail ? ?, ? ? xyz ? ?, ? ?hello ? , ? ?com ?, ? 中文 ?StandardAnalyzer

混合分割,包括了去掉停止詞,支持漢語 :xy , ?z ?, ?mail ?, ?xyz ? , ?hello.com ? , ? 中 ? , ? 文

代碼實(shí)戰(zhàn)

?

20.2 中文分詞器IK Analyzer 2012介紹?

在2012版本中,IK實(shí)現(xiàn)了簡單的分詞歧義排除算法,標(biāo)志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化。?

?

20.3 IK Analyzer 2012特性

采用了特有的“正向迭代最細(xì)粒度切分算法“,支持細(xì)粒度和智能分詞兩種切分模式

2012版本的智能分詞模式支持簡單的分詞排歧義處理和數(shù)量詞合并輸出。?

采用了多子處理器分析模式,支持:英文字母、數(shù)字、中文詞匯等分詞處理,兼容韓文、日文字符?

優(yōu)化的詞典存儲,更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義。特別的,在2012版本,詞典支持中文,英文,數(shù)字混合詞語。

?

20.4 IK Analyzer 2012分詞效果示例

IK Analyzer 2012版本支持 細(xì)粒度切分 和 智能切分,以下是兩種切分方式的演示樣例。?

代碼實(shí)戰(zhàn)

?

20.5 IK Analyzer 2012下載包內(nèi)容

環(huán)境搭建,代碼實(shí)戰(zhàn)

自定義擴(kuò)展詞典實(shí)戰(zhàn)

IKAnalyzer.cfg.xml(分詞器擴(kuò)展配置文件)?

stopword.dic(停止詞典)?

ext.dic(自定義擴(kuò)展詞典詞典)?

常見UTF-8問題演示及解決,代碼實(shí)戰(zhàn)

20.6 高亮工具包

lucene-highlighter-4.3.0.jar

實(shí)現(xiàn)類似baidu搜索高亮顯示關(guān)鍵詞,及上下文的功能

代碼實(shí)戰(zhàn)

?

二十三、Lucene項(xiàng)目實(shí)戰(zhàn) ??9課時

某大型企業(yè)信息化系統(tǒng)中 某某文檔中心管理系統(tǒng)

23.1 實(shí)現(xiàn)上傳并解析全文檢索各種文件類型

23.1.1 上傳并解析各種格式的內(nèi)容文檔:(.txt,.pdf,.doc,.xls,.docx,.xlsx,.htm……)

23.1.2 Apache Tika – 文檔解析工具包

org.apache.tika.parser.AutoDetectParser

23.1.3 文件上傳工具包使用實(shí)戰(zhàn)

org.apache.commons.fileupload

23.2 實(shí)現(xiàn)代碼功能:

23.2.1 文件上傳,

org.apache.commons.fileupload.servlet

實(shí)現(xiàn)文件上傳并建立索引

23.2.2 文件下載,

實(shí)現(xiàn)文件點(diǎn)擊下載

23.2.3 文件管理:文件刪除,

目錄管理,目錄的增加、修改、刪除

23.2.4 全文檢索:

實(shí)現(xiàn)全文檢索分頁,

類似baidu搜索的分頁實(shí)現(xiàn)

全文檢索上下文實(shí)現(xiàn)摘要

org.apache.Lucene4.search.highlight.*

實(shí)現(xiàn)類似baidu搜索高亮顯示關(guān)鍵詞,及上下文的功能

 

 

??????? Troubleshooting Java Applications
? ? ? ? ? ? ? ? Classpath Errors
? ? ? ? ? ? ? ? Class Loaders
? ? ? ? ? ? ? ? Common Java Errors
??????? Troubleshooting Servers
? ? ? ? ? ? ? ? Native Libraries
? ? ? ? ? ? ? ? Threading Architecture
? ? ? ? ? ? ? ? Work Managers
? ? ? ? ? ? ? ? Deadlocks
? ? ? ? ? ? ? ? Overload Protection
? ? ? ? ? ? ? ? Deployment Problems
??????? Troubleshooting JDBC
? ? ? ? ? ? ? ? Data Source Management
? ? ? ? ? ? ? ? Diagnostics
? ? ? ? ? ? ? ? Debug Flags
? ? ? ? ? ? ? ? Connectivity Problems
? ? ? ? ? ? ? ? Connection Leaks
? ? ? ? ? ? ? ? Database Availability
??????? Troubleshooting JMS
? ? ? ? ? ? ? ? Management
? ? ? ? ? ? ? ? MBean Hierarchy
? ? ? ? ? ? ? ? Message Logging
? ? ? ? ? ? ? ? Diagnostics
? ? ? ? ? ? ? ? Debug Flags
? ? ? ? ? ? ? ? Overload Protection
? ? ? ? ? ? ? ? Lost Messages
? ? ? ? ? ? ? ? Duplicate Messages
??????? Troubleshooting Security
? ? ? ? ? ? ? ? SSL Internals
? ? ? ? ? ? ? ? Keystore Management
? ? ? ? ? ? ? ? Debug Flags
? ? ? ? ? ? ? ? Common SSL Problems
? ? ? ? ? ? ? ? Certificate Validation
? ? ? ? ? ? ? ? Embedded LDAP
? ? ? ? ? ? ? ? Security Audit
? ? ? ? ? ? ? ? Common LDAP Problems
??????? Troubleshooting Node Manager
? ? ? ? ? ? ? ? Internals
? ? ? ? ? ? ? ? Security
? ? ? ? ? ? ? ? Common Issues
??????? Troubleshooting Clusters
? ? ? ? ? ? ? ? Plug-in Configuration
? ? ? ? ? ? ? ? OHS Overview
? ? ? ? ? ? ? ? Plug-in Connectivity
? ? ? ? ? ? ? ? Plug-in Diagnostics
? ? ? ? ? ? ? ? Unicast Communication
? ? ? ? ? ? ? ? Replication Debug Flags
? ? ? ? ? ? ? ? Typical Replication Issues
熱線:4008699035 手機(jī):15921673576( 微信同號)
備案號:備案號:滬ICP備08026168號-1 .(2024年07月24日)......................
友情鏈接:Cadence培訓(xùn) ICEPAK培訓(xùn) EMC培訓(xùn) 電磁兼容培訓(xùn) sas容培訓(xùn) 羅克韋爾PLC培訓(xùn) 歐姆龍PLC培訓(xùn) PLC培訓(xùn) 三菱PLC培訓(xùn) 西門子PLC培訓(xùn) dcs培訓(xùn) 橫河dcs培訓(xùn) 艾默生培訓(xùn) robot CAD培訓(xùn) eplan培訓(xùn) dcs培訓(xùn) 電路板設(shè)計培訓(xùn) 浙大dcs培訓(xùn) PCB設(shè)計培訓(xùn) adams培訓(xùn) fluent培訓(xùn)系列課程 培訓(xùn)機(jī)構(gòu)課程短期培訓(xùn)系列課程培訓(xùn)機(jī)構(gòu) 長期課程列表實(shí)踐課程高級課程學(xué)校培訓(xùn)機(jī)構(gòu)周末班培訓(xùn) 南京 NS3培訓(xùn) OpenGL培訓(xùn) FPGA培訓(xùn) PCIE培訓(xùn) MTK培訓(xùn) Cortex訓(xùn) Arduino培訓(xùn) 單片機(jī)培訓(xùn) EMC培訓(xùn) 信號完整性培訓(xùn) 電源設(shè)計培訓(xùn) 電機(jī)控制培訓(xùn) LabVIEW培訓(xùn) OPENCV培訓(xùn) 集成電路培訓(xùn) UVM驗(yàn)證培訓(xùn) VxWorks培訓(xùn) CST培訓(xùn) PLC培訓(xùn) Python培訓(xùn) ANSYS培訓(xùn) VB語言培訓(xùn) HFSS培訓(xùn) SAS培訓(xùn) Ansys培訓(xùn) 短期培訓(xùn)系列課程培訓(xùn)機(jī)構(gòu) 長期課程列表實(shí)踐課程高級課程學(xué)校培訓(xùn)機(jī)構(gòu)周末班 端海 教育 企業(yè) 學(xué)院 培訓(xùn)課程 系列班 長期課程列表實(shí)踐課程高級課程學(xué)校培訓(xùn)機(jī)構(gòu)周末班 短期培訓(xùn)系列課程培訓(xùn)機(jī)構(gòu) 端海教育企業(yè)學(xué)院培訓(xùn)課程 系列班