|
公司基本資料信息
|
大數(shù)據(jù)時(shí)代業(yè)已到來(lái),當(dāng)今世界正處在一個(gè)數(shù)據(jù)爆炸的時(shí)代。伴隨著多媒體、云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)的發(fā)展,以及天文觀測(cè)、空間地理、金融分析等各領(lǐng)域每天都在產(chǎn)生巨量的數(shù)據(jù),這些數(shù)據(jù)如此龐大,其規(guī)模、其涌現(xiàn)速度和其處理難點(diǎn)超出目前常規(guī)技術(shù)能管理、處理和分析的能力。一般來(lái)說(shuō),大數(shù)據(jù)具有量大(Volume)、流動(dòng)性大(Velocity),種類多(Variety),分布式(distributed)、非一致(nonuniformity)等特性,這些特點(diǎn)決定了在大數(shù)據(jù)時(shí)代,我們傳統(tǒng)的數(shù)據(jù)處理技術(shù)必須有革命性的變化,包括數(shù)據(jù)的存儲(chǔ)與組織方式、計(jì)算方法、數(shù)據(jù)分析,而對(duì)大數(shù)據(jù)的智能分析技術(shù)將尤為重要。
大數(shù)據(jù)的潛在價(jià)值是真實(shí)而巨大的,為了充分挖掘大數(shù)據(jù)的價(jià)值,必須解決一系列技術(shù)問(wèn)題,這些問(wèn)題包括數(shù)據(jù)采集、信息抽取和清理、數(shù)據(jù)集成、數(shù)據(jù)分析以及解釋和部署[1].這些問(wèn)題涉及數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)分析、數(shù)據(jù)可視化、應(yīng)用服務(wù)、信息共享、數(shù)據(jù)安全和隱私保護(hù)、大規(guī)模并行計(jì)算、流計(jì)算、云計(jì)算等多層面的信息技術(shù),需要計(jì)算機(jī)軟、硬件的綜合解決方案.
計(jì)算智能是人工智能發(fā)展的新階段,是受到大自然智慧和人類智慧的啟發(fā)而設(shè)計(jì)出的一類解決復(fù)雜問(wèn)題方法的統(tǒng)稱.與傳統(tǒng)的人工智能相比,計(jì)算智能的最大特點(diǎn)是不需要建立問(wèn)題本身的精確(數(shù)學(xué)或邏輯)模型,不依賴于知識(shí)表示,而是在觀測(cè)數(shù)據(jù)上直接對(duì)輸入信息進(jìn)行處理.這一特點(diǎn)非常適合于解決大數(shù)據(jù)分析中那些由于難以建立有效的形式化模型而用傳統(tǒng)技術(shù)難以解決,甚至無(wú)法解決的問(wèn)題.近年來(lái),計(jì)算智能理論與技術(shù)發(fā)展迅速,在圖像處理、模式識(shí)別、知識(shí)獲取、經(jīng)濟(jì)管理、生物醫(yī)學(xué)、智能控制等許多領(lǐng)域都得到了廣泛應(yīng)用,取得了一系列令人鼓舞的研究成果.同時(shí),大數(shù)據(jù)也給計(jì)算智能發(fā)展帶來(lái)新的挑戰(zhàn)與機(jī)遇.
在大數(shù)據(jù)環(huán)境下,人們生產(chǎn)和采集數(shù)據(jù)的能力日益增強(qiáng),手段愈發(fā)豐富,這將導(dǎo)致數(shù)據(jù)在規(guī)模增大的同時(shí),屬性(維度)也隨之增長(zhǎng).這樣的高維數(shù)據(jù)會(huì)帶來(lái)兩個(gè)問(wèn)題:首先,對(duì)于特定的應(yīng)用而言,一般不需要關(guān)注數(shù)據(jù)的全部屬性(維度),原始數(shù)據(jù)中包含的大量冗余信息和噪聲反而會(huì)隱藏其中的有價(jià)值信息;其次,高維數(shù)據(jù)嚴(yán)重影響算法的性能,一些在低維特征空間中有效的算法,在超過(guò)30維的特征空間中將出現(xiàn)性能退化.
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是滿足大數(shù)據(jù)挖掘?qū)φZ(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語(yǔ)言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過(guò)濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶端工具,云服務(wù)與二次開(kāi)發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無(wú)縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類開(kāi)發(fā)語(yǔ)言使用。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對(duì)于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來(lái),可見(jiàn)文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識(shí)、文獻(xiàn)知識(shí)等各類知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。