当前位置: 首页 > 实用文档 > 好词 > 与渡有关的词语

与渡有关的词语

2016-02-14 09:44:25 成考报名 来源:http://www.chinazhaokao.com 浏览:

导读: 与渡有关的词语篇一《与态度有关词汇》 ...

欢迎来到中国招生考试网http://www.chinazhaokao.com/成考报名栏目,本文为大家带来《与渡有关的词语》,希望能帮助到你。

与渡有关的词语篇一
《与态度有关词汇》

一.情感态度题的词语选项一般可以分为以下几种:

1.褒义词

impartial,(公正的), rewarding(有回报的), appreciative (欣赏的),positive (肯定的, 积极的), optimistic (乐观的), useful (有用的, 有益的), admiring (赞赏的, 钦佩的), interesting (有趣的), instructive (有益的, 教育性的), enthusiastic (热心的, 热情的), supportive (支持的), support(支持), approval (赞成, 承认), approving (满意的), confident (自信的, 确信的), impressed (留下印象的), reverent (尊敬的), polite (有礼貌的, 文雅的)。

2.贬义词

Apprehensive(担忧的), hostile (敌对的), dubious(怀疑的),intolerant (不能容忍的), negative (否定的, 消极的), pessimistic (悲观的, 厌世的), subjective (主观的, 个人的), disappointed (失望的), frustrated (失败的, 落空的), critical (批评的), questioning (质疑的), doubtful (可疑的, 不确的), compromising (妥协的), dissatisfied (不满意的, 不高兴的), biased (有偏见的), satirical (讽刺的), puzzling (迷惑的), suspicious (怀疑的), gloomy (令人沮丧的), scared (恐惧的), cynical (愤世嫉俗的), oppose (反对), opposition (反对), disgust (令人反感), disgusting (令人厌恶的), worried (闷闷不乐的), depressed (沮丧的), contemptuous (轻蔑的, 侮辱的), arbitrary/opinionated (武断的) 。

3.中性词

analytical (分析的),apathetic (缺乏兴趣的),concerned (关心的), cautious (谨慎的, 小心的), neutral (中性的),objective (客观的), impartial (公平的, 不偏不倚的), indifferent (无关紧要的), impassive (冷漠的), detached (超然的,不偏不倚的), unconcerned (不关心的), uninterested (不感兴趣的), , humorous (滑稽的, 诙谐的), , disinterested (无私的), sensitive (敏感的), factual (事实的, 实际的), informative (提供资讯的), persuasive (说服的), personal (个人的,), formal (正式的), informal (非正式的), casual (偶然的),

二.情感态度题常见出题位置

1.直接表达作者或者其他人态度的句子。

2.一些感情色彩较浓的词语,尤其是形容词、动词和副词等。

3.首段和末段。

4.出现转折的地方,如nevertheless, however, but, yet等。

5.文章中一些情态动词后面的内容,这些情态动词有should, shouldn’t, must, mustn’t等。

三.情感态度题正确答案选项的特点

1.很多情况下,作者只是在客观描述一种现象或是一个观点,所以objective作为正确选项的频率极高。

2.一般来说,indifferent不会正确选项,因为作者如果对一个事件漠不关心、就不会专门撰文。另外,

向cynical, disgust, desperate等词语如果出现也不会是正确选项,因为一般考研阅读理解所选的文章

不会带有如此强烈的情感,如谩骂、攻击等。

3.如果作者开篇就提出了一个观点,而全文中有没有转折和对比的内容,一般来说作者对这个观点持支持

态度。

4.如果作者开篇提出一个观点或者引述了别人的观点,而后文出现重要的转折,对上述观点进行批评后者

否定,那么作者自己的观点往往与开头提出的观点相反。

5.如果选项中出现了一对反义词,那么正确答案往往是这对反义词中的一个,考生可以忽略其余两个选

项。

6.总结历年的文章,我们发现在关于社会科学和人文科学的文章中,一般来说如果作者都会有支持的态

度;在关于自然科学的文章中,作者的态度则经常是objective, analytical等。

四.情感态度题干扰答案选项的特点

1.选项没有体现作者的观点,甚至是相反的意思。

2.选项中张冠李戴,把别人的观点放到了作者头上,或者把作者的观点放到了别人的头上,要加以区分。

3.上文中提到的indifferent 及其同义词和近义词等,以及包含强烈情感的词语。

五.情感态度题解题方法

1.找到直接表述作者态度的句子,对应相应的选项。

2.如果没有明确表述态度的句子,则从文章的字里行间把握文章的整体基调。

3.注意不要混淆自己的态度和作者的态度,也不要混淆作者的态度和文中其他人的态度。

与渡有关的词语篇二
《流量内容词语相关度的网络热点话题提取》

第41卷 第10期西 安 交 通 大 学 学 报

   

2007年10月JOURNALOFXI′ANJIAOTONGUNIVERSITY

Vol.41 №10Oct.2007

流量内容词语相关度的网络热点话题提取

周亚东1,2,孙钦东1,2,5,管晓宏1,2,3,4,李卫1,2,陶敬1,2

(1.西安交通大学智能网络与网络安全教育部重点实验室,710049,西安;2.西安交通大学机械制造系统工程

国家重点实验室,710049,西安;3.清华大学自动化系,100084,北京;4.清华大学信息科学与技术国家实验室,100084,北京;5.西安理工大学计算机科学与工程学院,710048,西安)

摘要:针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.,采用基于高密度连接区域的密度聚类方法得到热点词语簇,息,得出网络热点话题的属性描述.实验结果表明,,话题提取有效率达到1617%,.、话题监测与跟踪方法相比,所提算法通过选取合适的数据源,,从而得到了更为准确的网络信息传播状况.

关键词:网络热点话题;中图分类号::A文章编号:0253Ο987X(2007)10Ο1142Ο04

ExtractionofTrafficContentWordsCorrelation

ZhouYadong1,2,SunQindong1,2,5,GuanXiaohong1,2,3,4,LiWei1,2,TaoJing1,2

(1.MOEKeyLab.forIntelligentNetworksandNetworkSecurity,Xi′anJiaotongUniversity,Xi′an710049,China;2.StateKeyLab.forManufacturingSystems,Xi′anJiaotongUniversity,Xi′an710049,China;3.DepartmentofAutomation,TsinghuaUniversity,Beijing100084,China;4.TsinghuaNationalLab.forInformationScienceandTechnology,TsinghuaUniversity,Beijing100084,China;5.SchoolofComputerScienceandEngineering,Xi′anUniversityofTechnology,Xi′an710048,China)

Abstract:Aimingattherequirementsofnetworkpublicfeelinganalysis,theformaldefinitionanddescriptionofthepopulartopiconInternetispresented,therelationshipbetweenhotwordsandpopulartopicsisanalyzed,andfinallyahotpointwordscorrelationcomputingapproachforextractingpopulartopicsonInternetisintroducedintrafficcontents.Basedonthat,DBSCAN(Density2BasedSpaticalClusteringofApplicationwithNoise)clusteringalgorithmisadoptedtoextractpopulartopicsandformalizedresultsaregiven.Thetestresultsshowthatthismethodhasanavailabilityof1617%inextractingInternetpopulartopics,which,comparedtowebmin2ingandTDT(TopicDetectionandTracking),canprovideamoresuitabledatasourceforeffec2tiverecoveryofInternetpublicopinions.

Keywords:populartopiconInternet;networktrafficcontent;Internetpublicopinionanalysis

  目前,互联网已经成为人们交流信息的重要渠道,网络舆情分析研究也随之受到广泛关注.网络舆情信息具有规模巨大、凌乱无序等特点,如何从中识别、分析有价值的信息已成为研究热点.

针对这一问题,国内外均开展了相关研究[1Ο6],

主要包括两类,一类是话题识别与追踪研究[1Ο2],另

一类是Web数据挖掘研究[4],它们都以Web站点发布的各类信息为数据源,其结果反映了网络媒体对信息的呈现状况,但却无法有效反映网络用户对信息的关注状况,因此也就很难反映网络舆情的真

收稿日期:2007Ο01Ο10. 作者简介:周亚东(1982~),男,博士生;管晓宏(联系人),男,教授,博士生导师. 基金项目:国家自然科学基金资助项目(60574087);国家高技术研究发展计划资助项目(2003AA142060).

 第10期               周亚东,等:流量内容词语相关度的网络热点话题提取1143

实情况.

本文将网络流量作为数据源,这种流量数据能直接对应于用户的网络行为,能更为准确地反映网络舆情的状况.同时,本文着重于研究还原、理解网络用户的各种行为,从中获取用户对网络信息的关注情况,并通过网络热点话题的形式化描述得到更真实的网络舆情状况.

Lh=(wh1,wh2,…,whr)Lm=(wm1,wm2,…,wms)Ll=(wl1,wl2,…,wlt)

(3)

1 网络热点话题的形式化描述

在话题识别与追踪研究中,已对一般意义下的话题进行了定义[5],而在网络信息分析研究中却没有明确定义,为此本文对网络热点话题作如下定义.定义1 网络热点话题指,以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化描述以及话题的传播方式等.

为了突出人们关注的内容,形式化地表示为一个多维向量,、.P=(W1,W2,l,T1,T2,…,Tm,S1,S2,…,Sn)

(1)

式中:Lh、Lm、Ll分别表示高、中、低频度词语集合;whi、wmi、wsi分别表示高、中、低频度词语.

在网络中,热点话题可视为网络文章的集合,在集合中的所有文章都参与讨论特定话题.描述同一个热点话题的多个热点词语,必然出现在网络文章之中,那么当用户查看这些文章时,文章的内容便是构成一次网络连接的传输内容,而热点词语也会同时出现在一次网络连接之中.因此,流量中的任意2,可,.

[7]、基于TCP[8],而广泛应用于Internet的流模型Claffy提出的[9].本文借鉴网络流的相关研究,定义了话题流,以重现网络连接情况.

定义2 话题流是具有相同四元组特征、相互之间时间间隔小于一定阈值且传输内容为语义数据的数据包集合.

话题流的表达式为

ΓP=(id,t,ipsrc,psrc,ipdest,pdest,C,T,S)(4)式中:id是流的标志号,一个标志号惟一地对应一条流;t表示流的到达时间;ipsrc、ipdest分别表示话题流的源、端主机地址;psrc、pdest表示话题流的源、端网络端口;C表示话题流包含的内容负载特性;T为流内容对应文本的标题信息;S为发布文本信息的网站.

基于话题流的定义,流量中的一个热点词语与相关属性可表示为

(5)w=(W,f,id1,f1,id2,f2,…,idn,fn)

式中:W表示词语集合;f表示词语的总频度;fn表示词语在第n条流中出现的频度;idi表示包含某词语的第i条话题流的标志号.

(w,w′)与2个词语流相关词语之间的相关度ρ

的程度直接关联:如果2个词语同时出现在一条词语流之中,称这2个词语与1条词语流相关,则这2个词语对象之间的相关度为1;如果2个词语同时出现在n条词语流之中,这2个词语对象之间的相关度为n;如果2个词语没有共同的词语流,其相关度为0.设2个词语对象w和w′的表达式为

(6) w=(W,f,id1,f1,id2,f2,…,idl,fl)

式中:Wi表示热点词语,即与热点话题直接相关并

可用以描述话题含义的词语;Ti表示核心标题,为可概括热点话题核心意义的词语或短句;Si表示信息发布网站,其中包括传播话题的网络站点源名称或地址.

2 热点词语相关度计算

网络热点话题是用户广泛关注的信息,是在网络流量中大频度出现的内容,而热点词语可以直接描述热点话题,在网络流量中其必将以较大频度出现.一个热点话题可由多个热点词语来描述,且词语之间具有一定的相关度.基于此,本文提出一种流量内容热点词语相关度计算方法,该方法可量化热点词语之间的相关程度,量化结果可作为网络热点话题提取的中间数据.

在处理网络流量数据时,首先计算内容中各项词语的出现频度,词语按照出现频度又分为高频词语、中频词语和低频词语.词语的统计式为

w=(W,f)

(2)

式中:w表示词语的统计值;W表示某一词语;f表示词语的总频度.通过设定高、中、低频度阈值,则基于频度的词语集合

1144西 安 交 通 大 学 学 报                  第41卷 

(7) w′=(W′,f′,id′1,f′1,id′2,f′2,…,id′m,f′m)

则相关度表达式为

Ifidi1=id′j1,idi2=id′j2,…,idin=id′jn,

)=n(8)thenρ(w,w′

照式(1)计算网络的热点话题.

4 实验结果分析

411 实验环境及数据源

式中:idin、id′w′中的流标志号;in分别表示词语w、

ρ(w,w′)表示w与w′的相关度.2个词语的ρ(w,

)值越大,即2个词语的相关度越大,2个词语同w′

时出现在词语流的次数就越大,则2个词语同属于一个热点话题内容的可能性越大.

将西安交通大学网络中心的多台HTTP服务器出口的镜像流量数据存储到数据分析服务器之上,然后采用离线分析的方法对90GB流量数据进行分析、处理.数据分析服务器为AcerAltosG530,硬件配置为P4Xeon312处理器,内存为ECC4GB,硬盘为SCSI320GB,操作系统为Win2dows2003Server,实现程序语言为C++.412 实验结果及分析

3 网络热点话题生成

)可以描述任意2个热点词语的相关度ρ(w,w′

2个词语同属于一个热点话题内容的可能性,从几何角度看,2个热点词语的相关度越大,它们的几何距离越短.因此,本文采用DBSCAN(Density2

在实验中,:000,高频阈值为,个高频词,1047个中频词,.

利用DBSCAN聚类算法,对高频词队列进行分析,选取的领域半径ε=500,队列的最小密度阈值minq=5,由此获得的聚类类别数为48,聚类效率

BasedSpaticalClusteringofApplicationwithNoise)[10]聚类算法将具有较大相关度(点话题的可能性比较大),((1,以,从而得到如式(1).

由式(1),网络热点话题由3部分元素组成.本文以聚类分析得到的热点词语簇为基础,统计每个类别中的词语流属性的核心标题T和信息发布地址S,然后用每个簇中出现次数满足一定阈值的核心标题、信息发布源及该类别的热点词语,来描述一个网络热点话题,即

(9)c=(w1,w2,…,wn)

式中:c为聚类得到的热点词语簇,它由n个热点词语组成.一个热点词语,其属性可由式(5)描述,其中包括词语流的标号值(每一个标号值对应一个词语流,其属性由式(4)描述).

对聚类结果c中的每一个热点词语流集合的T、S进行统计,得到核心标题及相应的信息发布网络地址,即

TC=(sTC,f

TC

为1617%,其中含有语义信息的热点词语类别数为

8,无语义信息的热点词语类别数为40.在网络热点话题生成的过程中,TC=500,SC=500,由此得到8个网络热点话题的描述信息.

从聚类结果看出,有8项具有较明晰语义信息的热点话题,包括“交大招生科目信息”、“交大校庆消息”“、交大概况及校史”“、交大电气学院关于电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等.选取其中2项热点话题,通过式(1)的热点话题形式化描述对有效类别进行格式化,结果如表1所示.

在表1描述的2项网络热点话题中,第1项话题包含了81个热点词语(由于篇幅所限,不便全部列举)、3个核心标题和1个信息发布网站.通过人工分析可知,热点话题与交大人才培养及招生录取信息有关,主要内容为交大的学科专业信息,包括一级学科、二级学科及院系名称,它们均通过交大网站向外传播.第2项热点话题包含了35个热点词语、3个核心标题及2个信息发布网站,主要内容为交大概况及校史.

表1所示话题的区别有二:其一是第2项话题的热点词语数量只占第1项的4312%,这表明第2项话题的内容更为集中;其二是第2项话题通过2个网站传播,这表明关注交大主页信息以及关注交

,id1,id2,…,idm)(10)(11)

SC=(sSC,fSC,id1,id2,…,idk)

式中:sTC表示核心标题的字符串;fTC表示核心标题出现的总频度;sSC表示网站的字符串,该网址应在

k条流中出现;fSC表示网址出现的总频度;idi表示

第i条包含网址的流的标志号.

对统计得到的核心标题及信息发布地址进行排序,选取频度可达到一定阈值的核心标题和信息发布地址,并与式(9)的聚类结果进行组合,就可以按

 第10期               周亚东,等:流量内容词语相关度的网络热点话题提取1145

表1 网络热点话题提取结果表示

P

(W1,W2,…,Wl)

(生物学,人文,电力,医学院,电

l=81m=3n=1

(T1,T2,…,Tm)

(S1,S2,…,Sn)

西安交通大学人才培养及招生录取信息

气,热能,理学院,管理科学,贸易,会计,能源,仪器,化学系,病理学,营销,电机,软件,高压,…,经济学)

(前身,上海,交通,西安,交大,

(西安交通大学招生就业,

西安交通大学人才培养,

2003年硕士生录取分数线)

http:∥

西安交通大学概况及校史

l=35m=3n=2

历史,专门,重点大学,工业,校址,历任,百年,传统,西部,创建,财经,办学,南洋,之一,高等教育,人员,国内,校史,目前,实现,利用,…,站点)

(西安交通大学概况,西安

交通大学历史,西安交通大学迁校50周年)

(http:∥

学建校110周年暨交通大http:∥newsxq.xjtu.edu.cn)

大校庆新闻的很多用户均对交大概况及校史感兴趣,第2项话题主要关注用户对信息的兴趣度.

可以看出,7,,.,项热点话题,前舆论状况,.由于计算机的自然语言理解能力有限,暂时无法得到语义更加明确的热点话题信息,还需要由人工来解析、分析.

:

JA,,D,etal.Topicdetection

pilotstudy:finalreport[C]∥Proceed2oftheDARPABroadcastNewsTranscriptionandUnderstandingWorkshop.

SanFrancisco:Morgan

KaufmannPublishers,1998:194Ο218.

[2] 于满泉,骆卫华,许洪波,等.话题识别与跟踪中的层

次化话题识别技术研究[J].计算机研究与发展,

2006,43(3):489Ο495.

YuManquan,LuoWeihua,XuHongbo,etal.Re2searchonhierarchicaltopicdetectionintopicdetectionandtracking[J].JournalofComputerResearchandDevelopment,2006,43(3):489Ο495.

[3] KosalaR,BlockeelH.Webminingresearch:asurvey

[J].SIGKDDExplorations,2000,2(1):1Ο15.[4] 王泽彬,金飞,李夏,等.Web数据挖掘技术及实现

[J].哈尔滨工业大学学报,2005,37(10):1403Ο1405.WangZebin,JinFei,LiXia,etal.Webdataminingtechniqueandrealization[J].JournalofHarbinInsti2tuteofTechnology,2005,37(10):1403Ο1405.[5] 李保利,俞士汶.话题识别与跟踪研究[J].计算机工

5 结 论

本文根据网络信息特点,定义网络热点话题并给出了其形式化描述.通过分析流量内容中的热点词语与热点话题之间的关系,提出了热点词语的相关度计算算法和网络热点话题的生成方法.该方法采用了DBSCAN聚类算法,再结合与热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,本文方法能够有效地获取当前网络中的热点话题,通过选取更合适的数据源能更大程度地还原网络用户行为,获取用户对网络信息的关注情况,从而得到更为准确的网络信息传播状况.所提方法可作为研究网络热点话题传播特性的基础.

下一步的工作将研究流量内容预处理分析方法,改进网络热点话题提取算法的效率,在热点话题内容提取工作的基础上,开展热点话题动态传播规律以及相关社会网络关系的研究.

程与应用,2003,39(17):7Ο10.

LiBaoli,YuShiwen.Researchontopicdetectionandtracking[J].ComputerEngineeringandApplications,2003,39(17):7Ο10.

[6] TopicDetectionandTracking

(TDT)

Evaluation

Workshop.The2002topicdetectionandtrackingtaskdefinitionandevaluationplan[EB/OL].[2006Ο04Ο20].ftp:∥jaguar.ncsl.nist.gov/tdt/tdt2002/.[7] JainR,RouthierSA.Packettrains:measurements

andanewmodelforcomputernetworktraffic[J].IEEEJournalonSelectedAreasinCommunications,1986,4(6):986Ο995.

(下转第1150页)

1150西 安 交 通 大 学 学 报                  第41卷 

   表4 蚁群遗传算法在不同参数下的最优

FMeasure(Initc=1)

FMeasure

LosAlamitos,USA:IEEEComputerSociety,2005:316Ο319.

[3] HeFeng,DingXiaoqing.Combiningtextclustering

andretrievalforcorpusadaptation[C/OL]∥Proceed2

dataset1dataset20133104701643776

dataset30152147801725849

ingsofSPIE.[2007Ο01Ο31].http:∥spiedigitallibrary.api.org.

[4] DorigoM,BlumC.Antcolonyoptimizationtheory:a

survey[J].TheoreticalComputerScience,2005,344(2/3):243Ο278.

[5] ZhuXingliang,LiJianzhang.Anantcolonysystem2

basedoptimizationschemeofdatamining[C]∥Pro2ceedingsofthe6thInternationalConferenceonIntelli2gentSystemsDesignandLosAlamitos,USA:IEEEComputer,:400Ο403.[6] van[M].2nd

,,,文献[9]取值范围本文取值范围

0150729101816356

4 结 论

遗传算法作为一种自适应全局优化概率搜索算

法,在组合优化问题的求解中取得了良好的效果.蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法,已成为近年来研究的热点.本文提出的蚁群Ο遗传融合聚类算法,将遗传算法融入到蚁群算法之中,利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合,类问题上,重点是,,并参考文献:

[1] 刘远超,王晓龙,徐志明,等.文档聚类综述[J].中

[J].电子学报,2006,34(8):1530Ο1533.

Chunming,ChenZhi,JiangMing.Theresearchoninitializationofantssystemandconfigurationofpa2rametersfordifferentTSPproblemsinantalgorithm[J].ActaElectronicaSinica,2006,34(8):1530Ο1533.[8] 黄永青,梁昌勇,张祥德.基于均匀设计的蚁群算法

参数设定[J].控制与决策,2006,21(1):93Ο96.

HuangYongqing,LiangChangyong,ZhangXiangde.Parameterestablishmentofanantsystembasedonuniformdesign[J].ControlandDecision,2006,21(1):93Ο96.

[9] 段海滨.蚁群算法原理及其应用[M].北京:科学出

文信息学报,2006,20(3):55Ο62.

LiuYuanchao,WangXiaolong,XuZhiming,etal.Asurveyofdocumentclustering[J].JournalofChineseInformationProcessing,2006,20(3):55Ο62.

[2] SasakiM,ShinnouH.Spamdetectionusingtextclus2

tering[C]∥InternationalConferenceonCyberworlds.

版社,2005.

(编辑 苗凌)

(上接第1145页)

[8] MogulJC.ObservingTCPdynamicsinrealnetworks

[J].ACMSIGCOMMComputerCommunicationRe2view,1992,22(4):305Ο317.

[9] ClaffyKC,BraunHW,PolyzosGC.Aparameteriz2

ablemethodologyforinternettrafficflowprofiling[J].IEEEJournalonSelectedAreasinCommunica2tions,1995,13(8):1481Ο1494.

[10]EsterM,KriegelHP,SanderJ,etal.Adensity2

basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[C]∥Proceedingsof2ndInterna2tionalConferenceonKnowledgeDiscoveryandDataMining.MenloPark,USA:AAAIPress,1996:226Ο231.

(编辑 苗凌)

与渡有关的词语篇三
《语义查询扩展中词语-概念相关度的计算》

与渡有关的词语篇四
《语义查询扩展中词语-概念相关度的计算》

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software, Vol.19, No.8, August 2008, pp.2043−2053 DOI: 10.3724/SP.J.1001.2008.02043 Tel/Fax: +86-10-62562563

© 2008 by Journal of Software. All rights reserved.

语义查询扩展中词语-概念相关度的计算

田 萱1,2,3, 杜小勇1,2+, 李海华1,2

1

2

3∗ (教育部数据工程与知识工程重点实验室,北京 100872) (中国人民大学 信息学院,北京 100872) (北京林业大学 信息学院,北京 100083)

Computing Term-Concept Association in Semantic-Based Query Expansion

TIAN Xuan1,2,3, DU Xiao-Yong1,2+, LI Hai-Hua1,2

1(Key Laboratory of Data Engineer and Knowledge Engineer for the Ministry of Education, Renmin University of China, Beijing 100872,

China)

2

3(School of Information, Renmin University of China, Beijing 100872, China) (School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China)

+ Corresponding author: E-mail: duyong@ruc.edu.cn

Tian X, Du XY, Li HH. Computing term-concept association in semantic-based query expansion. Journal of

Software, 2008,19(8):2043−2053.

Abstract: In semantic-based query expansion, computing term-concept association is a key step in finding

associated concepts to describe the needed query. A method called K2CM (keyword to concept method) is proposed

to compute the term-concept association. In K2CM, the attaching relationship among term, document and concept

together with term-concept co-occurrence relationship are introduced to compute term-concept association. The

attaching relationship derives from the fact that a term is attached to some concepts in annotated corpus, where a

term is in some documents and the documents are labeled with some concepts. For term-concept co-occurrence

relationship, it is enhanced by the text distance and the distribution feature of term-concept pair in corpus.

Experimental results of semantic-based search on three different corpuses show that compared with classical

methods, semantic-based query expansion on the basis of K2CM can improve search effectiveness.

Key words: semantic-based query expansion; concept; ontology; term-concept association

摘 要: 在基于语义的查询扩展中,为了找到描述查询需求语义的相关概念,词语-概念相关度的计算是语义查询

扩展中的关键一步.针对词语-概念相关度的计算,提出一种K2CM(keyword to concept method)方法.K2CM方法从词

语-文档-概念所属程度和词语-概念共现程度两个方面来计算词语-概念相关度.词语-文档-概念所属程度来源于标

注的文档集中词语对概念的所属关系,即词语出现在若干文档中而文档被标注了若干概念.词语-概念共现程度是

在词语概念对的共现性基础上增加了词语概念对的文本距离和文档分布特征的考虑.3种不同类型数据集上的语

义检索实验结果表明,与传统方法相比,基于K2CM的语义查询扩展可以提高查询效果.

关键词: 语义查询扩展;概念;本体;词语-概念相关度

∗ Supported by the National Natural Science Foundation of China under Grant Nos.60496325, 60573092 (国家自然科学基金)

Received 2007-02-14; Accepted 2007-08-24

2044

中图法分类号: TP311 文献标识码: A Journal of Software 软件学报 Vol.19, No.8, August 2008

在信息检索领域,查询扩展(query expansion,简称QE)早在20世纪60年代以前就有人提出[1],是公认的能够有效提高查全率的技术之一.其基本思想是利用与查询关键词相关的词语对查询进行修正,以找到更多相关文档,提高查全率.然而,基于关键词的传统查询扩展方式常常会带来许多语义理解错误,文献[2]中称其为词语问题(vocabulary problems),如,同义词问题(synonyms)、歧义问题(polysemy)、异体问题(lemmas)、准同义问题(quasi-synonyms)等,在提高查全率的同时难以保证查准率.

产生词语问题的根本原因在于,人们在现实生活中描述同样的对象或事件的用词存在着多样性,例如,单车和脚踏车都是对自行车这一概念的称谓.为解决这个问题,人们提出了基于概念的语义查询扩展(semantic- based QE),用概念来描述查询主旨,找到与查询语义相关的概念对查询进行扩展[3,4],因为概念是专门用来描述现实世界对象的,概念、词语和现实世界对象三者具有如图1所示的对应关系.基于概念,可以消除现实世界中人们对同一真实对象的不同表达方式之间的差异.

Fig.1 Relationships of words/terms, concepts and objects

图1 词语、概念和对象三者之间的关系

在基于概念的语义查询扩展中,查询通常采用自然语言来描述,因此,如何找到语义相关的概念集描述查询主旨成为一个主要问题.词语-概念相关度词典(association thesaurus)[5]是一个以词语(word/term)和概念(concept)语义相关程度为元素的矩阵,是找到描述查询主旨相关概念的基础.其中,词语-概念语义相关程度的确立是一个中心环节,这就是语义查询扩展中词语-概念相关度的计算问题.针对这个问题,本文提出一种K2CM (keyword- to-concept method)方法,从两个角度描述词语-概念相关度:一方面,针对当前基于本体对文档进行标注的资源组织形式,考虑词语通过文档和概念构成的所属关系,利用词语-文档-概念所属程度描述词语-概念相关度;另一方面,在利用传统词语-概念共现程度描述词语-概念相关度时,考虑词语概念对(term-concept pair)的文本距离和分布特征的影响,以找到与查询语义主旨匹配的概念.

本文第1节介绍相关研究工作.第2节介绍K2CM方法.第3节将K2CM与其他词语-概念相关度计算方法进行对比分析.第4节描述基于K2CM的语义查询扩展在概念检索中的具体实现.第5节给出实验结果和分析.

第6节对本研究工作进行总结.

1 相关研究工作

1.1 语义查询扩展

按照来源的不同,语义查询扩展的方法主要分为两类,一类是基于语义关系/语义结构的方法,另一类是基于大规模语料库的方法.

基于语义关系/语义结构的方法常常依据已有的词典/本体,如WordNet(HowNet(subject headings, computer classification system,

田萱 等:语义查询扩展中词语-概念相关度的计算

外这一事实,前提条件假设查询关键词都来源于词典/本体,即都属于受控词(controlled words)范畴. 2045

基于语料库的方法不存在上面的问题,因为用户查询关键词和语料库词源都来源于现实生活,因而可以认为来源一致.语料库方法的基本思想源于语料库中共现性大的词语往往相关性也很大[6].共现性分析往往基于对文档整体或对文档片断(snippet)的分析,主要分为3种:局部分析(local analysis)、局部上下文分析(local context analysis,简称LCA)和全局分析(global document analysis)[4,7].局部分析是从检索结果集的top-k文档中找到出现频率最大的词语(the most frequent term)作为扩展词语;局部上下文分析是从检索结果集的top-k文档中找到与查询词语共现度最大的top-n个词语作为扩展词语;全局分析是从检索文档集中找到与查询共现程度大的词语作为扩展词语.

局部分析和局部上下文分析同属于伪反馈(pseudo feedback)的情况,即假设检索结果集的top-k文档与查询相关.然而,若这个假设条件并不满足,则查询扩展的结果往往有很大偏差,会带来“查询漂移”(query drift)问题,即查询扩展后的主旨偏离了原本的查询意图[8].

全局分析方法计算量较大,但可以在预处理阶段完成,因此并不影响检索效率.本文提出的K2CM方法即是一种全局分析方法.

另外,用户反馈是一种公认的效果较好的查询扩展来源[9],如点击浏览过的文档、保存打印的网页、查询日志[10]等,尤其是用户对检索结果相关程度的判断.

1.2 词语-概念相关度的计算

为了找到相关概念,局部上下文分析和全局分析都需要计算词语-概念相关度[5,7].有的研究则是利用相似性来代替相关性[11,12].必须指明的是,查询扩展的目的是尽可能同时提高查全率和查准率,利用与查询语义相关度大的概念是主要途径,而相似度大的概念往往相关度也很大,因此也有助于提高查全率和查准率.计算相似性的方法有很多,如余弦相似度、Dice相似度等,这些方法的前提假设是词语之间是完全独立的.

相关度计算的主要途径是利用文档集中词语间共现性的统计数据.这种方法来源于这样一种直觉,即在语料库中经常共同出现的词语往往相关度很大.分析共现性时,可以采用词语粒度、短语粒度[7]、概念粒度[4,13]等.在语义查询扩展中,概念粒度是最为常见的方式.概念可以来源于文档中的词语聚类[3,4,14]或是本体上已有的 概念[15].

另外,信息熵[16]、句法上下文[17,18]等也是相关度计算的依据.然而,这些方法大都是利用文档或文档片断中包含的内容信息,忽略了从文档外部观察文档、概念、词语之间的关系.例如,经过语义标注后的文档(如语义Web)成为概念的实例,词语通过文档和概念构成一种所属关系,这种所属关系从另一个角度说明了词语与概念的相关程度.

2 K2CM方法

随着语义Web和本体技术的发展,大家普遍认为按照本体标注和组织资源可以方便计算机之间基于语义的交换和处理[19].人们根据本体为越来越多的文档资源添加语义信息,对文档内容中的概念进行标注,以及把文档标注到1个或多个概念类别下作为实例是其中最为常见的操作[12,20].针对经过标注的这类文档,K2CM方法在计算词语-概念相关度时从两个角度考虑,一方面基于词语-文档-概念的所属关系;一方面基于有效窗口的局部共现性,用两者的相互作用来衡量词语-概念相关度.

为便于下面进行说明,先进行以下假设表示:设文档集为D,其中的文档数目为M;用来标注该文档集的本体概念集合为C,其中有N个概念.dj(j=1,…,M)表示文档集D中第j个文档,ci(i=1,…,N)表示概念集合中第i个概念.Q=(q1,…,qK)表示给定的查询,qk(k=1,…,K)表示查询中的一个关键词.

2.1 基于词语-文档-概念的所属关系的考虑

经过本体标注后,文档被标注到1个或多个概念类别下,成为本体概念下的实例.这时,文档到概念存在所属关系,同时文档中的词语到概念也存在所属关系,这种所属关系蕴含着词语-概念的相关关系,如图2所示.

2046

Journal of Software 软件学报 Vol.19, No.8, August 2008

Fig.2 Attaching relationships of words/terms, documents and concepts

图2 词语、文档、概念之间的所属关系

在词语-文档-概念的所属关系中,一个词语可能被包含在多个文档中,而每个文档又属于1个或多个概念类别,通过统计包含词语的文档所属的概念类别,可以统计出这个词语对不同概念类别的所属程度,这种所属程度从另外一个角度说明了词语-概念间的相关关系.

下面我们给出3个直觉假设,来说明一个词语对一个概念的所属关系.

假设1:一个词语通过文档映射到的概念个数越多,它对单个概念的所属程度越低.

假设2:一个词语在一个概念下属文档中的词频越高,它对这个概念的所属程度越高.

假设3:一个词语在一个概念下属的越多文档中存在,它对这个概念的所属程度越高.

假设1是从词语在概念空间的分布情况来分析.根据直觉,一个词语与越多的概念关联,它对概念的区分性就越不明显,它与概念的关联程度也就越低.

假设2是从词语在一个概念下的文档空间中出现的频率来分析.这里,我们选择基于词语的统计粒度,而不是基于文档的统计粒度,即把词语在一个概念下的文档空间的词频作为统计量,而不是把一个概念下的文档空间出现该词语的文档数目作为统计量.这样考虑的原因在于,如果只考虑文档数目,粒度太粗,词语对概念的所属程度区分性不强;而如果按照词语在该概念下的文档空间的词频统计,粒度细,区分性强,则可以更准确地刻画这个词对概念的所属程度.例如,如图3所示,两个词语k1和k2,它们属于概念c1的文档数目相等(都是2个),如果按文档粒度统计,它们对这个概念的所属程度相同;但如果按照词频统计,k1的词频比k2大,则k1对c1的所属程度比k2对c1的所属程度要大,这样,不同词语对相同概念的所属程度更具区分性.

Fig.3 An example of two terms in the same amount documents of a concept

图3 一个概念下属于相同数目文档的两个词语举例

假设3从词语在一个概念下的文档空间中的分布情况来分析.直觉上,词语在概念下属的越多文档中存在,说明它在这个概念中分布得越均匀,也就是说,它与概念的所属关系被越多的文档承认,因而它对这个概念的所属程度也就越高.

基于以上3个假设,我们给出词语对概念所属程度权值(attaching weight)的计算方法.

设dm∝ci表示文档dm是概念ci的实例;Di表示概念ci下的文档空间,即Di={dm|dm∈D∧dm∝ci};count(qk;dm)表示

count(qk;dm)词语qk在文档dm中出现的次数;len(dm)表示文档dm的长度;tfk,i=∑表示词语qk通过文档 len(dm)dm∈Di

田萱 等:语义查询扩展中词语-概念相关度的计算 2047

映射到概念ci的词频统计量;nk表示qk根据文档-概念关系映射到概念上的概念数目;li表示ci概念下文档的数目,即ci概念下的文档空间大小;lk,i表示词语qk出现在ci概念下文档空间中的文档数目.根据上面3个假设,我们给出公式(1)来计算词语qk对概念ci所属程度的权值awk,i.

2.2 基于有效窗口内共现性的考虑

有许多基于共现性发现词语-概念相关度的研究,如在每篇文档中的共现性,段落中的共现性以及句子中窗口中的共现性等[21].这里,我们把整个文档集看作一篇大的文档,在尽量短而又有意义的窗口(文献[22]称之为有效窗口)内扫描词语-概念在这篇文档中的共现性.有效窗口的确定可以采用文献[22]的建议,即以词语为核心,汉语语料库中位置为[−8,9]和英语语料库中位置为[−16,13]的窗口.

用cwk,i表示词语qk和概念ci的共现程度权值(co-occurrence weight).根据直觉,给出以下3个假设来计算cwk,i.

假设4:一个词语-概念对在整个文档集中出现的次数越多,它们的共现程度越强.

假设5:一个词语-概念对在文档中出现的物理位置越近,它们的共现程度越强.

假设6:一个词语-概念对分布于越多的不同文档中,它们的共现程度越强.

根据这3个假设,我们给出公式(2). ⎛N⎞⎛l⎞awk,i=log⎜+1.0⎟⋅tfk,i⋅log⎜k, i+1.0⎟ (1) ⎝nk⎠⎝li⎠

其中,tpfk,i=⎛m⎞tpfk,i⋅log⎜k,i+1.0⎟⎝M⎠ (2) cwk,i=log(avgdistk,i+1.0)count(qk,ci;W),表示词语-概念对(qk,ci)在文档集中出现的频率(term-concept pair Maxj=1...N(count(qk,cj;W))

frequency),count(qk, cj; W)表示词语-概念对(qk,ci)在文档集中按W大小的窗口扫描出现的次数;mk,i表示词语-概念对(qk,ci)在文档集中出现的文档数目;avgdistk,i表示词语-概念对在W大小窗口中位置距离的平均值.

然而,文档是由词语构成的,并不是概念.如果单纯统计概念ci自身的词语,会产生许多误差.例如,“他昨天在中关村买了台PC机”这句话中实际也包含了词语“中关村”和概念“计算机”的共现关系(假设某本体中PC机不是概念).因此,在统计词语-概念共现度时不能只包含概念ci自身的词语,要尽可能包含概念ci的同义词、入口词(entry item)等.据此,对公式(2)进行如下改进:

假设Γi为概念ci的同义词集,tij∈Γi,j=1,...,|Γi|,其中tij是概念ci的同义词或入口词(entry item).词语qk和概念ci的共现程度权值cwk,i可按如下公式进行计算:

其中,tpfk,ij=count(qk,tij;W)cwk,i⎛m⎞tpfk,ij⋅log⎜k,ij+1.0⎟1.0⎝M⎠ (3) =∑|Γi|j=1,...,|Γi|log(avgdistk,ij+1.0)

Maxh=1,...,N,(count(qk,thp;W))

p=1,...,|Γh|,表示(qk,tij)在文档集中出现的频率(term-concept pair frequency),

count(qk,tij;W)表示(qk,tij)在文档集中按W大小的窗口扫描出现的次数;mk,ij表示(qk,tij)在文档集中出现的文档数目;avgdistk,ij表示词语-概念对(qk,tij)在W大小窗口中位置距离的平均值.

2.3 词语-概念相关度的计算

对于一个词语qk和一个概念ci的相关度,awk,i从qk经过文档映射到ci的所属关系中分析,cwk,i从两者在有效窗口的共现性角度分析.下面,我们把这两个因素综合起来评价词语-概念相关度.

这里我们忽略共现性与所属性对词语-概念相关度的贡献性差别,即认为两者对词语-概念相关度具有相同的影响力.同时,考虑到共现性和所属性都是对相关性的一种描述,两种因素相互作用的结果更能有效说明词语

与渡有关的词语篇五
《28与温度有关的名词有哪些》

2.8与温度有关的名词有哪些?

1.热运动

热运动是物质的一种运动形式。宏观物体内部大量微观粒子(如分子、原子、电子等)永不停息的无规则运动称为热运动,它是物质的一种基本运动形式。一个物体或某一系统,在热平衡时的温度取决于其内部微观粒子热运动的状况,从宏观上看,内部热运动越剧烈,它的温度就越高。

2.热现象

凡与温度有关的物质系统性质的变化,统称为“热现象”。例如,物体吸热后温度升高,体积膨胀;水受热后变成水蒸汽等,都是由于温度发生了变化,物体的性质也随着而变化,这说明热现象是大量分子无规则运动的表现。

3.三相点

三相点亦称“三态点”。一般指各种稳定的纯物质处于固态、液态、气态三个相(态)平衡共存时的状态,叫做该物质的“三相点”。该点具有确定的温度和压强。

物态叫做“相”。通常物质是以三种形态存在,即固态、液态、气态,也可称为固相、液相、气相。物态的变比常叫做相变。或者说,在某一系统中,具有相同物理性质均匀的部分亦称为相。相与相间必有明显可分的界面。例如,食盐的水溶液是一相,若食盐水浓度大,有食盐晶体,即成为两相。水和食油混合,是两个液相并存,而不能成为一个相。又如水、冰和水蒸汽三相共存时,其温度为273.15K(0.01℃),压强为6.106×102帕。由于在三相点物质具有确定的温度,因此用它来作为确定温标的固定点比选汽化点和冰点具有优越性,所以三相点这个固定温度适于作为温标的基点,现在都以纯净的物质(如水)的三相点的温度作为确定温标的固定点。

几种物质三相点的数据

1

4.绝对零度

绝对零度是根据理想气体所遵循的规律,用外推的方法得到的。当温度降低到-273.16℃时,气体的体积将减小到零。若用分子运动论来解释,理想气体分子的平均动能由温度T确定,则可将绝对零度与“理想气体分子停止运动时的温度”等同看待。事实上一切实际气体在温度接近-273.16℃时,早已变成液态或固态。绝对零对是温度的最低点,无论用何种方法,实际上是永远也不可能达到的。

物体的温度实际上就是原子在物体内部的运动。当我们感到一个物体比较热的时候,就意味着它的原子在快速动动:当我们感到一个物体比较冷的时候,则意味着其内部的原子运动速度较慢。我们的身体是通过热或冷来感觉这种运动的,而物理学家则是用开尔文温标或绝对温标来测量温度的。

按照这种温标测量温度,绝对温度零度(0 K)相当于摄氏零下273.16度(-273.16℃)被称为“绝对零度”,是自然界中理论上的最低温度。在绝对零度下,原子的运动完全停止了,并且从理论上讲,气体的体积应当是零。由此,人们就会明白为什么温度不可能降到这个标度之下、事实上也不可能达到这个标度,而只能接近它。

2

与渡有关的词语篇六
《流量内容词语相关度的网络热点话题提取》

第41卷第lO期

2007年10月

西安交通大学学报

JOURNAI。OFXI’ANJIAOTONGUNIVERSITY

Vol41№10Oct.2007

流量内容词语相关度的网络热点话题提取

周亚东“2,孙钦东“2…,管晓宏1。23。4,李卫“2,陶敬“2

(1西安交通大学智能网络与网络安全教育部重点实验室,710049,两安;2西安交通大学机械制造系统工程

国家重点实验室,710049,西安;3.清华大学自动化系.100084,北京;4.清华大学信息科学与技术国家窭验室,100084,北京;5.西安理工大学计算机科学与__I:=程学院,710048,西安)

摘要:针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础,与Web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源.胄B更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.

关键词:嘲络热点话题;流量内容;网络舆情分析

中图分类号:TP393.4文献标识码:A文章编号:0253—987X(2007)10InternetPopularTopicsExtractionofTrafficContent

1142—04

WordsCorrelation

 

Lab

ZhouYadon91”,SunQindon91’2…,GuanXiaohon91’2’3”,LiWeil”,TaoJin91’2

(1.M()EKeyLab.forIntelligentNetwo^saudNetworkSecurity,Xi‘8nJiaotongUniversity,Xi7∞710049.Ch。;2.StateKey

u㈣H,蹦岫100984,China

Abstract:Aiming

at

forManuhcturing

System,Xi+an

JiaotongUniversity,Xl

7a11

4Ts-inghuaNatioaml

I.ab.h

Infecrnahon&№andTechniCS.,Ygnghua

710049,Chi”t3DepartmentofAutomation,Tsmghua

Universty,

Bellin9100084,China;jSchoolofCemputerScienceandgngineemlg,Xi’anUniversayofT∞[mology,Xi‘an710048,(=llim)

therequirementsofnetworkpublicfeelinganalysis,theformaldefinition

on

andde∞riptionofthepopulartopic

Internetis

presented,therelationshiphetweenhotwords

andpopulartopicsisanalyzed,andfinallyhotpointwordscorrelationcomputingapproachfor

on

extractingpopulartopicsonInternetisintroducedintrafficcontents.Based

that,I)BSCAN

to

(Density-BasedSpaticalClusteringofApplicationwithNoise)clusteringalgorithmisadopted

extract

populartopicsandformalizedresults

are

given.Thetestresultsshowthatthismethod

to

has

an

availabilityof16.7%inextractingInternetpopulartopics,which,compared

webmin-foreffec—

ingandTD'I、(Topic

Detection

on

andTracking),canprovide

moresuitabledata

source

tiverecoveryofInternetpublicopinions.

Keywords:populartopic

Internet;networktrafficcontent;Internetpublicopinionanalysis

目前,互联网已经成为人们交流信息的重要渠道.网络舆情分析研究也随之受到广泛关注.网络舆情信息具有规模巨大、凌乱无序等特点,如何从中识别、分析有价值的信息已成为研究热点.

针对这一问题,国内外均开展了相关研究”日,

收稿日期:2007一01—10.

主要包括两类,一类是话题识别与追踪研究:1。“,另一类是Web数据挖掘研究啪,它们都以Web站点发布的各类信息为数据源,其结果反映了网络媒体对信息的呈现状况,但却无法有效反映网络用户对信息的关注状况,因此也就很难反映网络舆情的真

基金项目

作者简介:周亚东(1982~),男,博士生;管鹿宏(联系人),男,教授,博士生导师.

国家自然科学基金资助项目(60574087);国家高技术研究发展计划资助项目(2003AAl42060).

万方数据 

第10期

周亚东+等:j】f[量内容{】司语相毙度的网络热点话题提取

实情况.

本文将网络流量作为数据源,这种流量数据能直接对应于用户的网络行为,能更为准确地反映网络舆情的状况.同时,本文着重于研究还原、理解网络用户的各种行为,从中获取用户对网络信息的关注情况,并通过网络热点话题的形式化描述得到更真实的网络舆情状况.1

网络热点话题的形式化描述

在话题识别与追踪研究巾,已对一般意义下的

话题进行了定义…,而在网络信息分析研究中却没有明确定义,为此本文埘网络热点话题作如下定义.定义1网络热点话题指,以网络为传播媒介,被一定人群广泛、持续关注,并能够反映网络舆论状况的信息集合,其中包括对网络热点话题内涵的语义化捕述以及话题的传播方式等.

为了突出人们关注的内容,网络热点话题可被形式化地表示为一个多维向量,并以热点词语、核心标题及信息发布网站等作为基本元素.设当前网络的一个热点话题为

P=(Ⅳl,%,…,m,L,五,…,L,S,S,…,S)

 

(1)

式中:矸0表示热点词语,即与热点话题直接相关并可用以描述话题含义的词语;L表示核心标题,为可概括热点话题核心意义的词语或短句;S:表示信息发布网站,其中包括传播话题的网络站点源名称或地址.

2热点词语相关度计算

网络热点话题是用户广泛关注的信息,是在网络流量中大频度出现的内容,而热点词语可以直接描述热点话题,在网络流量中其必将以较大频度出现.一个热点话题可由多个热点词语来描述,且词语之间具有一定的相关度.基于此,本文提出一种流量内容热点词语相关度计算方法,该方法可量化热点词语之问的相关程度,量化结果可作为网络热点话题提取的中间数据.

在处理网络流量数据时,首先计算内容中各项词语的出现频度,词语按照出现频度又分为高频词语、中频词语和低频词语.词语的统计式为

W=(w,,)

(2)

式中:w表示词语的统计值;W表示某一词语;f表示词语的总频度.通过设定高、中、低频度阈值,贝町基于频度的词语集合

万 

方数据La一(让‰l,wⅪ,…,叫h)]

L。=(uⅥ,“k,…,“k。)}

(3)

L【=(”11,”b,…,ⅡⅡ)

式中:Lh、L—Lt分别表示高、中、低频度词语集合;Ⅱh、Ⅵ。、W,分别表示高、中、低频度词语.

在网络中,热点话题可视为网络文章的集合,在集合中的所有文章都参与讨论特定话题.描述同一个热点话题的多个热点词语,必然出现在网络文章之中,那么当用户查看这些文章时,文章的内容便是构成一次网络连接的传输内容,而热点词语也会同时出现在一次网络连接之中.因此,流量中的任意2个高频度词语同时出现于网络连接之中的次数,可量化衡量词语之间的相关度,即词语同时出现的次数越多,表示它们之间的相关度越大,那么用该词语描述同一热点话题的可能性就越大.

网络流模型包括数据包列车模型”J、基于TCP连接的流模型”J,而广泛应用于Internet的流模型是由Claffy提出的”.本文借鉴网络流的相关研究,定义了话题流,以重现网络连接情况.

定义2话题流是具有相同四元组特征、相互之闻时间间隔小于一定阈值且传输内容为浯义数据的数据包集合.

话题流的表达式为

B=(id,t,ip。,p。,ipd。,p№。,C,T,S)(4)式中:id是流的标志号,一个标志号惟一地对应一条流;t表示流的到达时间;ip。、i‰。分别表示话题

流的源、端主机地址;p…p“表示话题流的源、端

网络端口;C表示话题流包含的内容负载特性;1、为流内容对应文本的标题信息;s为发布文本信息的

网站.

基于话题流的定义,流量中的一个热点词语与相关届性可表示为

W一(w,f,id。,A,idz√z,…,斌,^)

(5)

式中:Ⅳ表示词语集合;,表示词语的总频度;^表示词语在第n条流中出现的频度;id,表示包含某词语的第i条话题流的标志号.

词语之间的相关度p(w,√)与2个词语流相关的程度直接关联:如果2个同语同时出现在一条词语流之中,称这2个词语与1条词语流相关,则这2个词语对象之间的相关度为1;如果2个词语同时出现在n条词语流之中,这2个词语对象之问的相关度为”;如果2个词语没有共同的词语流,其相关度为0.设2个词语对象∞和w’的表达式为"一(Ⅳ,f,id-,^,池,^,…,豳,^)

(6)

酉安变通大学学报第4l卷

缸,7一(Ⅳ7,/,id;,一,id;,丘,…,i也.丘、

(7)

照式(1)计算网络的热点话题.

4则相关度表达誓尹2析id结fidIid分i晶,:2—2,…,∽=.,ida验实id;果

,l

”1…’““。

thenp(w,w’)一n

(8)

式巾:-如、1以分别表示词语W、w’中的流标志号5p(w,∞7)表示"与w7的相关度.2个词语的P(",扎,’)值越大,即2个词语的相关度越大,2个、同语同时出现在词语流的次数就越大,则2个词语同属于一个热点话题内容的可能性越大.

3网络热点话题生成

任意2个热点浏语的相关度p(w,w’)可以描述2个词语同属于一个热点话题内容的可能性,从几何角度看,2个热点词语的相关度越大,它们的几何距离越短.闲此,本文采用DBSCAN(Density_

Based

Spatical

Clustering

of

Application

with

Noise)[I”聚类算法将具有较大相关度(属于同一热点话题的可能性比较大)的热点词语聚合为簇,这些簇可描述各自对应热点话题(见式(1))的第1项,以簇为基础可分析相关网页标题和网站地址,从而得

到如式(1)所描述的网络热点话题.

 由式(1)可知,网络热点话题由3部分元素组成.本文以聚类分析得到的热点词语簇为基础,统“每个类别中的词语流属性的核心标题T和信息发布地址S,然后用每个簇中出现次数满足一定闾值的核心标题、信息发布源及该类别的热点词语,来描述一个网络热点话题,即

c=(t¨,u%,…,议k)

(9)

式中:C为聚类得到的热点词语簇,它由n个热点词语组成.一个热点词语,其属性可由式(5)描述,其中包括词语流的标号值(每一个标号值对应一个词语流,其属性由式(4)描述).

对聚类结果C中的每一个热点词语流集合的了1、S进行统计,得到核心标题及相应的信息发布网

络地址,即

丁(一(%,^、,idl,id?,…,i屯)

(10)sc=(5&,^、,idl,id∥“,i也)

(11)式中:S耳表示核心标题的字符串;^表示核心标题

出现的总频度;ss,表示网站的字符串,浚网址应在k条流中出现;风表示网址出现的总频度;id,表示第i条包含网址的流的标忐号.

对统计得到的核心标题及信息发布地址进行排序,选取频度可达到一定阈值的核心标题和信息发布地址,并与式(9)的聚类结果进行组合,就可叭按

万 

方数据4.1实验环境及数据源

将西安交通大学网络巾心的多台H+r7111服务器出口的镜像流量数据存储到数据分析服务器之h,然后采用离线分析的方法对90GB流量数据进行分析、处理.数据分析服务器为Acer

AltosG530,

硬件配置为P4

Xeon32处理器,内存为ECC4

GB,硬盘为SCSI

320

GB,操作系统为win

dows2003

Server,实现程序语言为c++.

4.2实验结果及分析

在实验中,流量内容的分词处理采用了中国科学院计算所自然语言处理研究组提供的中文智能分词系统.选取参数:中频阈值为3000.高频闽值为

10000,相应地生成665个高频词,1047个巾频词.1

899个低频词.

利用DBSCAN聚类算法,对高频词队列进行分

析,选取的领域半径e=500,队列的最小密度阈值

rain

q--5,由此获得的聚类类别数为48,聚类效率

为16.7%,其中含有语义信息的热点词语类别数为8,无语义信息的热点浏语类别数为40.在网络热点话题生成的过程中,Yc=500,Sc一500,由此得到8个网络热点话题的描述信息.

从聚类结果看出,有8项具有较明晰语义信息的热点话题,包括“交大招生科目信息”、“交大校庆消息”、“交大概况及校史”、“交大电气学院关十电力电工试验课程创新实践的新闻”、“交大长江学者介绍”等.选取其中2项热点话题,通过式(1)的热点话题形式化描述对有效类别进行格式化,结果如表1

所示.

在表1描述的2项网络热点话题中,第1项话题包含r81个热点词语(由于篇幅所限,不便全部列举)、3个核心标题和1个信息发布网站.通过人工分析可知,热点舌题与交大人才培养及招生录取信息有关,主要内容为交大的学科专业信息,包括一级学科、二级学科及院系名称,它们均通过交大网站向外传播.第2项热点话题包含r35个热点词语、3个核心标题及2个信息发布网站,主要内容为交大

概况及校史.

表1所示话题的区别有二:其一是第2项话题的热点词语数量只占第l项的43.2%,这表明第2项话题的内容更为集中;其二是第2项话题通过2个网站传播,这表明关注交大主页信息以及关注交

第10期

周亚东,等・流量内容词语相关度的网络热点话题提取

袁l网络热点话题提取结果表示

大校庆新闻的很多用户均对交大概况及校史感兴参考文献:

趣,第2项话题主要关注用户对信息的兴趣度.

[1]JamesA,JaimeC,George

D,et

a1.Topicdetection

可以看出,中文词语语义的丰富性和多义性导andtrackingpilotstudy:final

report

Ec]“Proceed

致了中文词语聚类的有效性仅能达到16.7%,但是ings

oftheDARPABroadcastNewsTranscriptionand

作为一个初步研究的成果,还是较为理想的.通过分UnderstandingWorksllon

San

Francisco:Morgan

Kauftmnn析实验结果发现,从流量内容中提取出的8项热点

Publishers,1998:194—218.

[2]于满泉,骆卫华,许洪渡,等.话题识别与跟踪中的层

话题,能够在部分程度上描述一定范围内的网络当

 次化话题识别技术研究[j].计算机研究与发展,

前舆论状况,给网络管理者提供了辅助的管理信息.2006,43(3):489—495

由于计算机的自然语言理解能力有限,暂时无法得YuManquan,LuoWdhua.XuHongbo。etalRe—

到语义更加明确的热点话题信息,还需要由人工来searchon

hierarchicaltopicdetectionintopicdetection

解析、分析.

and

tracking[J].Journal

ofComputerResearchand

Development,2006,43(3):489—495

5结论

[3]KosalaR.Blocked}LWebminingresearch:asurvey

本文根据网络信息特点,定义网络热点话题并[刀.SIC,KDDExplorations,2000,2(1):I-15.

给出了其形式化描述.通过分析流量内容中的热点[4]王泽彬,金飞,李夏,等.web数据挖掘技术£!;乏实现

词语与热点话题之间的关系,提出了热点词语的相[J]晗尔滨工业大学学报,2005,37(10):1403—1405.

WangZebin,JinFei—IjXia.eta1.Webdatamining

关度计算算法和网络热点话题的生成方法.该方法techniqueandrealization[J].JournalofHarbinInsti—

采用了DBSCAN聚类算法,再结合与热点词语簇相tute

ofTechnology,2005,37(10):1403—1405

关的网页标题及网站地址信息,得出网络热点话题[5]李保利,俞十汶.话题识别与跟踪研究[J].计算机工

的属性描述.实验结果表明,本文方法能够有效地获程与应用,2003,39(17):7-10.

取当前网络中的热点话题,通过选取更合适的数据Li

Eaoli,YuShiw.n

Research

oil

topicdetectionand源能更大程度地还原网络用户行为,获取用户对网tracking[J]ComputerEngiueering

andApplications,

络信息的关注情况,从而得到更为准确的网络信息2003,39(17):7—10.

传播状况.所提方法可作为研究网络热点话题传播[6]Topic

Detection

andTracking(TDT)Evaluation

特性的基础.

WorkshonThe2002

topic&teetionandtrackingtask

definitionandevaluation

plan[EB/(w。][2008—04—

下一步的工作将研究流量内容预处理分析方20].ftp:∥jaguanncsl.nist.gov/tdt/tdt2002/.法,改进网络热点话题提取算法的效率,在热点话题[7]JainR,RouthierSAPackettrains:measurements

内容提取工作的基础上,开展热点话题动态传播规and

new

model{orcomputernetwork

traffic[J].

律以及相关社会网络关系的研究.

IEEEJourml

oil

SelectedAr翩sinCormnunications,

1986,4(6):986—995.

(下转第1150页)

万 

方数据

日安变通大学学报第41卷

表4蚁群遗传算法在不同参数下的最优

LosAlamitos,USA:IEEEComputerSociety.2(105:

3i6319.

Fhd…(]nitc=1)

HeFang,Ung

Xiaeqing,Combining把n

dustesng

andretrievalforcorpusadaptation-C/OL]//Proceedingsof

api.org.

SPIE.E2007—01311.http://spiedigitallibrary.

Amcolonyoptimization*heory

Computer

11MgoM+BlumC

survey[J].Theoretical

(2/3):243—278.

Science,2005,344

4结论

遗传算法作为一种自适应全局优化概率搜索算法,在组合优化问题的求解中取得了良好的效果.蚁群算法作为一类模拟生物群体突现聚集行为的非经典算法,已成为近年来研究的热点.本文提出的蚁群一遗传融合聚类算法,将遗传算法融人到蚁群算法之中,利用遗传算法求解组合优化的能力来确定蚁群算法的各个参数的最优组合,并将其应用到文本聚类问题上,结果取得了较好的聚类效果.今后研究的重点是,进一步提高蚁群遗传聚类算法的效率,并基于本文方法对蚁群算法的各个参数取值再做试探

ZhuXingliang,I.iJianzbang.Anbasedoptimizationschemeofdata

air

colonysystem

mining:c]//Pro—

on

ceedingsofthe6thInternationalcDn[erenee

gent

Inte/ll

SystemsDesigaandApplications.LosAlamitos,

USA:IEEEComputerSociety,2006:400403.

嘲忉

van

mjsbergenCJ

Informationretrieval[M].2nd

ed.London:Butterwortbs.1979.

吴春明,陈治,姜明.蚁群算法巾系统初始化驶系统

参数的研究[J].电子学报.8005,34(8):1530

1533

WuChmmfing,CbenZhi.]iangMing.Theresearch

ofl

igitializationof

a11_[S

systemandconfigurationolpa—

ant

rametersfordifferentTSPproblemsin

algorithm

 

性的理论研究.

参考文献:

[n

ActaE]ectronicaSinica,2006,34(8):15301533

黄永青,梁昌勇,张祥德.基于均匀设计的蚁群算法

参数设定[J]控制与决策,2006,21(1):93—96.

Huang

YongqH堆,Liang

Changyong,珏8ng

an

NJangde.

oil

Eli刘远超,王唬龙,徐志明,等.文档聚类综述[j]+中

文信息学报,2006,20(3):55—62.

LiuYuanehao.WangXiaolong,XuZhiming,etal

Parameterestablishmentofuniform

ant

systembased

design[J].ControlandDecision,2006,21

(1):93—96.

smweyofdocutltegllLclustering[j].JournalofChineseInformationprocessing,2006,20(3):5562.

[9]段海滨.蚁群算法原理及其应用EM].北京:科学出

版社t

2005

[2]SasakiM,ShinnouH

Spmdetection

Conference

using

text

clus

(编辑苗凌)

tering[q//Interaational

on

Cyberworlds.

(上接第1145页)

[8]MogulJCObservingTCPdytmxnics

in

realnetworks

阴)]Ester

M,KriegelH

P,Sander

J,eta1.Adensit3"

[J]ACMSIOCOiVLMComputer(_%mmunicationRe—

view,1992,22(4):305—317.

basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[c]∥Proceedingsof2ndInternationMConference

0171

L9]ClaffyKC.Braun

ablemethodology

W,PolyzosGeAparameteriz—

trafficflowprofdlng

KnowledgeDiscoveryand

Data

forinternet

oll

Mining.MenloPark。USA;AAAlPress,1996:226

231

[J]IEEEJoumal

SelectedAreasinCommunica

tions.1995,13(8):1481—1494

(编辑苗凌)

万方数据 

与渡有关的词语篇七
《流量内容词语相关度的网络热点话题提取》

与渡有关的词语篇八
《过渡词语》

必备过渡词语

以上就是中国招生考试网http://www.chinazhaokao.com/带给大家不一样的精彩成考报名。想要了解更多《与渡有关的词语》的朋友可以持续关注中国招生考试网,我们将会为你奉上最全最新鲜的成考报名内容哦! 中国招生考试网,因你而精彩。

相关热词搜索:羊年猴年过渡词语 过渡词语 和猴有关的吉祥词语

最新推荐成考报名

更多
1、“与渡有关的词语”由中国招生考试网网友提供,版权所有,转载请注明出处。
2、欢迎参与中国招生考试网投稿,获积分奖励,兑换精美礼品。
3、"与渡有关的词语" 地址:http://www.chinazhaokao.com/wendang/haoci/227396.html,复制分享给你身边的朋友!
4、文章来源互联网,如有侵权,请及时联系我们,我们将在24小时内处理!