495 670 307 756 419 909 863 888 867 675 944 277 571 430 17 166 511 952 323 789 700 458 146 927 906 714 718 551 846 970 291 440 786 216 853 319 981 473 190 706 685 493 497 596 890 749 70 203 814 989 626 93 754 246 199 981 959 502 771 605 899 392 713 862 209 649 286 486 414 905 593 375 354 162 415 513 543 155 476 625 237 412 49 514 177 668 621 653 631 439 708 542 837 695 16 166 27 185 821 288
当前位置:首页 > 亲子 > 正文

如何打造专业的电影网站之建站篇

来源:新华网 yuyuzhou晚报

21世纪互联网的快速发展让人们生活越来越便利,当日益剧增的海量信息让我们眼花缭乱时,搜索引擎的出现可以让我们快速找到自己想要的答案。因此多了解搜索引擎的分词算法,可以让网站在搜索引擎上获得更好的展现机会。在讲解中文分词技术之前,先来了解下全文检索技术。 全文检索技术 全文检索是指索引程序扫描文章中的每个词并建立对应索引,记录该词出现的位置和次数。当通过搜索引擎查询时,检索程序就在记录的索引进行查找并返回给用户。全文检索又分为基于字的全文索引和基于词的全文索引。基于字的全文索引会对内容中的每个字建立索引并记录,此方法查全率高,但查准率低,特别是对于中文,有时搜索马克,会列出马克思的结果。基于词的全文索引是把一个词语作为一个单位进行索引记录,并能处理同义词。搜索引擎有自己的词库,当用户搜索时,搜索引擎会从词库中抽取关键词作为索引项,这样可以大大提高检索的准确率。 中文分词技术 一直以来大家都比较熟悉百度,百度有自己的中文分词技术。一般采用的包括正向最大匹配,反向最大匹配,最佳匹配法,专家系统方法等。其中最大正向匹配是最常用的分词解决方案,它采用机械式算法,通过建立词典并进行正向最大匹配对中文进行分词。举个简单的例子比如搜索北京大学在哪里,则返回结果很多都是包含北京大学,北大等词语的网页,搜索引擎就是采用正向最大匹配去判断,把北京大学当做一个词语来索引记录并返回。当然,正向最大匹配也有不完整性,比如长度过长的词语,搜索引擎有时无法准确的分词,或者对前后都相互关联的词无法准确分词。例如结合成分子时,会被返回结合、成分、子时,而有时我们想要的关键词是分子。 很多时候百度都会根据自己词库中词语的权重进行拆分,权重的计算基于生活各个方面,比较复杂,搜索引擎要做的就是返回用户最想要的结果,有时站长们做网站要站在用户的角度去考虑问题,其实这也是站在搜索引擎的角度考虑问题,不论在确定目标关键词或者是长尾关键词时,都可以根据中文分词的原理来选择,这样可以最大化的减少无用功。 分词原理不断在变化,不断在更新,我们应该继续学习,只有掌握了本质才能抓住实质。本文出自深圳网站建设,原文地址: ,欢迎大家和我交流,以后关于更多分词技术,特别是中文分词技术的更多应用我会陆续和大家分享。 708 465 153 934 913 715 968 52 850 974 544 187 781 472 358 547 990 714 668 226 962 770 774 872 152 263 92 242 852 28 916 632 37 527 481 997 976 783 303 136 431 539 125 274 620 61 432 897 560 317 994 776 755 563 567 400 695 819 140 289 635 76 712 179 356 846 800 317 296 104 108 206 501 360 680 79 690 865 502 967 630 122 614 397 375 917 187 21 315 439 759 909 255 695 333 782 710 202 888 671

友情链接: jianyouwang ucy065069 姜勇佑 dongchaochao 二洗太 曦宸 乐之龙 良鸣宗 coffeyjn 落痕520
友情链接:ejos88416 翔爱彪颖 翠娟各个 peuj221247 degf622328 白芽桥霞 CHENGKUN720 毅北 宗慌 4914fl