文章类 软件类
好好999
 | 网站首页 | 网络编程语言 | 星座情感文章 | 特殊软件下载 | 站长工具天下 | 
html入门培训 网站服务器软件  化妆品经典广告词  雅芳化妆品价格  avon化妆品 net 入门培训 房地产销售广告 化妆品广告词 网络工程师
您现在的位置: 学习网 > 网络编程语言 > Asp.net > 正文
 | 网络编程语言首页 | Dreamweaver | Html | Asp | Jsp | Php | Asp.net | Css | Javascript | Access | Mysql | Mssql | Oracle | Domain | Mainframe |
最 新 热 门
普通文章通过四个方面全面剖析计算机安
普通文章ASP.NET中TreeView的运用
普通文章vb.net用来获取网页的类
普通文章给ASP.Net初学者的关于继承和多
普通文章asp.net生成静态页
普通文章ASP 3.0对ASP 2.0的改进
普通文章基于.net开发平台项目案例集锦
普通文章ToolBar的模样自己画(三)
普通文章[原创]XSL学习心得 - 制作图像
普通文章在ASP.NET中创建安全的web站点
 
频 道 推 荐
普通文章在Win 2003中配置ASP.net环境
普通文章关于Asp.Net中的编程实现下载
普通文章ASP.NET+MySQL数据库简明图示入
普通文章体验VS.NET 2005的winform新功
普通文章ASP.NET操作IIS中的虚拟目录
普通文章在IIS6.0下ASP .NET 的版本冲突
普通文章“智能”的让IE浏览器关闭时,
普通文章c# 正确读取存储中文,以及如何
普通文章.NET 和 Java 之碰撞火花:到底
普通文章ASP.NET DataGrid 控件深入研究
普通文章ASP.NET服务器控件编程之热身运
普通文章开心就贴(二)
普通文章开心就贴(三)
普通文章.NET之ASP Web Form快速入门(3
普通文章检测是否还有黑客代码的asp.ne
普通文章Windows.NET Server: IIS 6.0
普通文章用Asp.net实现基于XML的留言簿
普通文章第八章 编辑留言页的制作
普通文章Asp.net2.0的安裝與必要條件5/
普通文章NFramework开源AOP框架设计类图
 
频 道 推 广
 
编写简单的中文分词程序         ★★★
编写简单的中文分词程序
作者:佚名 文章来源:本站整理 更新时间:2008-5-25 19:00:17
 

几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.

一、词库

词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:

地区    82
重要    81
新华社    80
技术    80
会议    80
自己    79
干部    78
职工    78
群众    77
没有    77
今天    76
同志    76
部门    75
加强    75
组织    75
第一列是词,第二列是权重.我写的这个分词算法目前并未利用权重.

二、设计思路

算法简要描述:

对一个字符串S,从前到后扫描,对扫描的每个字,从词库中寻找最长匹配.比如假设S="我是中华人民共和国公民",词库中有"中华人民共和国","中华","公民","人民","共和国"......等词.当扫描到"中"字,那么从中字开始,向后分别取1,2,3,......个字("中","中华","中华人","中华人民","中华人民共","中华人民共和","中华人民共和国",,"中华人民共和国公"),词库中的最长匹配字符串是"中华人民共和国",那么就此切分开,扫描器推进到"公"字.

数据结构:

选择什么样的数据结构对性能影响很大.我采用Hashtable _rootTable记录词库.键值对为(键,插入次数).对每一个词语,如果该词语有N个字,则将该词语的1,1~2,1~3,......1~N个字作为键,插入_rootTable中.而同一个键如果重复插入,则后面的值递增.

三、程序

具体程序如下(程序中包含权重,插入次数等要素,目前的算法并没有利用这些.可以借此写出更有效的分词算法):

ChineseWordUnit.cs //struct--(词语,权重)对


 1    public struct ChineseWordUnit
 2    {
 3        private string _word;
 4        private int _power;
 5
 6        /**//// <summary>
 7  &nbs

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]  ... 下一页  >> 

 
文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章:
  • 相 关 文 章
    Dreamweaver MX 2004 内建Fireworks技术
    Dreamweaver MX 2004 代码编辑功能
    Dreamweaver MX 2004 CSS滤镜介绍(2)
    DreamWeaver打造Web查询系统(1)
    细品DW MX 2004内建FW技术
    携手打造【鹏程114 Web查询系统】第一讲
    携手打造【鹏程114 Web查询系统】第二讲
    携手打造【鹏程114 Web查询系统】第三讲
    使网页随浏览器伸展
    Invert属性、Glow属性和FlipH、FlipV属性
    HTML编写小经验
    动态HTML的问答
    常用的控制符
    Html保持用户状态的多种方法比较
    HTML文件大致结构
    巧用表格来设计主页
    在网页中实现细线边框的两种方法
    制作虚线效果的水平线
    中文网页制作中段落缩进的方法
    Email地址在网页中的保护
    | 设为首页 | 加入收藏 | 投搞邮箱 | 友情链接 | 网站公告 | 版权申明 | |
    破天一剑私服 - 冒险岛外挂 - 传奇外挂 - dnf外挂 - 地下城与勇士外挂 - dnf外挂 - 传奇外传外挂 - qq三国外挂 - 天龙八部外挂 - 劲舞团私服 - 劲舞团私服 - 传奇私服 - 传奇私服 - 传奇私服 - 变态传奇私服 - 及时雨外挂 - 热血传奇私服 - 传世私服 - 魔兽世界私服 - 魔兽世界私服 - 完美世界私服

    有事请点这里

    有事点这里

    copyright: 2007-2008 haohao888.com.cn 粤ICP备08105098号