在上一个章节中我们将统计结果中的“model”从统计结果中删除,然后我们可以将他们整理出来,然后删除重复的,添加一些对有统计价值的关键词。这里假设我们想统计有哪些模型招致客户的不满以致留言评价,但是我们想只保留模型的名称,而不是类似“model XX-Z1”这样,model和模型名称连接在一起,最后我们整理得到的表[TermResults]内容如下:
term ------------ dent door freezer ice ice maker maker XX-1 XX-YY3 XX-Z1
新建一个package,命名为TermLookUpExample,这个package的内容和上面一个例子类似,我们只要将Term Exetraction替换成Term LookUp,将OLE Destination的目标新建一个表[TermReport]。打开Term LookUp的编辑界面,如图1
图1
- Reference Table:这个标签用来设置参照表,Term LookUp将会依照这个表中的词汇生成统计结果
- Term Lookup:这里设置输入字符串要参照表中的那个字段来进行统计
- Advanced:这个标签中可以统计是否大小写敏感
Term Frequency ConvCustSvcNote
------------- --------- --------------------------------------------------
freezer 1 ice maker in freezer stopped working model XX-YY3
ice maker 1 ice maker in freezer stopped working model XX-YY3
XX-YY3 1 ice maker in freezer stopped working model XX-YY3
door 1 door to refrigerator is coming off model XX-1
XX-1 1 door to refrigerator is coming off model XX-1
ice maker 1 ice maker is making a funny noise XX-YY3
(Only first six rows of resultset are displayed)
为得到最终的结果,在Term Lookup和OLE DB Destination之间添加一个Aggregate Transform,在Aggregate Transform中忽略ConvCustSvcNote列,按照Term列分组,在Frequency列上进行求和计算。将Aggregate Transform和OLE DB Transform连接起来。
尽管这是一个非常简单的例子,但是它在短时间内从文本输入流中产生一个统计结果。
最新评论